Uno de los principales problemas para aplicar técnicas de aprendizaje automático en el ámbito de la monitorización de la calidad del agua es la ausencia de suficientes datos, pues en muchos casos las variables a monitorizar son complicadas de obtener. En este trabajo se plantea la posibilidad de ampliar los conjuntos de datos disponibles aplicando técnicas como las Redes Generativas Adversarias (GANs) y comprobar si los datos generados permiten alcanzar una mejor eficacia en los modelos predictivos de calidad del agua. Contacto: castrillo@ifca.unican.es
El proyecto se aborda en dos fases: en la primera, se utilizarán técnicas de clustering para categorizar las centrales nucleares en familias según su composición química y condiciones de operación. En la segunda fase, desarrollaremos modelos predictivos para estimar la fragilización de los aceros de dichas vasijas, específicos para cada familia previamente definida. Contacto: diego.ferreno@unican.es
Se trata de especializar un modelo abierto de lenguaje a gran escala (LLM Llama) en un área de investigación interdisciplinar (por ejemplo, búsqueda de materia oscura) utilizando la información en repositorios abiertos (como Arxiv). Se comparará la capacidad del asistente para contestar consultas específicas, con la de diferentes expertos. Contacto: jesus.marco@csic.es
Se revisarán modelos de procesado de señales (sonido, imágenes) mediante redes neuronales recurrentes computacionales. En particular, se analizará la relevancia de incluir mecanismos inhibitorios. En concreto, se probarán modelos “spiking” en Matlab y otros modelos de redes neuronales recurrentes en python. Contacto: jesus.marco@csic.es
Dadas las limitaciones computacionales y físicas de los modelos climáticos, estos generan proyecciones con una baja resolución espacial. Esto es un problema para los usuarios que necesitan información climática a alta resolución (escala regional). El downscaling estadístico resuelve esto aprendiendo la relación estadística entre la baja y alta resolución. Recientemente, dados los avances en el campo de la inteligencia artificial, los modelos de deep learning han emergido como candidatos para aprender esta relación estadística. Sin embargo, estos modelos son considerados cajas negras, ya que no es posible saber de forma exacta qué relación aprenden sobre los datos. Esto disminuye la confianza de los usuarios en las proyecciones generadas con estos modelos, ya que no es posible saber si la relación aprendida tiene sentido físico. Recientemente, en el ámbito de la visión por computador, han surgido un grupo de técnicas conocidas como eXplainable Artificial Intelligence (XAI) que permiten interpretar las relaciones aprendidas por los modelos de deep learning. En este TFM se propone explorar estas técnicas para interpretar la relación aprendida por los modelos de deep learning en el downscaling estadístico de la temperatura. Contacto: gonzabad@ifca.unican.es
The METACLIP framework (METAdata for CLImate Products, https://metaclip.org/) is a language-independent solution for describing the provenance of climate products. It provides a comprehensive approach for identifying, extracting, linking, and assembling the information needed to fully describe a climate product’s provenance. METACLIP leverages semantics and the web standard Resource Description Framework (RDF) by developing domain-specific extensions of standard ontologies like PROV-O. This scheme has been successfully implemented in several international initiatives, notably in the IPCC AR6 Interactive Atlas. However, a definitive solution for a user-friendly interaction with the large amount of metadata stored remains an ongoing challenge, which forms the basis of this Master’s Thesis proposal. The aim is to develop an AI interface that extends the capabilities of METACLIP with Retrieval-Augmented Generation (RAG), an AI framework that combines the capabilities of Large Language Models (LLMs) and information retrieval systems. This Master’s Thesis is ideal for students with an interest in semantic web technologies and artificial intelligence, particularly in their application to climate science and climate services. Contacto: bediaj@unican.es
En este trabajo de fin de máster, se aborda la crucial tarea de desplegar modelos generativos avanzados como asistentes de código, con un enfoque particular en su integración fluida con dos entornos de desarrollo líderes, JupyterLab y Visual Studio Code (VSCode). La investigación se centra en la optimización de la experiencia del usuario y la sincronización efectiva entre los modelos generativos y los entornos de desarrollo online, con el objetivo de mejorar la eficiencia y la precisión en la creación y edición de código. Se explorarán estrategias para superar desafíos específicos asociados con la integración de estos modelos en entornos en línea, garantizando una interacción armoniosa y potenciando la productividad de los desarrolladores. Este trabajo contribuirá al avance en el despliegue práctico de modelos generativos, marcando un hito significativo en la evolución de la asistencia automatizada en el desarrollo de software. Contacto: aloga@ifca.unican.es
El trabajo consistirá en la explotación, mediante IA, de datos procedentes de una planta piloto de fotovoltaica flotante o fija, ambas reales y pertenecientes a instalaciones piloto de CTC.
El objetivo del proyecto es aplicar una metodología asistida por inteligencia artificial para modelar el comportamiento generativo del sistema fotovoltaico en función de las variables atmosféricas cercanas. En base a este modelo, será posible conocer realmente qué factores atmosféricos están influyendo más en la eficiencia generativa de esta instalación y compararlos con factores considerados en el enfoque clásico, como la irradiación solar.
Contacto: aperez@centrotecnologicoctc.com
Los generadores de números aleatorios verdaderos (TRNG) son componentes esenciales para la seguridad criptográfica en dispositivos electrónicos. La calidad de los datos generados y la robustez de la arquitectura del TRNG determinan el nivel de protección frente a ataques y vulnerabilidades. Por ello, es necesario validar su funcionamiento tanto mediante un modelo físico que asegure su aleatoriedad, como mediante la aplicación de un banco de pruebas que descarte la presencia de sesgos en su funcionamiento. Una de las principales dificultades de este estudio es la elevada tasa de generación o «throughput» de estos dispositivos, lo que hace necesario seleccionar y adaptar técnicas de «Data Science» para la detección eficiente de sesgos. En este trabajo se propone analizar datos extraídos de generadores de ruido seguro integrados en dispositivos electrónicos. Para ello, se realizará una revisión de la literatura sobre los algoritmos de análisis más rápidos, se propondrán y validarán nuevos tests de aleatoriedad sencillos de implementar, y se analizará su utilidad práctica. Este trabajo se basa en el artículo reciente de David Lubicz y Viktor Fischer, /”Recommendations for the Design and Validation of a Physical True Random Number Generator Integrated in an Electronic Devices”/ (arXiv, 2024), que establece directrices para el diseño y validación de TRNG físicos.
Contacto: domingo.gomez@unican.es
La identificación de zonas afectadas por deformaciones del terreno y el estudio de sus factores desencadenantes son fundamentales para la prevención y mitigación de riesgos geológicos. Actualmente, el European Ground Motion Service (EGMS) de Copernicus ofrecen una enorme cantidad de datos de movimientos del terreno con cobertura europea; sin embargo, a pesar de su potencial, siguen siendo muy poco utilizado en la gestión de riesgos y emergencias. Esto se debe, en gran medida, a la dificultad técnica de extraer y procesar información relevante de forma ágil y operativa a partir de volúmenes de datos masivos. Este TFM propone el desarrollo de un flujo de trabajo para analizar masivamente datos del EGMS sobre deformación del terreno. El alumno trabajará en la automatización de la extracción de series temporales InSAR y su integración con variables ambientales y geofísicas (como precipitación, sismicidad, humedad). El objetivo es aplicar técnicas de Ciencia de Datos e Inteligencia Artificial para identificar patrones de aceleración, analizar correlaciones multivariables y explorar la causalidad entre los factores disparadores y los movimientos del terreno.
Contacto: aguilarf@ifca.unican.es
El TFM tiene como objetivo desarrollar una metodología de análisis de espectros Raman de plasmas sanguíneos que permita evaluar la estabilidad de las muestras e identificar biomarcadores de interés. Para ello, se utilizará un dataset de espectros Raman de muestras procedentes de la Cohorte Cantabria, en colaboración con investigadores del Hospital Universitario Marqués de Valdecilla e IDIVAL. El trabajo involucra aprender sobre el tratamiento de señales Raman en aplicaciones biomédicas, así como la selección, implementación y validación de los algoritmos para detectar patrones y señales relevantes. Se explorará el uso de algoritmos no supervisados (clusterización y detección de anomalías) para identificar alteraciones, junto a modelos supervisados para la clasificación de los datos. Se pondrá especial énfasis en la explicabilidad de los modelos y en el estudio de la variabilidad intra-individuo frente a las diferencias inter-individuo. Todo ello con el fin de validar estas herramientas como sistema de control de calidad automatizado que garantice la fiabilidad y consistencia de los datos en futuras investigaciones.
Contacto: adolfo.cobo@unican.es
El TFM tiene como objetivo mejorar la metodología de espectroscopía Raman de cultivos de bacterias medidos en gota seca, usando técnicas de machine learning no supervisado. La medida de cultivos líquidos es complicada y se recurre a la técnica de gota seca, dejando secar una gota de cultivo y midiendo el precipitado. Pero las bacterias se distribuyen de forma no homogénea y se requiere buscar los espectros “buenos”. El TFM propone realizar medidas en el laboratorio (con bacterias inocuas) obteniendo de forma automatizada espectros Raman en toda la superficie de la gota seca, para a continuación utilizar técnicas de análisis de los miles de espectros obtenidos que permitan estudiar la heterogeneidad de los espectros, porqué son diferentes, y cuáles son los más adecuados para detectar e identificar las bacterias. Se prevé usar técnicas no supervisadas de clusterización, detección de anomalías, explicabilidad de los modelos y similares. El trabajo involucra aprender sobre el tratamiento de señales Raman en aplicaciones biomédicas, así como la selección, implementación y validación de los algoritmos.
Uno de los principales problemas para aplicar técnicas de aprendizaje automático en el ámbito de la monitorización de la calidad del agua es la ausencia de suficientes datos, pues en muchos casos las variables a monitorizar son complicadas de obtener. En este trabajo se plantea la posibilidad de ampliar los conjuntos de datos disponibles aplicando técnicas como las Redes Generativas Adversarias (GANs) y comprobar si los datos generados permiten alcanzar una mejor eficacia en los modelos predictivos de calidad del agua.
Contacto: castrillo@ifca.unican.es
El proyecto se aborda en dos fases: en la primera, se utilizarán técnicas de clustering para categorizar las centrales nucleares en familias según su composición química y condiciones de operación. En la segunda fase, desarrollaremos modelos predictivos para estimar la fragilización de los aceros de dichas vasijas, específicos para cada familia previamente definida.
Contacto: diego.ferreno@unican.es
Se trata de especializar un modelo abierto de lenguaje a gran escala (LLM Llama) en un área de investigación interdisciplinar (por ejemplo, búsqueda de materia oscura) utilizando la información en repositorios abiertos (como Arxiv). Se comparará la capacidad del asistente para contestar consultas específicas, con la de diferentes expertos.
Contacto: jesus.marco@csic.es
Se revisarán modelos de procesado de señales (sonido, imágenes) mediante redes neuronales recurrentes computacionales. En particular, se analizará la relevancia de incluir mecanismos inhibitorios. En concreto, se probarán modelos “spiking” en Matlab y otros modelos de redes neuronales recurrentes en python.
Contacto: jesus.marco@csic.es
Dadas las limitaciones computacionales y físicas de los modelos climáticos, estos generan proyecciones con una baja resolución espacial. Esto es un problema para los usuarios que necesitan información climática a alta resolución (escala regional). El downscaling estadístico resuelve esto aprendiendo la relación estadística entre la baja y alta resolución. Recientemente, dados los avances en el campo de la inteligencia artificial, los modelos de deep learning han emergido como candidatos para aprender esta relación estadística. Sin embargo, estos modelos son considerados cajas negras, ya que no es posible saber de forma exacta qué relación aprenden sobre los datos. Esto disminuye la confianza de los usuarios en las proyecciones generadas con estos modelos, ya que no es posible saber si la relación aprendida tiene sentido físico. Recientemente, en el ámbito de la visión por computador, han surgido un grupo de técnicas conocidas como eXplainable Artificial Intelligence (XAI) que permiten interpretar las relaciones aprendidas por los modelos de deep learning. En este TFM se propone explorar estas técnicas para interpretar la relación aprendida por los modelos de deep learning en el downscaling estadístico de la temperatura.
Contacto: gonzabad@ifca.unican.es
The METACLIP framework (METAdata for CLImate Products, https://metaclip.org/) is a language-independent solution for describing the provenance of climate products. It provides a comprehensive approach for identifying, extracting, linking, and assembling the information needed to fully describe a climate product’s provenance. METACLIP leverages semantics and the web standard Resource Description Framework (RDF) by developing domain-specific extensions of standard ontologies like PROV-O. This scheme has been successfully implemented in several international initiatives, notably in the IPCC AR6 Interactive Atlas. However, a definitive solution for a user-friendly interaction with the large amount of metadata stored remains an ongoing challenge, which forms the basis of this Master’s Thesis proposal. The aim is to develop an AI interface that extends the capabilities of METACLIP with Retrieval-Augmented Generation (RAG), an AI framework that combines the capabilities of Large Language Models (LLMs) and information retrieval systems. This Master’s Thesis is ideal for students with an interest in semantic web technologies and artificial intelligence, particularly in their application to climate science and climate services.
Contacto: bediaj@unican.es
En este trabajo de fin de máster, se aborda la crucial tarea de desplegar modelos generativos avanzados como asistentes de código, con un enfoque particular en su integración fluida con dos entornos de desarrollo líderes, JupyterLab y Visual Studio Code (VSCode). La investigación se centra en la optimización de la experiencia del usuario y la sincronización efectiva entre los modelos generativos y los entornos de desarrollo online, con el objetivo de mejorar la eficiencia y la precisión en la creación y edición de código. Se explorarán estrategias para superar desafíos específicos asociados con la integración de estos modelos en entornos en línea, garantizando una interacción armoniosa y potenciando la productividad de los desarrolladores. Este trabajo contribuirá al avance en el despliegue práctico de modelos generativos, marcando un hito significativo en la evolución de la asistencia automatizada en el desarrollo de software.
Contacto: aloga@ifca.unican.es
El trabajo consistirá en la explotación, mediante IA, de datos procedentes de una planta piloto de fotovoltaica flotante o fija, ambas reales y pertenecientes a instalaciones piloto de CTC.
El objetivo del proyecto es aplicar una metodología asistida por inteligencia artificial para modelar el comportamiento generativo del sistema fotovoltaico en función de las variables atmosféricas cercanas. En base a este modelo, será posible conocer realmente qué factores atmosféricos están influyendo más en la eficiencia generativa de esta instalación y compararlos con factores considerados en el enfoque clásico, como la irradiación solar.
Contacto: aperez@centrotecnologicoctc.com
Los generadores de números aleatorios verdaderos (TRNG) son componentes esenciales para la seguridad criptográfica en dispositivos electrónicos. La calidad de los datos generados y la robustez de la arquitectura del TRNG determinan el nivel de protección frente a ataques y vulnerabilidades. Por ello, es necesario validar su funcionamiento tanto mediante un modelo físico que asegure su aleatoriedad, como mediante la aplicación de un banco de pruebas que descarte la presencia de sesgos en su funcionamiento. Una de las principales dificultades de este estudio es la elevada tasa de generación o «throughput» de estos dispositivos, lo que hace necesario seleccionar y adaptar técnicas de «Data Science» para la detección eficiente de sesgos. En este trabajo se propone analizar datos extraídos de generadores de ruido seguro integrados en dispositivos electrónicos. Para ello, se realizará una revisión de la literatura sobre los algoritmos de análisis más rápidos, se propondrán y validarán nuevos tests de aleatoriedad sencillos de implementar, y se analizará su utilidad práctica. Este trabajo se basa en el artículo reciente de David Lubicz y Viktor Fischer, /”Recommendations for the Design and Validation of a Physical True Random Number Generator Integrated in an Electronic Devices”/ (arXiv, 2024), que establece directrices para el diseño y validación de TRNG físicos.
Contacto: domingo.gomez@unican.es
La identificación de zonas afectadas por deformaciones del terreno y el estudio de sus factores desencadenantes son fundamentales para la prevención y mitigación de riesgos geológicos. Actualmente, el European Ground Motion Service (EGMS) de Copernicus ofrecen una enorme cantidad de datos de movimientos del terreno con cobertura europea; sin embargo, a pesar de su potencial, siguen siendo muy poco utilizado en la gestión de riesgos y emergencias. Esto se debe, en gran medida, a la dificultad técnica de extraer y procesar información relevante de forma ágil y operativa a partir de volúmenes de datos masivos.
Este TFM propone el desarrollo de un flujo de trabajo para analizar masivamente datos del EGMS sobre deformación del terreno. El alumno trabajará en la automatización de la extracción de series temporales InSAR y su integración con variables ambientales y geofísicas (como precipitación, sismicidad, humedad). El objetivo es aplicar técnicas de Ciencia de Datos e Inteligencia Artificial para identificar patrones de aceleración, analizar correlaciones multivariables y explorar la causalidad entre los factores disparadores y los movimientos del terreno.
Contacto: aguilarf@ifca.unican.es
El TFM tiene como objetivo desarrollar una metodología de análisis de espectros Raman de plasmas sanguíneos que permita evaluar la estabilidad de las muestras e identificar biomarcadores de interés. Para ello, se utilizará un dataset de espectros Raman de muestras procedentes de la Cohorte Cantabria, en colaboración con investigadores del Hospital Universitario Marqués de Valdecilla e IDIVAL. El trabajo involucra aprender sobre el tratamiento de señales Raman en aplicaciones biomédicas, así como la selección, implementación y validación de los algoritmos para detectar patrones y señales relevantes. Se explorará el uso de algoritmos no supervisados (clusterización y detección de anomalías) para identificar alteraciones, junto a modelos supervisados para la clasificación de los datos. Se pondrá especial énfasis en la explicabilidad de los modelos y en el estudio de la variabilidad intra-individuo frente a las diferencias inter-individuo. Todo ello con el fin de validar estas herramientas como sistema de control de calidad automatizado que garantice la fiabilidad y consistencia de los datos en futuras investigaciones.
Contacto: adolfo.cobo@unican.es
El TFM tiene como objetivo mejorar la metodología de espectroscopía Raman de cultivos de bacterias medidos en gota seca, usando técnicas de machine learning no supervisado. La medida de cultivos líquidos es complicada y se recurre a la técnica de gota seca, dejando secar una gota de cultivo y midiendo el precipitado. Pero las bacterias se distribuyen de forma no homogénea y se requiere buscar los espectros “buenos”. El TFM propone realizar medidas en el laboratorio (con bacterias inocuas) obteniendo de forma automatizada espectros Raman en toda la superficie de la gota seca, para a continuación utilizar técnicas de análisis de los miles de espectros obtenidos que permitan estudiar la heterogeneidad de los espectros, porqué son diferentes, y cuáles son los más adecuados para detectar e identificar las bacterias. Se prevé usar técnicas no supervisadas de clusterización, detección de anomalías, explicabilidad de los modelos y similares. El trabajo involucra aprender sobre el tratamiento de señales Raman en aplicaciones biomédicas, así como la selección, implementación y validación de los algoritmos.
Contacto: adolfo.cobo@unican.es