Master Thesis offer

 Inicio / Páginas / Ofertas TFM

Master Thesis offer

In this section you will find the Master Thesis offer.

If you wish to suggest a new Master Thesis topic you can fill in the following form: Master Thesis proposal

Master Thesis proposals 2018-2019


1.- Análisis de datos del microbioma gastrointestinal
En este proyecto se propone aplicar técnicas de aprendizaje automático y minería de datos para identificar posibles asociaciones entre las especies presentes en la flora intestinal y su cantidad relativa respecto a los principales factores fisiológicos, bioquímicos, metabólicos, nutricionales y deportivos relacionados con los cambios en la composición corporal. El objetivo es encontrar y definir biomarcadores que permitan distinguir entre los variados microbiomas y asociarlos a patologías o estados de salud. La gran diversidad interpersonal de la flora intestinal lo convierte en una tarea complicada para el ser humano, pero potencialmente adecuada para las técnicas de aprendizaje automático. Se usará una batería de análisis genéticos del microbioma intestinal específicamente dirigidos al ámbito del fitness profesional amateur que contiene unos 650000 marcadores y datos asociados (entrenamientos, lesiones, etcétera)

Responsable: Cristina Tirnauca
Contacto: cristina.tirnauca@unican.es
2.- Automatic Data Curation tool
Asegurar no sólo la accesibilidad de los datos, sino también su calidad para que puedan ser reutilizados para obtener información, es un reto al que se enfrentan tanto empresas como disciplinas científicas. Este trabajo desarrollará una herramienta para automatizar procesos para mejorar la calidad de los datos procedentes de fuentes en abierto, aplicando métodos de curación a diferentes conjuntos de datos.

Responsable: Fernando Aguilar
Contacto: aguilarf@ifca.unican.es
3.- Cinco estrellas para repositorios de datos en abierto
Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos. Dentro de los distintos tipos de repositorios de datos en abierto disponibles (gubernamentales, científicos, sociales) el nivel de adopción de este esquema es bastante desigual. El trabajo a desarrollar analizará varios repositorios con el fin de ver qué medidas se podrían tomar para conseguir que los datos publicados puedan ser fácilmente reutilizables.

Responsable: Fernando Aguilar
Contacto: aguilarf@ifca.unican.es
4.- Identificación de las variables relevantes en la identificación de mutaciones somáticas en datos de secuenciación masiva de tumores.
Las nuevas técnicas de secuenciación masiva han aumentado muy significativamente la cantidad de secuencia que se puede generar de las muestras tumorales humanas mejorando la identificación de mutaciones responsables de la patología. Sin embargo las características intrínsecas de los datos generados por estas tecnologías (alta redundancia, secuencias cortas, errores en la lectura, etc.) provocan que la identificación de mutaciones sea complicada. No existe todavía un estudio sobre el peso que tiene cada una de las variables presentes en los datos (calidad de secuencia o de alineamiento, diferencias muestra tumor-normal, cobertura, contexto de secuencia, etc.) en la discriminación de mutaciones reales y falsos positivos. En el presente trabajo se propone recolectar un gran número de variables de una colección de mutaciones validadas y realizar estudios, por ejemplo mediante análisis de componentes principales, que variable o combinación de variables es más eficaz en la identificación de las mutaciones reales.

Responsable: Ignacio Varela
Contacto: ignacio.varela@unican.es
5.- Estimación del número de personas en imágenes mediante muestreo geométrico
Analizaremos la precisión del método CountEm ( countem.unican.es ) de forma similar a lo realizado en el artículo https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0141868 pero con los datos UCF-QNRF - A Large Crowd Counting Data Set http://crcv.ucf.edu/data/ucf-qnrf/

Responsable: Marcos Cruz
Contacto: marcos.cruz@unican.es
6.- Entrenamiento de redes neuronales con muestras sesgadas
En este trabajo se comprobará mediante técnicas de data augmentation si se puede mejorar la respuesta de ANN convencionales en casos en los que las muestras de entrenamiento presenten sesgos en alguna de sus variables.

Responsable: Francisco Matorras
Contacto: francisco.matorras@unican.es
7.- Desarrollo de APIs para repositorios científicos
El creciente número de datasets científicos aumenta enormemente las posibilidades de reutilización de datos de calidad. Sin embargo, en ocasiones, los repositorios en los que se alojan no son lo suficientemente potentes para hacer un uso masivo de esos datos disponibles. Este trabajo propondrá y desarrollará APIs o plugins para aumentar las funcionalidades de repositorios científicos cpmo digital CSIC.

Responsable: Isabel Bernal
Contacto: isabel.bernal@bib.csic.es
8.- Visualización de datos de satélite en 3D
Las agencias espaciales internacionales como la NASA o la ESA producen cada año PBs de datos de satélite, accesibles para cualquier científico o ciudadano interesado. En ocasiones, dada la complejidad de los datos y la necesidad de combinarlos, son dificilmente interpretables. El trabajo propuesto explorará las posibilidades que tiene el uso combinado de datos y su reproducción en 3 dimensiones, proporcionando datos combinados, por ejemplo, de terreno y otras varibles medioambientales.

Responsable: Fernando Aguilar
Contacto: aguilarf@ifca.unican.es
9.- Massive Parallel Machine Learning: evaluation of parallel processing implementations
The term massively parallel processing refers to the coordinated usage of a large number of processors or separate computers to carry out a given task. Generally speaking two kinds of parallelism exist: data and model parallelism. In this work we propose that the student performs a survey and state of the art evaluation of the existing parallel implementations for machine learning frameworks and libraries.

Responsable: Álvaro López
Contacto: aloga@ifca.unican.es
10.- Massive Parallel Deep Learning: evaluation of parallel processing implementations
The term massively parallel processing refers to the coordinated usage of a large number of processors or separate computers to carry out a given task. Generally speaking two kinds of parallelism exist: data and model parallelism. In this work we propose that the student performs a survey and state of the art evaluation of the existing parallel implementations for deep learning frameworks and libraries.

Responsable: Álvaro López
Contacto: aloga@ifca.unican.es
11.- Machine learning for medical imaging segmentation
Segmentation in medical imaging is the delineation of organs and structures of interest. It is often a fundatmental step in image analysis pipelines. The student will survey existing literature and implement a machine learning method for segmentation of structures in the provided dataset.

Responsable: David Rodríguez
Contacto: drodrig@ifca.unican.es
12.- Clasificación y predicción de ciclones con técnicas de minería de datos
El gran impacto socio-económico de los eventos meteorológicos extremos han dado lugar a la aplicación de técnicas muy diversas para mejorar tanto su predicción como las medidas de alerta temprana. En particular, los ciclones son un tipo de evento con un gran impacto en muchas regiones del planeta cuya formación y desorrollo puede diferir según la región, estación del año, etc. Por ello, para mejorar los sistemas de predicción de este tipo de eventos se recurre habitualmente a diferentes metodologías, incluyendo desde algoritmos de seguimiento a técnicas de clustering o modelos basados en regresión o en árboles. En el presente trabajo proponemos considerar un modelo combinando técnicas de clustering y modelos de árboles para predecir la ocurrencia de ciclones sobre China, haciendo uso de la base de datos generada por la Agencia China de Meteorología.

Responsable: Sixto Herrera
Contacto: herreras@unican.es
13.- Selección de predictores para la generación de modelos predictivos de Ciclones Tropicales.
A pesar del gran impacto de los eventos extremos asociados a la ocurrencia de ciclones, tanto en el trópico como en latitudes medias (p.e. Europa), la génesis y el desarrollo de este tipo de eventos depende de factores muy diversos (región, estación del año, etc.) por lo que, de cara a proponer un modelo de predicción, es necesario el desarrollo de algoritmos de selección de variables que permitan la detección de aquellos predictores relevantes para el evento de estudio. En el presente trabajo se propone implementar y validar usando la base de datos de referencia para la WMO, IBTrACS-WMO, un algoritmo de selección de variables basado en grafos que identifique, a partir de un número elevado de posibles predictores, aquellos que den lugar a una mejor modelización de la ocurrencia de estos eventos.

Responsable: Sixto Herrera
Contacto: herreras@unican.es
14.- Sentiment analysis in Twitter using Deep Learning
Sentiment analysis (aka opinion mining) refers to the study of emotional and subjective information in texts (or other media). The performance of this task in short texts has become particularly relevant since the rise of microblogging services, in particular Twitter. The student will perform an implementation of sentiment analysis in a curated corpus of Twitter messages using Deep Learning and compare this approach with alternatives techniques from Natural Language Processing.

Responsable: David Rodríguez
Contacto: drodrig@ifca.unican.es
15.- Clustering of Russian Troll Tweets
A data set contaning almost 3 million tweets from accounts associated with the Internet Research Agency has been made available thanks to the work of two professors at Clemson University: Darren Linvill and Patrick Warren. Using advanced social media tracking software, they pulled the tweets from thousands of accounts that Twitter has acknowledged as being associated with the IRA. The student will use unsuprevised learning to explore the dataset and try to find unknown patterns in the tweets.

Responsable: David Rodríguez
Contacto: drodrig@ifca.unican.es
16.- Supervised learning for classifying Russian Troll Tweets
A data set contaning almost 3 million tweets from accounts associated with the Internet Research Agency has been made available thanks to the work of two professors at Clemson University: Darren Linvill and Patrick Warren. Using advanced social media tracking software, they pulled the tweets from thousands of accounts that Twitter has acknowledged as being associated with the IRA. The student will use supervised learning to build a classifier that groups the tweets according to the Troll category attributed by the Clemson University researchers (Right Troll, Left Troll, Newsfeed, Hashtag gamer and fearmonger).

Responsable:David Rodríguez
Contacto: drodrig@ifca.unican.es
17.- Análisis de datos de dispositivos deportivos [ASIGNADO]
En la actualidad, es muy común hacer deporte con dispositivos que registran numerosas variables de carácter físico, fisiológico o deportivo (posición gps, tiempo, altura, frecuencia cardíaca, cadencia...) y posteriormente se almacenan en formatos estandarizados fit, gpx, tcx. El trabajo plantea entender estos formatos para el desarrollo de una pequeña aplicación que permita realizar análisis estadísticos sencillos sobre estos datos.

Responsable:Francisco Matorras
Contacto: francisco.matorras@unican.es
18.- Cuantificación de la incertidumbre en la predicción espacio-temporal a corto plazo con bayesian deep learning
La tarea de predecir es comunmente una tarea probabilística (a menos que el sistema se rija por leyes determinísticas). Al ser probabilística, las predicciones vienen con una incertidumbre asociada que indican el grado de confianza en la predicción. En la mayoría de estudios, los modelos de predicción se limitan a proveer la predicción (p.e., la temperatura dentro de 2 días va a ser de 25ºC), obviando la importancia que tiene también proveer la incertidumbre asociada a la predicción para una mejor toma de decisiones (p.e., la temperatura dentro de 2 días va a ser de 25ºC al 20% de probabilidad). Concretamente en [1], se hace una predicción espacio-temporal para predecir la precipitación a menos de 6 horas (nowcasting) mediante deep learning y obvian la incertidumbre asociada a dichas predicciones. El objetivo de este TFM es cuantificar y caracterizar la incertidumbre asociada al problema del nowcasting mediante la maquinaria del bayesian deep learning.

Referencias:
Shi, Xingjian, et al. Deep learning for precipitation nowcasting: A benchmark and a new model. Advances in Neural Information Processing Systems. 2017.

Responsable:Jorge Baño
Contacto: bmedina@ifca.unican.es
19.- Relaciones espacio-temporales de patrones meteorológicos entre el El Niño y el resto del mundo con deep learning
Las redes neuronales son reconocidas por su capacidad para extraer patrones de los datos. Las neuronas de las redes neuronales se agrupan en capas definiendo la arquitectura de la red. Un tipo especial de arquitectura, llamado autoencoder, extrae patrones entre las variables de entrada y las representa en su capa más intermedia. En este artículo [1], utilizan un autoencoder para descubrir las relaciones existentes entre el flujo radiativo en la cima de la atmósfera y la temperatura en la superficie. La idea en este trabajo es realizar el mismo estudio que en [1], pero buscando los relaciones entre la temperatura del mar en el Pacífico Ecuatorial (que caracteriza el fenómeno de El Niño) y otras variables meteorológicas a nivel mundial, (procesos conocido como teleconexiones climáticas).

Referencias:
Anderson, Charles, et al. Discovering Spatial and Temporal Patterns in Climate Data Using Deep Learning. 5th International Workshop on Climate Informatics, NCAR Mesa lab, Boulder, CO. 2015.

Responsable:Jorge Baño
Contacto: bmedina@ifca.unican.es
20.- Aplicación de técnicas de machine learning para el downscaling estadístico de simulaciones climáticas [ASIGNADO]
Los Modelos de Circulación General (GCM, por sus siglas en inglés) son las herramientas utilizadas hoy en día para la simulación del clima en las diferentes escalas temporales, desde la predicción a corto plazo (3-5 días vista) hasta las proyecciones de cambio climático (hasta final de siglo). Debido a ciertas limitaciones físicas y a su alto coste computacional, la resolución espacial de los GCM actuales todavía es insuficiente (del orden de los 100 km en el caso de proyecciones de cambio climático) para un gran número de aplicaciones prácticas. Para ayudar a solventar esta limitación se ha desarrollado en las últimas décadas una extensa batería de técnicas de reducción de escala (o downscaling). De entre ellas, las técnicas de downscaling estadístico tratan de inferir relaciones estadísticas/empíricas entre las simulaciones de baja resolución de los GCM y las observaciones locales/puntuales disponibles para un período histórico. Una vez obtenidas, estas relaciones se utilizan para trasladar las simulaciones futuras de los GCM al correspondiente nivel local/puntual. Las distintas técnicas de downscaling estadístico se han clasificado tradicionalmente en tres grandes familias: funciones de transferencia, tipos de tiempo y generadores de tiempo. En el marco de la iniciativa europea VALUE (http://www.value-cost.eu/) –cuyo objetivo es el de comparar diferentes estrategias de downscaling para el estudio del cambio climático– han presentado recientemente la intercomparación de métodos de dowscaling estadístico más extensa y rigurosa hasta la fecha. En concreto, en este trabajo se analizan más de 50 técnicas (que cubren las tres grandes familias anteriormente mencionadas) sobre 86 estaciones de temperatura y precipitación repartidas por toda Europa. El objetivo de este TFM es extender este trabajo probando distintas técnicas de machine learning que raramente han sido utilizadas hasta el momento para el downscaling estadístico en el contexto del clima, en particular random forests y métodos de ensembles.

Referencias:
Gutiérrez J.M. et al. (2018) An intercomparison of a large ensemble of statistical downscaling methods over Europe: Results from the VALUE perfect predictor crossvalidation experiment. International Journal of Climatology pp 1-36, DOI 10.1002/joc.5462

Responsable:Rodrigo Manzanas
Contacto: rmanzanas@ifca.unican.es
21.- Modelos de extremos no estacionarios aplicados al oleaje
En los últimos años, se ha producido un importante avance en la definición de modelos de extremos no estacionarios permitiendo caracterizar la distribución estadística de los extremos (parámetros de localización, escala y forma) condicionada a diversas escalas temporales (estacionalidad, variabilidad interanual, tendencia de largo plazo). El objetivo de este trabajo es desarrollar una librería de funciones de Python para el modelado de series de extremos no estacionarios a partir de modelos lineales multivariados heterocedásticos o a partir de redes neuronales y su aplicación a series temporales de datos de oleaje del reanálisis CSIRO y de satélite.

Responsable:Fernando Mendez
Contacto: fernando.mendez@unican.es
22.- Clima marítimo de mares de fondo (swells) en las Islas Marshall (Océano Pacífico): zonas de generación y análisis estadístico multivariante
El oleaje que recibe cada isla del Pacífico tropical es el resultado de la suma de energías procedentes de multitud de zonas de generación, pudiendo haber en un instante determinado entre 10 y 15 familias de oleaje. Se requiere de herramientas para caracterizar las zonas de generación y para modelar estadísticamente los eventos de mar de fondo. Para ello, en este trabajo se desarrollarán modelos de seguimiento de swells, técnicas de minería de datos para categorizar las familias de oleaje y técnicas estadísticas multivariadas para modelar la distribución conjunta de los parámetros que representan cada oleaje swell. Las bases de datos procederán del reanálisis global de CSIRO de espectros direccionales de oleaje.

Responsable:Fernando Mendez
Contacto: fernando.mendez@unican.es
23.- Redes Bayesianas para modelar la cronología del oleaje multivariado a partir de patrones diarios de circulación atmosférica
La técnica de downscaling estadístico basada en patrones sinópticos se está utilizando recientemente para modelar el clima marítimo multivariado. La cronología de las N categorías de los patrones sinópticos se caracteriza a partir de modelos auto-regresivos logísticos, forzados por covariables climáticas a distintas escalas temporales (estacionalidad, oscilación MJO, oscilación QBO, oscilación de El Niño, manchas solares). Estas covariables están fuertemente correlacionadas, por lo que es deseable modelar probabilísticamente con una red bayesiana la cronología de los patrones sinópticos condicionado por las covariables mencionadas. Las bases de datos procederán del reanálisis atmosférico CFSR y del reanálisis de oleaje de CSIRO.

Responsable:Fernando Mendez
Contacto: fernando.mendez@unican.es
24.- Análisis operacional de daños de inundación costera y fluvial mediante Redes Sociales
El Sistema Operacional de Daños de Inundación, denominado SODIN http://sodin.ihcantabria.es , monitoriza las condiciones ambientales de ríos y costas en tiempo real, permitiendo desencadenar la búsqueda de mensajes relacionados con eventos de inundación fluvial y costeros en Redes Sociales. En la actualidad, el Sistema hace uso del Computer Vision API y del Text Analytics API de Microsoft (más información del Sistema puede consultarse en el siguiente enlace .Por lo tanto, el objetivo del proyecto será analizar alternativas y mejoras, diseñarlas, desarrollarlas e implementarlas en el flujo de datos del Sistema SODIN.

Responsable:Felipe Fernández
Contacto: felipe.fernandez@unican.es
25.- Optimización de la simulación numérica del Sistema de Alerta de Tsunamis (IH-Tsusy)
IH-Tsunamis System (IH-TSUSY) es un Sistema de simulación y notificación de tsunamis en tiempo real basada en la detección y notificación de terremotos en cualquier punto del Globo. http://tsunami.ihcantabria.com/ El Sistema recibe la información sísmica que, en tiempo real, proporcionan agencias internacionales, como la estadounidense USGS. Con los datos captados IH-TSUSY evalúa si el sismo cumple las características necesarias para generar un tsunami, en cuyo caso simula numéricamente su propagación y proporciona a través de la app notificaciones y mapas interactivos que contienen diversos datos de interés, como la amplitud (o altura de ola) y los tiempos de viaje de la onda desde la zona donde ha sido generada hasta las áreas costeras potencialmente afectadas. En la actualidad la aplicación para Android “IH Tsunamis System” ha sido instalada por más de 9000 usuarios y actualmente está operativa en más de 2100 dispositivos en todo el mundo (16% USA, 15% Indonesia, 9% Germany, 5% Spain, 5% Brazil). El mayor hándicap del sistema de alerta reside en el tiempo necesario para la simulación del modelo numérico (entre una o dos horas). Por lo tanto, este proyecto analizaría las alternativas (por ejemplo uso de GPUs) y llevaría a cabo las acciones necesarias para diseñar, desarrollar e implementar la alternativa seleccionada en el Sistema IH-Tsusy.

Responsable:Felipe Fernández
Contacto: felipe.fernandez@unican.es

Master Thesis Proposals 2017-2018


1.- Evaluación y despliegue de tecnologías BigData mediante una arquitectura lambda sobre un IDS (ASIGNADO)
El objetivo de este Trabajo de Fin de Máster consiste en evaluar distintas tecnologías de BigData enfocadas a streaming y procesado de datos para, posteriormente, desplegar las soluciones elegidas sobre el IDS (Intrusion Detection System) del IFCA (Instituto de Física de Cantabria).

En líneas generales, se analizarán y evaluarán las posibles tecnologías existentes de streaming de datos (Apache Kafka) y de procesado, tanto por lotes (Apache Spark), como mediante streaming (Apache Flink). Las soluciones elegidas se desplegarán mediante una arquitectura lambda con el actual IDS desplegado en el IFCA, Snort.

Este trabajo implica conocer distintas tecnologías de streaming, procesado y transmisión de datos de BigData, así como la arquitectura de detección de intrusos instalada en el IFCA.
2.- Clasificacion de imagenes de especies de plancton utilizando Deep Learning (ASIGNADO)
Proyecto cuyo objetivo se centra en la clasificacion de imagenes de distintas especies de plancton. Para su realizacion se utilizaran algoritmos de aprendizaje atomatico y mas concretamente tecnicas avanzadas de Deep Learning. Tambien se hara uso de tecnologia relacionada con bases de datos no relacionales, como es MongoDB
3.- Análisis de perturbaciones en Fibra Óptica con técnicas de Machine Learning (ASIGNADO)
Se estudia la aplicación de técnicas de machine learning con el objeto de analizar e identificar perturbaciones que afecten a la transmisión de luz en fibra óptica. Para el estudio se usan datos recogidos de fibras ópticas con diferentes características y/o perturbaciones reales, proporcionados por el Grupo de Ingeniería Fotónica (GIF)
4.- Log clustering tool (ASIGNADO)
En la actualidad, la cantidad de información generada por los sitemas IT y de comunicaciones sigue en clara expansión, haciendo aún más difícil, si cabe, su gestión y monitorización. Existen en el mercado diversas herramientas para la correlación de alertas, que facilitan y ayudan a los operadores a supervisar los sistemas; no obstante, el problema de resumir y sintetizar la actividad de los sistemas, mediante la extracción de patrones, no ha sido tan ampliamente implementado a nuestro entender.

Es por ello que este proyecto investigará diversos algoritmos, que permitan mediante su combinación, obtener un extracto fiable de la actividad diaria de un sistema IT (CPD). Los resultados deberán ser explotados mediante una interfact gráfica de usuario.

Si desea algún TFM de la lista para este curso puede enviarnos un mail a: info-masterdatascience (at) listas.csic.es



    Master en Data Science



csic
Consejo Superior
Investigaciones Científicas



uc
Universidad de Cantabria