Seminarios DATAI. Curso 2022-2023
The problem addressed is the jet engine aircraft fuel consumption during the take-off, climb and cruise flight phases. Due to the globalization phenomena, a continuous increase in air traffic demand has been brought which, consequently, has resulted in an increase of fuel consumption and its associated pollutant gases emitted to the atmosphere.
Previous studies have presented tools and frameworks that help quantify the aircraft’s fuel consumption and hence, it’s pollutant gas emissions, showing the magnitude of such problem and the urgent need of addressing it. In general, such tools and frameworks rely on aircraft performance models that resolve the equations of motion for each flight phase by employing energy balance, numerical or statistical methods. Although being very accurate, these methods do not provide closed-form expressions that can relate the aircraft’s fuel consumption with its aerodynamic, engine and design parameters.
Our contribution in this work is based on proposing a mathematical model that provides closed-form formulae for the quantification of the fuel consumption (and, hence, of the pollutant gases emitted) and several of the aircraft’s state variables (fuel flow rate, velocity, thrust, lift, drag, weight, rate-of-climb, etc.) during the takeoff, climb and cruise flight phases; with the advantage that such closed-form formulae enables further optimization and sensibility analyses.
Intra-tumor heterogeneity renders the identification of somatic single-nucleotide variants (SNVs) a challenging problem. In particular, low-frequency SNVs are hard to distinguish from sequencing artifacts. While the increasing availability of multi-sample tumor DNA sequencing data holds the potential for more accurate variant calling, there is a lack of high-sensitivity multi-sample SNV callers that utilize these data. Here we report Moss, a method to identify low-frequency SNVs that recur in multiple sequencing samples from the same tumor. Moss provides any existing single-sample SNV caller the ability to support multiple samples with little additional time overhead. We demonstrate that Moss improves recall while maintaining high precision in a simulated dataset. On multi-sample hepatocellular carcinoma, acute myeloid leukemia and colorectal cancer datasets, Moss identifies new low-frequency variants that meet manual review criteria and are consistent with the tumor’s mutational signature profile. In addition, Moss detects the presence of variants in more samples of the same tumor than reported by the single-sample caller. Moss’ improved sensitivity in SNV calling will enable more detailed downstream analyses in cancer genomics.
Las secuencias temporales de imágenes por satélite constituyen un recurso muy valioso y abundante para el análisis de una región de interés. Por otro lado, las técnicas de deep learning son actualmente el referente en cuanto a clasificación automática de imágenes. Es por ello, que la aplicación de este tipo de modelos en el ámbito de las imágenes por satélite está atrayendo cada vez más la atención de la comunidad científica y de la empresa privada. No obstante, los datos etiquetados, que en general son necesarios para el entrenamiento de modelos de deep learning, son muy escasos y costosos de obtener para las imágenes por satélite. En este contexto, se lleva a cabo la investigación de un procedimiento totalmente no supervisado en el que, dada una secuencia de imágenes, se aprende un embebido semántico y se crea una partición del terreno según sus propiedades semánticas y su evolución a lo largo del tiempo. Esta aproximación ofrece una novedosa perspectiva global del terreno, donde grandes áreas que comparten una semántica similar y una misma evolución temporal se conectan formando patrones claramente definidos. Los resultados también muestran la estrecha relación que existe entre la distribución de los clusters en el espacio geográfico y su distribución en el espacio embebido. El análisis semántico se completa mediante la obtención de las series temporales que representan a de cada cluster, las series que representan las fronteras y un grafo que explica la conexión entre los diferentes clusters. La metodología se ilustra realizando un análisis semántico a partir de una secuencia de imágenes satelitales de la región de Navarra (España).
La clasificación supervisada es una parte fundamental del aprendizaje automático cuyas aplicaciones a problemas reales centra un gran interés. Tanto en la literatura como en las librerías con software para aprendizaje automático, podemos encontrar múltiples propuestas para paradigmas de clasificación supervisada (árboles de decisión, redes neuronales, redes Bayesianas, etc.) así como diversos métodos para ajustar estos modelos. Contar con una metodología para evaluar y comparar de forma justa el resultado de los mismos es algo fundamental para obtener las conclusiones adecuadas. Sin embargo, en muchas ocasiones tendemos a descuidar la correcta validación de los resultados obtenidos.
En esta charla se presenta una revisión de la metodología para la evaluación honesta de clasificadores, proporcionando información útil para elegir la mejor alternativa en los procesos de validación cuando se trata de resolver problemas de clasificación supervisada. Dado que los aspectos fundamentales de la validación honesta de modelos se reparten entre una larga lista de referencias bibliográficas, esta charla puede ser de utilidad para condensar los aspectos fundamentales y proporcionar información suficiente para guiar sobre el uso de diferentes alternativas.
El contenido está estructurado en tres grandes bloques. Tras una introducción al problema de la clasificación supervisada y a la importancia en la validación honesta de modelos, el primer bloque está dedicado a los scores como medidas de calidad de un clasificador, las principales características de los mismos y el uso que se les da. El segundo bloque presenta el problema de la estimación del valor de los scores utilizando conjuntos de datos finitos, los métodos de estimación más utilizados y sus propiedades en términos de sesgo y varianza así como posibles variaciones y mejoras. Finalmente, la última parte presenta brevemente los test de hipótesis como herramienta para comparar clasificadores en diferentes situaciones, planteando las alternativas posibles dependiendo de las condiciones del problema a resolver.
Las formas más populares de aprender modelos a partir de datos han sido la "clasificación supervisada" y la "no-supervisada o clustering". Mientras la primera exige que toda la muestra esté anotada para aprender un modelo predictivo, la segunda trabaja sobre una muestra sin etiquetar con el objetivo de descubrir las estructuras algebraicas de los datos.
Fuera de esta "zona de confort" emerge con fuerza durante la última década la denominada "clasificación débilmente supervisada - weakly-supervised classification": no toda la muestra está etiquetada, es posible que haya información extra sobre la anotación en momento de predicción, y las relaciones "caso-etiqueta" pueden ir más allá del clásico "one sample -- one label".
El seminario servirá para repasar los principales escenarios "weakly-supervised" que han emergido en la literatura científica, incidiendo en las características genuinas del etiquetado muestral en cada uno de ellos. Se ofrecerá una "taxonomía" que servirá para diferenciarlos y caracterizarlos. Cada escenario se ilustrará con aplicaciones y trabajos referentes.
Combining machine learning and computational chemistry for predictive insights into chemical systems
08/09/2022. Valentín Vassilev Galindo. University of Luxembourg