Publicador de contenidos

Volver 2017-06-21-Noticia-CIMA-Minería de textos

Tecnología de última generación en minería de textos para química

Construir grandes bases de datos que integren información química y datos biológicos y clínicos es crucial para acelerar el descubrimiento de nuevos fármacos

Descripcion de la imagen
Julen Oyarzabal, director de Ciencia Traslacional del CIMA. FOTO: Manuel Castells
21/06/17 14:50 María Pilar Huarte

En un artículo publicado en Chemical Reviews, la Unidad de Minería de Textos en Biología del Centro Nacional de Investigaciones Oncológicas (CNIO), junto con investigadores del Centro de Investigación Médica Aplicada (CIMA) de la Universidad de Navarra y el Barcelona Supercomputing Centre (BSC-CNS), ha publicado la primera revisión exhaustiva sobre las metodologías de vanguardia que impulsan los motores de búsqueda de compuestos químicos, denominados sistemas de reconocimiento de entidades y minería de textos.

El creciente campo de las aplicaciones de Big Data en la investigación biomédica, junto con el uso del aprendizaje automático y las tecnologías de inteligencia artificial para la minería de textos, ha dado lugar a numerosas herramientas prometedoras. "Esta revisión –señalan los autores– pretende ser una guía práctica para que los investigadores se adentren en el mundo de los datos científicos y también para ayudarles a prever los próximos pasos en este emergente campo".

"A través del lanzamiento de los Gold Standard datasets y de la organización de varios eventos de desafío comunitario, la Unidad de Minería de Textos en Biología ha desempeñado un papel crítico en el desarrollo y evaluación de los sistemas actuales de minería de textos en química", explica Martin Krallinger, jefe de la Unidad y co-primer autor de la revisión.

Una gran cantidad de datos no estructurados

Buena parte de los datos biomédicos relevantes para el cáncer sólo está disponible de forma no estructurada. Este tipo de datos incluye la literatura científica, las patentes de compuestos de uso médico, registros electrónicos sanitarios o documentos de ensayos clínicos. De hecho, cada año, más de 20.000 nuevos compuestos aparecen en las revistas científicas.

Transformar esta información no estructurada en bases de datos que puedan ser procesadas de forma más eficiente por los ordenadores o consultadas por la gente es crucial para cosas como la identificación de nuevas dianas farmacológicas y de efectos secundarios o encontrar nuevos usos para fármacos ya aprobados.

Los compuestos químicos y los fármacos son elementos centrales para la investigación biomédica. De hecho, “la construcción de grandes bases de datos que integren información química y datos biológicos y clínicos es crucial para la identificación y validación de nuevas dianas terapéuticas así como para acelerar el descubrimiento de nuevos fármacos”, señala Julen Oyarzabal, director de Ciencia Traslacional del CIMA y co-líder de este informe.

El trabajo ha sido financiación por el Programa Horizonte 2020 (referencia: 654021 – OpenMinted), la Encomienda MINETAD-CNIO, como parte del para el Impulso de las Tecnologías del Lenguaje , la Fundación para la Investigación Médica Aplicada (FIMA), la Universidad de Navarra, la Consellerìa de Cultura, Educación e Ordenación Universitaria (Xunta de Galicia), FEDER y la Fundación Portuguesa para la Ciencia y la Tecnología (FCT) (UID/BIO/04469/2013) y COMPETE 2020 (POCI-01-0145-FEDER-006684). 

BUSCADOR NOTICIAS

BUSCADOR NOTICIAS

Desde

Hasta