Intelligent data analysis and machine learning in an oncology information system

El uso de historias clínicas electrónicas (HCE) constituye una fuente extraordinariamente valiosa de datos del mundo real (DVR).

Investigador principal

José Manuel Jerez Aragonés

Sede:

UMA

Tecnología

Machine Learning, Big Data

Agentes agregados

PFIZER SL

Resumen de la propuesta

El uso de historias clínicas electrónicas (HCE) constituye una fuente extraordinariamente valiosa de datos del mundo real (DVR). En los Hospitales Regional y Virgen de la Victoria se utiliza el sistema de información oncológico Galén, que desarrollado desde el año 2006 por el grupo de Inteligencia Computacional en Biomedicina (ICB), gestiona relativa a 40.000 pacientes de cáncer desde el año 1978. Entre otros módulos, Galén incorpora funcionalidad específica para obtener datos de incidencia y tratamiento de diferentes neoplasias y curvas de supervivencia global en tiempo real. El siguiente reto para el equipo investigador es transferir a Galén la tecnología que actualmente desarrolla en el campo del análisis de datos inteligente para su aplicación al diseño de modelos predictivos en oncología, a partir de técnicas de minería de textos y procesamiento de lenguaje natural sobre los campos de texto abierto contenidos en la HCE.

Objetivo del proyecto

1. Diseño e implementación de técnicas de procesamiento de información en campos de texto abierto. El sistema de información Galén contiene gran cantidad de datos en formato no estructurado (campos de texto abierto), cuya explotación requiere de la aplicación de técnicas avanzadas de minería de texto y procesamiento de lenguaje natural. Esta metodología nos permitiría extraer directamente la información relevante de las notas recogidas diariamente en las consultas médicas, sin necesidad de incluir los datos a posteriori en las clásicas bases de datos estructuradas. Es importante destacar que toda la metodología desarrollada para el análisis e interpretación de textos abiertos podría ser exportable a cualquier otro sistema de información diferente de Galén.

2. Diseño e implementación de modelos predictivos basados en algoritmos de inteligencia computacional. Estos modelos predictivos permitirían contestar a cualquier tipo de cuestión relacionada, por ejemplo, con la respuesta a las diferentes terapias, la duración de dicha respuesta, la incidencia de toxicidades o la frecuentación de uso de los servicios sanitarios.

3. Desarrollo del Sistema de Información Galén v3.0. El grupo considera imprescindible avanzar en el desarrollo Galén en su versión 3.0, imprescindible para incorporar toda la funcionalidad anteriormente descrita a través de los siguientes módulos: Unidad de Biología Molecular del Cáncer, para la gestión de la información de naturaleza –ómica; Análisis de Datos Inteligente; Gestión de Proyectos de Investigación y módulo de Ensayos Clínicos.

Resultados esperados e indicadores

Indicadores (esperados hasta el 31/12/2021)

  • Nuevo personal investigador (equivalente anual): 1
  • Patentes: 1
  • Nº contratos transferencia: 2
  • Congresos: 6
  • Publicaciones indexadas: 6
  • Tesis doctorales: 2

Justificación potencial impacto tecnológico del proyecto TRL

La relevancia de la disponibilidad de un conjunto de información de pacientes oncológicos de la magnitud y características de Galén se vería incrementada sin duda con el desarrollo de las herramientas necesarias para mejorar la explotación de los datos contenidos en forma no estructurada. De esta manera, se podrían realizar multitud de estudios observacionales atendiendo a las diferentes neoplasias, los diferentes tratamientos aplicados, los distintos procedimientos de diagnóstico y seguimiento utilizados o los intervalos de tiempo empleados para ello. El análisis de diferentes indicadores permitiría establecer los verdaderos resultados de las actuaciones en la práctica clínica, lo que contribuiría a la mejor planificación y distribución de los recursos del sistema sanitario. La incorporación de datos de secuenciación genómica de los pacientes contribuirá sin duda a optimizar el hallazgo de factores pronóstico y predictivos de respuesta a tratamientos basado en tecnologías de aprendizaje profundo y procesamiento de lenguaje natural.