Intelligent data analysis and machine learning in an oncology information system

El uso de historias clínicas electrónicas (HCE) constituye una fuente extraordinariamente valiosa de datos del mundo real (DVR).

Investigador principal

José Manuel Jerez Aragonés

Sede:

UMA

Tecnología

Machine Learning, Big Data

Agentes agregados

PFIZER SL

Resumen de la propuesta

El uso de historias clínicas electrónicas (HCE) constituye una fuente extraordinariamente valiosa de datos del mundo real (DVR). En los Hospitales Regional y Virgen de la Victoria se utiliza el sistema de información oncológico Galén, que desarrollado desde el año 2006 por el grupo de Inteligencia Computacional en Biomedicina (ICB), gestiona relativa a 40.000 pacientes de cáncer desde el año 1978. Entre otros módulos, Galén incorpora funcionalidad específica para obtener datos de incidencia y tratamiento de diferentes neoplasias y curvas de supervivencia global en tiempo real. El siguiente reto para el equipo investigador es transferir a Galén la tecnología que actualmente desarrolla en el campo del análisis de datos inteligente para su aplicación al diseño de modelos predictivos en oncología, a partir de técnicas de minería de textos y procesamiento de lenguaje natural sobre los campos de texto abierto contenidos en la HCE.

Objetivo del proyecto

1. Diseño e implementación de técnicas de procesamiento de información en campos de texto abierto. El sistema de información Galén contiene gran cantidad de datos en formato no estructurado (campos de texto abierto), cuya explotación requiere de la aplicación de técnicas avanzadas de minería de texto y procesamiento de lenguaje natural. Esta metodología nos permitiría extraer directamente la información relevante de las notas recogidas diariamente en las consultas médicas, sin necesidad de incluir los datos a posteriori en las clásicas bases de datos estructuradas. Es importante destacar que toda la metodología desarrollada para el análisis e interpretación de textos abiertos podría ser exportable a cualquier otro sistema de información diferente de Galén.

2. Diseño e implementación de modelos predictivos basados en algoritmos de inteligencia computacional. Estos modelos predictivos permitirían contestar a cualquier tipo de cuestión relacionada, por ejemplo, con la respuesta a las diferentes terapias, la duración de dicha respuesta, la incidencia de toxicidades o la frecuentación de uso de los servicios sanitarios.

3. Desarrollo del Sistema de Información Galén v3.0. El grupo considera imprescindible avanzar en el desarrollo Galén en su versión 3.0, imprescindible para incorporar toda la funcionalidad anteriormente descrita a través de los siguientes módulos: Unidad de Biología Molecular del Cáncer, para la gestión de la información de naturaleza –ómica; Análisis de Datos Inteligente; Gestión de Proyectos de Investigación y módulo de Ensayos Clínicos.

Resultados esperados e indicadores

Indicadores (esperados hasta el 31/12/2021)

  • Nuevo personal investigador (equivalente anual): 1
  • Patentes: 1
  • Nº contratos transferencia: 2
  • Congresos: 6
  • Publicaciones indexadas: 6
  • Tesis doctorales: 2

Justificación potencial impacto tecnológico del proyecto TRL

La relevancia de la disponibilidad de un conjunto de información de pacientes oncológicos de la magnitud y características de Galén se vería incrementada sin duda con el desarrollo de las herramientas necesarias para mejorar la explotación de los datos contenidos en forma no estructurada. De esta manera, se podrían realizar multitud de estudios observacionales atendiendo a las diferentes neoplasias, los diferentes tratamientos aplicados, los distintos procedimientos de diagnóstico y seguimiento utilizados o los intervalos de tiempo empleados para ello. El análisis de diferentes indicadores permitiría establecer los verdaderos resultados de las actuaciones en la práctica clínica, lo que contribuiría a la mejor planificación y distribución de los recursos del sistema sanitario. La incorporación de datos de secuenciación genómica de los pacientes contribuirá sin duda a optimizar el hallazgo de factores pronóstico y predictivos de respuesta a tratamientos basado en tecnologías de aprendizaje profundo y procesamiento de lenguaje natural.

Avances

José Manuel Jerez Aragonés y su equipo de investigación, pertenecientes a la Universidad de Málaga, junto con Pfizer SL, como empresa colaboradora, tienen como objetivo transferir al sistema de información oncológico Galén la tecnología que actualmente desarrolla en el campo del análisis de datos inteligente para su aplicación a la toma de decisiones en oncología, a partir de técnicas de minería de textos y procesamiento de lenguaje natural sobre los campos de textos abiertos contenidos en la Historia Clínica Electrónica.

Fruto de la colaboración se han publicado dos artículos en el congreso ASCO (American Society o Clinical Oncology), el evento más importante de oncología a nivel internacional. Concretamente, los trabajos presentan diferentes modelos predictivos para la respuesta a primera línea de tratamiento en pacientes de cáncer metastásico, y un modelo de predicción de asistencia a urgencias par apacientes de cáncer de pulmón.

Asimismo, se ha publicado un trabajo en la prestigiosa revista European Jornal of Cancer, compilando los resultados obtenidos en el diseño de modelos predictivos de evolución de pacientes a partir de técnicas de minería de texto y procesamientos de lenguaje natural.

Por otro lado, se ha avanzado significativamente en la incorporación de esta tecnología a la práctica clínica diaria a través del sistema de información oncológico Galén, desplegado en la Unidad de Gestión Clínica Intercentros de Oncología de los hospitales universitarios Virgen de la Victoria y Regional Carlos Haya de Málaga.

Galén 3.0