Una herramienta de Machine Learning para la actualización y el desarrollo del Directorio de Empresas y Establecimientos con actividad económica en Andalucía

Se desarrollará una herramienta para la actualización dinámica del Directorio de Empresas y Establecimientos en Andalucía.

Investigador principal

Emilio Carrizosa Priego

Sede

US

Tecnología

Machine Learning / Big Data / Business Analytics

Sector

2

Agentes agregados

Instituto de Estadística y Cartografía de Andalucía

IMUS – Instituto de Matemáticas de la Universidad de Sevilla

Resumen de la propuesta

Se desarrollará una herramienta para la actualización dinámica del Directorio de Empresas y Establecimientos en Andalucía. Las fuentes utilizadas para su actualización a día de hoy tienen características diferentes, y se requieren un tratamiento particularizado y costoso.

La finalidad del proyecto es actualizar y contrastar el Directorio de Empresas y Establecimientos en Andalucía, identificando fuentes de información complementarias disponibles e implementando procedimientos de integración de las mismas. Con el objetivo de conseguir información cada vez con más garantías de calidad y en tiempos más ajustados.

Objetivo del proyecto

El objetivo es desarrollar una herramienta de Machine Learning que permita la actualización dinámica del Directorio de Empresas y Establecimientos en Andalucía, identificando fuentes de información complementarias e implementando procedimientos de integración de las mismas. La herramienta, desarrollada en lenguajes abiertos de uso general y fácil mantenimiento (R, Python) permitirá también el análisis espacial de la información.
Los objetivos específicos serán:

  1. Identificación de fuentes de información complementaria, y análisis de la calidad de las mismas.
  2. Construcción de herramientas de captura automática de la información de las fuentes seleccionadas.
  3. Construcción de modelos avanzados de Machine Learning para
    1. Detección de altas y bajas de las empresas o establecimientos.
    2. Actualización dinámica de las variables que componen los registros.
    3. Análisis espacial de datos.

Los modelos de Machine Learning y las aplicaciones informáticas desarrolladas se tratarán sobre los datos del sector industrial. Una vez validado el modelo y la herramienta, estos se extenderán al resto de sectores.

Resultados esperados e indicadores

Entregables tecnológicos:
Conjunto de aplicaciones en código abierto para

-    la captura de información de bases de datos, (Entregable al término del mes 9).
-    el análisis predictivo (Entregable al término del mes 13).
-    el análisis espacial (Entregable al término del mes 13).

Entregables académicos en el campo del Machine Learning y sus aplicaciones a la Estadística Pública

-    3 publicaciones en revistas indexadas en Q1. A fecha 31.12.21 es previsible que sigan en fase de revisión. (Al término del mes 21).
-    3 congresos/workshops internacionales (Tendrán lugar entre los meses 15 y 21).

Indicadores (esperados hasta el 31/12/2021)
Nuevo personal investigador (equivalente anual): 2.25
Patentes:0
Nº contratos transferencia:0
Congresos: 3
Publicaciones indexadas: 3
Tesis doctorales: Uno de los contratados realizará parte de su tesis doctoral en el marco de este proyecto.

Justificación potencial impacto tecnológico del proyecto (TRL)

El proyecto tendrá un impacto tecnológico notable en el IECA, por ser una aplicación que, usando avanzadas técnicas de Machine Learning, se pone a la vanguardia europea en Estadística Pública.
Al mismo tiempo, el Directorio de Empresas y Establecimientos en Andalucía es una herramienta fundamental para la transformación tecnológica de Andalucía y la industria 4.0, al identificar proveedores y clientes.