Plataforma Cloud para la integración espacial de geoinformación ambiental y socioeconómica (Spatial Big Data) y clientes web interactivos (geovisores, dashboard) para su difusión, acceso, explotación y análisis (maching learning)

En los últimos años ha surgido, en el contexto del “spatial big data”, una nueva problemática ligada a la dificultad de la integración espacial de geodatos de diferentes modelos (raster y vectorial).

Investigador principal

JOSÉ OJEDA ZÚJAR

Sede

US

Tecnología

SPATIAL BIG DATA, MACHINE LEARNING, SIG Y BUSINESS ANALYTICS

Sector

2

Agentes agregados

EMPRESA Geografía Aplicada S.L --“ (filial de la empresa tecnológica “CARTO”, especialista en “LOCATION INTELLIGENCE”)

Resumen de la propuesta

En los últimos años ha surgido, en el contexto del “spatial big data”, una nueva problemática ligada a la dificultad de la integración espacial de geodatos de diferentes modelos (raster y vectorial). Esta integración es esencial para su análisis con técnicas de Maching Learning (AI). En 2018 se hizo pública la especificación OGC (http://www.opengeospatial.org/projects/groups/dggsswg) para facilitar la estandarización de los procesos de integración en estructuras multiescalares (nested) grid a escala global (Discrete Global Grid System DGGS--): Este proyecto pretende abordar 3 aspectos relacionados con esta problemática, potenciales objeto de transferencia: (i) Científicos: la integración espacial de la geoinformación ambiental, socioeconómica y territorial básica de Andalucía (catastro, usos, población, datos climáticos, urbanísticos, etc.) en estructuras de teselas multiescalares y multidimensionales GRID (cuadrados, hexágonos, etc..); (ii) tecnológicos, al desarrollar el proyecto en un entorno CLOUD garantizando las especificaciones OPEN DATA y FAIR; y (iii) acceso a resultados con el desarrollo de clientes web (geovisores y dashboard) para la difusión, acceso y explotación de los resultados del proyecto, así como para la transferencia de conocimiento y tecnología a la ciencia, administración y ciudadanos.

Objetivo del proyecto

La integración espacial de la geoinformación ambiental, socioeconómica y territorial básica de Andalucía (Catastro, usos, población, datos climáticos, urbanísticos, etc.), de tal forma que los usuarios (científicos, técnicos de la administración y ciudadanos) puedan acceder a un amplio conjunto de geodatos multitemáticos ya integrados espacialmente en estructuras de teselas multiescalares y multidimensionales (cuadrados, hexágonos, etc.). Con ello la estructura de datos final se compondría de una única tabla donde se almacena el identificador único de la rejilla (su nivel escalar, x e y), su geometría y la estructura que se considere más adecuada para registrar las variables temáticas derivadas de la adscripción (BBDD espacial SQL y/o No SQL--). Esta estructura facilitará su análisis con procesado distribuido (parallel computing) y técnicas big data (Map Reduce). Además su estructura parecida a un vector n dimensional para cada tesela de la rejilla y nivel escalar, es una de las estructuras de datos más comunes que alimentan a los procesos analíticos de Machine Learning (ML) e Inteligencia Artificial (AI).

Desde el punto de vista tecnológico se propone el desarrollo en un entorno cloud que, en principio, utilizaría una nube privada con los diferentes servidores que el grupo tiene alojados en el CICA, para posteriormente testar su escalabilidad en una nube pública (Amazon, Microsoft Azure, etc.). El modelo de computación propuesto estaría basado en contenedores (Amazon Elastic Container Service o Google Kubernetes ) y una arquitectura de microservicios comunicándose entre sí, por ejemplo, a través de peticiones HTTP a sus APIs. El utilizar “open source” para el desarrollo de los servicios y la publicación de los resultados como servicios interoperables OGC, garantizando las especificaciones OPEN DATA y FAIR, lo sitúan en la línea estratégica de las iniciativas más r innovadoras para la Ciencia en la Unión Europea, la European Open Science Cloud (https://ec.europa.eu/research/openscience/index.cfm?pg=open science cloud).

Para la difusión de los resultados, su acceso y explotación a través de Internet, se propone el desarrollo de clientes web con el desarrollo de un conjunto de componentes (witgets) que permitan la generación de dashboards con las funcionalidades más demandadas (visualización cartográfica, generación de gráficos, etc ). Estos clientes se beneficiarían de las mejoras que proporciona HTML5 y los desarrollos para datos geográficos en “canvas” o WebGL. El contar con la empresa GEOGRAPHICA (e implícitamente CARTO) como “agente agregado” garantiza, por su experiencia internacional, la competencia técnica para culminar con éxito este objetivo facilitando las labores de transferencia de conocimiento a la sociedad, administración y científicos, al permitir el acceso y reutilización (transferencia de innovación) de los resultados con aplicaciones orientadas a productos turísticos innovadores, e gobierno o la adaptación al cambio climático.

Resultados esperados e indicadores

Indicadores (esperados hasta el 31/12/2021)

  • Nuevo personal investigador (equivalente anual): la suma de los dos contratos equivaldría a algo mas de 1 contrato predoctoral.
  • Patentes: Aunque los desarrollos informáticos de metodologías científicas son difícilmente patentables, si sería posible su inscripción en el Registro de la Propiedad intelectual y se liberarían con licencia Creative Commons.
  • Nº contratos transferencia: 1
  • Congresos (4 comunicaciones): 2 comunicaciones a 1 nacional y 2 a 2 internacionales. Congreso Nacional de las Tecnologías de la Información Geográfica, Congreso Internacional Anual FOSS4GIS, Congreso Internacional de Tecnología, Ciencia y Sociedad
  • Publicaciones indexadas: 4 JCR. 2 en revistas de base tecnológica (Environmental Modelling & Software, International Journal of Digital Earth, Environmental Monitoring. Y 2 en revistas de geoinformación (Science of the Total Environment, Natural Hazards y el Boletín de la Asociación de Geógrafos Españoles)
  • Tesis doctorales: 1

Justificación potencial impacto tecnológico del proyecto (TRL)

La integración espacial de datos ambientales y socioeconómicos en estructuras de las teselas multiescalares y multidimensionales supone un reto y tendrían un importante impacto tecnológico por su evidente carácter innovador (los procesos de adscripción a las teselas están aún en TRL 5-7). Por otra parte, la utilización de tecnologías basadas en una estructura de microservicios para su generación en la nube, y el desarrollo de clientes web (dashboard) para su acceso, tendrá un evidente impacto científico/tecnológico, al poder ser reutilizadas por nuevos proyectos científicos, empresariales o la administración debido su publicación en la nube bajo las especificaciones de la OPEN DATA y FAIR (TRL 7-8). El elemento más innovador y de mayor impacto en transferencia para el futuro sería trasladar toda la funcionalidad del proyecto (TRL-9) a una nube pública (Microsoft Azure, Amazon, etc.) o incluso, aprovechar las convocatorias de proyectos europeos que incorporen este entorno tecnológico y posibiliten la explotación y despliegue de los resultados del proyecto (Proyectos Europeos H2020 European research infrastructures (including e-Infrastructures) y la Implementación de la European Open Science Cloud).

Avances

El proyecto se centra en una problemática clásica, pero de mayor actualidad hoy, en el contexto del “spatial big data”: la necesidad y dificultad de la integración espacial de geodatos procedentes de diferentes modelos y formatos (raster y vectorial). Esta integración espacial es esencial y previa a su análisis con técnicas de Maching Learning (AI) y, en los últimos años, se ha consolidado el uso de estructuras de teselas multiescalares y multidimensionales GRID (cuadrados, hexágonos, etc..) para la estandarización de estos procesos de integración espacial. Esta estructura facilita su análisis con procesado distribuido (en un entorno cloud) y el uso técnicas big data (Map Reduce). Además, su estructura final ofrece al usuario un vector ndimensional para cada tesela y nivel escalar, la cual es una de las estructuras de datos más comunes que alimentan a los procesos analíticos de Machine Learning (ML) e Inteligencia Artificial (AI).

El modelo de computación propuesto está basado en contenedores (Amazon Elastic Container Service o Google Kubernetes ) y una arquitectura de microservicios. Para garantizar el acceso a los datos y resultados (open data) se desarrollan clientes web (geovisores) para la difusión, acceso y explotación de los resultados del proyecto, junto a un conjunto de componentes interactivos (witgets) que permitan la generación de dashboards con las funcionalidades más demandadas (visualización cartográfica, generación de gráficos, análisis exploratorio, cluster, etc ).

Hasta la fecha se ha desarrollado el flujo de procesos y generación de microservicios para modelar los datos originales y la constitución de repositorio de datos normalizados en BBDD ESPACIALES (PostgreSQL/PostGis), ya concluido para las principales bases de datos territoriales (Catastro en formato CAT y “atom”), demográficas (censos y padrón. INE) y económicas (renta de hogares de España a nivel de secciones y municipios, INE y AEAT y desempleo –SEPE-).

Publicaciones

Se ha generado una versión piloto del microservicio de generación de teselas multiescalares y se están desarrollando los microservicios de transformación para la adscripción de los datos modelados en la BBDD espacial a las estructuras de teselas que permitan su integración espacial: ya integradas la población andaluza (IECA e INE), parcelas catastrales y edificios (Catastro) y secciones censales y municipios (renta hogares, desempleo) Dado que es necesario el disponer de los datos ya integrados en teselas multiescalares para la generación de microservicios para el análisis espacial y machine Learning, esta actividad se desarrollará esencialmente a partir de abril de 2021. De cualquier forma, se han testado algunos procesos de análisis cluster y el desarrollo de los clientes web interactivos para la exploración de los datos originales de la fuente de datos más novedosa, en colaboración con el agente agregado (CARTO): el atlas de la renta de hogares de España (ver indicadores y publicaciones).

1. Álvarez Francoso, J.I, Ojeda Zujar, J., Díaz Cuevas, P., Guisado Pintado, Emilia, Camarillo Naranjo, J.M. (2020).: A Specialized Geoviewer and Dashboard for Beach Erosion Rates Visualization and Exploration. En: Journal of Coastal Research, No.95, pp. 1006–1010 DOI: https://doi.org/10.2112/SI95-196.1. JCR Q3

2. Ojeda, J., Fraile, P. y Alvarez, J.I (2021 –preprint-). “Sea level rise inundation risk assessment in residential cadastral parcels along the mediterranean andalusian coast”. Cuadernos de Investigación Geográfica –Geographical Research letters-, 45 DOI: https://doi.org/10.18172/cig.4744 Scopus Q1

3. Ojeda, J., Paneque, P., Sanchez, E y Perez, J.P (en revisión): Geografía de la renta de los hogares en España a nivel municipal: nuevos datos y nuevas posibilidades de geovisualización, exploración y análisis espacial en entornos cloud. Investigaciones Geográficas. Scopus Q3.

Enlaces a clientes WEB de la publicación:

Análisis cluster y outlier (I Moran)

Animaciones y agregaciones de renta neta media municipal en teselas hexagonales

Tesis doctorales

Pérez Alcántara, Juan Pedro (2021): “Plataforma cloud para la integración Espacial de geoinformación en estructuras de teselas multiescalares asimétricas, su análisis y su visualización”. Lectura y defensa prevista en el primer semestre de 2021.

Contractos de transferencia

Contracto con CARTOB para desarrollar en su plataforma cloud nuevas herramientas de exploración datos en clientes web y dashboards.

CEI-09