23 Abr 2019 Hotspots y coldspots: más allá de los clústeres estadísticos
El presente artículo guarda relación y es, en cierto modo, la continuación del tema ya iniciado en el anterior post sobre análisis de patrones y clústeres estadísticos. En esta ocasión pero, iremos un paso más allá y presentaremos otro de los complementos interesantes de QGIS. A través de esta herramienta, veremos el proceso de identificación de hotspots y coldspots en QGIS. El complemento supone otro modo de exploración de datos espaciales desde el punto de vista estadístico.
Explorando el complemento Hotspot Analysis de QGIS
En determinadas situaciones puede que interese agrupar u organizar la totalidad de las entidades de una capa de información en función de una significación estadística concreta. En otras ocasiones, puede que interese únicamente detectar aquellos elementos que superan muy por arriba o bien muy por abajo el valor medio del atributo o característica que se está analizando. Es decir, puede que nos interese la identificación de puntos calientes o puntos fríos (clústeres espaciales) dentro de una serie estadística. Para ello, QGIS dispone del complemento Hotspot Analysis.
El complemento, como siempre, se instala a través del menú Plugins > Manage and Install Plugins. Aun así, para el correcto funcionamiento del complemento es preciso satisfacer previamente algunas dependencias y por ello es imprescindible instalar PySAL, una librería de Python para el análisis espacial. En el repositorio del complemento se ofrecen las instrucciones necesarias para instalar PySAL sea cual sea el sistema operativo sobre el cual se esté ejecutando QGIS.
La identificación de hotspots y coldspots
El primero de los análisis u opciones que presenta el complemento Hotspot Analysis es el método Local Getis-Ord Gi*. Este tipo de análisis permite identificar localizaciones atípicas en la distribución espacial de una variable cualquiera. El algoritmo compara los valores medios locales y el valor medio global con el objetivo de poner de manifiesto la presencia de clústeres espaciales con valores significativamente altos o bajos respecto al valor medio de la serie analizada.
En la imagen anterior se aprecia el resultado de aplicar este tipo de análisis sobre la variable relativa a la renta familiar en los barrios de la ciudad de Barcelona. Claramente se destaca un clúster de barrios que conforma a todas luces un hotspot o punto caliente (en rojo) con una elevada renta familiar. Estadísticamente, este clúster muestra un valor atípicamente muy por encima de la media global de la ciudad. Los resultados obtenidos deben interpretarse tal y como se muestran en la leyenda que se aplica de forma automática en QGIS (ver imagen a continuación) una vez obtenida la capa resultante.
Los valores z-score y p-value son aquellos que permiten negar la existencia de la hipótesis nula en relación con la organización espacial de los elementos de la muestra. La hipótesis nula en el análisis de patrones viene a indicar que la distribución espacial de los elementos se da de forma completamente aleatoria. La existencia (imagen anterior) de agrupaciones o clústeres de valores atípicamente altos o bajos (representados por el valor z-score), con su respectivo valor de probabilidad (p-value), permiten negar la existencia de dicha hipótesis nula.
En otras palabras, permite confirmar que no existe aleatoriedad espacial, sino que los elementos se pueden agrupar espacialmente desde el punto de vista estadístico con su correspondiente valor de confianza.
Complementos como Hotspot Analysis en QGIS abren una puerta a la realización de diferentes tipos de análisis estadísticos sobre variables numéricas muy diversas. Sin ir más lejos, a continuación encontraréis un claro ejemplo de ello. Aprovechando la capa que contiene la delimitación de barrios de la ciudad de Barcelona se han asociado los datos electorales de las pasadas elecciones del 21 de Diciembre de 2017. Estos datos estadísticos, se encuentran disponibles en el sitio web del Departament d’Estadística i Difusió de Dades del propio Ayuntamiento de Barcelona.
Concretamente, los datos que se analizan en la siguiente serie de mapas es el porcentaje de votos recibidos por cada uno de los principales partidos en cada barrio sobre el total de votantes del mismo. Llevando a cabo nuevamente el análisis anterior, el método Local Getis-Ord Gi* identifica la presencia de clústeres espaciales (agrupaciones de barrios) con valores atípicamente altos o bajos con relación al voto ejercido por parte de las personas que viven en ellos.
Identificación de clústeres y outliers espaciales
Además del análisis ya visto, un segundo análisis igualmente interesante que permite el complemento Hotspot Analysis es el cálculo de un valor I de Moran Local. Este análisis detecta y muestra la presencia de clústeres y de outliers espaciales (en caso que estos realmente existan). Sin abandonar el último ejemplo que se ha mostrado (el de los resultados electorales por barrios) puede aplicarse el análisis Local Moran’s I y observar los resultados para los casos particulares de C’s y ERC-CatSí:
Como puede apreciarse en la imagen anterior, mediante los colores rojo y azul, se presentan los respectivos hotspots y coldspots de ambas formaciones políticas. Así mismo, solo en el caso de C’s se detecta además un posible outlier. Este posible outlier (representado con un valor de I negativo) debe interpretarse como una entidad cuyo valor muestra una elevada disparidad con relación a sus vecinos que, en este caso, conforman un hotspot bien definido. Cabe destacar, pero, que todos los análisis y los resultados mostrados se han realizado con los valores estándares de cada una de las herramientas probadas, por lo que un análisis más exhaustivo basado en distintos números de permutaciones y/o pesos espaciales podrían arrojar resultados ligeramente distintos por lo que respecta a la identificación de clústeres.
La última de las opciones que ofrece el complemento Hotspot Analysis es el cálculo u obtención del valor I de Moran Local basado en dos variables. Volvamos una vez más a la realidad de los datos socio-demográficos de los barrios de Barcelona. Si analizamos de forma conjunta por ejemplo, las variables relativas a la renta familiar y a la población mayor de 65 años obtendremos el siguiente resultado:
Analizando la imagen anterior resultante del análisis, se dibujan claramente dos clústeres y dos posibles outliers espaciales. Un hotspot espacial con valores elevados de renta familiar y población mayor de 65 años (en rojo) y un coldspot con los barrios que presentan una baja renta familiar y de población mayor de 65 años. A su vez, se detectan algunos posibles outliers espaciales. Barrios que por su situación espacial deberían mostrar valores elevados de renta familiar y de población mayor de 65 años (en contorno azul) y barrios que dada su ubicación espacial deberían presentar un valor bajo de renta familiar y de población mayor de 65 años.
En definitiva, la instalación del complemento Hotspot Analysis ofrece la posibilidad de analizar determinadas variables desde la perspectiva de la estadística espacial abriendo nuevos campos y perspectivas dentro del ecosistema de complementos de QGIS.