Entradas

Mostrando entradas de 2021

LIMPIAR DATOS vs ENTENDER DATOS

Imagen
Hace unos días leí un post en Linkedin que decía:  We should re-title “data cleaning” as “understanding the data”. Why? Hablaba de como para poder limpiar los datos debemos comprender sus matices. Y estoy totalmente de acuerdo. Sobre comprender los mátices, estaba revisando la estadística experimental del Instituto Nacional de Estadística (INE) sobre movilidad, en los mapas de " Población de día y de noche ", me encuentro con que sale Cheste, como el municipio con una mayor variación de población día/noche de Valencia. Da la casualidad que "es mi pueblo", por lo que los conozco muy bien. Aparecía un 137% de porcentaje de móviles a las 10:00 de la mañana respecto de los que hay a las 20:00, siendo el valor más alto del área de Valencia; lo que me sorprendió. Mi conclusión es que podría ser que la presencia de la antigua Universidad Laboral ( http://cecheste.com ), con la presencia de los alumnos por la mañana, y su volumen comparado con el del municipio hacía que es

ACTUALIZAR DATOS DEMOGRÁFICOS Y NO MORIR EN EL INTENTO

Imagen
Como cada año, el Instituto Nacional de Estadística (INE) publica en Enero el padrón continuo a nivel de sección censal (áreas de entorno a 1.500 residentes) con todas las variables demográficas asociadas (edad, género, nacionalidad, etc...). Cada año hay modificaciones en las delimitaciones de estas secciones censales. Hay secciones que se agrupan haciendo desaparecer algunas, secciones que se dividen generando nuevas, o nuevas delimitaciones manteniendo el mismo identificador (código de 10 dígitos construido con el código de provincia, código de municipio, de distrito, y de sección). Desde hace pocos años el INE publica gratuitamente las cartografías de las secciones, lo que facilita la revisión. Anteriormente la única cartografía abierta disponible era de 2011 (Censo de Población y Viviendas), y muchos analistas cargan los datos sobre ella sin tener en cuenta este problema. Estos cambios complica la comparación de datos de distintos años. Y destruye las relaciones que tengamos crea