SPATIAL DATA SCIENTIST
Hace unas semanas, Geoff Boening publicó unas gráficas muy vistosas, de las orientaciones de las calles de múltiples ciudades del mundo (a él lo que le interesa es cómo ayudan u obstaculizan estos patrones la navegación urbana). Y colgó en Github en código para replicarlo.
Tuvo bastante repercusión, y la red se llenó de réplicas con otras ciudades y de comentarios, más o menos absurdos comparando ciudades de distintos continentes y orígenes.
A colación, por los “comentarios irritables”, y según dice, pensando que quizás debería haber esperado hasta publicar los hallazgos estadísticos de su estudio, antes de escribir en un blog una imagen preliminar ingeniosa de las orientaciones de las calles de la ciudad.
Geoff publicó un hilo en Twitter, Y definiendo su campo de trabajo como el de “urban data science”, comenta:
Ahora en mi campo aparece el “Spatial Data Scientist”, cuando la Geografía Cuantitativa empezó allá por los años 60, desarrollando modelos que pretendían crear leyes de distribución y comportamiento espacial a partir del análisis de diferentes datos.
Muchas veces sus resultados son absolutamente obvios para los que trabajamos esa ciencia social, pero ellos han de hacer miles de operaciones estadísticas y utilizar gran cantidad de datos y de variables, machine learning, etc… Para decir algo que cualquier experto en ese campo te habría dicho en 5 minutos.
Recuerdo un caso en que una cadena de tiendas de ropa encargó un estudio a una gran consultora, quería saber que variables eran las más importantes a la hora de que una ubicación para sus tiendas diera un buen resultado.
Después de analizar múltiples de variables, sociodemográficas, competencia, redes sociales, etc, y de usar las “más avanzadas técnicas” de machine learning; las variables de mayor peso para que una tienda fuera exitosa eran: estar próxima a su principal competidor, en calles de gran flujo peatonal, y que en ese flujo peatonal hubiera rusos…
A ojos de un experto: su principal competidor le llevaba años de ventaja en su expansión y ya estaba en todas las principales calles comerciales (y sólo en estas); que obviamente son las de mayor tráfico peatonal. Y es dónde corresponde ubicarse una tienda de moda cono negocio no cotidiano.
Esa cadena tenía varias de las tiendas con mejor resultado en la zona del Portal del Ángel de Barcelona, donde pasan turistas de todas las nacionalidades pero en ese momento había un especial flujo de turistas rusos a Barcelona.
En resumen los científicos de datos necesitan analizar cuantitativamente un montón de datos para ser capaces de describir lo que ya sabe un experto en ese campo.
Los expertos de cada campo de las ciencias sociales, apoyados de análisis cuantitativos, que tal vez por formación quedan fuera de su alcance (como el Aprendizaje Supervisado, dónde hay un conocimiento a priori), son los que pueden arrojar nuevos resultados de gran valor.
Pero, por ejemplo metodologías de Aprendizaje no Supervisado en ciencias sociales, con suerte sólo replicaran el conocimiento ya existente en esas ciencias.
Hace algún unos meses compartí un tweet sobre el tema:
I did a comparison of city street network orientations in major US cities, and now I've got a better sense of why I find Boston so difficult to navigate. Visualization uses Python, OSMnx, and @OpenStreetMap data.https://t.co/prINZbDh9z pic.twitter.com/YGY4VDSjZY— Geoff Boeing (@gboeing) 11 de julio de 2018
Tuvo bastante repercusión, y la red se llenó de réplicas con otras ciudades y de comentarios, más o menos absurdos comparando ciudades de distintos continentes y orígenes.
A colación, por los “comentarios irritables”, y según dice, pensando que quizás debería haber esperado hasta publicar los hallazgos estadísticos de su estudio, antes de escribir en un blog una imagen preliminar ingeniosa de las orientaciones de las calles de la ciudad.
Geoff publicó un hilo en Twitter, Y definiendo su campo de trabajo como el de “urban data science”, comenta:
- A menudo (urban data science) se etiqueta como una práctica no aficionada que busca patrones en los datos de la ciudad sin el requisito científico del método más profundo de comprensión de (y las contribuciones de vuelta a) la teoría y el trabajo previo.(Tweet)
- "Data Science" pone en primer plano los datos, y en segundo plano los antecedentes de la disciplina de la investigación, como si los datos en sí mismos fueran el tema de interés del campo. Especialmente en ciencias sociales, sin teoría, contexto y conocimiento de la práctica, acaba de realizar un análisis de datos, no de ciencias.(Tweet)
- …
- Supongo que realmente no entiendo la necesidad del término " Data Science ". Si está haciendo " [lo que sea] Data Science ", y es una verdadera ciencia empírica, entonces "datos" es redundante.(Tweet)
Ahora en mi campo aparece el “Spatial Data Scientist”, cuando la Geografía Cuantitativa empezó allá por los años 60, desarrollando modelos que pretendían crear leyes de distribución y comportamiento espacial a partir del análisis de diferentes datos.
Muchas veces sus resultados son absolutamente obvios para los que trabajamos esa ciencia social, pero ellos han de hacer miles de operaciones estadísticas y utilizar gran cantidad de datos y de variables, machine learning, etc… Para decir algo que cualquier experto en ese campo te habría dicho en 5 minutos.
Recuerdo un caso en que una cadena de tiendas de ropa encargó un estudio a una gran consultora, quería saber que variables eran las más importantes a la hora de que una ubicación para sus tiendas diera un buen resultado.
Después de analizar múltiples de variables, sociodemográficas, competencia, redes sociales, etc, y de usar las “más avanzadas técnicas” de machine learning; las variables de mayor peso para que una tienda fuera exitosa eran: estar próxima a su principal competidor, en calles de gran flujo peatonal, y que en ese flujo peatonal hubiera rusos…
A ojos de un experto: su principal competidor le llevaba años de ventaja en su expansión y ya estaba en todas las principales calles comerciales (y sólo en estas); que obviamente son las de mayor tráfico peatonal. Y es dónde corresponde ubicarse una tienda de moda cono negocio no cotidiano.
Esa cadena tenía varias de las tiendas con mejor resultado en la zona del Portal del Ángel de Barcelona, donde pasan turistas de todas las nacionalidades pero en ese momento había un especial flujo de turistas rusos a Barcelona.
En resumen los científicos de datos necesitan analizar cuantitativamente un montón de datos para ser capaces de describir lo que ya sabe un experto en ese campo.
Los expertos de cada campo de las ciencias sociales, apoyados de análisis cuantitativos, que tal vez por formación quedan fuera de su alcance (como el Aprendizaje Supervisado, dónde hay un conocimiento a priori), son los que pueden arrojar nuevos resultados de gran valor.
Pero, por ejemplo metodologías de Aprendizaje no Supervisado en ciencias sociales, con suerte sólo replicaran el conocimiento ya existente en esas ciencias.
Hace algún unos meses compartí un tweet sobre el tema:
¿No os parece que a veces se trata de analizar el "porqué" y el "cómo" de algo analizando datos y más datos; cuando lo más sencillo si se puede es preguntar "por qué?" y "cómo?" a quien tomó las decisiones? #BigData #MachineLearning #locationintelligence #FelizFinde— David Piles (@PilesDavid) 15 de diciembre de 2017
Me queda el consuelo que otros expertos de las ciencias
sociales comparten mi percepción.
Comentarios
Publicar un comentario