De la T4 a Madrid: ¿coche o transporte público? (2)

Gracias al artículo de ayer, De la T4 a Madrid: zonas favorecidas y maltratadas, algunos usuarios de Twitter de Vallecas se dieron cuenta de que los tiempos no eran correctos para su barrio. Efectivamente, Vallecas tiene una geografía peculiar: tiene mucha zona no urbanizada y la zona urbanizada se apelotona en un extremo de su territorio. Por tanto, el método original de calcular un centroide geográfico sobrestima distancia y duración en estos casos, y sobrestima el tiempo más en transporte público que en coche, lógicamente.

Marco volvió a sacar los datos de Google Maps, pero esta vez pasando a Google Maps el nombre del barrio y dejándole decidir cuál es ese destino (que parece que no lo hace mal). En el artículo de ayer ya vimos que la gráfica de tiempo vs. distancia cambiaba, y Vallecas y otros ya no aparecen fuera de la tendencia general. Ya adelantábamos, sin embargo, que la media calculada en De la T4 a Madrid: ¿coche o transporte público? a partir de los datos de los centroides no cambia mucho con esta nueva metodología.

bap4

La diferencia entre la media ponderada de distancia en coche y en transporte público, prácticamente desaparece. No obstante, las medias ponderadas de duración del viaje se mantienen similares: unos 23 minutos en coche por más de 1 hora en transporte público.

De la T4 a Madrid: zonas favorecidas y maltratadas

Por sugerencia de Almudena, continúo el artículo de ayer, De la T4 a Madrid: ¿coche o transporte público?, con otra gráfica interesante: el tiempo de viaje vs. la distancia al aeropuerto. Del mismo modo que en dicho artículo, cada punto representa un barrio, con el tamaño del punto proporcional a su población. Además, las regresiones están ponderadas por población.

bap2

La información que nos proporciona es qué barrios están mejor o peor comunicados. En principio, esperamos que el tiempo aumente proporcionalmente con la distancia, como ocurre en el caso del viaje en coche. En el caso del transporte público, la pendiente es mayor, por lo que un aumento de distancia penaliza más en tiempo, cosa que también es razonable.

Pero además hay puntos concretos que se alejan sustancialmente de la línea por abajo (lo que significa que están especialmente bien comunicados) o por arriba (lo que significa que están especialmente mal comunicados). En la primera categoría, destaca El Plantío, un pequeño barrio del distrito de Moncloa-Aravaca que es el más lejano de Madrid, pero se encuentra especialmente bien comunicado. En la segunda categoría, destacan Fuentelareina, Vicálvaro y Vallecas. El primero tiene poca población, pero Vicálvaro y Vallecas son dos de los barrios más grandes de Madrid, y sin embargo cuentan, comparativamente, con las peores conexiones en transporte público con la terminal T4.

Actualización

Me comentan por Twitter que la conexión desde Vallecas no es tan mala. Efectivamente, una consulta a mano desde zonas razonables del barrio arroja tiempos más bajos. Compruebo en los mapas de Madrid que el territorio del barrio Casco Histórico de Vallecas es bastante amplio, pero la zona urbanizada está apelotonada en el norte y este de la zona.

Dado que los cálculos se han hecho automáticamente a partir del centroide del barrio, esto con toda probabilidad ha hecho que se sobrestimen los tiempos en barrios con una geografía poco homogénea como Vallecas. Las conclusiones, en tales casos, son erróneas.

Una mejora sencilla al método del centroide consistiría en dividir cada barrio en una rejilla de puntos, hacer los cálculos para cada punto y después descartar a partir de cierto umbral. Esto tampoco está exento de problemas, ya que podría haber un barrio con más zona sin urbanizar que urbanizada, por lo que los outliers serían los tiempos reales.

Otra mejora aún más sencilla (y rápida) consiste en dejar a Google Maps decidir dónde está “Casco Histórico de Vallecas” (que parece que no lo hace mal), y así con todos los barrios. Esto es lo que ha hecho Marco rápidamente, me ha pasado los datos y los resultados cambian sustancialmente para la gráfica anterior:

bap3

Buenas noticias: El Plantío ya no aparece como favorecido ni Vallecas como desfavorecido. Fuentelareina y Vicálvaro por su parte sí siguen situándose por encima de la tendencia generalizada. Quedaría actualizar la gráfica del artículo anterior, pero adelanto que las medias para todo Madrid se ven poco afectadas.

De la T4 a Madrid: ¿coche o transporte público?

Kiko Llaneras analizaba ayer en El País el trayecto en coche y transporte público desde el aeropuerto al centro de diversas ciudades españolas en Del aeropuerto al centro: ¿en coche o transporte público? El resultado es el esperado, es decir, que en coche se tarda menos en general, pero con la salvedad de dos casos: Valencia y la terminal T4 de Madrid, donde el tiempo promedio es similar en transporte público.

En concreto, para la T4, se obtienen unos 21 y 26 minutos de trayecto para coche y transporte público respectivamente. Este resultado choca frontalmente con la experiencia cotidiana, pero hay que tener en cuenta que el dato está calculado para el trayecto hasta la parada de transporte público más cercana al ayuntamiento. En definitiva, no parece un dato muy representativo del madrileño medio y ni siquiera del turista medio que vaya hacia su hotel. De hecho, en el artículo añaden que

Mi compañero Marco Gramaglia ha hecho un análisis más extenso del asunto para la T4 de Madrid con el objetivo de obtener una media más representativa. Para ello, ha calculado la distancia y el tiempo, en coche y transporte público, desde la terminal T4 hasta cada uno de los barrios de Madrid. Después, cada barrio contribuye a la media global de manera ponderada por población:

Yo he tomado sus datos y he obtenido la siguiente figura que desglosa distancia y duración del viaje, en coche y transporte público, para cada barrio. El tamaño de los puntos es proporcional a la población del barrio y las líneas verticales marcan las medias ponderadas, cuyos valores exactos también aparecen sobreimpresos.

BAP

Como puede apreciarse en la gráfica de la derecha, la duración del viaje en coche tiene una varianza pequeña. Es decir, vayas a donde vayas dentro de Madrid, en coche tardarás un tiempo cercano a la media ponderada, que es de unos 23 minutos. Por otro lado, la duración del viaje en transporte público varía mucho en función del barrio de destino, cuya media ponderada es de más de 1 hora.

Hay pocos barrios con una media en transporte público cercana a la media ponderada global en coche. Uno de ellos, precisamente, es el barrio de Justicia, colindante con el Ayuntamiento de Madrid, de ahí que el dato obtenido por Kiko Llaneras para el caso de la T4 resulte poco representativo. Probablemente el análisis de las otras ciudades adolecerá de un problema similar, aunque lógicamente la desviación será menor en ciudades más pequeñas.

Metodología

Los diferentes barrios y sus coordenadas se han descargado de aquí; las cifras de población, de aquí. A partir de estos datos, se ha calculado el centroide de cada barrio y, con ayuda de Google Maps, se han obtenido las distancias y duraciones de trayecto desde la terminal T4 hasta dichos centroides, tanto en coche como en transporte público, para hoy 2 de agosto a las 17 horas.

Se podría refinar el análisis obteniendo los datos para diferentes días y diferentes horas, pero la diferencia promedio de duración obtenida entre ambos medios de transporte es lo suficientemente grande como para aceptar que las conclusiones no variarían.

Sobre significancia y p-valores

Nada nuevo bajo el Sol, pero nunca de más que, tal y como está el panorama, la American Statistical Association puntualice estas cosas de forma oficial:

  1. Los p-valores pueden indicar cómo de incompatibles son los datos con un modelo estadístico específico.
  2. Los p-valores no miden la probabilidad de que la hipótesis bajo estudio sea cierta, o la probabilidad de que los datos se hayan dado simplemente por casualidad.
  3. Las conclusiones científicas y las decisiones políticas o empresariales no deberían basarse solo en que un p-valor supere cierto límite.
  4. Una correcta inferencia requiere información completa y transparencia.
  5. Un p-valor, o la significación estadística, no mide el tamaño de un efecto o la importancia de un resultado.
  6. Por sí solo, un p-valor no proporciona una buena medida de evidencia sobre un modelo o hipótesis.

Y ahora cogéis todos los libros que lo enseñan como la verdad revelada, todos los papers que dicen que tal o cual cosa es así o asá porque un p-valor nos salió menor que 0.05, y hacéis una pira con ellos. No sé lo que quedará, pero frío no vamos a pasar.