8 de julio de 2012

La Batallona. Análisis de la Carrera.



ANÁLISIS DE LA CARRERA.

por Pedro P. Olea ( publicaciones y links del autor... )


Asturias ganó, pero el hecho de que Asturias tuvo muchos más corredores para descartar ¿afectó al resultado final?

Hemos realizado un análisis detallado para responder a esta pregunta. 
Participaron cerca de 420 corredores, 150 leoneses frente a casi 270 astures. Al final llegaron 135 corredores de León y 246 de Asturias. 
Las primeras plazas eran copadas por los leoneses Manuel Merillas y Pedro Ignacio Cuevas, relegando al primer asturiano a más de 7 minutos y 3º de la general. 
Como es lógico, la organización solo consideró el resultado de los tiempos de los 135 primeros corredores que llegaron a la meta de ambas provincias (una simple suma de todos los tiempos por provincia).
La cuestión es si Asturias salió beneficiada por el hecho de que tuvo la posibilidad de "descartar" a 111 corredores, mientras que para León contabilizaron todos los corredores (sin posibilidad de descarte).


Hemos analizado los datos que facilitó la organización (http://labatallona.com/). En la Figura 1 se puede ver el resultado de los tiempos de los 270 corredores que contabilizaron para el resultado final. 

Figura 1: Se muestran los tiempos de los 270 corredores (135 por cada provincia) 
por categorías de tiempos. Por ejemplo, con 95 minutos o menos hubo 2 corredores 
de León (los dos que ganaron) por ninguno de Asturias. Entre 115 y 120 minutos 
entraron 18 corredores de Asturias y 8 de León.  El resto de categorías 
se interpretan igual.  Llama la atención que en las  dos últimas categorías 
(de más de 135 minutos), no hubo ningún asturiano por  50 (24 + 26) corredores de León.


La media de duración de la carrera considerando el conjunto de los 270 corredores fue de 125 minutos. Asturias tuvo un promedio de tiempos significativamente menor (media= 120 min, n=135 corredores) que León (media=131 min, n=135 corredores) (t=-5.56, p<0.001).

Asturias acumuló el 64% de los corredores con 125 o menos minutos, mientras que Léon solo el 38%. O lo que es lo mismo, Asturias solo tuvo el 36% de los corredores peor que la media (125 min), mientras que León fue del 62%. Asturias fue mejor porque acumuló más corredores con tiempos promedios.

El resultado final es que ASTURIAS gana independientemente del nº de corredores que selecciones (135, 100, 75 ó 50) (ver Tabla 1). Por lo tanto es justo vencedor de la 1ª Batallona. Para los escépticos de que podría existir alguna posibilidad de injusticia en el resultado, claramente hay que señalar que los ASTURIANOS son justos ganadores de la 1ª BATALLONA. 

Ahora hay que ir a por la REVANCHONA... pero esta vez nos toca jugar en casa, en León y para entonces nuestro himno sonará muy alto.


Por último, agradecer a la organización por su duro trabajo y a los somedanos por su excelente acogida. 



Tabla 1.- Tiempos (en horas minutos y segundos) computados para Asturias y León considerando los tiempos de los primeros 135, 100, 75  y 50 corredores (*).

Asturias
León
Tiempo (horas) 135 corredores
270:43:11
295:18:20
Tiempo (horas) 100 corredores
194:08:30
203:16:41
Tiempo (horas) 75 corredores
142:04:18
146:55:43
Tiempo (horas) 50 corredores
91:54:28
93:16:40
_________________________________________________________
* En los tiempos calculados no se incluye los 5 minutos de bonificación asignados a León por tener al primer clasificado ni la penalización de 10 minutos a dos corredores de Asturias. El incluir la bonificación y la penalización no influye ya que la los tiempos totales entre provincias es de varias horas de diferencia







ANÁLISIS DE LA CARRERA II. 
por Pedro P. Olea (publicaciones del autor: http://scholar.google.com/citations?hl=en&user=xb7gbnkAAAAJ)

Hemos  seguido realizando análisis de los datos derivados de la carrera . Los análisis anteriores estaban elaborados con los 270 corredores que la organización de la carrera consideró para realizar el cómputo total de tiempos por equipos.  Pero ahora nos hemos preguntado: ¿y qué pasa con los 111 corredores de Asturias que no se tuvieron en cuenta en el cómputo total por equipos?  ¿y si los incluyéramos?
Pues resulta que si incluimos esta fracción de corredores en el cálculo total, ahora León tiene un tiempo promedio menor (media= 131.2 min, n=135) que Asturias (media=134.8 min, n=246). Ojo, son promedios, aquí el diferente nº de corredores no debería de influir.  La media con 135 corredores fue significativamente menor para Asturias (ver arriba). Por tanto, esto nos puso sobre aviso de que algún sesgo podría existir en el procedimiento que se siguió para contabilizar los tiempos totales en la carrera. Así que hemos optado por hacer simulaciones para intentar generalizar el resultado.


Hemos realizado las simulaciones de la siguiente manera (*):

  1. Hemos partido de dos equipos (los llamamos Asturias y León) con diferente número de corredores (n=246 vs n=135, como en la Batallona).  A cada corredor se le asignó un tiempo de llegada, haciendo que al final la media (y desviación estándar)  de ambos equipos fueran exactamente iguales (media=133.6 min, desviación estándar=20.3).
  2. Ordenamos los corredores de cada equipo de menor a mayor tiempo (esto equivale a lo que se hace en carrera al ordenar por tiempos de llegada a meta). De la muestra más grande (Asturias), y ordenada de menor a mayor, seleccionamos el mismo número de corredores  (135) que del equipo con menos corredores (León) (como se hizo con los tiempos de llegada a meta). Y se computa el resultado para cada equipo (suma de tiempos y media por equipo). 

Este procedimiento (pasos 1 y 2) se repitió 500 veces. Si alguien quiere más detalles del proceso y los resultados puede solicitarlo (olea.pedro1@gmail.com). Aquí  tenéis solo una muestra extraída del proceso de las primeras 25 simulaciones (Figura 2)…. El resultado total lo podéis ver en la figura arriba a la derecha.



Figura 2.- Imagen extraída de la simulación realizada en Excel® para equipos con diferente nº de corredores (n=246 vs 135). Arriba a la izquierda se encuentran los dos equipos que parten con la misma media de tiempos (PROMEDIO(min) = 133 min. cada equipo). A continuación, se ordena la lista de tiempos y se seleccionan los corredores para el equipo mayor (es decir, en el equipo de Asturias con 246 corredores se seleccionan los 135 primeros para igualarlo con León). Fijarse cómo, una vez realizado este proceso, se produce el sesgo en los promedios (Asturias 110 vs 120 León). Esto los repetimos 500 veces (columnas de la derecha). El resultado es que Asturias (el grupos mayor) siempre gana (consigue menos tiempo total).  Nota: en cada simulación los tiempos de cada equipo se han aleatorizado cumpliendo la condición de tener distribución normal con media 133 minutos y desviación estándar 20.3 min.

¿Cuál fue el resultado? Pues que el equipo más grande (con más corredores; en este ejemplo Asturias) siempre (100% de las veces) tuvo un tiempo total menor y un promedio significativamente menor que el equipo con menos corredores (León). La diferencia total por equipos entre Asturias y León promedió 32.7 horas (±5 horas (SD), n=500 simulaciones) a favor de Asturias.

Y ¿Cuál debería haber sido el resultado? El resultado es que los dos equipos deberían haber tenido tiempos similares puesto que partimos de la misma media y desviación estándar.
De hecho, si hacemos la misma simulación que antes pero partiendo del mismo número de corredores (135),  el resultado de estas nuevas 500 simulaciones, es según lo esperado. Es decir, Asturias gana el 50.6% de las veces (253 de 500) y León el 49.4% (247 de 500). Esto es, no se produce sesgo (Figura 3).

Figura 3.- Imagen extraída de la simulación realizada en Excel® para equipos con el mismo tamaño (135 corredores de cada equipo). Arriba a la izquierda se encuentran los dos equipos que parten con la “misma” media de tiempos (133 y 134 min. cada equipo; hay que tener en cuenta que son simulaciones y la media no tiene que ser exactamente la misma para los dos equipos, existen ligeras variaciones entre simulaciones). Lo importante es que ahora no hay diferencias significativas en las medias entre ambos equipos. Y el nº de veces que gana uno y otro equipo es el “mismo”, ~50%  cada equipo (ver arriba derecha).

Conclusión: Si partes de dos grupos/equipos con un número muy desigual de participantes, ordenas sus puntuaciones de menor a mayor y a continuación seleccionas el mismo número en ambos grupos siguiendo la lista ordenada (tal y como se ha hecho en La Batallona), resulta significativamente “beneficiado” el grupo que de partida era más grande, ya que se le ha eliminado la parte peor del grupo.
Por este motivo pensamos que en próximas ediciones se debería elegir otro método diferente para el cómputo de los tiempos, ya que el seguido en esta primera edición claramente sesga o beneficia al equipo con mayor número de corredores.

Bueno, y en esta 1ª Batallona, ¿Asturias entonces ha salido claramente beneficiada y León perjudicado?
La respuesta es rotundamente . Pero también es verdad que Asturias tuvo el mérito de apuntar a más corredores que la puso en ventaja competitiva, lo cual se acentuó aún más por el procedimiento usado para computar los tiempos.

¿Y por qué en la tabla 1 daba igual el nº de corredores que incluyeras (135, 100, 75, 50), que siempre vencía Asturias?
Pues porque se partió de la muestra de 270 corredores, donde la lista de Asturias ya estaba ordenada y seleccionada. Es decir, en la comparación de 135 corredores, Asturias ya sufrió una fuerte selección o criba de los “peores” 111 corredores; León no tuvo ninguna selección ahí. En la comparación de 100 corredores, León sufre la primera selección (35 corredores), pero Asturias ya llevaba acumulados 2 cribas (111 corredores en la primera  y otros 35 en esta segunda) y así sucesivamente. Es decir, Asturias en todas estas comparaciones ha partido siempre con ventaja (al cribar sus 111 corredores “peores”), tal y como queda demostrado en las simulaciones mostradas.

Y ¿cuál es el método mejor para dirimir quién gana en próximas ediciones?

  1. Mismo número de corredores de salida.
  2. Si hay muy diferente número de participantes por equipo, usar los promedios de todos los corredores, en vez de la suma total.
  3. Con muy diferente número de participantes por equipo y si se usa la suma total de tiempos, hacer la selección de corredores antes  de que lleguen a meta los corredores. Por ejemplo, en el caso de esta 1ª Batallona, haber contabilizado los tiempos de sólo los 135 primeros apuntados de Asturias o quizás los 135 corredores elegidos por el equipo(s). Pero es muy importante que la selección para igualar el nº de participantes se realice sin sesgos. La selección no se debería de hacer con los tiempos de llegada, porque es aquí, una vez se ordena por tiempos de llegada, cuando se produce el sesgo.
  4. Consulta a algún experto en estadística/matemáticas para disponer de más procedimientos alternativos equitativos.



Pedro P. Olea.

1 comentario:

A de la Mata. dijo...

Joder Javi, menudo estudio que ha hecho tu hermano. Tiene más merito que correr. Un saludo. A de la Mata.