ANÁLISIS DE LA CARRERA.
por Pedro P. Olea ( publicaciones y links del autor... )
Asturias ganó, pero el hecho de que Asturias tuvo muchos más corredores para descartar ¿afectó al resultado final?
Hemos realizado un análisis detallado para responder a esta pregunta.
Participaron cerca de 420 corredores, 150 leoneses frente a casi 270 astures. Al final llegaron 135 corredores de León y 246 de Asturias.
Las primeras plazas eran copadas por los leoneses Manuel Merillas y Pedro Ignacio Cuevas, relegando al primer asturiano a más de 7 minutos y 3º de la general.
Como es lógico, la organización solo consideró el resultado de los tiempos de los 135 primeros corredores que llegaron a la meta de ambas provincias (una simple suma de todos los tiempos por provincia).
La cuestión es si Asturias salió beneficiada por el hecho de que tuvo la posibilidad de "descartar" a 111 corredores, mientras que para León contabilizaron todos los corredores (sin posibilidad de descarte).
Hemos analizado los datos que facilitó la organización (http://labatallona.com/). En la Figura 1 se puede ver el resultado de los tiempos de los 270 corredores que contabilizaron para el resultado final.
Participaron cerca de 420 corredores, 150 leoneses frente a casi 270 astures. Al final llegaron 135 corredores de León y 246 de Asturias.
Las primeras plazas eran copadas por los leoneses Manuel Merillas y Pedro Ignacio Cuevas, relegando al primer asturiano a más de 7 minutos y 3º de la general.
Como es lógico, la organización solo consideró el resultado de los tiempos de los 135 primeros corredores que llegaron a la meta de ambas provincias (una simple suma de todos los tiempos por provincia).
La cuestión es si Asturias salió beneficiada por el hecho de que tuvo la posibilidad de "descartar" a 111 corredores, mientras que para León contabilizaron todos los corredores (sin posibilidad de descarte).
Hemos analizado los datos que facilitó la organización (http://labatallona.com/). En la Figura 1 se puede ver el resultado de los tiempos de los 270 corredores que contabilizaron para el resultado final.
Figura 1: Se muestran los tiempos de los 270 corredores (135 por cada provincia)
por categorías de tiempos. Por ejemplo, con 95 minutos o menos hubo 2 corredores
de León (los dos que ganaron) por ninguno de Asturias. Entre 115 y 120 minutos
entraron 18 corredores de Asturias y 8 de León. El resto de categorías
se interpretan igual. Llama la atención que en las dos últimas categorías
(de más de 135 minutos), no hubo ningún asturiano por 50 (24 + 26) corredores de León.
La media de duración de la carrera considerando el conjunto de los 270 corredores fue de 125 minutos. Asturias tuvo un promedio de tiempos significativamente menor (media= 120 min, n=135 corredores) que León (media=131 min, n=135 corredores) (t=-5.56, p<0.001).
Asturias acumuló el 64% de los corredores con 125 o menos minutos, mientras que Léon solo el 38%. O lo que es lo mismo, Asturias solo tuvo el 36% de los corredores peor que la media (125 min), mientras que León fue del 62%. Asturias fue mejor porque acumuló más corredores con tiempos promedios.
El resultado final es que ASTURIAS gana independientemente del nº de corredores que selecciones (135, 100, 75 ó 50) (ver Tabla 1). Por lo tanto es justo vencedor de la 1ª Batallona. Para los escépticos de que podría existir alguna posibilidad de injusticia en el resultado, claramente hay que señalar que los ASTURIANOS son justos ganadores de la 1ª BATALLONA.
Ahora hay que ir a por la REVANCHONA... pero esta vez nos toca jugar en casa, en León y para entonces nuestro himno sonará muy alto.
Por último, agradecer a la organización por su duro trabajo y a los somedanos por su excelente acogida.
Por último, agradecer a la organización por su duro trabajo y a los somedanos por su excelente acogida.
Tabla 1.- Tiempos (en horas minutos y segundos) computados para Asturias y León considerando los tiempos de los primeros 135, 100, 75 y 50 corredores (*).
Asturias
|
León
| |
Tiempo (horas) 135 corredores
|
270:43:11
|
295:18:20
|
Tiempo (horas) 100 corredores
|
194:08:30
|
203:16:41
|
Tiempo (horas) 75 corredores
|
142:04:18
|
146:55:43
|
Tiempo (horas) 50 corredores
|
91:54:28
|
93:16:40
|
_________________________________________________________
* En los tiempos calculados no se incluye los 5 minutos de bonificación asignados a León por tener al primer clasificado ni la penalización de 10 minutos a dos corredores de Asturias. El incluir la bonificación y la penalización no influye ya que la los tiempos totales entre provincias es de varias horas de diferencia.
ANÁLISIS DE
LA CARRERA II.
por Pedro P.
Olea (publicaciones
del autor: http://scholar.google.com/citations?hl=en&user=xb7gbnkAAAAJ)
Hemos seguido realizando análisis de los datos
derivados de la carrera . Los análisis anteriores estaban elaborados con los
270 corredores que la organización de la carrera consideró para realizar el
cómputo total de tiempos por equipos. Pero
ahora nos hemos preguntado: ¿y qué pasa con los 111 corredores de Asturias que
no se tuvieron en cuenta en el cómputo total por equipos? ¿y si los incluyéramos?
Pues resulta que si incluimos esta fracción de corredores en
el cálculo total, ahora León tiene un tiempo promedio menor (media= 131.2 min, n=135)
que Asturias (media=134.8 min, n=246). Ojo, son promedios, aquí el diferente nº
de corredores no debería de influir. La
media con 135 corredores fue significativamente menor para Asturias (ver
arriba). Por tanto, esto nos puso sobre aviso de que algún sesgo podría existir
en el procedimiento que se siguió para contabilizar los tiempos totales en la
carrera. Así que hemos optado por hacer simulaciones para intentar generalizar
el resultado.
Hemos realizado las simulaciones de la siguiente manera (*):
- Hemos partido de dos equipos (los llamamos Asturias y León) con diferente número de corredores (n=246 vs n=135, como en la Batallona). A cada corredor se le asignó un tiempo de llegada, haciendo que al final la media (y desviación estándar) de ambos equipos fueran exactamente iguales (media=133.6 min, desviación estándar=20.3).
- Ordenamos los corredores de cada equipo de menor a mayor tiempo (esto equivale a lo que se hace en carrera al ordenar por tiempos de llegada a meta). De la muestra más grande (Asturias), y ordenada de menor a mayor, seleccionamos el mismo número de corredores (135) que del equipo con menos corredores (León) (como se hizo con los tiempos de llegada a meta). Y se computa el resultado para cada equipo (suma de tiempos y media por equipo).
Este procedimiento (pasos 1 y 2) se repitió 500 veces. Si alguien quiere más detalles del proceso y los resultados puede solicitarlo (olea.pedro1@gmail.com). Aquí tenéis solo una muestra extraída del proceso de las primeras 25 simulaciones (Figura 2)…. El resultado total lo podéis ver en la figura arriba a la derecha.
Figura
2.- Imagen extraída de la simulación realizada en Excel® para equipos con diferente nº de
corredores (n=246 vs 135). Arriba a
la izquierda se encuentran los dos equipos que parten con la misma media de
tiempos (PROMEDIO(min) = 133 min. cada equipo). A continuación, se ordena la
lista de tiempos y se seleccionan los corredores para el equipo mayor (es
decir, en el equipo de Asturias con 246 corredores se seleccionan los 135
primeros para igualarlo con León). Fijarse cómo, una vez realizado este proceso,
se produce el sesgo en los promedios (Asturias 110 vs 120 León). Esto los
repetimos 500 veces (columnas de la derecha). El resultado es que Asturias (el
grupos mayor) siempre gana (consigue menos tiempo total). Nota: en cada simulación los tiempos de cada
equipo se han aleatorizado cumpliendo la condición de tener distribución normal
con media 133 minutos y desviación estándar 20.3 min.
¿Cuál fue el
resultado? Pues que el equipo más grande (con más corredores; en este
ejemplo Asturias) siempre (100% de las veces) tuvo un tiempo total menor y un
promedio significativamente menor que el equipo con menos corredores (León). La
diferencia total por equipos entre Asturias y León promedió 32.7 horas (±5 horas
(SD), n=500 simulaciones) a favor de Asturias.
Y ¿Cuál debería haber
sido el resultado? El resultado es que los dos equipos deberían haber
tenido tiempos similares puesto que partimos de la misma media y desviación estándar.
De hecho, si hacemos la misma simulación que antes pero
partiendo del mismo número de corredores (135), el resultado de estas nuevas 500 simulaciones,
es según lo esperado. Es decir, Asturias gana el 50.6% de las veces (253 de
500) y León el 49.4% (247 de 500). Esto es, no se produce sesgo (Figura 3).
Figura 3.-
Imagen extraída de la simulación realizada en Excel® para equipos con el mismo
tamaño (135 corredores de cada equipo). Arriba a la izquierda se encuentran los
dos equipos que parten con la “misma” media de tiempos (133 y 134 min. cada
equipo; hay que tener en cuenta que son simulaciones y la media no tiene que
ser exactamente la misma para los dos equipos, existen ligeras variaciones
entre simulaciones). Lo importante es que ahora no hay diferencias
significativas en las medias entre ambos equipos. Y el nº de veces que gana uno
y otro equipo es el “mismo”, ~50% cada
equipo (ver arriba derecha).
Conclusión: Si
partes de dos grupos/equipos con un número muy desigual de participantes,
ordenas sus puntuaciones de menor a mayor y a continuación seleccionas el mismo
número en ambos grupos siguiendo la lista ordenada (tal y como se ha hecho en
La Batallona), resulta significativamente “beneficiado” el grupo que de partida
era más grande, ya que se le ha eliminado la parte peor del grupo.
Por este motivo pensamos que en próximas ediciones se debería
elegir otro método diferente para el cómputo de los tiempos, ya que el seguido
en esta primera edición claramente sesga o beneficia al equipo con mayor número
de corredores.
Bueno, y en esta 1ª Batallona, ¿Asturias entonces ha salido claramente beneficiada y León perjudicado?
La respuesta es rotundamente sí. Pero también es verdad que
Asturias tuvo el mérito de apuntar a más corredores que la puso en ventaja
competitiva, lo cual se acentuó aún más por el procedimiento usado para
computar los tiempos.
¿Y por qué en la
tabla 1 daba igual el nº de corredores que incluyeras (135, 100, 75, 50), que
siempre vencía Asturias?
Pues porque se partió de la muestra de 270 corredores, donde
la lista de Asturias ya estaba ordenada y seleccionada. Es decir, en la comparación
de 135 corredores, Asturias ya sufrió una fuerte selección o criba de los
“peores” 111 corredores; León no tuvo ninguna selección ahí. En la comparación
de 100 corredores, León sufre la primera selección (35 corredores), pero
Asturias ya llevaba acumulados 2 cribas (111 corredores en la primera y otros 35 en esta segunda) y así
sucesivamente. Es decir, Asturias en todas estas comparaciones ha partido
siempre con ventaja (al cribar sus 111 corredores “peores”), tal y como queda
demostrado en las simulaciones mostradas.
Y ¿cuál es el método
mejor para dirimir quién gana en próximas ediciones?
- Mismo número de corredores de salida.
- Si hay muy diferente número de participantes por equipo, usar los promedios de todos los corredores, en vez de la suma total.
- Con muy diferente número de participantes por equipo y si se usa la suma total de tiempos, hacer la selección de corredores antes de que lleguen a meta los corredores. Por ejemplo, en el caso de esta 1ª Batallona, haber contabilizado los tiempos de sólo los 135 primeros apuntados de Asturias o quizás los 135 corredores elegidos por el equipo(s). Pero es muy importante que la selección para igualar el nº de participantes se realice sin sesgos. La selección no se debería de hacer con los tiempos de llegada, porque es aquí, una vez se ordena por tiempos de llegada, cuando se produce el sesgo.
- Consulta a algún experto en estadística/matemáticas para disponer de más procedimientos alternativos equitativos.
Pedro P. Olea.
1 comentario:
Joder Javi, menudo estudio que ha hecho tu hermano. Tiene más merito que correr. Un saludo. A de la Mata.
Publicar un comentario