Revista Ajedrez

Correccion en el sistema de puntuacion elo

Por Ajedrezmurciano
El sistema de puntuación Elo: corrección de las tablas de expectativas

Por Jeff Sonas

En los últimos años he participado en diversas reuniones de la FIDE de expertos en puntuación para analizar diversas cosas sobre el sistema de puntuación de la FIDE. Uno de los enormes beneficios de esta participación fue que la FIDE me envió todos sus registros históricos de resultados de partidas y torneos. No creo que mucha gente tenga acceso a todos estos datos, en especial porque se necesitó mucha labor de procesamiento para que pudieran ser útiles para el análisis, así que pensé que debería compartir algunos hallazgos interesantes. Este será el primero de una serie de artículos sobre la puntuación FIDE.

En primer lugar vamos a repasar algunos de los aspectos básicos. La mayor parte de ustedes probablemente sabrán que el sistema Elo conlleva calcular la diferencia de puntuación entre dos jugadores en una partida y luego consultar dicho número en la Tabla de Expectativa Elo (disponible en la página web de la FIDE) para determinar la puntuación esperada de cada jugador en la partida. Luego para cada jugador, se compara el resultado real de la partida con el resultado esperado y se multiplica esa diferencia por el factor K (que puede ser 10, 15 o 25) El resultado le dice cuánto cambiará su puntuación por efecto de la partida la próxima vez que se recalcule, lo que sucede cada dos meses. Si se rinde mejor de lo esperado, su puntuación aumentará y si lo hace peor de lo esperado, su puntuación disminuirá. Este es el aspecto gráfico de la Tabla de Expectativa Elo:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Así que, por ejemplo, si tiene 200 puntos más que su rival, en el gráfico (o en la web de la FIDE) puede ver que debería puntuar el 76%. Se aprecia la característica curva en S que se hace más plana en torno al 100% y al 0%, lo que indica que incluso con una ventaja de puntuación Elo de 500 o 600 puntos, no tiene garantizado ganar siempre; si se juegan diez o 20 partidas existiría alguna probabilidad de ceder al menos unas tablas. Sin embargo la curva mostrada más arriba no indica exactamente cómo funciona el sistema cuando hay grandes diferencias de puntuación. Hay una regla especial conocida como la regla de los 400 puntos que dice que cualquier diferencia de puntuación mayor de dicha cantidad será tratada como si fuera de los mencionados 400 puntos a los efectos del cálculo de puntuación. Así que la curva real debería dibujarse como sigue:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Se puede ver que dentro del entorno de los +/- 400 puntos aún mantiene una ligera curvatura, pero se nivel a de forma que nunca se tiene una puntuación prevista demás del 92% ni de menos del 8%. Esta regla especial era la de los 350 puntos, pero el límite de corte se cambió hace un par de años de 350 a 400. De manera que si se juegan 100 partidas contra alguien que tiene mil puntos menos, el sistema Elo asumirá que se debe puntuar 92/100, incluso aunque la puntuación real será sin duda mucho mejor que ese 92%. Y por lo tanto se deberían ganar un puñado de puntos por ese ejercicio.

Así que esta es la teoría que nos dice cuál es la puntuación porcentual teórica que se debería obtener según las diferencias de puntuación. ¿Qué sucede en la realidad? Gracias a los datos partida a partida facilitados por la FIDE, podemos ahora también realizar un gráfico con ellos. Siempre podíamos haber hecho esto a partir de los datos de ChessBase o TWIC, pero no disponíamos de todo el conjunto de partidas evaluadas por la FIDE a lo largo de toda la vigencia del sistema. Los resultados detallados partida por partida sólo han estado disponibles para la FIDE en los últimos años, ya que anteriormente los directores de los torneos sólo solían enviar los totales de cada participante en vez de los resultados de cada partida individual. Pero gracias a los cambios de regulación en 2006 y 2008, la FIDE ha estado recopilando los resultados partida a partida durante los últimos años y ahora podemos comenzar a ver los resultados. Los análisis que se mostrará a continuación se basan en un conjunto de 1,54 millones de partidas evaluadas jugadas entre octubre de 2007 y agosto de 2010 y representan virtualmente todo el conjunto de partidas empleadas por la FIDE para el cálculo de puntuaciones durante dicho periodo.

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Como se puede ver, los resultados reales parecen seguir en realidad la misma forma curvilínea: una línea casi recta cuando los jugadores que se enfrentan está muy próximos y que se va aplanando cerca del 100% y el 0% de puntuación. No obstante, aunque la forma General es la misma, ¿cuál es la diferencia entre los porcentajes teóricos (las líneas blancas de los gráficos anteriores) y los resultados reales (los puntos negros de este grafico)? Bueno, si se representan juntos esto es lo que verán:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Quiero llamar aquí la atención de dos aspectos principales. Se puede ver que en la parte central del gráfico (por ejemplo dentro del recuadro rojo), la línea blanca es más pronunciada que la tendencia negra. Eso significa que los favoritos según el escalafón de puntuación no obtienen resultados tan buenos como su puntuación dice. También, si miramos a los extremos, por ejemplo dentro del recuadro azul, se puede ver que debido a la regla de los 400 puntos la puntuación esperada cuando hay mucha diferencia a favor de los favoritos se iguala en el 92%, pero en realidad los claros favoritos logran puntuaciones mucho más altas que ese 92%. Vamos a ampliar esa zona enmarcada con un recuadro azul para ver los datos un poco más cerca:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Por cierto, en esta gráfica (y en las anteriores), hay un punto negro para cada posible diferencia de puntuación íntegra. Por ejemplo, de todas las partidas en las que la diferencia de puntuación era exactamente de 400 puntos (había 836), los jugadores con mayor puntuación lograron el 88.2% y así se muestra un punto negro para una "Diferencia de puntuación " de 400 y un "% resultado" de 88.2%. Y de todas las partidas en las que la diferencia de puntuación era de exactamente 401 puntos (había 789), el jugador con más puntuación lograba un marcador del 87.4%, de forma que verán un punto negro en la posición correspondiente del gráfico. De forma que aunque hay solo 376 puntos en el gráfico, en realidad representan más de 166.000 partidas.

Sería razonable pensar que el ajedrez es lo suficientemente "caótico" para que haya algún porcentaje máximo esperado (por debajo del 100%) que no se puede sobrepasar, sea cual sea la diferencia de puntuación. Pero de los datos anteriores se desprende claramente que si hay tal nivel máximo, está muy por encima del 92%. Se puede ver una tendencia clara de que no hay nivelación alguna por debajo de un resultado del 98%. Es un poco difícil decir si de hecho los datos se nivelan en algún momento, porque hay pocas partidas jugadas para cada diferencia de puntuación entera. Porque había solo 60 partidas jugadas con una diferencia de puntuación de exactamente 682, en las que el jugador más fuerte puntuó el 96.7% y solo 53 partidas jugadas con una diferencia de puntuación exacta de 700 (el jugador más fuerte logró el 98.1%) y así sucesivamente. Para visualizar realmente la tendencia, tenemos que agrupar los resultados así que tenemos menos puntos, pero que representan mayores rangos de diferencias de puntuación. También sería bueno examinar las diferencias de puntuación de más de 700. Eso conduce al siguiente gráfico, en el que cada punto representa un arco de 10 puntos Elo (en diferencia de puntuación) en vez de solo 1:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

Así que eso me dice que cuando se tiene una ventaja de puntuación de 700, 800 o incluso 900 puntos, se obtienen resultados del 98% al 100%, a pesar de que la expectativa de puntuación es de solo el 92% según la fórmula de Elo que se emplea. Así que se tiene una expectativa realista de ganar 5 o 10 puntos en su Elo cada 10 partidas que se jueguen contra ese tipo de oponente. No veo ninguna buena razón para mantener más la regla de los 400 puntos y se pueden aprovechar de ella. Veo algunas pruebas de que en lo más alto, quizás cuando se alcanza una ventaja de 800 puntos, no es razonable esperar una puntuación superior al 99%. Así que si necesitamos alguna regla de este tipo, debería ser más la regla de los 800 puntos que la regla de los 400 puntos…

Volvamos al gráfico general (el que tiene los recuadros rojo y azul) y esta vez quiero ampliar la zona roja. Aquí tienen una vista ampliada de la zona de diferencia de puntuación entre +100 y +300:

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

No importa a que parte del gráfico se mire, parece claro que la curva negra es un poco demasiado “plana” o también se podría decir que la curva blanca es un poco demasiado "inclinada". En otras palabras, los favoritos por puntuación no están logrando marcadores tan altos como deberían para estar a la altura de las expectativas y mantenerse sin perder puntuación.

Otra manera de verlo es que las puntuaciones de todos los jugadores se han estirado demasiado alejándolas de la media. Así que alguien cuya puntuación sea unos 600 puntos más alta que la del jugador medio, en realidad es más probable que sea 500 puntos más fuerte en términos de fuerza real; de forma que se podría decir igualmente que alguien que tiene 60 puntos más que el jugador medio, en realidad es más probable que sea 50 puntos más fuerte. Y en general, para dos jugadores dados que tengan una diferencia de puntuación X, su diferencia de fuerza real es más probable que sea 0,83X.

Al examinar el gráfico anterior, por ejemplo, se puede ver que en las partidas en las que el jugador más fuerte tiene una ventaja de 240 puntos (había 3.180 casos), la fórmula Elo nos dice que debería puntuar el 80%. En vez de eso, está logrando el 76%, lo que significa que realmente es 200 puntos más fuerte que su rival (en términos de la tabla Elo) Y lo mismo sucede en otras partes de la gráfica, con esa proporción 6:5. Cuando el jugador más fuerte tiene una ventaja de 180 puntos Elo, debería lograr el 73% en las partidas (había 4.642 casos) pero en vez de eso la probabilidad es del 70%, lo que significa que en realidad solo es 150 puntos más fuerte que sus rivales (en términos de la tabla Elo)

Así que hay dos características muy evidentes en esos datos; muestran que no hay un respaldo matemático para la regla de los 400 puntos y muestran que los jugadores más fuertes no están puntuando tan alto como su ventaja de puntuación indica (según la tabla Elo). Sin embargo, parece claro que la forma de la curva Elo sigue sindo buena; las puntuaciones parecen solo un poco desplazadas en el centro. ¿Así que qué sucedería su tuviésemos que prescindir de la regla de los 400 puntos y aplicásemos un factor de ajuste de 5/6 a todas las diferencias de puntuación, de forma que si alguien tiene una ventaja de 60 puntos, solo “esperásemos” que fuera 50 puntos más fuerte? ¿Coincidirían entonces los datos y las previsiones?

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

¡Vaya! ¡De hecho encaja con gran precisión! Se puede ver, por lo tanto, que la curva “logística” de Elo parece una forma adecuada de modelizar la relación entre la diferencia de puntuación y la puntuación esperada, siempre que apliquemos ese 83% como factor de compresión para las diferencias de puntuación efectivas y en tanto en cuanto descartemos la regla de los 400 puntos.

Ahora, aquellos de ustedes que hayan prestado atención a mis escritos a lo largo de los años pueden haber notado una clara contradicción entre lo que acabo de decir y lo que expuse en un relativamente conocido análisis mío de 2002, en el que sugería enérgicamente el empleo de una línea recta (en vez de una curva) para modelizar la expectativa Elo. Si se tiene una expectativa lineal, entonces realmente se necesita algo similar a la norma de los 400 puntos, pues de otro modo la línea se prolonga indefinidamente, tanto por debajo del 0% como por encima del 100%. Allá por 2002 sugería una regla de los 425 puntos, de forma que la expectativa se nivelaría en el 99,67% (o 0,33%).

¡Ahora soy nueve años más viejo y espero que al menos unos meses más sabio! En cualquier caso, solo me he dado cuenta hace poco que aquellas conclusiones de 2002 eran resultado directo de que mi conjunto de datos se concentraba solo en los jugadores más fuertes, en vez de incluir todo el rango de jugadores con puntuación. Incluso hoy, con los más recientes datos de la FIDE, podía limitar mi análisis de forma similar y llegar a conclusiones parecidas. Por ejemplo, veamos lo que sale si solo se consideran partidas disputadas entre 2007 y 2010 en las que ambos jugadores tengan por encima de 2200 puntos (y adviertan que eso significa descartar más del 80% de las partidas disponibles):

CORRECCION EN EL SISTEMA DE PUNTUACION ELO

¡De nuevo se observa esa línea recta, sin ninguna curvatura a la vista! Sin embargo, finalmente me he dado cuenta de que este es un enfoque demasiado artificial. No existe un ámbito en el que solo estén los jugadores más fuertes. Los jugadores fuertes no siempre lo fueron; fueron ascendiendo a través de los distintos niveles y casi todos ellos tuvieron en algún momento una puntuación inferior a 2200. Muchos de los actuales jugadores débiles serán jugadores fuertes en cinco o diez años. Cualquier simulación del ámbito de puntuación que haga, empleando datos históricos, debe incluir todo el entorno o me arriesgo a meterme en problemas importantes con los datos.

De hecho, ahora me doy cuenta de que cometí un error similar cuando diseñé la primera competición Kaggle para determinar una sistema de puntuación que sea el mejor a la hora de predecir los resultados futuros. En esa competición limité los datos a solo 8.000 jugadores de alto nivel y me he dado cuenta de que este era un enfoque demasiado artificial. Así que en la competición actual he incluido a todos los jugadores.

De cualquier forma, parece probable que me haya ido un poco por la tangente en los últimos párrafos, así que permítanme volver a mi asunto principal: las puntuaciones FIDE en general. Tengo mucho más que decir sobre las puntuaciones y la actual puesta en práctica del sistema de puntuación Elo por parte de la FIDE. ¡En concreto, hay muchos aspectos interesantes que he descubierto sobre jugadores de distintas edades, los diferentes factores K, la fórmula empleada para calcular la puntuación inicial de un jugador e incluso la inflación de la puntuación! De todo ello merece la pena hablar y espero poder hacerlo en un futuro próximo. En la segunda parte de esta serie, añadiré los factores K de los jugadores a la masa analítica, con algunos hallazgos sorprendentes…

Copyright Jeff Sonas / ChessBase

Fuente: chessbase.com/espanola/


Volver a la Portada de Logo Paperblog