Cómo aplicar la inteligencia artificial y la sabiduría colectiva para ganar en los pronósticos deportivos

Los seres humanos hemos enseñado a las máquinas a descubrir patrones y tendencias, que después empleamos para extraer ese conocimiento que todo conjunto de datos guarda consigo.
Hay dos métodos que permiten que una máquina aprenda a partir de un conjunto estructurado de datos. El método que clasifica a cada instancia (registro) de ese conjunto, con una etiqueta a la que se le llama clase, recibe el nombre de aprendizaje supervisado.

El aprendizaje no supervisado no requiere de una etiqueta para clasificar los registros; pero aun así es capaz de diferenciarlos, llevando a cabo una segmentación de los mismos (clustering). Este otro método reúne las instancias con características más afines dentro de un mismo grupo (cluster), al mismo tiempo que distingue a dicho grupo de los demás, basándose en las diferencias que encuentra en esas mismas características. Para los efectos de esta publicación, a esas características las llamaremos atributos.

¿Aprendizaje supervisado o no supervisado?

Hay algunos científicos de datos que han aplicado el método de aprendizaje supervisado para predecir el resultado de los partidos de fútbol [1]. La mayoría de ellos aseguran haber encontrado un modelo que puede pronosticar los resultados de dichas contiendas con una precisión hasta del 75%; pero como explico en uno de los cursos que imparto, tanto los atributos que emplean como los métodos que aplican para validar su modelo, suelen ser engañosos.

Durante el taller del módulo 6 del curso «Solución de Problemas Multidisciplinarios con Minería de Datos«, dedico una buena parte del mismo a analizar, cómo ciertos atributos (derecha) no constituyen una buena representación de la realidad (proxy). En contraste con lo que la mayoría de los aficionados al fútbol cree, los partidos jugados, la diferencia de goleo, el lugar en la tabla de posiciones, el tiempo de posesión del balón y demás atributos que supuestamente distinguen un equipo de otro, no están suficientemente correlacionados con el resultado de un juego, a saber: gana el equipo local (L), empata con su rival (E), o gana el equipo visitante (V).
El resultado de un partido de fútbol en términos de L, E o V (1X2 en otros países), es un ejemplo de lo que al principio de este ensayo definí como clase, en el contexto de un aprendizaje supervisado. Pero como demuestro en ese mismo curso, la precisión que se obtiene al aplicar una validación cruzada a los datos caracterizados por los atributos recién mencionados, no disminuye prácticamente en nada conforme se van eliminando, excepto cuando se descarta el marcador final  (pulse sobre la captura de pantalla de la izquierda para agrandarla).
Los goles anotados por el equipo local (FTHG) y las correspondientes anotaciones del visitante (FTAG), son los atributos que verdaderamente determinan el resultado de un encuentro.

El aprendizaje supervisado requiere de un proxy apropiado

Pero resulta que usted no sabe cuántos goles va a anotar cada equipo antes de que jueguen, de tal manera que tiene dos opciones: o se afana en encontrar una herramienta de minería de datos que maneje la clasificación multivariable, o bien recurre al aprendizaje no supervisado y a la sabiduría de una multitud, mejor conocida como inteligencia colectiva. Si usted pudiera estimar un marcador, valiéndose de una herramienta de minería de datos con aprendizaje supervisado y clasificación multivariable, automáticamente estaría determinando el resultado de una determinada contienda. En este caso, los dos atributos que definen el marcador pasan a ser variables de salida (un problema de dos clases).

Aun en un escenario como éste, no tendría mucho sentido echar mano de atributos como los que uno encuentra en sitios como football-data.co.uk/.
A la mejor valdría la pena probar con los que aparecen en sitios como esto.com.mx y http://mex.laliga.es/estadisticas-historicas/calendario (derecha), siempre y cuando se calculen las correlaciones entre cada uno de ellos y las que ahora pasarían a ser variables de salida.

Un aprendizaje supervisado sería factible entonces, solo si algunos de esos atributos resultaran relevantes, esto es, si existiera un proxy que guardara una alta correlación con esas variables de salida.
Por otra parte, los autores que han utilizado los conjuntos de datos publicados en el sitio football-data.co.uk, no mencionan en sus publicaciones, que no es posible conocer el valor de dichos atributos, antes de que tengan lugar las contiendas. Tal vez ese conjunto de datos pueda llegar a tener un valor muy didáctico, porque sirve para ejemplificar cómo funcionan los diferentes algoritmos de aprendizaje supervisado; pero no para determinar el resultado de las quinielas deportivas. No se puede saber cuántos disparos al marco, cuántos tiros de esquina, cuántas tarjetas amarillas y mucho menos cuántos goles va a anotar cada equipo, días antes de que enfrente a su adversario.

Un modelo de aprendizaje no supervisado sustentado en el principio de la inteligencia colectiva

Es por eso que decidí combinar las bondades ya comprobadas de la inteligencia artificial, con lo que James Surowiecki denominó sabiduría colectiva [2], cuya base científica tiene como antecedentes, ni más ni menos que la ley de los grandes números de Jacob Bernoulli (izquierda) y las interrogantes que el mismísimo Francis Galton se planteó en una ocasión, mientras visitaba una feria rural en el oeste de Inglaterra.
Durante la celebración de un concurso en el que se premiaría a los competidores que pudieran estimar con mayor precisión el peso de una res en canal, Galton promedió las opiniones de unos ochocientos apostadores.

El peso real de la res una vez sacrificada, cuenta Surowiecki, era de 1,198 libras, y el valor de la media calculada por Galton, de 1,197 libras. Este hecho, lejos de interpretarse como una casualidad, es prueba fiel de lo que una multitud puede lograr cuando se le cuestiona sobre un asunto que le llama la atención. Cuando me enteré del hallazgo de Galton y de lo que otros investigadores habían descubierto realizando experimentos similares [3], quise hacer lo propio con la sabiduría colectiva de unos trescientos alumnos del H. Colegio Militar, en la Ciudad de México.

Mientras unos colegas y yo impartíamos un seminario de tecnologías de la Información a cinco grupos de participantes, les pedí a esos jóvenes cadetes estimaran el número de lunetas de chocolate multicolor que había en un frasco grande y transparente, que días antes del seminario había yo dispuesto para tal efecto. Cada participante debía escribir su estimado en una hoja de cálculo compartida a través de Google Drive. Al final del experimento, ellos mismos calcularon la media aritmética de sus estimaciones y obtuvieron un valor muy cercano al número de lunetas que realmente había en el frasco.

Nótese que en el párrafo anterior escribí en negritas y en cursivas «muy cercano», porque es mi intención enfatizar que tales resultados son realistas. Sería muy deshonesto de mi parte afirmar que invariablemente va usted a obtener el premio mayor. Para efectos de pronosticar el resultado de una quiniela, tal vez sea suficiente con acertar al 70% de los juegos que la componen. En el curso explico cuándo conviene apostar en un concurso para aumentar las posibilidades de quedarse con la bolsa acumulada hasta ese momento.

Conviene señalar también que una cosa es obtener la media aritmética de unas trescientas u ochocientas propuestas, y otra muy diferente es obtener la quiniela que más se parece a la ganadora. Como veremos más adelante, eso se puede conseguir con inteligencia artifical.  Usted no puede obtener por corazonadas o cualquier otro medio, la media de unas chorrocientas apuestas, porque estamos hablando de una variable categórica que puede asumir los valores L, E o V. Además, son millones las combinaciones que se pueden obtener, toda vez que las quinielas suelen contener entre siete y catorce juegos (pulse en la imagen de la izquierda para ver un ejemplo de los resultados que entrega el software de minería de datos al estar pronosticando 10 juegos de la liga inglesa). Pero como dije al principio de esta entrega, los seres humanos les hemos enseñado a las máquinas cosas que muchos de nosotros a nivel individual no podríamos desempeñar. Y como yo soy una de esas personas que no podría obtener ni los centroides ni los clusters que caracterizan a una encuesta de este tipo, dejo que una máquina lo haga, procurándole las opiniones de gente muy diversa con capacidad para tomar decisiones independientes y que aun sin dominar el tema, agrega cierta sabiduría en relación con el asunto objeto de estudio.

Las cuatro premisas de la sabiduría colectiva

De acuerdo con Surowiecki, para poder confiar en el juicio de un grupo grande de personas, éste debe satisfacer las siguientes cuatro condiciones:

1) Diversidad de opinión: que la información emitida sea de carácter privado, incluso cuando la opinión corresponda a una interpretación muy alejada de la realidad (valores atípicos).
2) Independencia: que las opiniones de las personas no se vean influenciadas por las impresiones, sentimientos y/o conocimientos de quienes las rodean (interacciones horizontales, de igual a igual).
3) Descentralización: que las personas puedan especializarse y recurrir al conocimiento local. No se trata de quedar bien con alguien o de pedir la aprobación de una autoridad sobre el asunto en cuestión (interacciones verticales o jerárquicas).
4) Agregación: debe existir algún mecanismo que transforme los juicios individuales en una decisión colectiva.

En el caso de los pronósticos deportivos, la cuarta condición se satisface mediante la inteligencia artificial desplegada por un algoritmo de aprendizaje no supervisado. Para las otras tres premisas, es imprescindible seleccionar cuidadosamente el grupo objetivo y/o poner en práctica un mecanismo que garantice el cumplimiento de las mismas.

Así por ejemplo, en la captura de pantalla que aparece a la izquierda, puede usted ver lo que opiné yo en relación a los resultados de la última jornada de la liga inglesa durante la temporada 2017-18 (pulse sobre la imagen para agrandarla).
Lo que hice fue calcular los promedios de los goles que anotó cada equipo en el pasado, usando los datos que extraje del sitio soccerbase.com. Ahí puede usted encontrar estadísticas de todos los juegos de la liga inglesa (English Premier League), temporada tras temporada.

La secuecia LEELLLLLLL que obtuve fue la que aparece en el primer registro de esa hoja de Excel. Esa cadena de L´s y E´s constituye un criterio diferente al que usó un colega mío, cuando en vez del promedio, utilizó la moda para estimar los resultados de la última jornada, basándose en los marcadores registrados desde los inicos de la EPL (segundo registro de la hoja). Al ser diferentes, independientes y locales, ambos criterios están garantizando una sabiduría colectiva confiable.
Un aficionado al fútbol por su parte podría optar por marcar con una «V» el resultado de un encuentro que sabe podría estar determinado por el hecho de que un par de estrellas del equipo local están lesionadas.

Un cronista deportivo, tendría su propia estrategia en base a lo que sabe de fútbol; una ama de casa, a la mejor votaría de acuerdo con lo que ha oído en las noticias, en relación a lo que pasa en las tribunas cuando el equipo local enfrenta a un rival en un clásico.

Todos esos ejemplos cumplen con las premisas de Surowiecki, sobre todo con las dos primeras, debido a que las opiniones proceden de fuentes muy diversas y completamente autónomas.
Usted podría también opinar y proponer una quiniela diferente, o a la mejor parecida, siempre y cuando no conociera ni la mía, ni la de mi colega, ni la de los demás participantes, porque de no ser así, estaríamos incurriendo en el incumplimiento de la segunda premisa.

Y si procedemos como lo hizo Galton, es muy probable que obtengamos un excelente consenso, con la única diferencia de que ahora no se trata de una simple media aritmética, sino del pronóstico que una máquina dotada de inteligencia es capaz de descubrir, a partir de la opinión de toda esa gente tan variopinta.

Pronóstico de una quiniela del mundial de fútbol 2018 (Rusia)

En uno de los talleres del curso de minería de datos, tuve la oportunidad de comprobar la sinergia que se da entre ambos tipos de inteligencia, la artificial y la colectiva. Una vez que mis participantes comprendieron bien los fundamentos de la minería de datos y adquirieron cierta pericia en el manejo de la herramienta que habíamos venido empleando en los demás talleres del curso (WEKA), les propuse una tarea que haría las veces de proyecto terminal: pronosticar la quiniela del concurso Progol No. 1941 (derecha) que estaba promoviendo una dependencia gubernamental de mi país, a la que todos los mexicanos conocemos como «Pronósticos para la Asistencia Pública«.
La fecha de entrega de los resultados del proyecto casi coincidía con la del cierre de concurso al que estaba convocando esa institución, con miras a que cualquier ciudadano pudiera plasmar sus corazonadas y estimaciones sobre la quiniela cuyo formato he adjuntado a este párrafo.

No quisimos desaprovechar la ocasión para realizar una colecta que nos permitiera aumentar las probabilidades de ganar, echando mano de los recursos con los que contábamos en ese momento (conocimientos, herramientas, efectivo, etc.).
Amén de la motivación que implicaba la posibilidad de ganar un premio en efectivo, el objetivo del ejercicio era que los participantes aplicaran la norma CRISP-DM al «problema» que yo les había planteado.
Mi intención era que ponderaran la importancia que tenían tres aspectos de la «Solución de Problemas con Minería de Datos«:

1) La recolección de los datos (que para este caso en particular, se implementaría con encuestas que posteriormente determinarían el nivel de inteligencia colectiva)
2) El conocimiento que aporta una multitud que reune los requisitos que garantizan una sabiduría colectiva
3) La diferencia abismal que existe entre la inteligencia artificial y la intuición del ser humano (corazonadas)

Las encuestas

Este primer aspecto fue el que tomó más tiempo, debido a que no fue fácil encontrar fuentes que reflejaran «el sentir» de la gente que visita la gran cantidad de sitios web especializados en este tema tan polémico. Muchos investigadores que gustan de recoger la opinión de las redes sociales (sentiment analysis) [4], como Twitter y Facebook por ejemplo, se enfrentan con el problema de la obtención de información relevante (filtrado de la paja). Es por eso que algunos participantes prefirieron contactar gente en calles, supermercados, escuelas, restaurantes, parques, etc., y preguntarles directamente sobre lo que estimaban podía acontecer en los encuentros que componían la quiniela del concurso No. 1941 de Progol.

Otros más buscaron sitios especializados en fútbol para consensuar el sentir de la gente, sin importar si eran o no expertos en fútbol.
Terminadas las encuestas, integramos los datos que habíamos recolectado en la hoja de Excel que aparece a su derecha. Si el curso se hubiera impartido a distancia (por Skype), muy probablemente hubiéramos utilizado la hoja de cálculo de Google Drive, como lo hice con los alumnos del Colegio Militar, aprovechando las ventajas que ofrece la colaboración tipo wiki.

El conocimiento extraído de las encuestas (sabiduría colectiva)

Una vez concluida la etapa más laboriosa del proyecto, los participantes alimentaron a WEKA con los datos de la hoja de cálculo que mostré anteriormente, para someterlos posteriormente a un procesamiento que se conoce en el argot de la minería de datos como clustering, que no es otra cosa que un agrupamiento de datos. Este aspecto de la segmentación de datos es el que toma menos tiempo y es quizás el más interesante de todos. Pronto se comprenderá mejor por qué digo esto.

En la imagen adjunta muestro cómo lucía WEKA después de abrir el archivo de nuestra encuesta. Para ilustrar lo que esta herramienta y la sabiduría colectiva le estaba sugiriendo a nuestra improvisada peña (el grupo de participantes y yo), conviene analizar el diagrama de barras mostrado.
Al momento de estar escribiendo estas líneas, es un hecho que Japón empató con Senegal en el mundial de Rusia; pero el día en que deliberábamos sobre qué casilla marcar para determinar el resultado de dicha contienda, desconocíamos ese hecho.

A pesar de ello, las estadísticas insinuaban un empate (E), porque así lo había sugerido la sabiduría colectiva, con 135 votos a favor (pulse sobre la imagen imediata anterior para ver los detalles).
Antes de ordenarle a WEKA que aplicara el algoritmo de segmentación, nos anticipamos a los hechos y confirmamos lo que la sabiduría colectiva había dictaminado en relación a los demás juegos que aparecían en la quiniela, aplicando el mismo criterio que habíamos utilizado para analizar el caso de Japón vs. Senegal.

Inteligencia artificial: agregándole valor a la sabiduría colectiva

En la captura de pantalla que aparece a su derecha, muestro los resultados que obtuvieron mis participantes, una vez que aplicaron el algoritmo de segmentación a los datos de la quiniela en cuestión.
Una herramienta inteligente debería identificar como mínimo, la quiniela sugerida por la inteligencia colectiva. Cualquier otra estrategia que supere esa primera aproximación, en términos del número o porcentaje de aciertos en relación al resultado real del concurso, constituirá un valor agregado a ese nivel de inteligencia.

Ese primer nivel de inteligencia, es decir, el de la sabiduría colectiva, es el que usaremos como referencia para evaluar nuestro modelo de pronóstico, recurriendo a un análisis comparativo o benchmarking, como prefiera usted llamarle. Como se aprecia en la imagen anterior, el cluster etiquetado como #1 está representando ese primer nivel de inteligencia. Toda estrategia que no consiga aumentar ese porcentaje de referencia, no se considerará inteligencia artificial.

En la tabla adjunta muestro una versión resumida de los cinco experimentos que llevaron a cabo mis participantes, para aumentar el nivel de inteligencia de su modelo predictivo. En el segundo experimento, al aumentar a 3 el número de clusters, consiguieron un porcentaje de aciertos del 78.6%, por encima del nivel correspondiente al de la inteligencia colectiva (71.4%). Posteriormente, cuando incrementaron a 5 el número de clusters (cuarto experimento), el porcentaje de aciertos fue de 85.7%.
Nótese que si hubiéramos concursado, habríamos obtenido un envidiable tercer lugar. De haber ingresado a tiempo las combinaciones que aparecen en la tabla para un número de clusters igual a cinco, nuestra modesta peña de aficionados a la minería de datos (de fútbol no sabíamos absolutamente nada), se hubiera hecho acreedora a un premio por la cantidad de $1,894.35 por quiniela sencilla (pulse sobre la imagen de la derecha).

Inteligencia artificial vs. intuición

No se a usted, pero a mí alguna vez se me ocurrió que bajo ciertas condiciones y en ciertos entornos en donde el azar juega un papel protagónico, algunos algoritmos podrían arrojar resultados triviales. Para estar en consonancia con el tema que nos ocupa, quisiera pensar que a estas alturas del partido, usted tal vez se esté preguntando si una corazonada basada en lo dictaminado por la sabiduría colectiva (encuestas), podría equipararse o incluso superar la inteligencia alcanzada por el modelo construido por mis participantes. En caso de que no se lo haya peguntado, permítame invitarlo a realizar el siguiente ejercicio.

Sin recurrir a la tabla que presenté con anterioridad, ¿podría usted decirme cuál fue el resultado del encuentro entre Inglaterra vs. Bélgica, atendiendo únicamente al diagrama de barras adjunto?
De acuerdo con la sabiduría colectiva, cualquier mortal con sentido común habría marcado la casilla que corresponde a un empate. Sin embargo, la gráfica sugiere que vaticinar la victoria del equipo que actuaba como local (Inglaterra) también hubiera tenido mucho sentido, ¿no lo cree usted así?

Ahora por favor consulte la tabla que presenté con anterioridad o los resultados oficiales publicados en la página de Progol, y saque sus propias conclusiones.
¿Cayó usted en la cuenta de que ni la intuición ni la sabiduría colectiva pudieron acertar?
¿A quien se le ocurrió que Bélgica podía ganarle a Inglaterra?

Pues a juzgar por los hechos, todo parece indicar que fue una máquina dotada de inteligencia artificial, la responsable de los aciertos que marcaron la diferencia entre lo que una multitud sabe, y lo que puede deparar el destino. En este orden de ideas, el ser humano dispone ahora de un instrumento que le permite tomar mejores decisiones, de un conjunto de datos que pueden representar mejor la realidad de su entorno, y de un medio que puede llegar a fungir como una extensión de sus capacidades cognitivas, sin pretender sustituirlas.

Desde que tuve conocimiento de una de las frases célebres más populares de Nicolás Maquiavelo, en la que afirma «que la fortuna es juez de la mitad de nuestras acciones, pero que nos deja controlar la otra mitad, o poco menos”, estuve convencido de que el azar determina una buena parte de lo que nos acontece; pero después de los hallazgos a los que hice referencia en esta entrega, he llegado a la conclusión de que si bien es juez de la mitad de nuestras acciones, también nos deja controlar la otra mitad, o poco más.

© Sergio López González. Ing. en Informática Biomédica. 6 de Julio de 2018


REFERENCIAS

[1] Nazim Razali et al. Predicting Football Matches Results using Bayesian Networks for English Premier League (EPL).IOP Conf. Series: Materials Science and Engineering 226 (2017) 012099. International Research and Innovation Summit (IRIS2017).
[2] Surowiecki J. The Wisdom of Crowds. Anchor Books. New York
[3] Wagner & Vinaimont. Evaluating the Wisdom of Crowds. Issues in Information Systems, Volume XI, No. 1, 2010.
[4] Mustafa et al. Predicting The Cricket Match Outcome Using Crowd Opinions On Social Networks: A Comparative Study Of Machine Learning Methods. pp 63-76
[5] Herzog & Hertwig. The wisdom of ignorant crowds: Predicting sport outcomes by mere recognition. Judgment and Decision Making, Vol. 6, No. 1, February 2011, pp. 58–72
[6] Budescu & Chen: Identifying Expertise to Extract the Wisdom of Crowds. Management Science, Articles in Advance, pp. 1–14, ©2014 INFORMS
[7] Schumaker, Solieman and Chen. Sports Data Mining. Springer, 2010.

Deja un comentario