El descubrimiento acelerado de materiales, a través del aprendizaje de máquina

Un sistema de información se diseña para responder a las preguntas genéricas (queries) que sus usuarios le formulan, empleando un lenguaje de comandos tipo SQL (Structured Query Language).
Basándose en las tablas, registros (tuplas), atributos y vínculos (ligas) que conforman una base de datos relacional (izquierda), el software manipula todos esos recursos para entregar los resultados de cada consulta, en una relación (de ahí el nombre de relacional) que contiene los valores de los atributos que al usuario le interesa conocer.

Ese mismo sistema sin embargo, no será capaz de responder a preguntas con valores de atributos que no se hayan dado de alta previamente en alguna de las tablas de la base de datos en cuestión (pulse sobre la imagen de la derecha). En el mejor de los casos, podrá entregar un listado de objetos (instancias o registros) para los cuales, solo un subconjunto de valores de atributos, satisface un rango especificado por el usuario.

Tal es el caso de la base de datos de MatWeb, mediante la cual uno puede conocer las propiedades de más de 125,000 materiales, ingresando los valores mínimo y máximo de tres propiedades de un material en particular, como podrían ser las de un metal, un polímero, un fluido, etc.

Así por ejemplo, apoyándome en el sistema de información de ese mismo sitio web, pude consultar los polímeros cuya resistencia a la fatiga, su densidad y su punto de fusión, se encontraban entre las 10 y las 200,000 psi, los 0.0000820 y los 20 grs/cc y los 270 y los 3,000 °C, respectivamente (pulse sobre la imagen adjunta para ver la lista de materiales que obtuve después de realizar este ejercicio).

Características esenciales de una plataforma de materiales

A pesar de no ser una plataforma para el descubrimiento acelerado de materiales, ese sistema ha implementado una función que imita de alguna manera, una característica que en mi opinión debería incluir una plataforma de este tipo. Me estoy refiriendo a la función que en ese mismo sitio aparece como “Compare Materials” (pulse en la imagen de la derecha o vaya al sitio y realice una consulta similar a la que describí con anterioridad, para que vea cómo el comparar varios materiales, equivale a encontrar similitudes entre los mismos).

No estoy seguro si los propietarios de MatWEb implementaron esa función empleando algún tipo de correlación; pero si yo tuviera que idear un mecanismo para encontrar una similitud entre dos o más materiales en una base de datos como ésta, combinaría las técnicas del aprendizaje de máquina con la correlación de Pearson.
Ahora bien, ¿por qué alguien querría encontrar similitudes entre un conjunto de propiedades de una muestra de material, y las de uno o más de los materiales que se encuentran almacenados en una base de datos? La necesidad de encontrar un material que cumpla con ciertas especificaciones, es una razón muy poderosa para aplicar las técnicas de la inteligencia artificial, tanto de aprendizaje supervisado como de no supervisado.

Un ingeniero industrial por ejemplo, podría estar interesado en un material sustentable, con un costo de producción menor al de los que se usan normalmente, y que además de cumplir con las especificaciones mostradas en la imagen adjunta, tuviera que sujetarse a las normas que regulan la fabricación de un determinado producto (pulse sobre la imagen para ver cómo con un algoritmo tipo Bayes, la plataforma ha clasificado al material como un polímero).

De esta manera, una interfaz gráfica de usuario (IGU) como la recién mostrada, permitiría ingresar de manera muy amigable, las especificaciones de diseño de un material.
Lo interesante de recurrir a los métodos de la inteligencia artificial, en vez de a un sistema de información convencional, es que una vez clasificado el material con la mejor precisión posible, se puede subdividir más exhaustivamente (clustering) el grupo de materiales que cumplen mejor con dichas especificaciones, para finalmente hallar el material ideal, empleando una correlación.
Otra función que no debería faltar en una plataforma de materiales inteligente, es la conversión de formatos. En el sitio oficial de la Open Quantum Materials Database, usted puede descargar una base de datos de materiales de más de 563,247 instancias; pero si está planeando extraer conocimiento de una mina de datos como esa, es muy probable que tenga que convertir los archivos con extensión SQL, a un formato de valores separados por comas (CSV).

Ese es el formato por defecto que herramientas y plataformas como Orange, Knime, WEKA y RapidMiner, están usando como entrada para procesar los datos de sus usuarios, y es con toda seguridad, el que deben estar usando los creadores del “Genoma del Polímero“, una plataforma dedicada a acelerar el diseño y el descubrimiento de polímeros (puede pulsar sobre la imagen de la derecha para ver el diseño de su interfaz de usuario, o bien ir directamente al sitio para predecir las propiedades de más de 800 polímeros).

¿Qué queremos descubrir?

El propósito de una plataforma con las características mencionadas anteriormente, consistirá en descubrir tanto nuevas aplicaciones como combinaciones de materiales nunca antes vistas.
Habrá por ejemplo quien esté interesado en combinar ciertas cantidades de etanol con gasolina, con la intención de mejorar las propiedades de salida de una máquina, como podrían ser la potencia y el par mecánico (torque).

Otros investigadores preferirán concentrar sus esfuerzos en encontrar por ejemplo, un polímero que además de proteger de la lluvia, pueda también absorber los rayos ultravioleta. Este segundo escenario se parece mucho a lo que sucede en el campo de la extracción de texto (text mining) biomédico, en donde el principal objetivo es develar cuándo un medicamento puede ser usado para tratar una enfermedad diferente, de aquella para la que originalmente fue concebido.

En el caso de la ciencia de materiales, al igual que las sustancias activas de las medicinas, el combinar propiedades de diferentes materiales, podría dar lugar a una nueva aplicación, como sería el  caso de descubrir que una combinación de aceites de origen vegetal y animal, podría usarse para disminuir el costo de fabricación de un transformador de alto voltaje, que normalmente se construye con aceite de origen mineral.
El ampliar los tipos de materiales dentro de una plataforma para el descubrimiento acelerado de materiales, aumenta las posibilidades de encontrar nuevas aplicaciones, porque uno no sabe de antemano lo que le espera, cuando a través de un aprendizaje no supervisado (clustering) por ejemplo, descubre un patrón o una tendencia nunca antes vista.

El Biodiésel: una interesante área de aplicación

Usted podría hacer uso del sistema de información del sitio MatWeb para encontrar el material idóneo, esto es, aquel que satisface mejor sus requerimientos. Pero si su objetivo fuera descubrir un producto sustentable, compuesto de varios materiales y cuyo costo de producción tuviera que ser inferior al de los materiales convencionales, probablemente ese sistema de información ya no le resultaría tan atractivo. Estamos hablando de un laboratorio con un alto grado de automatización.

Con un laboratorio virtual usted estaría en posibilidad de acelerar el proceso y realizar un gran número de experimentos, hasta encontrar ese producto tan anhelado. ¿Y por qué la prisa? Ilustremos este sentido de urgencia con un ejemplo.
Cuando se vive en un país que a pesar de producir y exportar petróleo tiene que importar gasolina para seguir impulsando una gran parte de sus sistemas de transporte, en donde la producción agrícola es rica en jatropha curcas, se desperdicia mucho aceite vegetal residual, se produce aceite de ricino y en donde abundan las grasas animales y los residuos agrícolas [1], resulta imprescindible recurrir urgentemente a fuentes alternativas de energía que compitan con el diésel convencional y la gasolina importada.

El biodiésel representa entonces una de tantas aplicaciones y una fuente de energía alternativa bastante atractiva. En tanto exista un “laboratorio virtual” para realizar experimentos con muestras de diversas combinaciones  de ésteres de ácidos grasos, como los derivados de la jatropha, el coco, la palma, la soya y de otros más con propiedades similares a las mostradas en las imágenes adjuntas, siempre existirá la posibilidad de encontrar patrones (pulse sobre las capturas de pantalla para agrandarlas) .
No obstante, las 10 muestras que aparecen en ambas imágenes no podrían usarse para entrenar al modelo predictivo final, sino más bien para probarlo, ya que una cantidad de muestras así de pequeña, no sería suficiente para conseguir que una máquina aprendiera a clasificar las instancias que estaríamos pretendiendo analizar posteriormente. Si queremos entrenar bien a una máquina, procuraremos que el número inicial de muestras sea del orden de unas cuantas centenas, pues solo así lograríamos aumentar la precisión del modelo. Sin embargo, se necesita un algoritmo para predecir los valores de la clase o variable de salida, que en este caso está representado por el valor del yodo IV (pulse sobre la imagen de la derecha para agrandarla).

Con un algoritmo inspirado en el principio de operación de las redes neuronales artificiales (RNAs), nuestro modelo de extracción de conocimiento tendrá que calcular los valores de la clase en función de sus variables de entrada: las propiedades C8:0 en %, C10:0 en %, C12:0 en % y así sucesivamente hasta llegar a la glicerina en el archivo de Excel recién mostrado. En conformidad con lo anterior, para una aplicación orientada al biodiésel, nuestra plataforma quedaría implementada,  entre otras cosas, por un modelo híbrido de red neuronal artificial.

Aprendizaje supervisado: acelerando la clasificación con un algoritmo de red neuronal

De acuerdo con lo dicho hasta aquí, entre mayor diversidad de materiales soporte nuestra plataforma, mayores serán las oportunidades de descubrir nuevas aplicaciones y/o combinaciones de materiales, y entre mayor sea el número de experimentos, más rápido encontraremos esa fuente de energía alternativa.
Acelerar el descubrimiento implica acortar el tiempo dedicado al cálculo de las variables de salida. Pero como lo que rige para los biocombustibles no necesariamente es válido para los polímeros, los metales y los materiales cerámicos, no se puede aplicar un prototipo del biodiésel por ejemplo, para predecir las propiedades de esos otros materiales.

Pero lo que sí se ha hecho ([2], [3], [4]) es aplicar el algoritmo de redes neuronales de Levenberg Maquardt para predecir el valor del yodo de un compuesto de biodiésel (IV), para predecir después con ese mismo algoritmo, la viscosidad cinemática, el número de cetano y la estabilidad oxidativa de otros compuestos de biodiésel. Un tratamiento similar podría dársele a los demás tipos de materiales.

Continuando con el ejemplo del biodiésel, si varios autores (ob cit.) ya demostraron que el algoritmo de red neuronal con propagación de error hacia atrás, genera coeficientes de correlación entre 0.96 y 0.99, creo que tiene mucho sentido aprovechar sus hallazgos y no desperdiciar el tiempo tratando de hallar un algoritmo que supere dichas cifras. Sucede que los métodos convencionales para estimar las propiedades del diésel, como la técnica de espectroscopía de infrarrojo cercano (NIR), demandan mucho tiempo de cálculo y por lo mismo resultan muy costosos.

Una herramienta como MatLab o mejor aún, una plataforma de materiales dotada de inteligencia artificial, podría simplificar mucho el trabajo y acelerar el proceso.
En lo que sigue supondré que el lector está familiarizado con los aspectos clave de la minería de datos y la manera en la que aprende una máquina. Una opción para comprender mejor los siguientes apartados, es consultar el ensayo que lleva por nombre: “Minería de datos clínicos como apoyo en el diagnóstico médico: herramientas y cursos“, también de mi autoría. Para una comprensión cabal de lo discutido hasta aquí y de los apartados que siguen, podría usted considerar la posibilidad de tomar el curso “Solución de Problemas Multidisciplinarios con Minería de Datos“.

Análisis de tendencias por medio de la segmentación (clustering)

Cualquiera que haya sido el algoritmo empleado, una vez determinados los valores de las propiedades de salida con tal o cual algoritmo, solo restaría ingresar a la plataforma las instancias así obtenidas, a fin de detectar similitudes entre materiales.
De acuerdo con lo que planteé en el apartado “Características esenciales de una plataforma de materiales”, estaríamos descubriendo el material o las combinaciones de materiales que mejor satisfacen una determinada necesidad.

Un problema muy común que se presenta sin embargo, es el no contar con los valores de algunas propiedades, ya sea de entrada o de salida. En tales condiciones, desconfiaríamos de las respuestas de la plataforma. Aún así, todavía podríamos apelar a la segmentación para observar los valores de los centroides asociados a las propiedades de cada uno de los grupos identificados por la plataforma. Retomando el ejemplo del aceite de un transformador de alta tensión, si nuestra prioridad fuera descubrir un aceite con un mínimo de humedad, analizaríamos el centroide asociado a esa propiedad en cada grupo y seleccionaríamos aquel con el valor más próximo al valor objetivo. Los demás centroides los utilizaríamos para postular a uno de esos materiales, como mejor candidato a usar en el transformador. Cuando se domina el campo de una especialidad, la segmentación resulta muy útil para detectar tendencias que podrían estar insinuando una nueva manera de aprovechar un material.

Seleccionando el modelo óptimo: dimensionalidad y precisión

Un modelo se optimiza evaluando la precisión de un algoritmo y realizando una selección muy cuidadosa de sus atributos (variables o propiedades) de entrada. Los expertos en ciencias de materiales llaman a esta selección reducción de la dimensionalidad o reducción de dimensiones. La forma más habitual de llevar a cabo esta última tarea es por medio de correlaciones. Para reducir el número de atributos recomiendo aplicar tres tipos de correlaciones y luego promediar sus coeficientes para obtener un criterio de selección sin sesgos.

Tanto MatLab como WEKA permiten correlacionar cada una de las variables de entrada con la de salida, empleando varios criterios. En el campo de la minería de datos clínicos he obtenido excelentes resultados con WEKA, recurriendo al coeficiente de Pearson, la tasa de ganancia y la ganancia de información (para otros criterios diferentes al de promediación de correlaciones, véase “La informática biomédica en el diagnóstico y la prevención de la esquizofrenia y otros trastornos de la personalidad“)

La reducción de atributos de entrada no obedece exclusivamente a su repercusión en el tiempo de procesamiento, sino también a la influencia que ejercen sobre la variable de salida. Al conjunto de atributos resultante se le conoce como proxy. Como explico en el curso (pulse sobre el mapa mental de la izquierda), entre más próximo a la unidad se encuentre el coeficiente de correlación entre el atributo en cuestión (o el promedio de varios de ellos) y la clase, más influirá el atributo en el comportamiento de ésta.

Así, el proxy es aquel que mejor representa los hechos y por ende, el que mejores precisiones arroja.
Un modelo optimizado es el producto de haber aplicado al proxy, aquel algoritmo que durante el proceso de selección resultó ser el de mayor precisión. La selección del modelo comprende tres etapas. La primera consiste en aplicar varios algoritmos a un conjunto de datos de entrenamiento con el proxy previamente determinado. Durante la fase de validación, los mismos algoritmos que se emplearon durante la etapa anterior, se aplican a diferentes subconjuntos de los datos de entrenamiento, a fin de evaluar qué tanto se está equivocando cada uno de los algoritmos (se trata típicamente de una validación cruzada). La tercera etapa es la de prueba, en la que se obtiene la precisión de cada algoritmo, utilizando los mismos elementos que en las etapas anteriores, con excepción del conjunto de datos, que esta vez corresponde a uno totalmente ajeno a los anteriores (como las 10 muestras de ésteres metílicos que utilicé para ilustrar la aplicación del biodiésel).

La precisión de un modelo la medimos con la fracción absoluta de la varianza (R²), el error cuadrático medio (RMS) y el error absoluto medio en porciento (MAPE) (pulse sobre la imagen de la derecha para ver los detalles). En esa gráfica muestro cómo un algoritmo de red neuronal tipo perceptrón de dos capas, con 4 variables de entrada, 3 neuronas en la primera capa escondida  y una neurona en la segunda, ajusta una recta de la foma E=mx+b, a un conjunto de puntos que se han obtenido a través de una serie de mediciones experimentales (eje de las x).

La variable analizada en este ejemplo es la estabilidad oxidativa, con predicciones realizadas a partir de un total de 70 muestras de biodiésel, con características similares a las especificadas en un apartado anterior. Para la fase de entrenamiento se destinaron 39 muestras, para la de validación 10 y para la de prueba se asignaron 21, obteniéndose en cada una de ellas, valores de R² iguales a 0.9306, 0.9733 y  0.9544, respectivamente. Esto significa que el modelo empleado ha cumplido satisfactoriamente con su cometido, y que no es necesario recolectar un volumen extremadamente grande de datos (big data) para otener un modelo de alta precisión.

Conclusiones

Para aumentar las posibilidades de descubrir fuentes de energía más limpias y económicas que las convencionales, se requiere que una plataforma dotada de inteligencia artificial, acelere el proceso de predicción de variables, de reducción de dimensiones y de detección de similitudes entre materiales. Para ello, es imperativo diversificar lo más posible el tipo de materiales a considerar, a fin de aumentar la cantidad de experimentos y las oportunidades de conseguir el éxito en cada uno de ellos.

Si bien un modelo no funciona para todos los tipos de materiales, quizás convenga analizar más a fondo las propiedades de cada grupo de materiales, aplicando las técnicas de segmentación de manera más intensiva, con miras a realizar una reclasificación que permita estandarizar las estructuras de datos de materiales que hasta ahora se han estado usando.

En el mejor de los casos, esa reclasificación permitiría encontrar un modelo para cada grupo de materiales, que a su vez fungiría como instrumento de predicción para estimar las propiedades de los materiales dentro de los grupos así definidos. En caso de que esto no fuera posible, siempre se podrá implementar una interfaz gráfica de usuario que permita seleccionar en una caja de diálogo, el algoritmo y los parámetros que a juicio del usuario producirán los mejores resultados (como lo hacen WEKA, RapidMiner, MatLab y otras plataformas de minería de datos).

Agradecimientos

No podría dejar de expresar mi agradecimiento a los investigadores Francisco López González, Alberto Reyes Ballesteros, Alfredo Espinosa Reza y Francisco Poujol Galván, del Instituto Nacional de Electricidad y Energías Limpias (INEEL), por haberme invitado a participar en la encomienda que el Consejo Nacional de Ciencia y Tecnología (CONACYT) les asignará, toda vez que su propuesta sea aprobada de conformidad con su convocatoria: “Proyectos de desarrollo de plataformas de descubrimiento acelerado de materiales para energía, Cooperación con universidades en Canadá y Estados Unidos”.

Esperando que la presente haga las veces de “granito de arena” en la elaboración de dicha propuesta, aprovecho la ocasión para desearles la mejor de las suertes, para que este esfuerzo que ahora estamos realizando, se materialice en una plataforma de inagotables fuentes de energía cien por ciento sustentables.

© Ing. Sergio López González 3 de  Agosto de 2018


REFERENCIAS

[1] Montero G. & Stoytcheva M. Biodiesel – Quality, Emissions and By-Products. Published by InTech, Croatia. 2011
[2]De Sousa et al. Application and Assessment of Artificial Neural Networks for Biodiesel Iodine Value Prediction. International Journal of Computer and Information Engineering. Vol:9, No:5, 2015.
[3] Jahirul et al. The Use of Artificial Neural Networks for Identifying Sustainable Biodiesel Feedstocks. Energies 2013, 6, 3764-3806; doi:10.3390/en6083764
[4] Jahirul et al., An Artificial Neutral Network (ANN) Model for Predicting Biodiesel Kinetic Viscosity as a Function of Temperature and Chemical Compositions. 20th International Congress on Modelling and Simulation, Adelaide, Australia, 1–6 December 2013.
[5] Oliveira & Amorim. Applications of Artificial Neural Networks in Biofuels. INTECH. DOI: 10.5772/intechopen.70691

Anuncios

Cómo aplicar la inteligencia artificial y la sabiduría colectiva para ganar en los pronósticos deportivos

Los seres humanos hemos enseñado a las máquinas a descubrir patrones y tendencias, que después empleamos para extraer ese conocimiento que todo conjunto de datos guarda consigo.
Hay dos métodos que permiten que una máquina aprenda a partir de un conjunto estructurado de datos. El método que clasifica a cada instancia (registro) de ese conjunto, con una etiqueta a la que se le llama clase, recibe el nombre de aprendizaje supervisado.

El aprendizaje no supervisado no requiere de una etiqueta para clasificar los registros; pero aun así es capaz de diferenciarlos, llevando a cabo una segmentación de los mismos (clustering). Este otro método reúne las instancias con características más afines dentro de un mismo grupo (cluster), al mismo tiempo que distingue a dicho grupo de los demás, basándose en las diferencias que encuentra en esas mismas características. Para los efectos de esta publicación, a esas características las llamaremos atributos.

¿Aprendizaje supervisado o no supervisado?

Hay algunos científicos de datos que han aplicado el método de aprendizaje supervisado para predecir el resultado de los partidos de fútbol [1]. La mayoría de ellos aseguran haber encontrado un modelo que puede pronosticar los resultados de dichas contiendas con una precisión hasta del 75%; pero como explico en uno de los cursos que imparto, tanto los atributos que emplean como los métodos que aplican para validar su modelo, suelen ser engañosos.

Durante el taller del módulo 6 del curso “Solución de Problemas Multidisciplinarios con Minería de Datos“, dedico una buena parte del mismo a analizar, cómo ciertos atributos (derecha) no constituyen una buena representación de la realidad (proxy). En contraste con lo que la mayoría de los aficionados al fútbol cree, los partidos jugados, la diferencia de goleo, el lugar en la tabla de posiciones, el tiempo de posesión del balón y demás atributos que supuestamente distinguen un equipo de otro, no están suficientemente correlacionados con el resultado de un juego, a saber: gana el equipo local (L), empata con su rival (E), o gana el equipo visitante (V).
El resultado de un partido de fútbol en términos de L, E o V (1X2 en otros países), es un ejemplo de lo que al principio de este ensayo definí como clase, en el contexto de un aprendizaje supervisado. Pero como demuestro en ese mismo curso, la precisión que se obtiene al aplicar una validación cruzada a los datos caracterizados por los atributos recién mencionados, no disminuye prácticamente en nada conforme se van eliminando, excepto cuando se descarta el marcador final  (pulse sobre la captura de pantalla de la izquierda para agrandarla).
Los goles anotados por el equipo local (FTHG) y las correspondientes anotaciones del visitante (FTAG), son los atributos que verdaderamente determinan el resultado de un encuentro.

El aprendizaje supervisado requiere de un proxy apropiado

Pero resulta que usted no sabe cuántos goles va a anotar cada equipo antes de que jueguen, de tal manera que tiene dos opciones: o se afana en encontrar una herramienta de minería de datos que maneje la clasificación multivariable, o bien recurre al aprendizaje no supervisado y a la sabiduría de una multitud, mejor conocida como inteligencia colectiva. Si usted pudiera estimar un marcador, valiéndose de una herramienta de minería de datos con aprendizaje supervisado y clasificación multivariable, automáticamente estaría determinando el resultado de una determinada contienda. En este caso, los dos atributos que definen el marcador pasan a ser variables de salida (un problema de dos clases).

Aun en un escenario como éste, no tendría mucho sentido echar mano de atributos como los que uno encuentra en sitios como football-data.co.uk/.
A la mejor valdría la pena probar con los que aparecen en sitios como esto.com.mx y http://mex.laliga.es/estadisticas-historicas/calendario (derecha), siempre y cuando se calculen las correlaciones entre cada uno de ellos y las que ahora pasarían a ser variables de salida.

Un aprendizaje supervisado sería factible entonces, solo si algunos de esos atributos resultaran relevantes, esto es, si existiera un proxy que guardara una alta correlación con esas variables de salida.
Por otra parte, los autores que han utilizado los conjuntos de datos publicados en el sitio football-data.co.uk, no mencionan en sus publicaciones, que no es posible conocer el valor de dichos atributos, antes de que tengan lugar las contiendas. Tal vez ese conjunto de datos pueda llegar a tener un valor muy didáctico, porque sirve para ejemplificar cómo funcionan los diferentes algoritmos de aprendizaje supervisado; pero no para determinar el resultado de las quinielas deportivas. No se puede saber cuántos disparos al marco, cuántos tiros de esquina, cuántas tarjetas amarillas y mucho menos cuántos goles va a anotar cada equipo, días antes de que enfrente a su adversario.

Un modelo de aprendizaje no supervisado sustentado en el principio de la inteligencia colectiva

Es por eso que decidí combinar las bondades ya comprobadas de la inteligencia artificial, con lo que James Surowiecki denominó sabiduría colectiva [2], cuya base científica tiene como antecedentes, ni más ni menos que la ley de los grandes números de Jacob Bernoulli (izquierda) y las interrogantes que el mismísimo Francis Galton se planteó en una ocasión, mientras visitaba una feria rural en el oeste de Inglaterra.
Durante la celebración de un concurso en el que se premiaría a los competidores que pudieran estimar con mayor precisión el peso de una res en canal, Galton promedió las opiniones de unos ochocientos apostadores.

El peso real de la res una vez sacrificada, cuenta Surowiecki, era de 1,198 libras, y el valor de la media calculada por Galton, de 1,197 libras. Este hecho, lejos de interpretarse como una casualidad, es prueba fiel de lo que una multitud puede lograr cuando se le cuestiona sobre un asunto que le llama la atención. Cuando me enteré del hallazgo de Galton y de lo que otros investigadores habían descubierto realizando experimentos similares [3], quise hacer lo propio con la sabiduría colectiva de unos trescientos alumnos del H. Colegio Militar, en la Ciudad de México.

Mientras unos colegas y yo impartíamos un seminario de tecnologías de la Información a cinco grupos de participantes, les pedí a esos jóvenes cadetes estimaran el número de lunetas de chocolate multicolor que había en un frasco grande y transparente, que días antes del seminario había yo dispuesto para tal efecto. Cada participante debía escribir su estimado en una hoja de cálculo compartida a través de Google Drive. Al final del experimento, ellos mismos calcularon la media aritmética de sus estimaciones y obtuvieron un valor muy cercano al número de lunetas que realmente había en el frasco.

Nótese que en el párrafo anterior escribí en negritas y en cursivas “muy cercano”, porque es mi intención enfatizar que tales resultados son realistas. Sería muy deshonesto de mi parte afirmar que invariablemente va usted a obtener el premio mayor. Para efectos de pronosticar el resultado de una quiniela, tal vez sea suficiente con acertar al 70% de los juegos que la componen. En el curso explico cuándo conviene apostar en un concurso para aumentar las posibilidades de quedarse con la bolsa acumulada hasta ese momento.

Conviene señalar también que una cosa es obtener la media aritmética de unas trescientas u ochocientas propuestas, y otra muy diferente es obtener la quiniela que más se parece a la ganadora. Como veremos más adelante, eso se puede conseguir con inteligencia artifical.  Usted no puede obtener por corazonadas o cualquier otro medio, la media de unas chorrocientas apuestas, porque estamos hablando de una variable categórica que puede asumir los valores L, E o V. Además, son millones las combinaciones que se pueden obtener, toda vez que las quinielas suelen contener entre siete y catorce juegos (pulse en la imagen de la izquierda para ver un ejemplo de los resultados que entrega el software de minería de datos al estar pronosticando 10 juegos de la liga inglesa). Pero como dije al principio de esta entrega, los seres humanos les hemos enseñado a las máquinas cosas que muchos de nosotros a nivel individual no podríamos desempeñar. Y como yo soy una de esas personas que no podría obtener ni los centroides ni los clusters que caracterizan a una encuesta de este tipo, dejo que una máquina lo haga, procurándole las opiniones de gente muy diversa con capacidad para tomar decisiones independientes y que aun sin dominar el tema, agrega cierta sabiduría en relación con el asunto objeto de estudio.

Las cuatro premisas de la sabiduría colectiva

De acuerdo con Surowiecki, para poder confiar en el juicio de un grupo grande de personas, éste debe satisfacer las siguientes cuatro condiciones:

1) Diversidad de opinión: que la información emitida sea de carácter privado, incluso cuando la opinión corresponda a una interpretación muy alejada de la realidad (valores atípicos).
2) Independencia: que las opiniones de las personas no se vean influenciadas por las impresiones, sentimientos y/o conocimientos de quienes las rodean (interacciones horizontales, de igual a igual).
3) Descentralización: que las personas puedan especializarse y recurrir al conocimiento local. No se trata de quedar bien con alguien o de pedir la aprobación de una autoridad sobre el asunto en cuestión (interacciones verticales o jerárquicas).
4) Agregación: debe existir algún mecanismo que transforme los juicios individuales en una decisión colectiva.

En el caso de los pronósticos deportivos, la cuarta condición se satisface mediante la inteligencia artificial desplegada por un algoritmo de aprendizaje no supervisado. Para las otras tres premisas, es imprescindible seleccionar cuidadosamente el grupo objetivo y/o poner en práctica un mecanismo que garantice el cumplimiento de las mismas.

Así por ejemplo, en la captura de pantalla que aparece a la izquierda, puede usted ver lo que opiné yo en relación a los resultados de la última jornada de la liga inglesa durante la temporada 2017-18 (pulse sobre la imagen para agrandarla).
Lo que hice fue calcular los promedios de los goles que anotó cada equipo en el pasado, usando los datos que extraje del sitio soccerbase.com. Ahí puede usted encontrar estadísticas de todos los juegos de la liga inglesa (English Premier League), temporada tras temporada.

La secuecia LEELLLLLLL que obtuve fue la que aparece en el primer registro de esa hoja de Excel. Esa cadena de L´s y E´s constituye un criterio diferente al que usó un colega mío, cuando en vez del promedio, utilizó la moda para estimar los resultados de la última jornada, basándose en los marcadores registrados desde los inicos de la EPL (segundo registro de la hoja). Al ser diferentes, independientes y locales, ambos criterios están garantizando una sabiduría colectiva confiable.
Un aficionado al fútbol por su parte podría optar por marcar con una “V” el resultado de un encuentro que sabe podría estar determinado por el hecho de que un par de estrellas del equipo local están lesionadas.

Un cronista deportivo, tendría su propia estrategia en base a lo que sabe de fútbol; una ama de casa, a la mejor votaría de acuerdo con lo que ha oído en las noticias, en relación a lo que pasa en las tribunas cuando el equipo local enfrenta a un rival en un clásico.

Todos esos ejemplos cumplen con las premisas de Surowiecki, sobre todo con las dos primeras, debido a que las opiniones proceden de fuentes muy diversas y completamente autónomas.
Usted podría también opinar y proponer una quiniela diferente, o a la mejor parecida, siempre y cuando no conociera ni la mía, ni la de mi colega, ni la de los demás participantes, porque de no ser así, estaríamos incurriendo en el incumplimiento de la segunda premisa.

Y si procedemos como lo hizo Galton, es muy probable que obtengamos un excelente consenso, con la única diferencia de que ahora no se trata de una simple media aritmética, sino del pronóstico que una máquina dotada de inteligencia es capaz de descubrir, a partir de la opinión de toda esa gente tan variopinta.

Pronóstico de una quiniela del mundial de fútbol 2018 (Rusia)

En uno de los talleres del curso de minería de datos, tuve la oportunidad de comprobar la sinergia que se da entre ambos tipos de inteligencia, la artificial y la colectiva. Una vez que mis participantes comprendieron bien los fundamentos de la minería de datos y adquirieron cierta pericia en el manejo de la herramienta que habíamos venido empleando en los demás talleres del curso (WEKA), les propuse una tarea que haría las veces de proyecto terminal: pronosticar la quiniela del concurso Progol No. 1941 (derecha) que estaba promoviendo una dependencia gubernamental de mi país, a la que todos los mexicanos conocemos como “Pronósticos para la Asistencia Pública“.
La fecha de entrega de los resultados del proyecto casi coincidía con la del cierre de concurso al que estaba convocando esa institución, con miras a que cualquier ciudadano pudiera plasmar sus corazonadas y estimaciones sobre la quiniela cuyo formato he adjuntado a este párrafo.

No quisimos desaprovechar la ocasión para realizar una colecta que nos permitiera aumentar las probabilidades de ganar, echando mano de los recursos con los que contábamos en ese momento (conocimientos, herramientas, efectivo, etc.).
Amén de la motivación que implicaba la posibilidad de ganar un premio en efectivo, el objetivo del ejercicio era que los participantes aplicaran la norma CRISP-DM al “problema” que yo les había planteado.
Mi intención era que ponderaran la importancia que tenían tres aspectos de la “Solución de Problemas con Minería de Datos“:

1) La recolección de los datos (que para este caso en particular, se implementaría con encuestas que posteriormente determinarían el nivel de inteligencia colectiva)
2) El conocimiento que aporta una multitud que reune los requisitos que garantizan una sabiduría colectiva
3) La diferencia abismal que existe entre la inteligencia artificial y la intuición del ser humano (corazonadas)

Las encuestas

Este primer aspecto fue el que tomó más tiempo, debido a que no fue fácil encontrar fuentes que reflejaran “el sentir” de la gente que visita la gran cantidad de sitios web especializados en este tema tan polémico. Muchos investigadores que gustan de recoger la opinión de las redes sociales (sentiment analysis) [4], como Twitter y Facebook por ejemplo, se enfrentan con el problema de la obtención de información relevante (filtrado de la paja). Es por eso que algunos participantes prefirieron contactar gente en calles, supermercados, escuelas, restaurantes, parques, etc., y preguntarles directamente sobre lo que estimaban podía acontecer en los encuentros que componían la quiniela del concurso No. 1941 de Progol.

Otros más buscaron sitios especializados en fútbol para consensuar el sentir de la gente, sin importar si eran o no expertos en fútbol.
Terminadas las encuestas, integramos los datos que habíamos recolectado en la hoja de Excel que aparece a su derecha. Si el curso se hubiera impartido a distancia (por Skype), muy probablemente hubiéramos utilizado la hoja de cálculo de Google Drive, como lo hice con los alumnos del Colegio Militar, aprovechando las ventajas que ofrece la colaboración tipo wiki.

El conocimiento extraído de las encuestas (sabiduría colectiva)

Una vez concluida la etapa más laboriosa del proyecto, los participantes alimentaron a WEKA con los datos de la hoja de cálculo que mostré anteriormente, para someterlos posteriormente a un procesamiento que se conoce en el argot de la minería de datos como clustering, que no es otra cosa que un agrupamiento de datos. Este aspecto de la segmentación de datos es el que toma menos tiempo y es quizás el más interesante de todos. Pronto se comprenderá mejor por qué digo esto.

En la imagen adjunta muestro cómo lucía WEKA después de abrir el archivo de nuestra encuesta. Para ilustrar lo que esta herramienta y la sabiduría colectiva le estaba sugiriendo a nuestra improvisada peña (el grupo de participantes y yo), conviene analizar el diagrama de barras mostrado.
Al momento de estar escribiendo estas líneas, es un hecho que Japón empató con Senegal en el mundial de Rusia; pero el día en que deliberábamos sobre qué casilla marcar para determinar el resultado de dicha contienda, desconocíamos ese hecho.

A pesar de ello, las estadísticas insinuaban un empate (E), porque así lo había sugerido la sabiduría colectiva, con 135 votos a favor (pulse sobre la imagen imediata anterior para ver los detalles).
Antes de ordenarle a WEKA que aplicara el algoritmo de segmentación, nos anticipamos a los hechos y confirmamos lo que la sabiduría colectiva había dictaminado en relación a los demás juegos que aparecían en la quiniela, aplicando el mismo criterio que habíamos utilizado para analizar el caso de Japón vs. Senegal.

Inteligencia artificial: agregándole valor a la sabiduría colectiva

En la captura de pantalla que aparece a su derecha, muestro los resultados que obtuvieron mis participantes, una vez que aplicaron el algoritmo de segmentación a los datos de la quiniela en cuestión.
Una herramienta inteligente debería identificar como mínimo, la quiniela sugerida por la inteligencia colectiva. Cualquier otra estrategia que supere esa primera aproximación, en términos del número o porcentaje de aciertos en relación al resultado real del concurso, constituirá un valor agregado a ese nivel de inteligencia.

Ese primer nivel de inteligencia, es decir, el de la sabiduría colectiva, es el que usaremos como referencia para evaluar nuestro modelo de pronóstico, recurriendo a un análisis comparativo o benchmarking, como prefiera usted llamarle. Como se aprecia en la imagen anterior, el cluster etiquetado como #1 está representando ese primer nivel de inteligencia. Toda estrategia que no consiga aumentar ese porcentaje de referencia, no se considerará inteligencia artificial.

En la tabla adjunta muestro una versión resumida de los cinco experimentos que llevaron a cabo mis participantes, para aumentar el nivel de inteligencia de su modelo predictivo. En el segundo experimento, al aumentar a 3 el número de clusters, consiguieron un porcentaje de aciertos del 78.6%, por encima del nivel correspondiente al de la inteligencia colectiva (71.4%). Posteriormente, cuando incrementaron a 5 el número de clusters (cuarto experimento), el porcentaje de aciertos fue de 85.7%.
Nótese que si hubiéramos concursado, habríamos obtenido un envidiable tercer lugar. De haber ingresado a tiempo las combinaciones que aparecen en la tabla para un número de clusters igual a cinco, nuestra modesta peña de aficionados a la minería de datos (de fútbol no sabíamos absolutamente nada), se hubiera hecho acreedora a un premio por la cantidad de $1,894.35 por quiniela sencilla (pulse sobre la imagen de la derecha).

Inteligencia artificial vs. intuición

No se a usted, pero a mí alguna vez se me ocurrió que bajo ciertas condiciones y en ciertos entornos en donde el azar juega un papel protagónico, algunos algoritmos podrían arrojar resultados triviales. Para estar en consonancia con el tema que nos ocupa, quisiera pensar que a estas alturas del partido, usted tal vez se esté preguntando si una corazonada basada en lo dictaminado por la sabiduría colectiva (encuestas), podría equipararse o incluso superar la inteligencia alcanzada por el modelo construido por mis participantes. En caso de que no se lo haya peguntado, permítame invitarlo a realizar el siguiente ejercicio.

Sin recurrir a la tabla que presenté con anterioridad, ¿podría usted decirme cuál fue el resultado del encuentro entre Inglaterra vs. Bélgica, atendiendo únicamente al diagrama de barras adjunto?
De acuerdo con la sabiduría colectiva, cualquier mortal con sentido común habría marcado la casilla que corresponde a un empate. Sin embargo, la gráfica sugiere que vaticinar la victoria del equipo que actuaba como local (Inglaterra) también hubiera tenido mucho sentido, ¿no lo cree usted así?

Ahora por favor consulte la tabla que presenté con anterioridad o los resultados oficiales publicados en la página de Progol, y saque sus propias conclusiones.
¿Cayó usted en la cuenta de que ni la intuición ni la sabiduría colectiva pudieron acertar?
¿A quien se le ocurrió que Bélgica podía ganarle a Inglaterra?

Pues a juzgar por los hechos, todo parece indicar que fue una máquina dotada de inteligencia artificial, la responsable de los aciertos que marcaron la diferencia entre lo que una multitud sabe, y lo que puede deparar el destino. En este orden de ideas, el ser humano dispone ahora de un instrumento que le permite tomar mejores decisiones, de un conjunto de datos que pueden representar mejor la realidad de su entorno, y de un medio que puede llegar a fungir como una extensión de sus capacidades cognitivas, sin pretender sustituirlas.

Desde que tuve conocimiento de una de las frases célebres más populares de Nicolás Maquiavelo, en la que afirma “que la fortuna es juez de la mitad de nuestras acciones, pero que nos deja controlar la otra mitad, o poco menos”, estuve convencido de que el azar determina una buena parte de lo que nos acontece; pero después de los hallazgos a los que hice referencia en esta entrega, he llegado a la conclusión de que si bien es juez de la mitad de nuestras acciones, también nos deja controlar la otra mitad, o poco más.

© Sergio López González. Ing. en Informática Biomédica. 6 de Julio de 2018


REFERENCIAS

[1] Nazim Razali et al. Predicting Football Matches Results using Bayesian Networks for English Premier League (EPL).IOP Conf. Series: Materials Science and Engineering 226 (2017) 012099. International Research and Innovation Summit (IRIS2017).
[2] Surowiecki J. The Wisdom of Crowds. Anchor Books. New York
[3] Wagner & Vinaimont. Evaluating the Wisdom of Crowds. Issues in Information Systems, Volume XI, No. 1, 2010.
[4] Mustafa et al. Predicting The Cricket Match Outcome Using Crowd Opinions On Social Networks: A Comparative Study Of Machine Learning Methods. pp 63-76
[5] Herzog & Hertwig. The wisdom of ignorant crowds: Predicting sport outcomes by mere recognition. Judgment and Decision Making, Vol. 6, No. 1, February 2011, pp. 58–72
[6] Budescu & Chen: Identifying Expertise to Extract the Wisdom of Crowds. Management Science, Articles in Advance, pp. 1–14, ©2014 INFORMS
[7] Schumaker, Solieman and Chen. Sports Data Mining. Springer, 2010.