Big Data: principios y aplicaciones del análisis de datos masivos

Objetivo
Al término del curso, el participante será capaz de extender al entorno de los datos masivos (Big Data), los métodos de la minería de datos utilizados en los prototipos de aplicación, basándose en el material didáctico y la herramienta de software proporcionados por el facilitador.

Duración
16 o 20 horas (según la modalidad) repartidas en 4 sesiones (módulos).

Modalidades: presencial y a distancia
En la modalidad presencial (20 horas en 4 sesiones de 5 horas cada una) el curso se impartirá con el auspicio y el reconocimiento oficial (diploma) del Centro de Educación Continua, Unidad Morelos, del Instituto Politécnico Nacional, los días (sábados) 16, 23, 30 de noviembre y 7 de diciembre de 2019, en Primera Privada de la Luz No. 25, Fraccionamiento Villas Chapultepec, Col. Chapultepec, Cuernavaca, Morelos; CP 62405. Para mayores informes en esta modalidad (costo, horarios, cupo máximo etc.), favor de comunicarse a los teléfonos 777292-6547 y 777168-7370, con el Lic. Víctor Nava.

En la modalidad a distancia (16 horas en 4 sesiones de 4 horas cada una) el curso se imparte por Skype (en línea), de manera individual y con el reconocimiento (diploma) de la Fundación MicroMédix, en el horario y los días que el participante seleccione de común acuerdo con el facilitador.

Costo de la instrucción
Facilidades de pago para la modalidad a distancia: un abono de $2,600.00 MXN (pesos mexicanos) por cada sesión de 4 horas. Para obtener descuentos por pago único, ver la opción 3 en Formas y Opciones de Pago.

Formas y Opciones de Pago
En el caso de la modalidad a distancia (Fundación Micromédix):
Opción 1 (para los participantes que radican en la República Mexicana): abono en cualquier tienda Oxxo, a la tarjeta No. 5579 0700 4261 9489 de Santander, o depósito en cuenta bancaria No. 60-56534785-8 del mismo banco, con clave interbancaria (CLABE) 014540605653478587.
Opción 2 (México y resto del mundo): envío vía PayPal a la cuenta educatecnica@hotmail.com

Opción 3 (un pago único a través de los medios mencionados): aplicar 15% y 35% de descuento en caso de optar por una membresía de 4 y otra de 12 horas de instrucción respectivamente. El costo total del curso con esta tercera opción y en la modalidad a distancia es de: $7,280.00 MXN (pesos mexicanos).

Nivel: básico, introductorio

Dirigido a estudiantes y público en general, con deseos de conocer a nivel introductorio, las técnicas de la minería de datos, la inteligencia artificial, el aprendizaje de máquina y el Big Data.

Requisitos
Computación básica, destreza en el manejo de archivos y carpetas, conocimiento del sistema operativo Windows y del funcionamiento general de la Internet. Habilidad para instalar paquetería en una PC, así como conocimientos básicos de Excel. Equipo para la construcción de los prototipos: una laptop estándar con conexión a Internet, Windos 8.0 o superior, disco duro de al menos 1000 GB y memoria RAM de 4 GB o mayor.

Temario

Módulo 1: Una mirada global de la tecnología (4/5 horas)
1.1 Qué es y para qué sirve el Big Data
1.2 Mapa mental del Big Data
1.3 Volumen, velocidad, variedad y veracidad de los datos masivos
1.4 Sacándole provecho a la tecnología
1.5 Administración, organización y análisis de los datos masivos
1.6 Almacenamiento de grandes volúmenes de datos
1.7 Procesamiento rápido de corrientes de datos muy variopintos
1.8 Minería de datos y aprendizaje de máquina
1.9 Modelos predictivos y segmentación de los datos
1.10 Prototipo de aplicación No. 1: Minería de datos clínicos como apoyo en el diagnóstico médico

Módulo 2: Fuentes de datos masivos y áreas de aplicación del Big Data (4/5 horas)
2.1 Revisión del prototipo de aplicación No. 1
2.2 Fuentes de datos masivos
2.3 Comunicación entre usuarios (medios sociales)
2.4 Comunicación ser humano-máquina (acceso a la web)
2.5 Comunicación entre máquinas (RFIDs y sensores)
2.6 Aplicaciones del Big Data
2.7 Desarrollo de nuevos productos
2.8 Monitoreo de la calidad de la energía eléctrica (caso de estudio)
2.9 Prototipo de aplicación No. 2: modelo predictivo para la fidelización de clientes

Módulo 3: Arquitectura del Big Data (4/5 horas)
3.1 Revisión del prototipo de aplicación 2
3.2 Arquitectura del cuestionamiento en Google
3.3 Arquitectura estándard del Big Data
3.4 Ajemplos de arquitecturas: Netflix, Ticketmaster y PayPal
3.5 Procesamiento distribuido con Hadoop
3.6 La plataforma de Hadoop
3.7 Objetivos del diseño HDFS
3.8 Arquitectura maestro-esclavo
3.9 Sistema de almacenamiento en bloques
3.10 Escritura y lectura de archivos locales y streaming en HDFS
3.11 Archivos secuenciados
3.12 YARN (Yet Another Resource Negotiator)
3.13 Protoptipo de aplicación No. 3:
Inteligencia artificial como auxiliar en el tratamiento de enfermedades idiopáticas

Módulo 4: Otras tecnologías para la implementación del Big Data (4/5 horas)
4.1 Revisión del protoptipo de aplicación 3
4.2 Qué es y cómo trabaja el MapReduce de Google
4.3 La oleada de datos (streaming) de Hadoop
4.4 Los lenguajes Hive y Pig de Apache
4.5 Bases de datos NoSQL
4.6 Procesamiento de oleadas de datos con Spark
4.7 Sistemas de ingestión de datos
4.8 Sistemas de mensajería
4.9 Kafka
4.10 Computación en la nube (cloud computing) para Big Data
4.11 Resumen global y conclusiones


Clausura y entrega de diploma(s)

El descubrimiento acelerado de materiales, a través del aprendizaje de máquina

Un sistema de información se diseña para responder a las preguntas genéricas (queries) que sus usuarios le formulan, empleando un lenguaje de comandos tipo SQL (Structured Query Language).
Basándose en las tablas, registros (tuplas), atributos y vínculos (ligas) que conforman una base de datos relacional (izquierda), el software manipula todos esos recursos para entregar los resultados de cada consulta, en una relación (de ahí el nombre de relacional) que contiene los valores de los atributos que al usuario le interesa conocer.

Ese mismo sistema sin embargo, no será capaz de responder a preguntas con valores de atributos que no se hayan dado de alta previamente en alguna de las tablas de la base de datos en cuestión (pulse sobre la imagen de la derecha). En el mejor de los casos, podrá entregar un listado de objetos (instancias o registros) para los cuales, solo un subconjunto de valores de atributos, satisface un rango especificado por el usuario.

Tal es el caso de la base de datos de MatWeb, mediante la cual uno puede conocer las propiedades de más de 125,000 materiales, ingresando los valores mínimo y máximo de tres propiedades de un material en particular, como podrían ser las de un metal, un polímero, un fluido, etc.

Así por ejemplo, apoyándome en el sistema de información de ese mismo sitio web, pude consultar los polímeros cuya resistencia a la fatiga, su densidad y su punto de fusión, se encontraban entre las 10 y las 200,000 psi, los 0.0000820 y los 20 grs/cc y los 270 y los 3,000 °C, respectivamente (pulse sobre la imagen adjunta para ver la lista de materiales que obtuve después de realizar este ejercicio).

Características esenciales de una plataforma de materiales

A pesar de no ser una plataforma para el descubrimiento acelerado de materiales, ese sistema ha implementado una función que imita de alguna manera, una característica que en mi opinión debería incluir una plataforma de este tipo. Me estoy refiriendo a la función que en ese mismo sitio aparece como “Compare Materials” (pulse en la imagen de la derecha o vaya al sitio y realice una consulta similar a la que describí con anterioridad, para que vea cómo el comparar varios materiales, equivale a encontrar similitudes entre los mismos).

No estoy seguro si los propietarios de MatWEb implementaron esa función empleando algún tipo de correlación; pero si yo tuviera que idear un mecanismo para encontrar una similitud entre dos o más materiales en una base de datos como ésta, combinaría las técnicas del aprendizaje de máquina con la correlación de Pearson.
Ahora bien, ¿por qué alguien querría encontrar similitudes entre un conjunto de propiedades de una muestra de material, y las de uno o más de los materiales que se encuentran almacenados en una base de datos? La necesidad de encontrar un material que cumpla con ciertas especificaciones, es una razón muy poderosa para aplicar las técnicas de la inteligencia artificial, tanto de aprendizaje supervisado como de no supervisado.

Un ingeniero industrial por ejemplo, podría estar interesado en un material sustentable, con un costo de producción menor al de los que se usan normalmente, y que además de cumplir con las especificaciones mostradas en la imagen adjunta, tuviera que sujetarse a las normas que regulan la fabricación de un determinado producto (pulse sobre la imagen para ver cómo con un algoritmo tipo Bayes, la plataforma ha clasificado al material como un polímero).

De esta manera, una interfaz gráfica de usuario (IGU) como la recién mostrada, permitiría ingresar de manera muy amigable, las especificaciones de diseño de un material.
Lo interesante de recurrir a los métodos de la inteligencia artificial, en vez de a un sistema de información convencional, es que una vez clasificado el material con la mejor precisión posible, se puede subdividir más exhaustivamente (clustering) el grupo de materiales que cumplen mejor con dichas especificaciones, para finalmente hallar el material ideal, empleando una correlación.
Otra función que no debería faltar en una plataforma de materiales inteligente, es la conversión de formatos. En el sitio oficial de la Open Quantum Materials Database, usted puede descargar una base de datos de materiales de más de 563,247 instancias; pero si está planeando extraer conocimiento de una mina de datos como esa, es muy probable que tenga que convertir los archivos con extensión SQL, a un formato de valores separados por comas (CSV).

Ese es el formato por defecto que herramientas y plataformas como Orange, Knime, WEKA y RapidMiner, están usando como entrada para procesar los datos de sus usuarios, y es con toda seguridad, el que deben estar usando los creadores del “Genoma del Polímero“, una plataforma dedicada a acelerar el diseño y el descubrimiento de polímeros (puede pulsar sobre la imagen de la derecha para ver el diseño de su interfaz de usuario, o bien ir directamente al sitio para predecir las propiedades de más de 800 polímeros).

¿Qué queremos descubrir?

El propósito de una plataforma con las características mencionadas anteriormente, consistirá en descubrir tanto nuevas aplicaciones como combinaciones de materiales nunca antes vistas.
Habrá por ejemplo quien esté interesado en combinar ciertas cantidades de etanol con gasolina, con la intención de mejorar las propiedades de salida de una máquina, como podrían ser la potencia y el par mecánico (torque).

Otros investigadores preferirán concentrar sus esfuerzos en encontrar por ejemplo, un polímero que además de proteger de la lluvia, pueda también absorber los rayos ultravioleta. Este segundo escenario se parece mucho a lo que sucede en el campo de la extracción de texto (text mining) biomédico, en donde el principal objetivo es develar cuándo un medicamento puede ser usado para tratar una enfermedad diferente, de aquella para la que originalmente fue concebido.

En el caso de la ciencia de materiales, al igual que las sustancias activas de las medicinas, el combinar propiedades de diferentes materiales, podría dar lugar a una nueva aplicación, como sería el  caso de descubrir que una combinación de aceites de origen vegetal y animal, podría usarse para disminuir el costo de fabricación de un transformador de alto voltaje, que normalmente se construye con aceite de origen mineral.
El ampliar los tipos de materiales dentro de una plataforma para el descubrimiento acelerado de materiales, aumenta las posibilidades de encontrar nuevas aplicaciones, porque uno no sabe de antemano lo que le espera, cuando a través de un aprendizaje no supervisado (clustering) por ejemplo, descubre un patrón o una tendencia nunca antes vista.

El Biodiésel: una interesante área de aplicación

Usted podría hacer uso del sistema de información del sitio MatWeb para encontrar el material idóneo, esto es, aquel que satisface mejor sus requerimientos. Pero si su objetivo fuera descubrir un producto sustentable, compuesto de varios materiales y cuyo costo de producción tuviera que ser inferior al de los materiales convencionales, probablemente ese sistema de información ya no le resultaría tan atractivo. Estamos hablando de un laboratorio con un alto grado de automatización.

Con un laboratorio virtual usted estaría en posibilidad de acelerar el proceso y realizar un gran número de experimentos, hasta encontrar ese producto tan anhelado. ¿Y por qué la prisa? Ilustremos este sentido de urgencia con un ejemplo.
Cuando se vive en un país que a pesar de producir y exportar petróleo tiene que importar gasolina para seguir impulsando una gran parte de sus sistemas de transporte, en donde la producción agrícola es rica en jatropha curcas, se desperdicia mucho aceite vegetal residual, se produce aceite de ricino y en donde abundan las grasas animales y los residuos agrícolas [1], resulta imprescindible recurrir urgentemente a fuentes alternativas de energía que compitan con el diésel convencional y la gasolina importada.

El biodiésel representa entonces una de tantas aplicaciones y una fuente de energía alternativa bastante atractiva. En tanto exista un “laboratorio virtual” para realizar experimentos con muestras de diversas combinaciones  de ésteres de ácidos grasos, como los derivados de la jatropha, el coco, la palma, la soya y de otros más con propiedades similares a las mostradas en las imágenes adjuntas, siempre existirá la posibilidad de encontrar patrones (pulse sobre las capturas de pantalla para agrandarlas) .
No obstante, las 10 muestras que aparecen en ambas imágenes no podrían usarse para entrenar al modelo predictivo final, sino más bien para probarlo, ya que una cantidad de muestras así de pequeña, no sería suficiente para conseguir que una máquina aprendiera a clasificar las instancias que estaríamos pretendiendo analizar posteriormente. Si queremos entrenar bien a una máquina, procuraremos que el número inicial de muestras sea del orden de unas cuantas centenas, pues solo así lograríamos aumentar la precisión del modelo. Sin embargo, se necesita un algoritmo para predecir los valores de la clase o variable de salida, que en este caso está representado por el valor del yodo IV (pulse sobre la imagen de la derecha para agrandarla).

Con un algoritmo inspirado en el principio de operación de las redes neuronales artificiales (RNAs), nuestro modelo de extracción de conocimiento tendrá que calcular los valores de la clase en función de sus variables de entrada: las propiedades C8:0 en %, C10:0 en %, C12:0 en % y así sucesivamente hasta llegar a la glicerina en el archivo de Excel recién mostrado. En conformidad con lo anterior, para una aplicación orientada al biodiésel, nuestra plataforma quedaría implementada,  entre otras cosas, por un modelo híbrido de red neuronal artificial.

Aprendizaje supervisado: acelerando la clasificación con un algoritmo de red neuronal

De acuerdo con lo dicho hasta aquí, entre mayor diversidad de materiales soporte nuestra plataforma, mayores serán las oportunidades de descubrir nuevas aplicaciones y/o combinaciones de materiales, y entre mayor sea el número de experimentos, más rápido encontraremos esa fuente de energía alternativa.
Acelerar el descubrimiento implica acortar el tiempo dedicado al cálculo de las variables de salida. Pero como lo que rige para los biocombustibles no necesariamente es válido para los polímeros, los metales y los materiales cerámicos, no se puede aplicar un prototipo del biodiésel por ejemplo, para predecir las propiedades de esos otros materiales.

Pero lo que sí se ha hecho ([2], [3], [4]) es aplicar el algoritmo de redes neuronales de Levenberg Maquardt para predecir el valor del yodo de un compuesto de biodiésel (IV), para predecir después con ese mismo algoritmo, la viscosidad cinemática, el número de cetano y la estabilidad oxidativa de otros compuestos de biodiésel. Un tratamiento similar podría dársele a los demás tipos de materiales.

Continuando con el ejemplo del biodiésel, si varios autores (ob cit.) ya demostraron que el algoritmo de red neuronal con propagación de error hacia atrás, genera coeficientes de correlación entre 0.96 y 0.99, creo que tiene mucho sentido aprovechar sus hallazgos y no desperdiciar el tiempo tratando de hallar un algoritmo que supere dichas cifras. Sucede que los métodos convencionales para estimar las propiedades del diésel, como la técnica de espectroscopía de infrarrojo cercano (NIR), demandan mucho tiempo de cálculo y por lo mismo resultan muy costosos.

Una herramienta como MatLab o mejor aún, una plataforma de materiales dotada de inteligencia artificial, podría simplificar mucho el trabajo y acelerar el proceso.
En lo que sigue supondré que el lector está familiarizado con los aspectos clave de la minería de datos y la manera en la que aprende una máquina. Una opción para comprender mejor los siguientes apartados, es consultar el ensayo que lleva por nombre: “Minería de datos clínicos como apoyo en el diagnóstico médico: herramientas y cursos“, también de mi autoría. Para una comprensión cabal de lo discutido hasta aquí y de los apartados que siguen, podría usted considerar la posibilidad de tomar el curso “Solución de Problemas Multidisciplinarios con Minería de Datos“.

Análisis de tendencias por medio de la segmentación (clustering)

Cualquiera que haya sido el algoritmo empleado, una vez determinados los valores de las propiedades de salida con tal o cual algoritmo, solo restaría ingresar a la plataforma las instancias así obtenidas, a fin de detectar similitudes entre materiales.
De acuerdo con lo que planteé en el apartado “Características esenciales de una plataforma de materiales”, estaríamos descubriendo el material o las combinaciones de materiales que mejor satisfacen una determinada necesidad.

Un problema muy común que se presenta sin embargo, es el no contar con los valores de algunas propiedades, ya sea de entrada o de salida. En tales condiciones, desconfiaríamos de las respuestas de la plataforma. Aún así, todavía podríamos apelar a la segmentación para observar los valores de los centroides asociados a las propiedades de cada uno de los grupos identificados por la plataforma. Retomando el ejemplo del aceite de un transformador de alta tensión, si nuestra prioridad fuera descubrir un aceite con un mínimo de humedad, analizaríamos el centroide asociado a esa propiedad en cada grupo y seleccionaríamos aquel con el valor más próximo al valor objetivo. Los demás centroides los utilizaríamos para postular a uno de esos materiales, como mejor candidato a usar en el transformador. Cuando se domina el campo de una especialidad, la segmentación resulta muy útil para detectar tendencias que podrían estar insinuando una nueva manera de aprovechar un material.

Seleccionando el modelo óptimo: dimensionalidad y precisión

Un modelo se optimiza evaluando la precisión de un algoritmo y realizando una selección muy cuidadosa de sus atributos (variables o propiedades) de entrada. Los expertos en ciencias de materiales llaman a esta selección reducción de la dimensionalidad o reducción de dimensiones. La forma más habitual de llevar a cabo esta última tarea es por medio de correlaciones. Para reducir el número de atributos recomiendo aplicar tres tipos de correlaciones y luego promediar sus coeficientes para obtener un criterio de selección sin sesgos.

Tanto MatLab como WEKA permiten correlacionar cada una de las variables de entrada con la de salida, empleando varios criterios. En el campo de la minería de datos clínicos he obtenido excelentes resultados con WEKA, recurriendo al coeficiente de Pearson, la tasa de ganancia y la ganancia de información (para otros criterios diferentes al de promediación de correlaciones, véase “La informática biomédica en el diagnóstico y la prevención de la esquizofrenia y otros trastornos de la personalidad“)

La reducción de atributos de entrada no obedece exclusivamente a su repercusión en el tiempo de procesamiento, sino también a la influencia que ejercen sobre la variable de salida. Al conjunto de atributos resultante se le conoce como proxy. Como explico en el curso (pulse sobre el mapa mental de la izquierda), entre más próximo a la unidad se encuentre el coeficiente de correlación entre el atributo en cuestión (o el promedio de varios de ellos) y la clase, más influirá el atributo en el comportamiento de ésta.

Así, el proxy es aquel que mejor representa los hechos y por ende, el que mejores precisiones arroja.
Un modelo optimizado es el producto de haber aplicado al proxy, aquel algoritmo que durante el proceso de selección resultó ser el de mayor precisión. La selección del modelo comprende tres etapas. La primera consiste en aplicar varios algoritmos a un conjunto de datos de entrenamiento con el proxy previamente determinado. Durante la fase de validación, los mismos algoritmos que se emplearon durante la etapa anterior, se aplican a diferentes subconjuntos de los datos de entrenamiento, a fin de evaluar qué tanto se está equivocando cada uno de los algoritmos (se trata típicamente de una validación cruzada). La tercera etapa es la de prueba, en la que se obtiene la precisión de cada algoritmo, utilizando los mismos elementos que en las etapas anteriores, con excepción del conjunto de datos, que esta vez corresponde a uno totalmente ajeno a los anteriores (como las 10 muestras de ésteres metílicos que utilicé para ilustrar la aplicación del biodiésel).

La precisión de un modelo la medimos con la fracción absoluta de la varianza (R²), el error cuadrático medio (RMS) y el error absoluto medio en porciento (MAPE) (pulse sobre la imagen de la derecha para ver los detalles). En esa gráfica muestro cómo un algoritmo de red neuronal tipo perceptrón de dos capas, con 4 variables de entrada, 3 neuronas en la primera capa escondida  y una neurona en la segunda, ajusta una recta de la foma E=mx+b, a un conjunto de puntos que se han obtenido a través de una serie de mediciones experimentales (eje de las x).

La variable analizada en este ejemplo es la estabilidad oxidativa, con predicciones realizadas a partir de un total de 70 muestras de biodiésel, con características similares a las especificadas en un apartado anterior. Para la fase de entrenamiento se destinaron 39 muestras, para la de validación 10 y para la de prueba se asignaron 21, obteniéndose en cada una de ellas, valores de R² iguales a 0.9306, 0.9733 y  0.9544, respectivamente. Esto significa que el modelo empleado ha cumplido satisfactoriamente con su cometido, y que no es necesario recolectar un volumen extremadamente grande de datos (big data) para otener un modelo de alta precisión.

Conclusiones

Para aumentar las posibilidades de descubrir fuentes de energía más limpias y económicas que las convencionales, se requiere que una plataforma dotada de inteligencia artificial, acelere el proceso de predicción de variables, de reducción de dimensiones y de detección de similitudes entre materiales. Para ello, es imperativo diversificar lo más posible el tipo de materiales a considerar, a fin de aumentar la cantidad de experimentos y las oportunidades de conseguir el éxito en cada uno de ellos.

Si bien un modelo no funciona para todos los tipos de materiales, quizás convenga analizar más a fondo las propiedades de cada grupo de materiales, aplicando las técnicas de segmentación de manera más intensiva, con miras a realizar una reclasificación que permita estandarizar las estructuras de datos de materiales que hasta ahora se han estado usando.

En el mejor de los casos, esa reclasificación permitiría encontrar un modelo para cada grupo de materiales, que a su vez fungiría como instrumento de predicción para estimar las propiedades de los materiales dentro de los grupos así definidos. En caso de que esto no fuera posible, siempre se podrá implementar una interfaz gráfica de usuario que permita seleccionar en una caja de diálogo, el algoritmo y los parámetros que a juicio del usuario producirán los mejores resultados (como lo hacen WEKA, RapidMiner, MatLab y otras plataformas de minería de datos).

Agradecimientos

No podría dejar de expresar mi agradecimiento a los investigadores Francisco López González, Alberto Reyes Ballesteros, Alfredo Espinosa Reza y Francisco Poujol Galván, del Instituto Nacional de Electricidad y Energías Limpias (INEEL), por haberme invitado a participar en la encomienda que el Consejo Nacional de Ciencia y Tecnología (CONACYT) les asignará, toda vez que su propuesta sea aprobada de conformidad con su convocatoria: “Proyectos de desarrollo de plataformas de descubrimiento acelerado de materiales para energía, Cooperación con universidades en Canadá y Estados Unidos”.

Esperando que la presente haga las veces de “granito de arena” en la elaboración de dicha propuesta, aprovecho la ocasión para desearles la mejor de las suertes, para que este esfuerzo que ahora estamos realizando, se materialice en una plataforma de inagotables fuentes de energía cien por ciento sustentables.

© Ing. Sergio López González 3 de  Agosto de 2018


REFERENCIAS

[1] Montero G. & Stoytcheva M. Biodiesel – Quality, Emissions and By-Products. Published by InTech, Croatia. 2011
[2]De Sousa et al. Application and Assessment of Artificial Neural Networks for Biodiesel Iodine Value Prediction. International Journal of Computer and Information Engineering. Vol:9, No:5, 2015.
[3] Jahirul et al. The Use of Artificial Neural Networks for Identifying Sustainable Biodiesel Feedstocks. Energies 2013, 6, 3764-3806; doi:10.3390/en6083764
[4] Jahirul et al., An Artificial Neutral Network (ANN) Model for Predicting Biodiesel Kinetic Viscosity as a Function of Temperature and Chemical Compositions. 20th International Congress on Modelling and Simulation, Adelaide, Australia, 1–6 December 2013.
[5] Oliveira & Amorim. Applications of Artificial Neural Networks in Biofuels. INTECH. DOI: 10.5772/intechopen.70691

Cómo aplicar la inteligencia artificial y la sabiduría colectiva para ganar en los pronósticos deportivos

Los seres humanos hemos enseñado a las máquinas a descubrir patrones y tendencias, que después empleamos para extraer ese conocimiento que todo conjunto de datos guarda consigo.
Hay dos métodos que permiten que una máquina aprenda a partir de un conjunto estructurado de datos. El método que clasifica a cada instancia (registro) de ese conjunto, con una etiqueta a la que se le llama clase, recibe el nombre de aprendizaje supervisado.

El aprendizaje no supervisado no requiere de una etiqueta para clasificar los registros; pero aun así es capaz de diferenciarlos, llevando a cabo una segmentación de los mismos (clustering). Este otro método reúne las instancias con características más afines dentro de un mismo grupo (cluster), al mismo tiempo que distingue a dicho grupo de los demás, basándose en las diferencias que encuentra en esas mismas características. Para los efectos de esta publicación, a esas características las llamaremos atributos.

¿Aprendizaje supervisado o no supervisado?

Hay algunos científicos de datos que han aplicado el método de aprendizaje supervisado para predecir el resultado de los partidos de fútbol [1]. La mayoría de ellos aseguran haber encontrado un modelo que puede pronosticar los resultados de dichas contiendas con una precisión hasta del 75%; pero como explico en uno de los cursos que imparto, tanto los atributos que emplean como los métodos que aplican para validar su modelo, suelen ser engañosos.

Durante el taller del módulo 6 del curso “Solución de Problemas Multidisciplinarios con Minería de Datos“, dedico una buena parte del mismo a analizar, cómo ciertos atributos (derecha) no constituyen una buena representación de la realidad (proxy). En contraste con lo que la mayoría de los aficionados al fútbol cree, los partidos jugados, la diferencia de goleo, el lugar en la tabla de posiciones, el tiempo de posesión del balón y demás atributos que supuestamente distinguen un equipo de otro, no están suficientemente correlacionados con el resultado de un juego, a saber: gana el equipo local (L), empata con su rival (E), o gana el equipo visitante (V).
El resultado de un partido de fútbol en términos de L, E o V (1X2 en otros países), es un ejemplo de lo que al principio de este ensayo definí como clase, en el contexto de un aprendizaje supervisado. Pero como demuestro en ese mismo curso, la precisión que se obtiene al aplicar una validación cruzada a los datos caracterizados por los atributos recién mencionados, no disminuye prácticamente en nada conforme se van eliminando, excepto cuando se descarta el marcador final  (pulse sobre la captura de pantalla de la izquierda para agrandarla).
Los goles anotados por el equipo local (FTHG) y las correspondientes anotaciones del visitante (FTAG), son los atributos que verdaderamente determinan el resultado de un encuentro.

El aprendizaje supervisado requiere de un proxy apropiado

Pero resulta que usted no sabe cuántos goles va a anotar cada equipo antes de que jueguen, de tal manera que tiene dos opciones: o se afana en encontrar una herramienta de minería de datos que maneje la clasificación multivariable, o bien recurre al aprendizaje no supervisado y a la sabiduría de una multitud, mejor conocida como inteligencia colectiva. Si usted pudiera estimar un marcador, valiéndose de una herramienta de minería de datos con aprendizaje supervisado y clasificación multivariable, automáticamente estaría determinando el resultado de una determinada contienda. En este caso, los dos atributos que definen el marcador pasan a ser variables de salida (un problema de dos clases).

Aun en un escenario como éste, no tendría mucho sentido echar mano de atributos como los que uno encuentra en sitios como football-data.co.uk/.
A la mejor valdría la pena probar con los que aparecen en sitios como esto.com.mx y http://mex.laliga.es/estadisticas-historicas/calendario (derecha), siempre y cuando se calculen las correlaciones entre cada uno de ellos y las que ahora pasarían a ser variables de salida.

Un aprendizaje supervisado sería factible entonces, solo si algunos de esos atributos resultaran relevantes, esto es, si existiera un proxy que guardara una alta correlación con esas variables de salida.
Por otra parte, los autores que han utilizado los conjuntos de datos publicados en el sitio football-data.co.uk, no mencionan en sus publicaciones, que no es posible conocer el valor de dichos atributos, antes de que tengan lugar las contiendas. Tal vez ese conjunto de datos pueda llegar a tener un valor muy didáctico, porque sirve para ejemplificar cómo funcionan los diferentes algoritmos de aprendizaje supervisado; pero no para determinar el resultado de las quinielas deportivas. No se puede saber cuántos disparos al marco, cuántos tiros de esquina, cuántas tarjetas amarillas y mucho menos cuántos goles va a anotar cada equipo, días antes de que enfrente a su adversario.

Un modelo de aprendizaje no supervisado sustentado en el principio de la inteligencia colectiva

Es por eso que decidí combinar las bondades ya comprobadas de la inteligencia artificial, con lo que James Surowiecki denominó sabiduría colectiva [2], cuya base científica tiene como antecedentes, ni más ni menos que la ley de los grandes números de Jacob Bernoulli (izquierda) y las interrogantes que el mismísimo Francis Galton se planteó en una ocasión, mientras visitaba una feria rural en el oeste de Inglaterra.
Durante la celebración de un concurso en el que se premiaría a los competidores que pudieran estimar con mayor precisión el peso de una res en canal, Galton promedió las opiniones de unos ochocientos apostadores.

El peso real de la res una vez sacrificada, cuenta Surowiecki, era de 1,198 libras, y el valor de la media calculada por Galton, de 1,197 libras. Este hecho, lejos de interpretarse como una casualidad, es prueba fiel de lo que una multitud puede lograr cuando se le cuestiona sobre un asunto que le llama la atención. Cuando me enteré del hallazgo de Galton y de lo que otros investigadores habían descubierto realizando experimentos similares [3], quise hacer lo propio con la sabiduría colectiva de unos trescientos alumnos del H. Colegio Militar, en la Ciudad de México.

Mientras unos colegas y yo impartíamos un seminario de tecnologías de la Información a cinco grupos de participantes, les pedí a esos jóvenes cadetes estimaran el número de lunetas de chocolate multicolor que había en un frasco grande y transparente, que días antes del seminario había yo dispuesto para tal efecto. Cada participante debía escribir su estimado en una hoja de cálculo compartida a través de Google Drive. Al final del experimento, ellos mismos calcularon la media aritmética de sus estimaciones y obtuvieron un valor muy cercano al número de lunetas que realmente había en el frasco.

Nótese que en el párrafo anterior escribí en negritas y en cursivas “muy cercano”, porque es mi intención enfatizar que tales resultados son realistas. Sería muy deshonesto de mi parte afirmar que invariablemente va usted a obtener el premio mayor. Para efectos de pronosticar el resultado de una quiniela, tal vez sea suficiente con acertar al 70% de los juegos que la componen. En el curso explico cuándo conviene apostar en un concurso para aumentar las posibilidades de quedarse con la bolsa acumulada hasta ese momento.

Conviene señalar también que una cosa es obtener la media aritmética de unas trescientas u ochocientas propuestas, y otra muy diferente es obtener la quiniela que más se parece a la ganadora. Como veremos más adelante, eso se puede conseguir con inteligencia artifical.  Usted no puede obtener por corazonadas o cualquier otro medio, la media de unas chorrocientas apuestas, porque estamos hablando de una variable categórica que puede asumir los valores L, E o V. Además, son millones las combinaciones que se pueden obtener, toda vez que las quinielas suelen contener entre siete y catorce juegos (pulse en la imagen de la izquierda para ver un ejemplo de los resultados que entrega el software de minería de datos al estar pronosticando 10 juegos de la liga inglesa). Pero como dije al principio de esta entrega, los seres humanos les hemos enseñado a las máquinas cosas que muchos de nosotros a nivel individual no podríamos desempeñar. Y como yo soy una de esas personas que no podría obtener ni los centroides ni los clusters que caracterizan a una encuesta de este tipo, dejo que una máquina lo haga, procurándole las opiniones de gente muy diversa con capacidad para tomar decisiones independientes y que aun sin dominar el tema, agrega cierta sabiduría en relación con el asunto objeto de estudio.

Las cuatro premisas de la sabiduría colectiva

De acuerdo con Surowiecki, para poder confiar en el juicio de un grupo grande de personas, éste debe satisfacer las siguientes cuatro condiciones:

1) Diversidad de opinión: que la información emitida sea de carácter privado, incluso cuando la opinión corresponda a una interpretación muy alejada de la realidad (valores atípicos).
2) Independencia: que las opiniones de las personas no se vean influenciadas por las impresiones, sentimientos y/o conocimientos de quienes las rodean (interacciones horizontales, de igual a igual).
3) Descentralización: que las personas puedan especializarse y recurrir al conocimiento local. No se trata de quedar bien con alguien o de pedir la aprobación de una autoridad sobre el asunto en cuestión (interacciones verticales o jerárquicas).
4) Agregación: debe existir algún mecanismo que transforme los juicios individuales en una decisión colectiva.

En el caso de los pronósticos deportivos, la cuarta condición se satisface mediante la inteligencia artificial desplegada por un algoritmo de aprendizaje no supervisado. Para las otras tres premisas, es imprescindible seleccionar cuidadosamente el grupo objetivo y/o poner en práctica un mecanismo que garantice el cumplimiento de las mismas.

Así por ejemplo, en la captura de pantalla que aparece a la izquierda, puede usted ver lo que opiné yo en relación a los resultados de la última jornada de la liga inglesa durante la temporada 2017-18 (pulse sobre la imagen para agrandarla).
Lo que hice fue calcular los promedios de los goles que anotó cada equipo en el pasado, usando los datos que extraje del sitio soccerbase.com. Ahí puede usted encontrar estadísticas de todos los juegos de la liga inglesa (English Premier League), temporada tras temporada.

La secuecia LEELLLLLLL que obtuve fue la que aparece en el primer registro de esa hoja de Excel. Esa cadena de L´s y E´s constituye un criterio diferente al que usó un colega mío, cuando en vez del promedio, utilizó la moda para estimar los resultados de la última jornada, basándose en los marcadores registrados desde los inicos de la EPL (segundo registro de la hoja). Al ser diferentes, independientes y locales, ambos criterios están garantizando una sabiduría colectiva confiable.
Un aficionado al fútbol por su parte podría optar por marcar con una “V” el resultado de un encuentro que sabe podría estar determinado por el hecho de que un par de estrellas del equipo local están lesionadas.

Un cronista deportivo, tendría su propia estrategia en base a lo que sabe de fútbol; una ama de casa, a la mejor votaría de acuerdo con lo que ha oído en las noticias, en relación a lo que pasa en las tribunas cuando el equipo local enfrenta a un rival en un clásico.

Todos esos ejemplos cumplen con las premisas de Surowiecki, sobre todo con las dos primeras, debido a que las opiniones proceden de fuentes muy diversas y completamente autónomas.
Usted podría también opinar y proponer una quiniela diferente, o a la mejor parecida, siempre y cuando no conociera ni la mía, ni la de mi colega, ni la de los demás participantes, porque de no ser así, estaríamos incurriendo en el incumplimiento de la segunda premisa.

Y si procedemos como lo hizo Galton, es muy probable que obtengamos un excelente consenso, con la única diferencia de que ahora no se trata de una simple media aritmética, sino del pronóstico que una máquina dotada de inteligencia es capaz de descubrir, a partir de la opinión de toda esa gente tan variopinta.

Pronóstico de una quiniela del mundial de fútbol 2018 (Rusia)

En uno de los talleres del curso de minería de datos, tuve la oportunidad de comprobar la sinergia que se da entre ambos tipos de inteligencia, la artificial y la colectiva. Una vez que mis participantes comprendieron bien los fundamentos de la minería de datos y adquirieron cierta pericia en el manejo de la herramienta que habíamos venido empleando en los demás talleres del curso (WEKA), les propuse una tarea que haría las veces de proyecto terminal: pronosticar la quiniela del concurso Progol No. 1941 (derecha) que estaba promoviendo una dependencia gubernamental de mi país, a la que todos los mexicanos conocemos como “Pronósticos para la Asistencia Pública“.
La fecha de entrega de los resultados del proyecto casi coincidía con la del cierre de concurso al que estaba convocando esa institución, con miras a que cualquier ciudadano pudiera plasmar sus corazonadas y estimaciones sobre la quiniela cuyo formato he adjuntado a este párrafo.

No quisimos desaprovechar la ocasión para realizar una colecta que nos permitiera aumentar las probabilidades de ganar, echando mano de los recursos con los que contábamos en ese momento (conocimientos, herramientas, efectivo, etc.).
Amén de la motivación que implicaba la posibilidad de ganar un premio en efectivo, el objetivo del ejercicio era que los participantes aplicaran la norma CRISP-DM al “problema” que yo les había planteado.
Mi intención era que ponderaran la importancia que tenían tres aspectos de la “Solución de Problemas con Minería de Datos“:

1) La recolección de los datos (que para este caso en particular, se implementaría con encuestas que posteriormente determinarían el nivel de inteligencia colectiva)
2) El conocimiento que aporta una multitud que reune los requisitos que garantizan una sabiduría colectiva
3) La diferencia abismal que existe entre la inteligencia artificial y la intuición del ser humano (corazonadas)

Las encuestas

Este primer aspecto fue el que tomó más tiempo, debido a que no fue fácil encontrar fuentes que reflejaran “el sentir” de la gente que visita la gran cantidad de sitios web especializados en este tema tan polémico. Muchos investigadores que gustan de recoger la opinión de las redes sociales (sentiment analysis) [4], como Twitter y Facebook por ejemplo, se enfrentan con el problema de la obtención de información relevante (filtrado de la paja). Es por eso que algunos participantes prefirieron contactar gente en calles, supermercados, escuelas, restaurantes, parques, etc., y preguntarles directamente sobre lo que estimaban podía acontecer en los encuentros que componían la quiniela del concurso No. 1941 de Progol.

Otros más buscaron sitios especializados en fútbol para consensuar el sentir de la gente, sin importar si eran o no expertos en fútbol.
Terminadas las encuestas, integramos los datos que habíamos recolectado en la hoja de Excel que aparece a su derecha. Si el curso se hubiera impartido a distancia (por Skype), muy probablemente hubiéramos utilizado la hoja de cálculo de Google Drive, como lo hice con los alumnos del Colegio Militar, aprovechando las ventajas que ofrece la colaboración tipo wiki.

El conocimiento extraído de las encuestas (sabiduría colectiva)

Una vez concluida la etapa más laboriosa del proyecto, los participantes alimentaron a WEKA con los datos de la hoja de cálculo que mostré anteriormente, para someterlos posteriormente a un procesamiento que se conoce en el argot de la minería de datos como clustering, que no es otra cosa que un agrupamiento de datos. Este aspecto de la segmentación de datos es el que toma menos tiempo y es quizás el más interesante de todos. Pronto se comprenderá mejor por qué digo esto.

En la imagen adjunta muestro cómo lucía WEKA después de abrir el archivo de nuestra encuesta. Para ilustrar lo que esta herramienta y la sabiduría colectiva le estaba sugiriendo a nuestra improvisada peña (el grupo de participantes y yo), conviene analizar el diagrama de barras mostrado.
Al momento de estar escribiendo estas líneas, es un hecho que Japón empató con Senegal en el mundial de Rusia; pero el día en que deliberábamos sobre qué casilla marcar para determinar el resultado de dicha contienda, desconocíamos ese hecho.

A pesar de ello, las estadísticas insinuaban un empate (E), porque así lo había sugerido la sabiduría colectiva, con 135 votos a favor (pulse sobre la imagen imediata anterior para ver los detalles).
Antes de ordenarle a WEKA que aplicara el algoritmo de segmentación, nos anticipamos a los hechos y confirmamos lo que la sabiduría colectiva había dictaminado en relación a los demás juegos que aparecían en la quiniela, aplicando el mismo criterio que habíamos utilizado para analizar el caso de Japón vs. Senegal.

Inteligencia artificial: agregándole valor a la sabiduría colectiva

En la captura de pantalla que aparece a su derecha, muestro los resultados que obtuvieron mis participantes, una vez que aplicaron el algoritmo de segmentación a los datos de la quiniela en cuestión.
Una herramienta inteligente debería identificar como mínimo, la quiniela sugerida por la inteligencia colectiva. Cualquier otra estrategia que supere esa primera aproximación, en términos del número o porcentaje de aciertos en relación al resultado real del concurso, constituirá un valor agregado a ese nivel de inteligencia.

Ese primer nivel de inteligencia, es decir, el de la sabiduría colectiva, es el que usaremos como referencia para evaluar nuestro modelo de pronóstico, recurriendo a un análisis comparativo o benchmarking, como prefiera usted llamarle. Como se aprecia en la imagen anterior, el cluster etiquetado como #1 está representando ese primer nivel de inteligencia. Toda estrategia que no consiga aumentar ese porcentaje de referencia, no se considerará inteligencia artificial.

En la tabla adjunta muestro una versión resumida de los cinco experimentos que llevaron a cabo mis participantes, para aumentar el nivel de inteligencia de su modelo predictivo. En el segundo experimento, al aumentar a 3 el número de clusters, consiguieron un porcentaje de aciertos del 78.6%, por encima del nivel correspondiente al de la inteligencia colectiva (71.4%). Posteriormente, cuando incrementaron a 5 el número de clusters (cuarto experimento), el porcentaje de aciertos fue de 85.7%.
Nótese que si hubiéramos concursado, habríamos obtenido un envidiable tercer lugar. De haber ingresado a tiempo las combinaciones que aparecen en la tabla para un número de clusters igual a cinco, nuestra modesta peña de aficionados a la minería de datos (de fútbol no sabíamos absolutamente nada), se hubiera hecho acreedora a un premio por la cantidad de $1,894.35 por quiniela sencilla (pulse sobre la imagen de la derecha).

Inteligencia artificial vs. intuición

No se a usted, pero a mí alguna vez se me ocurrió que bajo ciertas condiciones y en ciertos entornos en donde el azar juega un papel protagónico, algunos algoritmos podrían arrojar resultados triviales. Para estar en consonancia con el tema que nos ocupa, quisiera pensar que a estas alturas del partido, usted tal vez se esté preguntando si una corazonada basada en lo dictaminado por la sabiduría colectiva (encuestas), podría equipararse o incluso superar la inteligencia alcanzada por el modelo construido por mis participantes. En caso de que no se lo haya peguntado, permítame invitarlo a realizar el siguiente ejercicio.

Sin recurrir a la tabla que presenté con anterioridad, ¿podría usted decirme cuál fue el resultado del encuentro entre Inglaterra vs. Bélgica, atendiendo únicamente al diagrama de barras adjunto?
De acuerdo con la sabiduría colectiva, cualquier mortal con sentido común habría marcado la casilla que corresponde a un empate. Sin embargo, la gráfica sugiere que vaticinar la victoria del equipo que actuaba como local (Inglaterra) también hubiera tenido mucho sentido, ¿no lo cree usted así?

Ahora por favor consulte la tabla que presenté con anterioridad o los resultados oficiales publicados en la página de Progol, y saque sus propias conclusiones.
¿Cayó usted en la cuenta de que ni la intuición ni la sabiduría colectiva pudieron acertar?
¿A quien se le ocurrió que Bélgica podía ganarle a Inglaterra?

Pues a juzgar por los hechos, todo parece indicar que fue una máquina dotada de inteligencia artificial, la responsable de los aciertos que marcaron la diferencia entre lo que una multitud sabe, y lo que puede deparar el destino. En este orden de ideas, el ser humano dispone ahora de un instrumento que le permite tomar mejores decisiones, de un conjunto de datos que pueden representar mejor la realidad de su entorno, y de un medio que puede llegar a fungir como una extensión de sus capacidades cognitivas, sin pretender sustituirlas.

Desde que tuve conocimiento de una de las frases célebres más populares de Nicolás Maquiavelo, en la que afirma “que la fortuna es juez de la mitad de nuestras acciones, pero que nos deja controlar la otra mitad, o poco menos”, estuve convencido de que el azar determina una buena parte de lo que nos acontece; pero después de los hallazgos a los que hice referencia en esta entrega, he llegado a la conclusión de que si bien es juez de la mitad de nuestras acciones, también nos deja controlar la otra mitad, o poco más.

© Sergio López González. Ing. en Informática Biomédica. 6 de Julio de 2018


REFERENCIAS

[1] Nazim Razali et al. Predicting Football Matches Results using Bayesian Networks for English Premier League (EPL).IOP Conf. Series: Materials Science and Engineering 226 (2017) 012099. International Research and Innovation Summit (IRIS2017).
[2] Surowiecki J. The Wisdom of Crowds. Anchor Books. New York
[3] Wagner & Vinaimont. Evaluating the Wisdom of Crowds. Issues in Information Systems, Volume XI, No. 1, 2010.
[4] Mustafa et al. Predicting The Cricket Match Outcome Using Crowd Opinions On Social Networks: A Comparative Study Of Machine Learning Methods. pp 63-76
[5] Herzog & Hertwig. The wisdom of ignorant crowds: Predicting sport outcomes by mere recognition. Judgment and Decision Making, Vol. 6, No. 1, February 2011, pp. 58–72
[6] Budescu & Chen: Identifying Expertise to Extract the Wisdom of Crowds. Management Science, Articles in Advance, pp. 1–14, ©2014 INFORMS
[7] Schumaker, Solieman and Chen. Sports Data Mining. Springer, 2010.

Solución de Problemas Multidisciplinarios con Minería de Datos (por Skype)

Objetivo:
Construir un modelo de decisión que permita emitir dictámenes sobre casos sin resolver, con base en lo que aprende una máquina durante el análisis de un número suficiente de casos resueltos, así como descubrir patrones, tendencias o indicios en el comportamiento de diversos grupos de datos, en función de sus propiedades.

Descripción General:
El instructor expone los temas del curso vía Skype, apoyándose  en la herramienta de software WEKA y un material didáctico de 6 módulos en formato PowerPoint. Tanto la operación de WEKA como el material didáctico, se cubren en varias sesiones prácticas de 2 horas, para que el participante aplique los
conocimientos adquiridos, inmediatamente después de iniciar el curso.

Beneficios esperados
1. Disminución de riesgos. Predecir eventos ayuda a enfrentar mejor una contingencia.
2. Prevenir enfermedades mejora la calidad de vida y reduce los gastos médicos.
3. Ahorro en salarios y gastos de mantenimiento y reparación (diagnóstico de fallas).
4. Disminuir la incertidumbre ayuda a tomar mejores decisiones y aumenta la competitividad.
5. La clasificación y la segmentación nos ayuda a decubrir el conocimiento aparentemente escondido en una gran cantidad de datos, eliminando la información irrelevante (la paja) que generalmente los acompaña.

Costo por una hora de instrucción: $650.00 (incluye la colaboración en línea del facilitador para el desarrollo de los temas y la aclaración de dudas).
Forma de Pago:
Opción 1 (para los participantes que radican en la República Mexicana): abono en cualquier tienda Oxxo, a la tarjeta No. 5579 0700 4261 9489 de Santander, o depósito en cuenta bancaria No. 60-56534785-8 del mismo banco, con clave interbancaria (CLABE) 014540605653478587.
Opción 2 (México y resto del mundo): envío vía PayPal a la cuenta educatecnica@hotmail.com
Opción 3 (descuentos por pronto pago): aplicar 15%, 25% o 35% de descuento, en caso de optar por una membresía de 4, 8 y 12 horas de instrucción, respectivamente.

Temario

Módulo 1
: Aspectos clave de la minería de datos (data mining)

1.1 Definición y propósito de la minería de datos
1.2 Mapa mental del curso (pulse sobre la imagen)
1.3 Aprendizaje de máquina supervisado vs. no supervisado
1.4 Tres conceptos clave: clase, algoritmo y atributo
1.5 ¿Qué se entiende por modelo de decisión (clasificación)?
1.6 Diferencia entre la precisón y la confiabilidad de un modelo

1.7 Matriz de confusión: falsos positivos/negativos y verdaderos positivos/negativos
1.8 El coeficiente de Kappa y la raíz del error cuadrático medio

Módulo 2: El proceso KDD y el estándard CRISP-DM

2.1 Los cinco pasos del proceso KDD (pulse sobre la imagen para agrandarla)
2.2 La comprensión del dominio de la especialidad y los atributos
2.3 El preprocesamiento de los datos
2.4 Evaluación de modelos
2.5 La selección de atributos y el concepto de proxy
2.6 Optimización del modelo (calibración)
2.7 Datos de entrenamiento y de prueba
2.8 Validación cruzada y pruebas con datos exógenos
2.9 Selección del modelo óptimo

Módulo 3: Aprendizaje supervisado

3.1 Clasificación y predicción
3.2 La importancia del modelo predictivo en la prevención de enfermedades, robos, suicidios, fraudes, deserciones, epidemias y desastres en general.
3.3 Taller No. 1: Aplicación del proceso KDD a la fidelización de clientes.
Detección anticipada del por qué y del cuándo los clientes deciden cambiar de proveedor (pulse sobre la imagen para agrandarla).

Ojetivo del taller: Analizando los datos de una muestra de 3,300 casos, el participante construirá un modelo predictivo basado en aprendizaje supervisado, para reducir el riesgo de deserción de clientes.

Módulo 4: Minería de datos clínicos como apoyo en el diagnóstico médico

4.1 Taller No. 2: Diagnosticar una cardiopatía (una afección en el corazón) con el propósito de prevenir un infarto. Objetivo: ponderar la importancia de la detección de falsos negativos.
4.2 Taller No. 3: Diagnóstico de la esperanza de vida en pacientes que han contraído hepatitis. Objetivo: evitar al máximo que un paciente se rinda a consecuencia del efecto nocebo que un pronóstico médico pesimista puede producir.
4.3 ¿De verdad dio positivo a la diabetes?: la matriz de confusión y los falsos positivos
4.4 Aprendizaje de máquina no supervisado
4.5 La comprensión de los datos y su importancia en la segmentación (clustering)
4.6 El arte de descubrir tendencias: entendiendo el centroide
4.7 Identificación de fenotipos por segmentación: ¿un modelo de diagnóstico para la esquizofrenia?

Módulo 5: Estudio de un caso.

El conocimiento que se puede extraer con los datos del monitoreo de la calidad de la energía eléctrica (pulse sobre la imagen para agrandarla).
Objetivo:
Descubrir patrones en los datos de un sistema de distribución, que permitan detectar anomalías y anticipar eventos, a fin de mejorar la calidad de la energía eléctrica entregada.
Principales beneficios esperados:

-Ahorro en gastos de operación y mantenimiento
-Simplificación de informes y apoyo para el cálculo de indicadores y el establecimiento de políticas de distribución óptima de la energía

Módulo 6: Pronósticos deportivos
Objetivo: Evaluar las posibilidades de ganar, apostando a los
resultados de los partidos de fútbol.
6.1 Taller No. 4: Construcción de un modelo predictivo para determinar el resultado de las quinielas deportivas
6.2 Las limitaciones del aprendizaje supervisado
6.3 ¿Dónde está el proxy?
6.4 La inteligencia colectiva y el aprendizaje de máquina no supervisado
6.5 Cómo obtener las mejores quinielas con WEKA
6.6 Inteligencia artificial y colectiva aplicada a otros eventos deportivos
6.7 Reflexiones finales y conclusiones

Unidad II: Conectividad en Redes de Voz (VoIP)

Carátula Curso ACCR PPT

Figura 1

Objetivo General
Con este material interactivo, usted experimentará con casos prácticos de sistemas de voz sobre IP, basándose en normas internacionales.

Objetivos específicos
Al terminar, será capaz de:
1.Encaminar llamadas en este tipo de redes
2.Identificar componentes en un entorno de VoIP y/o de telefonía IP
3. Programar routers Cisco para establecer conversaciones sobre una red IP.

A Quién Debería de Interesarle este Material Didáctico
El curso está dirigido a todo ingeniero, técnico o profesional con antecedentes en sistemas computacionales o informática, que quiera profundizar en el diseño, la instalación y el soporte de redes basadas en la tecnología de VoIP. Las unidades están enfocadas más a las telecomunicaciones que a la computación, tomando en cuenta que usted ha de estar buscando una capacitación diferente a la que podría encontrar en cualquiera de esos centros de educación técnica en computación que hay por ahí en su localidad.

Demo ACCR Unidad II

Figura 2

Dinámica del Curso
Mi propósito es transmitir el conocimiento de una manera interactiva y amena, para no caer en la típica exposición secuencial tipo Power Point. He desarrollado tanto esta segunda unidad como la que estoy ofreciendo gratis (Unidad III de ACCR) con su descarga, en un formato que se conoce como e-learning, en el que usted tendrá oportunidad de realizar prácticas y ejercicios interactivos, a fin de que participe de manera muy activa en el proceso de construcción de conocimiento.
Toda esta dinámica le permitirá también aclarar sus dudas al final de esta entrada, empleando para ello la sección de comentarios, en la que estaré respondiendo a sus preguntas con el objeto de reafirmar lo aprendido, como en cualquier otro foro de discusión en el que usted haya participado. En este mismo espacio, estaré en la mejor disposición de aceptar comentarios tanto de los participantes de otros cursos como de todo aquel que desee colaborar, a fin de que todos aprendamos más que si lo hiciéramos de manera aislada en nuestra casa u oficina.

Demo Mapa mental ACCR Unidad I

Figura 3

Temario del Curso y Generalidades para la Correcta Operación de los Programas (Software) de Aprendizaje por Medios Electrónicos (e-learning)
El conjunto de programas, imágenes, animaciones, juegos, evaluaciones, laboratorios virtuales, audio y demás contenido que necesitará para aprender a encaminar llamadas, lo puede descargar aquí. Todo viene integrado en la carpeta ACCR Unidades II y III.zip, cuyos elementos, una vez descomprimidos y copiados al disco raíz C de su equipo, se invocan muy amigablemente desde un programa maestro que contiene el mapa mental de la figura 3, en el que podrá identificar los temas que componen el curso, así como los ajustes que deberá hacer en su equipo para que su navegación sea completamente placentera. Si me hace favor de hacer clic sobre el mapa para agrandarlo, advertirá que un requisito indispensable para el despliegue apropiado del material que descargó, es el uso del Internet Explorer (IE), pues los demás navegadores no son compatibles con el software que seleccioné para la elaboración de los contenidos. Asimismo, es posible que llegara a encontrar incompatibilidades entre la versión del IE instalado en su equipo y la versión 7 del mismo, que es la que utilicé cuando desarrollé este material (IE7). Como no resulta muy viable y hasta podría ser demasiado engorroso “actualizar” su explorador a esa versión anterior, le recomiendo entonces hacer uso de la capacidad de emulación que ofrecen las versiones del IE posteriores a la 7, para que este material se despliegue correctamente. En el siguiente apartado explico cómo establecer la compatibilidad entre el IE11 (el que tengo instalado en mi equipo) y la versión IE7, que es la que se requiere para mostrar apropiadamente el contendido de todas las unidades de los ACCR.

Instrucciones de Instalación del Curso y Configuración del Internet Explorer en Modo de Documento Emulado
1. Descargue el curso Aspectos Clave de la Conectividad de redes (ACCR) Unidades II y III, ya sea en el vínculo proporcionado anteriormente en esta misma sección o en la sección de Descargas.
2. Una vez descargado, descomprima todo el contenido de la carpeta  ACCR Unidades II y III.zip y cópielo en la raíz de su disco duro, de manera que sus archivos queden en:

c:\Voice_Data
c:\Index
c:\Instrucciones de uso curso ACCR
c:\Instrucciones de uso curso ACCR.swf
c:\Mapa Mental ACCR

Ajuste de emulación paso 1

Figura 4

Ajuste de emulación paso 2

Figura 5

El archivo Instrucciones de uso curso ACCR.swf es un apoyo audiovisual que le dará información extra sobre las instrucciones de instalación y uso del curso. Por favor haga doble clic en este archivo para que le “saque todo el jugo que pueda” a este material. Este audiovisual en particular no tiene ningún problema de compatibilidad entre versiones del IE, así que lo puede reproducir sin necesidad de ningún ajuste o inclusive con otro explorador como por ejemplo Google Chrome.
3. A continuación haga doble clic en el archivo Mapa Mental ACCR y vaya a la segunda diapositiva de dicha presentación para que instale y configure lo que se ha especificado en las ramas amarillas del mapa. Si usted no cuenta con el visualizador de diapositivas de Power Point, puede dar doble clic en el archivo Index para obtener el mismo resultado.
4. Ahora pulse en alguno de los vínculos que en el mapa mental aparecen con la leyenda Temas Unidad II: Conectividad en Redes de Voz, o en Temas Unidad III: Ahorrando en llamadas de larga distancia, para abrir la unidad que haya elegido con la versión que tenga usted instalada en su equipo. La pantalla muy probablemente estará en blanco. Oprima la tecla F12 o alternativamente haga clic en la barra de menú de su explorador en Herramientas y luego en Herramientas de desarrollo F12 (pulse sobre la figura 4 para agrandarla).

Ajuste de emulación paso 3

Figura 6

Ajuste de emulación paso 4

Figura 7

5. Observe que en la pantalla que recién se ha desplegado, existe una pestaña con la leyenda Edge en la parte inferior derecha de su explorador. Ahí es donde debe usted seleccionar el nuevo modo de documento, haciendo clic sobre dicha pestaña para cambiar el valor predeterminado Edge (IE11) por el nuevo valor 7 (versión IE7 a emular), tal y como he ilustrado en las figuras 5 y 6 (pulse sobre cada una de éstas para agrandarlas).
6. Para abandonar esta pantalla y ver el curso sin que ésta impida la visualización de su contenido, necesitamos desanclarla y luego minimizarla. Para desanclar pulse simultáneamente las teclas Ctrl+P y luego minimice la ventana que recién se ha desprendido del explorador, pulsando con su ratón en el signo menos (-) que está en el extremo superior derecho de dicha ventana y no la cierre mientras esté consultando los módulos de esta unidad, porque de lo contrario volverá al modo edge (IE11) y tendrá que volver a iniciar el procedimiento hasta aquí descrito.
7. Por último, desplace con su ratón ligeramente hacia la derecha, la barra divisora (ver figura 7 en grande) para ver que aparezcan los controles de desplazamiento (scroll) vertical, de página Anterior (<) y página Siguiente (>), a fin de que adquiera el control total del contenido.

Permisos de seguridad IE

Figura 8

Si su equipo es de reciente adquisición, ocasionalmente usted tendrá que repetir el procedimiento de ajuste de emulación recién descrito, cuando alguno de los programas invoque a otro contenido e-learning que tenga que abrir el IE por primera vez. Usted se dará cuenta de que eso está ocurriendo cuando pulse en algún vínculo y no aparezca nada en la ventana del IE . Por supuesto eso no sucederá cuando se trate de vínculos que apuntan a páginas web externas. También puede darse el caso de que la versión de Windows y el IE que tiene su equipo, no necesite de ajustar la compatibilidad del IE, sino únicamente los otros dos permisos de seguridad (ver figura 8) que se han indicado tanto en el ramal amarillo del mapa mental, como en el vínculo “Antes de Iniciar”, en esa misma diapositiva.
La primera vez que haga usted uso de los ejercicios interactivos (como por ejemplo algún juego), recibirá en ese momento un mensaje con el que Microsoft lo estará invitando a instalar su programa SilverLight. Por favor pulse en esa notificación para efectuar la instalación, a fin de que se produzca esa alta interactividad necesaria entre participante y contenido didáctico.
Ahora ya puede comenzar a conocer el teje y el maneje de todo lo relacionado con la configuración de redes basadas en en la tecnología de Voz sobre IP (VoIP).

Cómo diagnosticar y reparar fallas en redes telefónicas y conmutadores

Generalidades
abonado
El principio fundamental para el diagnóstico, la localización de fallas y su reparación, está basado en la fragmentación sucesiva del sistema objeto de análisis. Esto significa que el problema reportado por el usuario debe localizarse de acuerdo a una metodología o criterio bajo el cual, podamos dividir al sistema principal en subsistemas.
La intención durante esta primera etapa, es la de observar el comportamiento de cada uno de los subsistemas actuando por separado, lo cual implica estar aislando el lugar en donde radica la falla que se desea detectar y reparar. El objetivo durante esta primera fase de fragmentación es entonces determinar el subsistema en donde se localiza la falla, para proceder a descartar el resto de los subsistemas que componen a todo el conjunto. Como advertirá usted, la naturaleza de esta política de detección de fallas permite reducir el área de inspección, simplificando así el problema original. Una vez eliminadas otras posibilidades, se puede encontrar la falla (o las fallas) con mayor rapidez.
Si durante esta primera etapa, el subsistema identificado como “culpable” es relativamente pequeño y susceptible de ser reemplazado por otro que se sabe se encuentra en buenas condiciones, la solución es directa y no se necesita de una etapa posterior para encontrar la solución al problema. No obstante, es posible que después de observar la operación del subsistema en cuestión, se necesite aplicar nuevamente ese mismo criterio a este otro, para poder identificar cuál de los módulos que lo integran, es el que está ocasionando el problema.
divide y vencerásSiguiendo un procedimiento similar al descrito, se puede simplificar la labor de mantenimiento, localizando el componente defectuoso mediante fragmentaciones sucesivas, es decir, las partes que hay que sustituir o las que deberá uno arreglar para que el sistema original vuelva a funcionar en la forma acostumbrada.  “Divide y vencerás”, aconsejaba Nicolás Maquiavelo.

Técnicas y recomendaciones para la localización de fallas en los diferentes niveles jerárquicos
A lo largo de este proceso de fragmentaciones sucesivas de elementos, se puede recurrir a diferentes técnicas que nos ayudarán a la identificación de elementos defectuosos, cualquiera que sea el nivel de jerarquía: sistema, un subsistema, un módulo dentro de éste, y por último, a nivel de componente dentro del módulo. Una de estas técnicas es la sustitución de partes “sospechosas”, o bien de aquéllas que se sabe son más propensas a fallar que otras. Esta estrategia es muy recomendable cuando se dispone de un buen stock (piezas excedentes que se sabe están en buenas condiciones) de refacciones o materiales, ya sea porque éstas son muy asequibles o bien porque se sabe son críticas para la operación de un equipo y se han adquirido para los casos de emergencia. En muchas ocasiones, sin necesidad de inspeccionar a fondo un circuito y dependiendo también de su tamaño y por ende de su complejidad, se puede comenzar por sustituir algunas de sus partes para observar, en cada una de las sustituciones, el comportamiento chipsdel circuito. Supóngase por ejemplo que después de haber realizado la identificación del módulo defectuoso dentro de un subsistema, dicho módulo consiste solamente de tres o cuatro chips y que los demás componentes son resistencias y uno que otro capacitor. Si una simple inspección visual no revela una resistencia o un capacitor deteriorados y si al analizar el tipo de chips instalados se determina que éstos cuestan muy poco y que se les puede encontrar fácilmente en el mercado, lo más indicado es el reemplazo de todos los chips, sin importar si sólo uno de ellos está dañado. La sustitución directa de todos ellos resulta más económica y se realiza más rápidamente que el tiempo que nos tomaría verificar con un osciloscopio, una punta de prueba u otro determinado instrumento, cuál de ellos es el que hay que reemplazar. Evidentemente, si el módulo no funcionara después de esta operación, la falla se hallaría probablemente en un capacitor (la probabilidad de que una resistencia estuviera en mal estado sería menor).
Una situación que sucede a menudo en la práctica, es que no se cuenta con los recursos suficientes para tener un buen stock de refacciones. Por otra parte, la escasez de refacciones puede llegar a representar un problema y a menudo se debe al monopolio que ejercen sobre éstas, los mismos fabricantes o distribuidores de los equipos comerciales. Cuando se presente cualquiera de los dos casos anteriores, se puede recurrir a la técnica del intercambio de partes o módulos “sospechosos”.
reemplazo de partesCuando el sistema contiene algún otro componente con las mismas características que el que se supone defectuoso y se tiene la seguridad de que este otro está en perfectas condiciones de funcionamiento, se pueden intercambiar ambos para observar algún cambio en la operación del sistema como un todo. El resultado de esta maniobra nos indicará si nuestras suposiciones a cerca del componente son correctas. Si la falla persiste, entonces el componente en cuestión no es el culpable del problema reportado. Si la falla se trasladó al lugar en donde dicho componente se cambió, entonces sabremos que efectivamente esa parte está averiada y debe ser reparada.
La mayor parte de las veces, el técnico no cuenta con la documentación técnica del equipo que va a reparar o de manuales de servicio que lo guíen en el proceso de localización de fallas. En estas condiciones, es posible que el técnico tenga que recurrir al método de la comparación de partes o componentes. Puesto que no se conocen los valores de voltajes o de resistencias en un determinado circuito, debido principalmente a la carencia de información técnica, se pueden extraer los valores de algunas variables o parámetros de un circuito o equipo idéntico, considerando desde luego que el técnico posee o bien tiene acceso a un equipo igual para poder comparar dichos valores entre los dos circuitos, el que se está reparando y el que se sabe está en buenas condiciones.

tarjetas PBXLa técnica de la verificación de simetría es una variante de la anterior y se aplica cuando no se cuenta con un equipo igual al que se desea reparar. Es posible que al inspeccionar cuidadosamente la circuitería, se identifiquen partes, áreas o secciones de la misma que guardan una cierta simetría. Este hecho se presenta muy frecuentemente en los PBXs, ya que dentro de las mismos, las tarrjetas de circuito impreso están compuestas de circuitos que desempeñan las mismas funciones, es decir, contienen elementos redundantes. Típicamente, una tarjeta de troncales o de extensiones contiene  “puertos” o circuitos constituidos por el mismo tipo y número de componentes (chips, transistores, diodos, capacitores, etc.), por lo que se pueden efectuar mediciones de resistencias con un multímetro para saber si existen diferencias significativas en las lecturas entre uno y otro.
La técnica más confiable y la más segura desde luego es aquella que permite medir directamente ciertas señales eléctricas en algunos puntos críticos del sistema objeto de análisis. Esta técnica es la más indicada cuando se dispone de la documentación de servicio y/o de los manuales de mantenimiento del equipo, aunque en el caso de los sistemas de telecomunicación, este caso es realmente excepcional. Los fabricantes o los distribuidores de este tipo de sistemas pocas veces ponen a disposición del público en general este tipo de información, a menos de que el solicitante pertenezca a algún centro de servicio autorizado.
Para finalizar con los métodos que el autor recomienda seguir para la detección de fallas, cabe citar aquél que la mayoría de los textos relacionados con el tema, mencionan casi siempre al principio de su contenido o bien a manera de introducción al tema del diagnóstico y la localización de fallas. Se trata ni más ni menos de aquél que toda persona  (hasta el más lego en la materia) tiene ya como algo ligado a su lógica de pensamiento. Estamos hablando del sentido común.
El lector escéptico posiblemente no pueda creer la cantidad de tiempo que un técnico se puede ahorrar utilizando su sentido común.
conectar clavijaCon la experiencia de muchos años, los profesionales dedicados a la reparación de equipo y de sistemas en general, se han percatado de que en un gran número de casos resueltos, los problemas los han solucionado casi de una manera intuitiva. El ejemplo típico de esto es cuando el usuario envía por el técnico para que éste llegue únicamente a conectar la clavija del equipo para hacer que éste funcione (derecha). Esto pudiera parecer increíble; pero sucede, y con frecuencia.
El sentido común nos dicta por ejemplo que:
1) Revisemos antes que nada las cosas más obvias, antes de comenzar a desarmar los circuitos más intrincados y verificar los chips más sofisticados que podamos encontrar. Dentro de lo más obvio, se encuentra por ejemplo
a) Verificar que el equipo está encendido
b) Que hay corriente eléctrica en el contacto de C.A
c) Que la fuente de poder está conectada
d) Que un adaptador de C.A a C.D sí está entregando el voltaje especificado sobre su cubierta
2) Evitemos el bloqueo de nuestra capacidad de pensamiento
user error3) Preguntemos al usuario cómo está manejando su equipo y comprobemos que conoce bien su funcionamiento. A veces, un usuario puede estar empeñado en hacer que el equipo funcione de una determinada manera, tal vez porque anteriormente manejó un equipo de otra marca que ejecutaba una función parecida.
4) Comprobemos que lo que está reportando el usuario, realmente está ocurriendo
5) Revisemos los consabidos falsos contactos o los cables rotos, gastados o mal colocados.
6) Reproduzcamos la falla, siempre que sea posible
7) Modifiquemos o reacondicionemos la disposición de los elementos, sin alterar desde luego su condición primordial, permitiendo con ello que el estado en el cual dejamos el equipo, sea mejor que cuando lo encontramos, independientemente de la falla reportada.
Basándonos en los criterios y técnicas descritas con anterioridad, podemos comenzar a analizar algunas fallas propias  de los sistemas telefónicos, siguiendo un esquema en el que primero se describe el síntoma (lo que reporta el usuario) y posteriormente el diagnóstico (las posibles causas).

Identificación de Fallas en las Redes
micro
El propósito de esta sección es identificar o discernir si la falla proviene de la red pública, o si ésta se encuentra en la red privada (propiedad del cliente).
Es importante hacer notar que para asegurar que el origen de la falla se encuentra en la red pública, se debe desconectar el par o los pares asociados a las líneas defectuosas, del equipo (PBX) o del registro de alimentación del proveedor del servicio telefónico público (compañía telefónica). Cuando se desconecta del equipo PBX la línea troncal, lo que se busca es la fragmentación del sistema telefónico en dos partes: red pública y red privada (incluyendo al PBX). Para comprobar la condición de la troncal en cuestión, se debe conectar el microteléfono justo en el registro de alimentación de la telefónica, no sin antes desconectar el jumper que une a dicho registro con el MDF (Main Distribution Frame) del cliente, haciendo las veces de crosconector. Si con el microteléfono la prueba resultara satisfactoria, ello indicaría que el problema efectivamente está en la red privada y no en la central o la red pública. La prueba más fehaciente de esto sería observar el comportamiento de dicha línea en el momento de reconectar (en paralelo con el microteléfono) el jumper (crosconector). Si la hipótesis de que el mal está en la red privada fuera verdadera, el microteléfono nos lo indicaría vía la ausencia de tono de marcar, ruido, etc.
Cuando al conectar el microteléfono directamente sobre las terminales del strip de la compañía telefónica, éste no registrara una señal normal sobre las mismas, entonces será claro y contundente que la reparación de dicho par compete al proveedor del servicio telefónico público, por lo que el técnico deberá reportar este hecho a su cliente, o al usuario de esa línea.
Asimismo, cuando el cliente o los usuarios del servicio reportaran otras fallas en la red privada, el técnico tendría que proceder de manera plintosimilar, analizando tramo por tramo de la red a lo largo de la trayectoria del par o los pares defectuosos, aislando cada porción del circuito del resto de la red o del PBX, según la sección en donde esté localizada la falla. Ilustremos lo anterior con una red cuyo cableado no ha sido estructurado. Si existiera un problema en una extensión de algún usuario, desconectaríamos en el plinto, el par que va desde éste al registro de salida o roseta, para saber si en el plinto llega bien el tono proveniente del PBX. El lector tal vez sabrá no obstante que aún en esas antiguas redes no normalizadas, el cableado radial (el que iba del distribuidor de líneas o tablero principal de distribución (MDF) hacia los registros de distribución) era fijo y que, en caso de encontrar un par dañado en esa sección de la red, se procedía a utilizar uno de reserva (no usado por algún otro usuario) para reemplazar el que estaba en corto o en circuito abierto. Hoy en día, en los cableados estructurados horizontales y verticales de instalaciones más moderas, también existen pares de reserva para voz/datos que cumplen una función similar. Lo único que se hace es mover los jumpers o crosconectores para empatar pares de reserva fijos, que es exactamente el mismo principio; pero aplicado tanto en cables horizontales como verticales, que de alguna manera, vinieron a sustituir al antiguo cableado radial.
Line TrackersEl generador de tonos y el amplificador de inducción (derecha), son dos instrumentos que el técnico a cargo de la red debe conocer para efectuar las pruebas que he descrito con anterioridad. Ambos dispositivos nos serán de mucha utilidad, a la hora de localizar un determinado par telefónico.
Además, el generador de tonos es un dispositivo que nos permitirá probar el estado de las líneas telefónicas. Se alimenta mediante una pila de 9 volts y junto con ésta, el fabricante suministra un par de cables de conexión (uno rojo y otro negro). Algunos modelos traen también un conector modular telefónico (plug RJ11) para  facilitar la conexión con otros accesorios que poseen el mismo tipo de entrada (como por ejemplo, una roseta).
Mediante un interruptor de tres posiciones se controlan las funciones de este dispositivo. Posee también un indicador  luminoso de color rojo (LED) para determinar la continuidad de un circuito y la polaridad de una línea telefónica. En el interior de la caja existe también otro switch que sirve para seleccionar el modo de generación de los tonos audibles, uno continuo y otro oscilatorio. A continuación, se describen brevemente una serie de pruebas que nos demuestran cómo esta pequeña herramienta puede simplificar en gran medida el trabajo del técnico. Para ello, colóquese previamente el interruptor de tres posiciones (externo) en la posición OFF y procédase de la siguiente manera:.

generador de tonosPrueba No. 1: Identificación de las terminales A (Ring) y B (Tip) de una línea telefónica.
Con el cable negro conectado a una tierra física o punto de referencia (varilla de cobre o chasis de algún equipo debidamente aterrizado), tocar ambas terminales de la línea bajo prueba con el cable rojo.Cuando el LED encienda, la terminal B (TIP) se corresponderá con aquélla que se encuentre conectada al terminal rojo del generador de tonos.
Cuando por cualquier razón no se pueda hallar una tierra para conectar el cable negro, conéctese los dos cables al par de alambres de la línea telefónica. El LED se encenderá cuando el cable negro esté conectado a la terminal A (RING) y el rojo al B (TIP).
PRUEBA 2: Identificación del estado de la línea telefónica.
En base a la prueba anterior, se conecta el cable negro a la terminal A y el rojo al B. Al observar el LED,se tiene :
– Caso 1: Si la luz es fuerte, la línea está desocupada
– Caso 2: Si la luz es débil, la línea está ocupada
– Caso 3: Si la luz es fuerte e intermitente,esto significa que está entrando una llamada a la línea (timbrado).
PRUEBA 3: Comprobación de la línea.
Mientras se marca el número de la línea a comprobar, conectar el cable rojo a B y el negro a A. El LED alumbrará intermitentemente. Al cambiar el switch del generador a la posición CONT, la llamada se interrumpirá.
PRUEBA 4: Verificación de continuidad en un par telefónico.
Mover el switch a la posición CONT. A continuación, Cortocircuitar (“puentear”) en el otro extremo de la línea las terminales de ésta. En el extremo en donde nos encontramos, conectar los cables rojo y negro al par telefónico. Si el LED se prende es que existe continuidad.

localizando el parEl amplificador de inducción (izquierda) se utiliza junto con el generador para la identificación de un par telefónico sin dañar su aislamiento. Mediante inducción electromagnética, este instrumento detecta el tono generado por el instrumento anteriormente descrito, desde el extremo opuesto del par que se desea verificar. Mediante estos dos dispositivos, es posible identificar una línea telefónica entremezclada con una  gran cantidad de  cables que  parten a diestra y siniestra desde un punto cualquiera de un sistema telefónico. Si desconocemos por ejemplo el lugar específico en donde uno de los cientos de pares que hay en un extremo de la red, remata en el lado opuesto, como podría ser entre el MDF y el registro de alimentación del proveedor, conectaríamos en el extremo en donde conocemos la localización del par objeto de la prueba, el generador de tonos, y en el otro extremo, rastrearíamos con el amplificador de inducción, el tono generado por aquél, sobre las regletas en donde creemos puede estar el extremo opuesto del par en cuestión. La cubierta de esta punta de prueba inductiva es de plástico muy resistente a los golpes y se alimenta mediante una pila de 9 volts con una duración aproximada de 100 horas. Algunos modelos están provistos de un interruptor de encendido/apagado, un control de volumen ajustable para poder escuchar mejor el sonido emitido por el generador de tonos, aún en presencia de ruido o interferencia de C.A. También los hay con conexiones para el uso de auriculares y encendido automático.
A continuación enunciamos algunas fallas típicas en las  que se hace necesario el discernir bien, cuál de las dos partes (privada o pública) es la causante del problema.

Ausencia de respuesta o contestación tardía por parte de la operadora del PBX
Diagnóstico:
operadora no contesta1) La operadora puede estar tardando demasiado en liberar su consola por razones ya no de negligencia sino porque algún empleado, cliente o proveedor le está solicitando información.
2) Sistema mal dimensionado. El tráfico telefónico puede ser muy alto y el número de troncales es insuficiente para manejarlo (aprenda cómo se diseña una red de voz).
3) Número de consolas inadecuado. El sistema puede estar recibiendo llamadas; pero cada una de ellas es insertada en una cola de espera y permanece ahí hasta que el recurso (consola) le es concedido.
4) El par asociado a una troncal dentro del número de grupo (o número de guía) del PBX está abierto (roto) y la central pública no puede continuar su secuenciamiento para anunciar la llamada en la siguiente troncal libre dentro del grupo.
5) Una línea o varias líneas del PBX se han quedado bloqueadas. Entiéndase por línea bloqueada aquélla por la que no pueden entrar ni salir llamadas. 

Falta de acceso a una troncal desde una determinada extensión
pares
Diagnóstico:
Si la troncal es pública:
1) La troncal está fuera de servicio (par abierto) y en la base de datos del PBX no se le ha dado de baja.
2) Enrutamiento erróneo. Falla de programación
Si la troncal es privada (Tie-Line):
3) Instalación inapropiada: tierra física muy pobre o no existe un sistema de tierra física en dónde aterrizar el PBX. Hace falta un cable o hilo de tierra de señal que interconecte ambos PBXs.

Diafonía
Esta se manifiesta por el llamado “cruce de conversaciones” y por lo regular se debe a una falla en los filtros o multiplexores de la infraestructura pública de telecomunicaciones.

Detección y reparación de fallas en la red privada

Línea muerta
línea muerta
Los usuarios llaman línea muerta a una línea carente de timbrado y de tono de invitación a marcar.
Diagnóstico:
1) Circuito abierto o par “roto” en el cable radial o del par que va del registro de distribución a la roseta (extensión propiamente dicha).
2) Desconexión del cordón de línea de su roseta.
3) Corto circuito en el par de la extensión o en el radial.
4) Problema interno en el aparato del usuario.

Ausencia de timbrado con tono de invitación a marcar
Esta falla no es tan frecuente; pero se llega a presentar en las empresas del ramo industrial.
Diagnóstico:
1) Bobina de timbrado en circuito abierto o dañada por humedad (moho) u otros agentes químicos.
2) Programación de la función “no molestar” en el puerto de la extensión.
3) Falla de programación. Posible reenrutamineto hacia una extensión inexistente o asignada a un puerto dañado.
4) Puerto parcialmente dañado.

Ruido en la línea
teléfono triste
Diagnóstico:
Par con un gran contenido de humedad o con conexión a tierra en alguna de sus terminales. No ocurre frecuentemente en las líneas privadas. La falla por lo regular proviene de las instalaciones exteriores o de la central pública, si ésta ha sido detectada después de haber tomado una troncal del conmutador.

Presencia de voz en un extremo del circuito y ausencia de la misma en el lado opuesto.
Diagnóstico:
1) Pastilla receptora del auricular averiada.
2) Pastilla transmisora del auricular averiada.
3) Cordón retráctil (espiral) con plugs deteriorados.
4) Falso contacto en el Jack del auricular o en la base del aparato.
5) Instalación errónea (muy común en sistemas secretariales)

Imposibilidad de marcar un número
Cuando un usuario está intentando marcar cierto número, el PBX no suspende la generación de su tono de invitación a marcar, después de la marcación de cada uno de ellos.
Diagnóstico:
discando1) El PBX está esperando señalización por pulsos/tonos y el aparato se ha ajustado para enviar tonos/pulsos.
2) Teclado defectuoso por falta de mantenimiento
3) Si el aparato señaliza por tonos, es posible que el C.I encargado de la generación de los tonos (DTMF) tenga un desperfecto.
4) Si el aparato utiliza la señalización decádica, es muy probable que alguno o algunos de sus transistores no estén conmutando entre los estados de corte y saturación, debido a una corriente de fuga. En este caso se requiere reemplazarlos.

Cómo diseñar una red de voz sobre IP con excelente calidad en sus conversaciones

 

Introducción
D1-ObjetivoCon la finalidad de diseñar una red de voz, en esta cuarta unidad de los Aspectos Clave de la Conectividad de Redes (ACCR), vamos a integrar y aplicar todo lo aprendido hasta aquí, considerando todos los factores que pueden afectar la calidad de las conversaciones. El objetivo (pulse sobre la figura para agrandarla) es que usted sepa cómo se dimensiona una red de VoIP, calculando tanto el ancho de banda de una llamada, como el número de troncales requeridas por el tráfico telefónico.

Dinámica del Curso
A lo largo de la exposición y en la sección de comentarios, estaré proponiendo ejercicios y un taller para que al término de la entrada/curso, usted pueda responder a mis preguntas o me haga saber el resultado de mis encomiendas, a través de sus comentarios. En algunos casos, usted investigará por su cuenta algunos temas para reafirmar y ampliar sus conocimientos. A fin de complementar su capacitación, encontrará un vínculo para descargar contenido multimedia (animaciones y audio) sin ningún costo. Para que no se pierda de los detalles de cada apartado, le recomiendo que conforme vaya avanzando en su lectura, haga clic sobre cada figura para agrandarla.

Conocimientos previos
Para comprender mejor todo lo que hemos de estudiar en esta unidad, es importante tener bien claros los conocimientos de las unidades anteriores. Si usted ya conoce los conceptos básicos de la tecnología de VoIP, entonces creo que no tendrá ningún problema para asimilar el material que vamos a analizar aquí; pero si ya no se acuerda bien de dichos fundamentos o siente que todavía no los domina, entonces es muy probable que quiera descargar el Repaso de las Unidades II y III de ACCR, que si bien no sustituye en modo alguno la totalidad de los contenidos de los ACCR anteriores, sí le ayudará a entender mejor los temas que siguen.

D2-Factores diseño

Factores a considerar en el diseño.
Es imposible obviar la importancia que van a tener el tipo de codec, el tamaño de la muestra, la tecnología de capa 2 (encabezados) sobre la que se encapsularán los paquetes de voz , la  compresión de esos encabezados vía el protocolo CRTP, así como la detección inteligente de la actividad de voz (VAD, por sus siglas en inglés). Véase la figura 2, haciendo clic sobre la misma para agrandarla.
El codec lo selecciona usted en cada uno los gateways de su red. A este respecto, conviene aclarar que este curso no es sobre telefonía IP, a la que podríamos concebir como un abanico de funciones de valor agregado que un IP PBX ofrece a sus usuarios, y que funciona gracias a la tecnología de Voz sobre IP (véase el repaso). Pero en una red de VoIP los protagonistas no son los IP PBXs, sino los gateways y los puntos terminales como los softphones y los teléfonos IP. Con esto en mente, un gateway de gama alta o de calidad similar, le permitirá D3-Uso de Codecsconfigurar el tipo de codec, en función de las características que he relacionado en la figura 3 (derecha). No hay que perder de vista que para que una llamada pueda establecerse en una red VoIP, es indispensable que los codecs en ambos extremos manejen exactamente el mismo estándard; así por ejemplo, usted no podrá llamar desde un teléfono analógico conectado a una intefaz FXS de un gateway que tenga configurado un codec G.711, a otro usuario que esté conectado a un puerto con el estándard G.729. Ahora bien, en cursos anteriores vimos que un codec podría comprimir la carga útil a diferentes velocidades (tasas de compresión), y que cada uno de ellos tenía un MOS (Mean Opinion Score) diferente, que era un indicador de la calidad de voz percibida, en toda la extensión de la palabra, porque el MOS es una forma muy subjetiva de medir la calidad. Vimos también que si bien era importante reducir el consumo de ancho de banda (porque redundaba en un ahorro en las igualas mensuales de los enlaces), al mismo tiempo existía un compromiso entre la calidad del codec y el ancho de banda propio de la compresión. Lo que quiero decir es que mientras más se comprima la carga útil (las muestras de voz, no los encabezados), la calidad del codec tiende a ser más pobre. Lo que se necesita entonces es un codec que comprima a una tasa de compresión razonable, y que al mismo tiempo sea de buena calidad. Asi mismo, tasas de compresión muy altas, exigen una gran capacidad de procesamiento, lo cual va a impactar a su vez en los retardos que se darán por esa razón en los gateways. Y esto también deberá usted tenerlo muy presente cuando tenga que decidir qué codec usar, pues si va a comprimir a una gran velocidad, tendrá que disponer de gateways con procesadores suficientemente rápidos D4-tasas de Codecs(muchas veces costosos) para cumplir con sus requerimientos de ancho de banda. La pregunta que surge entonces es: ¿cuáles serían los codecs que deberíamos usar en una aplicación de VoIP, para que todo vaya bien?. Por favor haga clic en la figura 4 (izquierda) para ver mi sugerencia. Advierta que si únicamente va a estar estableciendo y manteniendo sesiones de voz (conversaciones), lo más aconsejable es utilizar el codec G.729, pues éste cumple con los requerimientos anteriormente mencionados (un ancho de banda relativamente reducido con un MOS prácticamente igual al del codec G.711, que es el de mayor calidad). No obstante, e independientemente de que existan codecs especiales para faxes (de la serie T de la UIT), usted tendrá que configurar en sus equipos el estándard G.711 de la UIT, si quiere que sus gateways soporten tanto transmisiones de voz como de fax.

D5-tamaño muestraEl tamaño de la muestra también es configurable, y se define como el número de bytes que alcanza a capturar el codec en un intervalo de tiempo que está entre los 10 y los 30 milisegundos (al menos esos son los tamaños que Cisco maneja en sus gateways, aunque no dudo que existan fabricantes de equipos que soporten valores ligeramente diferentes).
Si no queremos que nuestros paquetes se retrasen demasiado, o que resulte difícil el recuperarlos, deberíamos escoger tamaños de muestra pequeños. Pero el elegir muestras pequeñas, implica inundar los canales de comunicación (enlaces) con un mayor número de encabezados, lo cual va en detrimento del desempeño (throughput) de la red. Lo contrario aplica para las muestras de voz muy grandes (ver figura 5). En esta misma figura he apuntado que con muestras grandes, el jitter aumenta, lo cual no es del todo aconsejable. El jitter se puede definir como la variabilidad de los retardos y afecta sensiblemente  la calidad de las conversaciones. Se percibe como una interrupción momentánea de una palabra o frase y si llega a ser excesivo, la conversación se vuelve ininteligible. No debe confundirse con la pérdida de paquetes, cuyo rango de aceptación o tolerancia se recomienda se mantenga igual o menor al 1% entre paquetes contiguos y del orden del 3% entre paquetes no muy próximos.
Con el tamaño de la muestra también existe un compromiso entre los factores mencionados, de manera que también es bueno conocer el criterio a seguir para seleccionar correctamente este parámetro. Salvo muy contadas excepciones, conviene apegarse a lo que dice el refrán “ni tanto que queme al santo, ni tanto que no lo alumbre”, lo que traducido a la jerga técnica viene a ser un tamaño de muestra de 20 msegs. De hecho, es el valor de fábrica (default) que maneja Cisco en sus gateways (pasarelas).

D6-EncabezadosLos encabezados repercuten significativamente en el ancho de banda, ya que no es lo mismo encapsularlos sobre ethernet, que sobre PPP, MPLS, o junto con alguna otra tecnología que contribuya con el aumento de lo que también se conoce como overhead, como pueden ser los túneles con IPSec o L2TP.  A esos encabezados hay desde luego que agregar los de los protocolos de red (IP) y de transporte (UDP y RTP), que invariablemente estarán presentes en todas las aplicaciones no solo de voz, sino de aquellas en las que se deba transportar datos de tiempo real y multimedia (video y audio). Como sabemos de la Unidad I, a este proceso necesario de agregado de encabezados (overhead) a la carga útil, se le conoce como encapsulamiento, y el total de bytes que necesita cada paquete para ser enviado y procesado convenientemente a través de la red, repercute en el rendimiento (throughput) de la misma. Cuando la relación (carga útil)/encabezados aumenta, el rendimiento de la red es mayor que cuando ese mismo cociente disminuye. Si concebimos a los encabezados como la información que necesitamos para tramitar el envío de cada paquete, parece claro que entre más carga útil logremos enviar con menor número de trámites, estaremos aprovechando mejor el ancho de banda disponible. Por el contrario, si enviamos muy pocos datos realmente útiles (carga útil o payload) con demasiados trámites (overhead), estaremos desaprovechando nuestro ancho de banda y por lo tanto, tendremos un bajo rendimiento. Dice el refrán popular: “mucho ruido y pocas nueces”.

D7-Compresión encabezadosComo los encabezados son indispensables para realizar todos esos trámites, habrá situaciones en la que resulte difícil obtener un buen rendimiento, por lo que habrá que recurrir a otras instancias, como por ejemplo, reducir encabezados. Los encabezados de la triada inseparable RTP/UDP/IP (léase RTP sobre UDP sobre IP), es posible reducirlos de 40 bytes, como mostraba la figura 6, a solo 2 bytes, como se ha ilustrado en la figura de la derecha (hacer clic para agrandarla). ¿Y cómo es eso posible?. Si usted ya conoce la respuesta, lo invito a que la remita a la sección de comentarios. Si no la conoce, por favor investigue en la red y envíela al final de esta entrada(curso) a modo de comentario, como parte de la dinámica que le ayudará a reafirmar y ampliar sus conocimientos.
A partir de esta misma figura y a modo de comentario, proporcione la memoria de cálculo para determinar cuántos Bytes captura un codec G.711 en 10 msegs (tamaño de la muestra). Compruebe su resultado comparándolo con el dato que aparece en la columna Bytes/muestra.

D8-VADHay una función que los gateways soportan y que ayuda a optimizar el flujo de paquetes de voz, suprimiendo los silencios. ¿Para qué enviar paquetes de silencio hasta el otro extremos de la red, si éstos no aportan mensajes útiles al receptor?. A la capacidad que tiene un gateway para ahorrar aproximadamante un 35% de ancho de banda, por medio de la supresión de silencios, se le llama Detección de Actividad de Voz (VAD, por sus siglas en ingés); pero como bien se advierte en la figura 8 (izquierda), no debe ser usada como criterio para dimensionar el ancho de banda de los enlaces de la red, debido a que ese ahorro solo aplica cuando se trata de tráficos muy densos (por arriba de las mil llamadas). La razón principal es que, en el curso de una conversación, los silencios son completamente impredecibles.
Para calcular el ancho de banda requerido en una red de VoIP, debemos calcular primero el que va a consumir una D9-AB una llamadasola llamada, y luego multiplicar ese valor, por el número de llamadas simultáneas que podrán ser transmitidas por la red. Esas llamadas que pueden establecerse y mantenerse en una red de VoIP de manera simultánea, equivale al concepto de troncales en la telefonía tradicional, y ese concepto es el que usaremos para determinar el ancho de banda total, como sigue:
Ancho de banda Total = Ancho de banda de una llamada x número de troncales ……………….(1)

Cálculo del ancho de banda de una llamada
En la telefonía tradicional, las troncales son los canales que conectan dos centrales cualesquiera, ya sean éstas públicas (Central Offices, o COs) o privadas (PBX o conmutadores). A las troncales que conectan dos centrales privadas o PBX se les denomina Tie Lines, o troncales privadas; a las que interconectan dos COs, se les llama troncales públicas; y las que conectan un PBX con una CO, se conocen simplemente como troncales.
D10-Cálculo AB por llamadaPara comprender mejor el procedimiento de cálculo del ancho de banda de una llamada, hagamos un ejercicio con valores reales. En la figura de la derecha, hemos ejemplificado el procedimiento suponiendo que vamos a trabajar en una red ethernet, con un codec G.711 y muestras de 30 msegs.
Aconsejo razonar de la siguiente manera para no tratar de memorizar ningún dato y comprender mejor la relación entre el tipo de codec y el tamaño de la muestra (30 msegs en este ejemplo).
Lo primero que hay que hacer es preguntarse, ¿Cuales son las unidades en las que está dado el ancho de banda?. Puesto que el resultado debe estar dado en bits por segundo (Kbps, Mbps, Gbps, etc.), y sabiendo que el codec está “viendo pasar” 64,000 bits en un segundo (G.711), entonces cabría preguntarse cuántos bits alcanzaría a ver el codec en tan solo 30 msegs, que es la ventana de tiempo que se le está dando para capturar cada muestra. El problema de reduce a una simple regla de tres, tal  y como he ilustrado en la figura 10. Dicho en otras palabras, si 64,000 bits pasan en un segundo, ¿cuántos bits pasarán en 0.030 segundos? El resultado es 240 bytes. Las figuras 5, 7 y 8 así lo corroboran.
D11-Cálculo AB por llamada con encabezadosPero recuerde que esos 240 bytes corresponden solo a la carga útil, pues es la cantidad de bytes que ha digitalizado el codec vía el proceso PCM, según se vio en las Unidades II y III de la serie ACCR. Así que ya tenemos la parte de la voz. Ahora falta incluir la información que ya dijimos nos sirve para tramitar el envío de los paquetes, es decir, los encabezados. Volviendo de nuevo a la figura 6, advertimos que la triada RTP/UDP/IP aporta 40 bytes a los encabezados, mientras que ethernet agrega otros 18, de manera que sumados con la carga útil y dividiendo todos esos 298 bytes entre el tamaño de la muestra en segundos, arroja un total de 79.5 Kbps.
Si comprimiéramos esos encabezados, reemplazaríamos en la misma ecuación, los 40 bytes de la triada RTP/UDP/IP por tan solo 2 bytes producto de la compresión, que en este caso se D12-Cálculo AB por llamada con compresiónimplementa en las interfaces seriales de los gateways, mediante el protocolo CRTP (Compressed RTP), que a su vez es activado mediante un comando que usted como administrador deberá teclear desde su consola de configuración, de manera similar a como lo hizo en los laboratorios virtuales de las tres unidades anteriores. ¿Cual es ese comando? Por favor conteste a esta pregunta con un comentario al final de esta entrada, haciendo el ejercicio de investigación que corresponda.

Tráfico telefónico
Se conoce como tráfico al número promedio de ocupaciones simultáneas durante un periodo de tiempo T, que generalmente corresponde a los 60 minutos de la llamada hora pico.
A la unidad de tráfico se le dio el nombre de erlang, en honor al  matemático, estadístico e ingeniero Danés, Agner Krarup Erlang, y está representada por la fracción o porcentaje de la hora pico, durante la cual una o más líneas D13-Estudio de tráfico y erlangse mantuvieron ocupadas. En la figura 13 se dan algunos ejemplos que nos ayudan a entender mejor cómo se mide el tráfico telefónico. Por lo geeral, el número de erlangs de tráfico en un sistema de VoIP, depende de la naturaleza de la organización o empresa en donde la red se encuentra instalada. Cuando se desea conocer el tráfico de un sistema que apenas se va a instalar, se pueden realizar estimaciones del número de erlangs, en base a estadísticas de otros negocios o instituciones similares. Típicamente, en un ambiente de oficinas gubernamentales, comercios, bancos, etc., se puede asumir que, en promedio, los abonados realizan cinco llamadas de tres minutos cada una, durante la hora pico, por lo que el tráfico por extensión resulta ser de 0.25 Erlangs. En otros entornos, como el doméstico por ejemplo, los valores estarán en el rango de los 0.07 a los 0.1 erlangs. En los de mayor alto tráfico, como es el caso de la bolsa de valores y los centros de llamadas (ver modelo C de Erlang en el Anexo II), estos números alcanzarán hasta los 0.5 erlangs. ¿Y cómo deberíamos interpretar un valor de 0.5 Erlangs por extensión?. Significa que durante la hora pico, esa linea se ocupó por 30 minutos (no necesariamente en una sola ocasión, sino probablemente distribuidos en varias llamadas a lo largo de ese tiempo). ¿Y cómo saber cuál es la hora pico?. Son los 60 minutos que corresponden al mes de más alto tráfico, y dentro de ese mes, la semana, el día y la hora cuyo tráfico resultó ser el mayor de todos.

Clases de tráfico
D14-Tráfico ofrecido y total erlangs
Dependiendo de cual sea el resultado que un abonado obtenga cuando intenta realizar una llamada, el tráfico que manejará el sistema puede ser de dos clases: el tráfico cursado y el tráfico ofrecido. El tráfico cursado es el que se asocia al conjunto de llamadas que salen del sistema o que efectivamente pasó por el mismo. En conformidad con esta definición, decimos que todas las llamadas que tuvieron éxito durante el proceso de conexión con el destino, son parte del tráfico cursado (ver más adelante figuras 19 y 20). El tráfico ofrecido (figura 14) es aquél que se asocia a las llamadas que demandan los usuarios y que encuentran algún problema al intentar la conexión con el destino, como por ejemplo, D15-Grado de Servicioerrores de marcación, congestión (ver figura 15) o cualesquier otro desperfecto del sistema que ocasione un fracaso durante la comunicación entre ambas partes. La congestión o bloqueo de líneas se presenta cuando una llamada no puede establecerse porque todos los dispositivos de conexión están ocupados. Las llamadas que se ofrecen al sistema y que encuentran congestión en el mismo se denominan llamadas perdidas (figura 16).  La probabilidad de que una llamada se pierda va a depender del grado de servicio que el administrador desee para su sistema. El establecer una probabilidad de pérdida de llamadas con el propósito de diseñar nuestra red de VoIP, trae consigo un compromiso entre el costo y D16-Ejemplos grado de Serviciola eficiencia del mismo. Para ejemplificar lo anterior, supóngase que un administrador ha decidido que de cada 100 llamadas que un abonado intente realizar, existe la posibilidad de que sólo una de ellas se pierda. La probabilidad de pérdida en este caso es del 1% y lo que se tiene aquí es un sistema en extremo eficiente; sólo que a un precio excesivamente alto. La mayoría de los administradores de sistemas experimentan gran contrariedad cuando se enteran del número de troncales que se necesitan para alcanzar ese grado de servicio. Por ello, la probabilidad de pérdida o congestión la fijan de acuerdo a los recursos de que disponen, y de qué tan bien quieren que se comporte el sistema al poner a prueba la disponibilidad de sus troncales (figura 15). Así, el administrador deberá establecer el criterio de diseño que más se ajuste a sus recursos, exigencias y necesidades.

Determinación del número de troncales (tablas y modelos de Erlang)
Al igual que en otras áreas de la ingeniería, existen en la literatura datos tabulados que ahorran un gran número de cálculos y que se emplean precisamente en el diseño de este tipo de sistemas. Tal es el caso de las tablas de Erlang. Como se advierte en la figura adjunta, n es el número de troncales que nos está haciendo falta en la ecuación (1) para calcular el ancho de banda total de nuestros enlaces de voz, pues hasta ahora, apenas hemos aprendido a obtener el ancho de banda que ocuparía una sola llamada.
D17-Tablas de ErlangHay dos formatos para las tablas de Erlang. El que se ha mostrado en la figura 17, se usa para determinar el número de troncales (n), una vez que se ha establecido el grado de servicio y se ha calculado el tráfico ofrecido. Para entender cómo se usa este formato, supongamos que el número de llamadas durante la hora pico hubiese sido de 60, con un promedio de duración de 2 minutos. De acuerdo con la ecuación dada en la figura 14, el tráfico ofrecido sería de:
A = C * T = 60 x 2 = 120 llamadas-minuto
Recordando también de esa misma figura que el tráfico en erlangs se obtiene simplemente dividiendo A entre los 60 minutos que tiene la hora pico, tenemos:
erlangs = 120/60 = 2 erlangs.
Si asumimos un grado de servicio de 1%, al entrar a las Tablas de Erlangs de la figura 17, notamos que si recorremos hacia abajo, la columna correspondiente a una probabilidad de pérdida de 0.01, hasta encontrar el valor que más se aproxima a 2 erlangs (en este caso es 1.9090), el valor n que se encuentra enmarcado en rojo a la izquierda de ese renglón, es 6. Ese es el número de troncales correspondiente a esos erlangs de tráfico, para el grado de servicio seleccionado en este ejemplo (1%).
Existe otro formato que se usa para evaluar el rendimiento de un sistema ya instalado (red, mas terminales, más gateways, más PBX o IPPBX, etc.). En un taller que más adelante pondré a su amable consideración en la sección de comentarios, le voy a pedir que investigue cómo se usa esa presentación para determinar el grado de servicio de una red, conociendo el número de troncales y habiendo calculado previamente el tráfico ofrecido. La evaluación del rendimiento se realiza con la finalidad de conocer qué tan bien está operando la red, con el número de troncales que se tienen en ese momento.

Taller No. 1: Un caso práctico
D18-Caso práctico
No hay mejor manera de aprender que con casos reales. A continuación voy a explicar cómo se diseña la Red Voip mostrada en la figura 18 (derecha), para que entre ambos sitios se puedan establecer y mantener conversaciones con una excelente calidad de servicio (QoS), a través de una WAN de tecnología MPLS/PPP. Concretamente, se trata de especificar el ancho de banda entre los sitios A y B, para que 35 usuarios puedan llamar de un extremo a otro sin hacer uso de la red telefónica pública conmutada (RTPC).
Aplicando lo que ya hemos visto en apartados anteriores, procedamos a calcular el ancho de banda de una llamada, considerando un codec G.729 y un tamaño de muestra de 20 msegs, que como ya habíamos acordado, son las mejores opciones, ya que no necesitaremos transmitir faxes.
El tamaño de la muestra en bytes la obtenemos a partir de la regla de tres simple:
8,000 bits/1 seg = Xbits/0.020 segs
Xbits = (8,000 x 0.020) = 160 bits
Xbytes = 160/8 = 20 bytes.
Utilizando ese valor para la carga útil, calculemos el ancho de banda por llamada, incluyendo los encabezados de PPP y de la triada de transporte y red, que esta vez comprimiremos (ver figuras 6 y 7):
ABBps = (6+2+20) bytes/0.020 seg
ABBps = 28/0.020 = 1,400 bytes/seg
ABbps = 1,400 x 8 = 11,200 bits/seg = 11.2 Kbps
Note que no hemos incluido los encabezados del protocolo MPLS, ya que estamos haciendo el cálculo de los enlaces entre los sitios del cliente y la WAN, no en la nube del proveedor. Las etiquetas inherentes a MPLS no son agregadas por el router del cliente, sino en el router de frontera (E-LSR) de la WAN, por lo que no existen encabezados de esta tecnología en los enlaces A y B.

D19-Modelo Erlang BNecesitamos conocer ahora el número de troncales para calcular el ancho de banda total. Puesto que no disponemos del número de llamadas durante la hora pico (C) ni de la duración promedio de una llamada en minutos (T), no podemos obtener el tráfico ofrecido con la fórmula A = C * T.  Pero como hemos visto, en un ambiente de negocios típico, propio de un modelo erlang B/B extendido, para el que el número de extensiones es mucho mayor que el de troncales, los usuarios hacen cinco llamadas de tres minutos cada una en la hora pico, lo que significa que su extensión la ocupan 15 minutos durante dicho intervalo de observación, que divididos entre 60 minutos, da un tráfico de 0.25 erlangs por usuario. Si multiplicamos ese valor por el total de usuarios, el tráfico ofrecido es A = 0.25 erlangs x 35 =  8.75 erlangs. En el estudio de tráfico del Anexo I fundamento aún más el porqué es muy válido, confiable y recomendable, el asignar este valor empírico al número de erlangs por extensión, cuando no se cuenta con ningún dato y el modelo de D20-Modelo Erlang B extendidoErlang que aplica para el caso en cuestión es el  B, o el B extendido (hacer clic en figuras 19 y 20).
Considerando un grado de servicio del 1%, que es lo que generalmente se recomienda cuando se tienen los recursos y se precisa optimizar la calidad de servicio telefónico, podemos entrar a las tablas de Erlang con ese valor (0.01) y el tráfico estimado de 8.75 erlangs, para determinar el número de troncales que necesitamos. Si consultamos la tabla de la figura 17, vemos que con 16 troncales podemos garantizar ese grado de servicio.
Multiplicando el número de troncales por el ancho de banda de cada llamada, tenemos:
ABtotal = 16 x 11.2 Kbps =  179.2 Kbps.
Los buenos administradores de redes suelen agregar un 10% extra de ancho de banda y no precisamente por “si las moscas”, sino porque se hace necesario dar cabida también a ese flujo de paquetes que inyecta el protocolo de control de tiempo real (RTCP, por sus siglas en ingés) para manejar el control de las llamadas. Incluyendo este ancho de banda tenemos:
ABtotal (c/cntrl) = 179.2 x 1.1 =  197.12 Kbps
Puesto que no debemos olvidarnos de los datos, es indispensable sumar el ancho de banda que debimos haber estimado previamente para nuestras aplicaciones (web, transferencia de archivos, correo electrónico, etc). Tan solo para ilustrar cuál sería el procedimiento que seguiríamos para escoger un enlace de valor comercial, que sería lo que tendríamos que hacer en un caso real, supongamos que hemos estimado unos 500 Kbps para el ancho de banda de nuestras aplicaciones de datos. Ahora nuestro ancho de banda total sería de:
ABtotal (c/ctrl + datos) = 197.12 + 500 = 697.12 Kbps.
Por último, podríamos considerar otro ancho de banda extra para dar cabida a otros recursos de la red, en conformidad con una de las muchas buenas prácticas que Cisco recomienda seguir. Lo que hemos calculado hasta aquí, corresponde al 75% de la capacidad que debería tener nuestro enlace, sin incluir el ancho de banda asociado al soporte de los picos de tráfico, y al de la administración y control de la red en general. Atendiendo a esta recomendación, usted tendría que reservar ese 25% restante, para dar un gran total de ancho de banda de:
AB_TOTAL = 697.12 Kbps/0.75 =  929.5 Kbps

El valor comercial más cercano a nuestras necesidades sería entonces de 1 Mbps.


 

Anexo I: Estudio de Tráfico

Un caso real que ratifica lo adecuado que resulta el considerar el valor empírico de 0.25 erlangs por extensión, en un ambiente de negocios típico (modelo Erlang B extendido).

PBX 5200A continuación le proporciono la memoria de cálculo del estudio de tráfico que elaboré a principios del año 2001 para Pond’s, una prestigiada firma de la industria de productos para el cuidado y la estética de la piel, con domicilio conocido en la Ciudad Industrial del Valle de Cuernavaca (CIVAC).
Por aquel entonces, (supongo que hoy en día ya tendrán un sistema mucho más moderno), Pond’s brindaba servicio a sus empleados con un PBX de la marca Alcatel-Indetel, modelo 5200-BCS, al que se encontraban conectadas un total de 131 extensiones.
Mediante una consulta a la base de datos del PBX en cuestión, me fue posible obtener los erlangs por extensión, de acuerdo con las ecuaciones proporcionadas por el fabricante (Alcatel), esto es:
En un tiempo de observación de 2 minutos:
Erlangs = reg 44 / (120 x número de extensiones)
En un tiempo de observación de una hora :
Erlangs = (reg 47 x 32767 + reg 48 + reg 45 x 32767 + reg 46) / (3600 x no. de extensiones)
en donde reg 44, reg 45, reg 46, reg 47 y reg 48 son los contenidos de los registros 44, 45, 46, 47 y 48 de la tabla de contabilización de tráfico total (externo e interno) ofrecido al 5200 BCS por sus extensiones.
Sustituyendo los valores consultados hallamos que :
Para 2 minutos :
Erlangs = 3890 / (120×131) = 0.2474
Para una hora de observación :
Erlangs = (2x 32,767 + 11,455 + 1 x 32,767 + 1) / (3,600 x 131) = 0.2327
Tomando este último valor de 0.2327 y denotando a A como el tráfico total ofrecido al sistema., tenemos :
A = 0.2327 x número de extensiones = 0.2327 x 131 = 30.48 Erlangs
Criterio de diseño no.1 : Congestión/Grado de Servicio  = 1 %
Con los valores 30.48 (tráfico) y 0.01 (congestión o probabilidad de pérdida), entramos a la tablas de Erlang y observamos que la intersección de esos dos valores se cumple para un número de circuitos n = 42 troncales.
Criterio de diseño no. 2 : Congestión = 10 %
Procedemos de manera análoga pero ahora buscando un valor de n para el cual, A=30.48 y E=0.1. Ahora el número de troncales necesarias es de 32.

5200ConnPond’s en realidad contaba por aquel entonces con 18 troncales. Para evaluar el sistema en esas condiciones, bastó con  consultar las tablas de Erlang en su presentación de evaluación, a partir de las cuales se obtuvo una congestión del 44.6%. Como se ha visto, esto significaba que “de cada 100 llamadas que intentaba realizar un empleado de la compañía, era probable que 45 de ellas se perdieran durante la hora pico. Cuando le comuniqué al administrador los resultados de mi estudio, me dijo que si les decía a los directivos que necesitaba comprar más del doble de troncales para mejorar la calidad del servicio telefónico en Pond’s, seguramente lo despedirían. Le tuve que decir que los números no mentían, y que yo tampoco. No podía hacerles creer que con unas pocas líneas más, las cosas iban a cambiar significativamente.


Anexo II: Modelo de Erlang C

Los centros de llamadas que emplean funciones como la distribución automática de llamadas (ACD) y el Interactive Voice Responde (IVR), no son sistemas telefónicos en donde tenga cabida el modelo B o B extendido de Erlang. Para ser objetivos, los call centers no están pensados para ofrecer un mejor servicio a sus clientes,  sino más bien se diseñaron para que los centros de atención (CACs) pierdan menos clientes de los que podrían perder si el servicio se implementara de acuerdo con el modelo B. Es más probable que usted permanezca en la línea y no cuelgue, cuando llama a una compañía en donde la llamada es contestada por una operadora automática, que si usted llama y recibe tono de congestión (“ocupado”). En este segundo caso, la reacción automática de cualquier persona es colgar. Cada vez que esto sucede, la compañía pierde un cliente potencial.
D21-Modelo Erlang CPara retener a sus clientes potenciales, los call centers necesitan forzosamente de más líneas troncales que agentes, tal y como se ha mostrado en la figura adjunta, a fin de que puedan poner en retención aquellas llamadas que han superado el número de conversaciones simultáneas que los agentes pueden manejar. En el ejemplo mostrado (haga clic en la figura para agrandarla), cada uno de los tres agentes está atendiendo a un cliente cuando un sexto prospecto llama. Como ya no hay más agentes que puedan atender a este otro cliente potencial, esta llamada es retenida en una cola de espera. Al colgar alguno de los agentes, la llamada que en ese momento esté encabezando la cola se ofrecerá a ese agente para que la conteste. A este esquema de funcionamiento se le conoce como modelo de Erlang C.