Big Data: principios y aplicaciones del análisis de datos masivos

Objetivo
Al término del curso, el participante será capaz de extender al entorno de los datos masivos (Big Data), los métodos de la minería de datos utilizados en los prototipos de aplicación, basándose en el material didáctico y la herramienta de software proporcionados por el facilitador.

Duración
16 o 20 horas (según la modalidad) repartidas en 4 sesiones (módulos).

Modalidades: presencial y a distancia
En la modalidad presencial (20 horas en 4 sesiones de 5 horas cada una) el curso se impartirá con el auspicio y el reconocimiento oficial (diploma) del Centro de Educación Continua, Unidad Morelos, del Instituto Politécnico Nacional, los días (sábados) 16, 23, 30 de noviembre y 7 de diciembre de 2019, en Primera Privada de la Luz No. 25, Fraccionamiento Villas Chapultepec, Col. Chapultepec, Cuernavaca, Morelos; CP 62405. Para mayores informes en esta modalidad (costo, horarios, cupo máximo etc.), favor de comunicarse a los teléfonos 777292-6547 y 777168-7370, con el Lic. Víctor Nava.

En la modalidad a distancia (16 horas en 4 sesiones de 4 horas cada una) el curso se imparte por Skype (en línea), de manera individual y con el reconocimiento (diploma) de la Fundación MicroMédix, en el horario y los días que el participante seleccione de común acuerdo con el facilitador.

Costo de la instrucción
Facilidades de pago para la modalidad a distancia: un abono de $2,600.00 MXN (pesos mexicanos) por cada sesión de 4 horas. Para obtener descuentos por pago único, ver la opción 3 en Formas y Opciones de Pago.

Formas y Opciones de Pago
En el caso de la modalidad a distancia (Fundación Micromédix):
Opción 1 (para los participantes que radican en la República Mexicana): abono en cualquier tienda Oxxo, a la tarjeta No. 5579 0700 4261 9489 de Santander, o depósito en cuenta bancaria No. 60-56534785-8 del mismo banco, con clave interbancaria (CLABE) 014540605653478587.
Opción 2 (México y resto del mundo): envío vía PayPal a la cuenta educatecnica@hotmail.com

Opción 3 (un pago único a través de los medios mencionados): aplicar 15% y 35% de descuento en caso de optar por una membresía de 4 y otra de 12 horas de instrucción respectivamente. El costo total del curso con esta tercera opción y en la modalidad a distancia es de: $7,280.00 MXN (pesos mexicanos).

Nivel: básico, introductorio

Dirigido a estudiantes y público en general, con deseos de conocer a nivel introductorio, las técnicas de la minería de datos, la inteligencia artificial, el aprendizaje de máquina y el Big Data.

Requisitos
Computación básica, destreza en el manejo de archivos y carpetas, conocimiento del sistema operativo Windows y del funcionamiento general de la Internet. Habilidad para instalar paquetería en una PC, así como conocimientos básicos de Excel. Equipo para la construcción de los prototipos: una laptop estándar con conexión a Internet, Windos 8.0 o superior, disco duro de al menos 1000 GB y memoria RAM de 4 GB o mayor.

Temario

Módulo 1: Una mirada global de la tecnología (4/5 horas)
1.1 Qué es y para qué sirve el Big Data
1.2 Mapa mental del Big Data
1.3 Volumen, velocidad, variedad y veracidad de los datos masivos
1.4 Sacándole provecho a la tecnología
1.5 Administración, organización y análisis de los datos masivos
1.6 Almacenamiento de grandes volúmenes de datos
1.7 Procesamiento rápido de corrientes de datos muy variopintos
1.8 Minería de datos y aprendizaje de máquina
1.9 Modelos predictivos y segmentación de los datos
1.10 Prototipo de aplicación No. 1: Minería de datos clínicos como apoyo en el diagnóstico médico

Módulo 2: Fuentes de datos masivos y áreas de aplicación del Big Data (4/5 horas)
2.1 Revisión del prototipo de aplicación No. 1
2.2 Fuentes de datos masivos
2.3 Comunicación entre usuarios (medios sociales)
2.4 Comunicación ser humano-máquina (acceso a la web)
2.5 Comunicación entre máquinas (RFIDs y sensores)
2.6 Aplicaciones del Big Data
2.7 Desarrollo de nuevos productos
2.8 Monitoreo de la calidad de la energía eléctrica (caso de estudio)
2.9 Prototipo de aplicación No. 2: modelo predictivo para la fidelización de clientes

Módulo 3: Arquitectura del Big Data (4/5 horas)
3.1 Revisión del prototipo de aplicación 2
3.2 Arquitectura del cuestionamiento en Google
3.3 Arquitectura estándard del Big Data
3.4 Ajemplos de arquitecturas: Netflix, Ticketmaster y PayPal
3.5 Procesamiento distribuido con Hadoop
3.6 La plataforma de Hadoop
3.7 Objetivos del diseño HDFS
3.8 Arquitectura maestro-esclavo
3.9 Sistema de almacenamiento en bloques
3.10 Escritura y lectura de archivos locales y streaming en HDFS
3.11 Archivos secuenciados
3.12 YARN (Yet Another Resource Negotiator)
3.13 Protoptipo de aplicación No. 3:
Inteligencia artificial como auxiliar en el tratamiento de enfermedades idiopáticas

Módulo 4: Otras tecnologías para la implementación del Big Data (4/5 horas)
4.1 Revisión del protoptipo de aplicación 3
4.2 Qué es y cómo trabaja el MapReduce de Google
4.3 La oleada de datos (streaming) de Hadoop
4.4 Los lenguajes Hive y Pig de Apache
4.5 Bases de datos NoSQL
4.6 Procesamiento de oleadas de datos con Spark
4.7 Sistemas de ingestión de datos
4.8 Sistemas de mensajería
4.9 Kafka
4.10 Computación en la nube (cloud computing) para Big Data
4.11 Resumen global y conclusiones


Clausura y entrega de diploma(s)

Solución de Problemas Multidisciplinarios con Minería de Datos (por Skype)

Objetivo:
Construir un modelo de decisión que permita emitir dictámenes sobre casos sin resolver, con base en lo que aprende una máquina durante el análisis de un número suficiente de casos resueltos, así como descubrir patrones, tendencias o indicios en el comportamiento de diversos grupos de datos, en función de sus propiedades.

Descripción General:
El instructor expone los temas del curso vía Skype, apoyándose  en la herramienta de software WEKA y un material didáctico de 6 módulos en formato PowerPoint. Tanto la operación de WEKA como el material didáctico, se cubren en varias sesiones prácticas de 2 horas, para que el participante aplique los
conocimientos adquiridos, inmediatamente después de iniciar el curso.

Beneficios esperados
1. Disminución de riesgos. Predecir eventos ayuda a enfrentar mejor una contingencia.
2. Prevenir enfermedades mejora la calidad de vida y reduce los gastos médicos.
3. Ahorro en salarios y gastos de mantenimiento y reparación (diagnóstico de fallas).
4. Disminuir la incertidumbre ayuda a tomar mejores decisiones y aumenta la competitividad.
5. La clasificación y la segmentación nos ayuda a decubrir el conocimiento aparentemente escondido en una gran cantidad de datos, eliminando la información irrelevante (la paja) que generalmente los acompaña.

Costo por una hora de instrucción: $650.00 (incluye la colaboración en línea del facilitador para el desarrollo de los temas y la aclaración de dudas).
Forma de Pago:
Opción 1 (para los participantes que radican en la República Mexicana): abono en cualquier tienda Oxxo, a la tarjeta No. 5579 0700 4261 9489 de Santander, o depósito en cuenta bancaria No. 60-56534785-8 del mismo banco, con clave interbancaria (CLABE) 014540605653478587.
Opción 2 (México y resto del mundo): envío vía PayPal a la cuenta educatecnica@hotmail.com
Opción 3 (descuentos por pronto pago): aplicar 15%, 25% o 35% de descuento, en caso de optar por una membresía de 4, 8 y 12 horas de instrucción, respectivamente.

Temario

Módulo 1
: Aspectos clave de la minería de datos (data mining)

1.1 Definición y propósito de la minería de datos
1.2 Mapa mental del curso (pulse sobre la imagen)
1.3 Aprendizaje de máquina supervisado vs. no supervisado
1.4 Tres conceptos clave: clase, algoritmo y atributo
1.5 ¿Qué se entiende por modelo de decisión (clasificación)?
1.6 Diferencia entre la precisón y la confiabilidad de un modelo

1.7 Matriz de confusión: falsos positivos/negativos y verdaderos positivos/negativos
1.8 El coeficiente de Kappa y la raíz del error cuadrático medio

Módulo 2: El proceso KDD y el estándard CRISP-DM

2.1 Los cinco pasos del proceso KDD (pulse sobre la imagen para agrandarla)
2.2 La comprensión del dominio de la especialidad y los atributos
2.3 El preprocesamiento de los datos
2.4 Evaluación de modelos
2.5 La selección de atributos y el concepto de proxy
2.6 Optimización del modelo (calibración)
2.7 Datos de entrenamiento y de prueba
2.8 Validación cruzada y pruebas con datos exógenos
2.9 Selección del modelo óptimo

Módulo 3: Aprendizaje supervisado

3.1 Clasificación y predicción
3.2 La importancia del modelo predictivo en la prevención de enfermedades, robos, suicidios, fraudes, deserciones, epidemias y desastres en general.
3.3 Taller No. 1: Aplicación del proceso KDD a la fidelización de clientes.
Detección anticipada del por qué y del cuándo los clientes deciden cambiar de proveedor (pulse sobre la imagen para agrandarla).

Ojetivo del taller: Analizando los datos de una muestra de 3,300 casos, el participante construirá un modelo predictivo basado en aprendizaje supervisado, para reducir el riesgo de deserción de clientes.

Módulo 4: Minería de datos clínicos como apoyo en el diagnóstico médico

4.1 Taller No. 2: Diagnosticar una cardiopatía (una afección en el corazón) con el propósito de prevenir un infarto. Objetivo: ponderar la importancia de la detección de falsos negativos.
4.2 Taller No. 3: Diagnóstico de la esperanza de vida en pacientes que han contraído hepatitis. Objetivo: evitar al máximo que un paciente se rinda a consecuencia del efecto nocebo que un pronóstico médico pesimista puede producir.
4.3 ¿De verdad dio positivo a la diabetes?: la matriz de confusión y los falsos positivos
4.4 Aprendizaje de máquina no supervisado
4.5 La comprensión de los datos y su importancia en la segmentación (clustering)
4.6 El arte de descubrir tendencias: entendiendo el centroide
4.7 Identificación de fenotipos por segmentación: ¿un modelo de diagnóstico para la esquizofrenia?

Módulo 5: Estudio de un caso.

El conocimiento que se puede extraer con los datos del monitoreo de la calidad de la energía eléctrica (pulse sobre la imagen para agrandarla).
Objetivo:
Descubrir patrones en los datos de un sistema de distribución, que permitan detectar anomalías y anticipar eventos, a fin de mejorar la calidad de la energía eléctrica entregada.
Principales beneficios esperados:

-Ahorro en gastos de operación y mantenimiento
-Simplificación de informes y apoyo para el cálculo de indicadores y el establecimiento de políticas de distribución óptima de la energía

Módulo 6: Pronósticos deportivos
Objetivo: Evaluar las posibilidades de ganar, apostando a los
resultados de los partidos de fútbol.
6.1 Taller No. 4: Construcción de un modelo predictivo para determinar el resultado de las quinielas deportivas
6.2 Las limitaciones del aprendizaje supervisado
6.3 ¿Dónde está el proxy?
6.4 La inteligencia colectiva y el aprendizaje de máquina no supervisado
6.5 Cómo obtener las mejores quinielas con WEKA
6.6 Inteligencia artificial y colectiva aplicada a otros eventos deportivos
6.7 Reflexiones finales y conclusiones