CURSO:PROCESAMIENTO DE DATOS MASIVOS TRADUCCION:PROCESSING OF MASSIVE DATASETS SIGLA:IIC2440 CREDITOS:10 MODULOS:03 CARACTER:MINIMO TIPO:CATEDRA CALIFICACION:ESTANDAR (CALIFICACION DE 1.0 A 7.0) PALABRAS CLAVE:CIENCIA DE DATOS, DATOS MASIVOS, MINERIA DE DATOS, ANALISIS DE DATOS NIVEL FORMATIVO:PREGRADO I.DESCRIPCIÓN DEL CURSO En este curso los estudiantes aprenderan a trabajar con datos masivos, a recolectar informacion desde fuentes web, y a hacer analisis basados en descripciones de los sets de datos. El curso tiene una metodologia teorica-practica, en donde los estudiantes discuten en una catedra aspectos computacionales de las tecnicas y algoritmos a aprender, y luego experimentan en talleres presenciales. II.RESULTADOS DE APRENDIZAJE 1.Usar herramientas basadas en el paradigma Map-Reduce para el trabajo con datos masivos. 2.Aplicar algoritmos complejos que utilizan el paradigma Map-Reduce. 3.Dise?ar algoritmos basados en descripciones de los mismos, en reglas de asociacion o en clasificaciones eficientes de elementos similares. 4.Planificar planes para recolectar grandes cantidades de datos online, y desarrollar su planificacion. 5.Valorar los desafios tras el manejo de datos complejos, como streams o grafos, y conocer las tecnicas para abordarlos. 6.Aplicar metodologias de analisis de datos en un contexto realista. III.CONTENIDOS 1.Modelos de big data 1.1.Data warehousing 1.2.Sistemas distribuidos 1.3.Bases de datos distribuidas 2.Map Reduce 2.1.Hadoop 2.2.PIG 2.3.Algoritmos 3.Recuperacion de la informacion 3.1.Web search, crawling, scrapping 3.2.Busqueda por texto 3.3.Ranking 3.4.Link Analysis 4.Busqueda de items similares 4.1.Distancias de conjuntos 4.2.Shingling 4.3.Minhash 4.4.Locally Sensitive Hashing 5.Manejo de streams 5.1.Bloom Filters 5.2.Count-distinct en streams 5.3.Exact-count en streams 5.4.Elementos mas comunes 6.Elementos mas frecuentes 6.1.Reglas de Asociacion 6.2.Canastas y algoritmos Apriori 6.3.Optimizaciones 7.Clustering 7.1.Jerarquico 7.2.Algoritmo K-means 7.3.Otros temas 8.Grafos y redes sociales 8.1.Herramientas de grafos distribuidas 8.2.Deteccion de comunidades 8.3.Conteo de triangulos 8.4.Otros topicos IV.ESTRATEGIAS METODOLOGICAS -Clases expositivas -Talleres -Laboratorios V.ESTRATEGIAS EVALUATIVAS -Talleres evaluados: 40% -Tareas: 40% -Examen final escrito: 20% VI.BIBLIOGRAFIA Minima Rajaraman, Anand, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2011. Aggarwal, Charu C. Data mining: the textbook. Springer, 2015. Complementaria Zaki, Mohammed J., Wagner Meira Jr, and Wagner Meira. Data mining and analysis: fundamental concepts and algorithms. Cambridge University Press, 2014. White, Tom. Hadoop: The definitive guide. " O'Reilly Media, Inc.", 2012. PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA / SEPTIEMBRE 2020