Imprimir

Programa

CURSO:PROCESAMIENTO DE DATOS MASIVOS
TRADUCCION:PROCESSING OF MASSIVE DATASETS
SIGLA:IIC2440
CREDITOS:10 
MODULOS:03 
CARACTER:MINIMO
TIPO:CATEDRA
CALIFICACION:ESTANDAR (CALIFICACION DE 1.0 A 7.0) 
PALABRAS CLAVE:CIENCIA DE DATOS, DATOS MASIVOS, MINERIA DE DATOS, ANALISIS DE DATOS
NIVEL FORMATIVO:PREGRADO


I.DESCRIPCIÓN DEL CURSO

En este curso los estudiantes aprenderan a trabajar con datos masivos, a recolectar informacion desde fuentes web, y a hacer analisis basados en descripciones de los sets de datos. El curso tiene una metodologia teorica-practica, en donde los estudiantes discuten en una catedra aspectos computacionales de las tecnicas y algoritmos a aprender, y luego experimentan en talleres presenciales.


II.RESULTADOS DE APRENDIZAJE 

1.Usar herramientas basadas en el paradigma Map-Reduce para el trabajo con datos masivos.

2.Aplicar algoritmos complejos que utilizan el paradigma Map-Reduce.

3.Dise?ar algoritmos basados en descripciones de los mismos, en reglas de asociacion o en clasificaciones eficientes de elementos similares. 

4.Planificar planes para recolectar grandes cantidades de datos online, y desarrollar su planificacion. 

5.Valorar los desafios tras el manejo de datos complejos, como streams o grafos, y conocer las tecnicas para abordarlos.

6.Aplicar metodologias de analisis de datos en un contexto realista. 


III.CONTENIDOS

1.Modelos de big data
1.1.Data warehousing
1.2.Sistemas distribuidos
1.3.Bases de datos distribuidas

2.Map Reduce
2.1.Hadoop
2.2.PIG
2.3.Algoritmos

3.Recuperacion de la informacion
3.1.Web search, crawling, scrapping
3.2.Busqueda por texto
3.3.Ranking
3.4.Link Analysis

4.Busqueda de items similares
4.1.Distancias de conjuntos
4.2.Shingling
4.3.Minhash 
4.4.Locally Sensitive Hashing

5.Manejo de streams
5.1.Bloom Filters 
5.2.Count-distinct en streams
5.3.Exact-count en streams 
5.4.Elementos mas comunes

6.Elementos mas frecuentes
6.1.Reglas de Asociacion
6.2.Canastas y algoritmos Apriori
6.3.Optimizaciones

7.Clustering
7.1.Jerarquico
7.2.Algoritmo K-means
7.3.Otros temas

8.Grafos y redes sociales
8.1.Herramientas de grafos distribuidas
8.2.Deteccion de comunidades
8.3.Conteo de triangulos
8.4.Otros topicos


IV.ESTRATEGIAS METODOLOGICAS

-Clases expositivas

-Talleres

-Laboratorios


V.ESTRATEGIAS EVALUATIVAS 

-Talleres evaluados: 40%

-Tareas: 40%

-Examen final escrito: 20%


VI.BIBLIOGRAFIA

Minima

Rajaraman, Anand, and Jeffrey David Ullman. Mining of massive datasets. Cambridge University Press, 2011.

Aggarwal, Charu C. Data mining: the textbook. Springer, 2015.


Complementaria

Zaki, Mohammed J., Wagner Meira Jr, and Wagner Meira. Data mining and analysis: fundamental concepts and algorithms. Cambridge University Press, 2014.

White, Tom. Hadoop: The definitive guide. " O'Reilly Media, Inc.", 2012.


PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERIA / SEPTIEMBRE 2020