UTNBA - Extensión Universitaria

Este curso forma parte de la
Diplomatura en Arquitecturas de Big Data Aplicadas

PRESENTACIÓN

En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Sin embargo Algo permanece constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos.

La última década ha sido protagonista de una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos.

La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Una de las soluciones que más adopción ha tenido para procesar grandes volúmenes de información es Hadoop.

La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan. Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL, Administradores de frameworks como Hadoop hasta lo que se conoce como Data Scientists.

Hadoop es un framework de procesamiento distribuido que es Open Source, aunque muchas compañías como Hortonworks o Cloudera han lanzado sus propias distribuciones. Hadoop permite trabajar con miles de nodos y fue inspirada por la necesidad de compañías como Google de escalar horizontalmente.

La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de Hadoop desde el punto de vista de administración de la plataforma. Este curso es necesario para el otros vinculados a la explotación de la información con Hadoop.

OBJETIVOS

Se espera que al finalizar el programa, los participantes puedan:

• Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
• Describir la arquitectura del file system HDFS.
• Instalar y configurar un clusterHadoop.
• Monitorear y administrar un cluster.
• Describir como los archivos se escriben y son accedidos en HDFS.
• Describir como se ejecutan los procesos YARN.
• Configurar y hacer troubleshooting de Jobs MapReduce.
• Usar Sqoop para transferir datos entre Hadoop y una base de datos.
• Usar Flume para tomar datos de streaming en HDFS.
• Configurar un workflowOozie.
• Usar Pig para transformar y preparar datos en Hadoop.
• Configurar Hive.
• Describir como es generan las tablas Hive.
• Usar Hive para explorar como se definen e implementan las tablas Hive y analizar sets de datos.
• Explicar y utilizar diferentes formatos de archivo Hive.
• Usar Hive para ejecutar consultas de tipo SQL para realizar análisis de datos.
• Usar Hive para hacer joins de sets de datos usando una variedad de técnicas.
• Ejecutar consultas Hive eficientes.

DURACIÓN

El programa tiene una duración de 36 horas cátedra, a desarrollarse durante 12 semanas consecutivas.

DESTINATARIOS

El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases y Hadoop aplicando sus conceptos.

REQUISITOS PARA CURSAR

Recomendable contar estudios al menos iniciales en carreras relacionadas con Sistemas, conocimientos de Unix y conceptuales de sistemas operativos.

METODOLOGÍA A UTILIZAR

Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en Hadoop.
Durante el curso los participantes trabajarán en el desarrollo de un caso práctico en el cual puedan aplicar los conceptos adquiridos.

PROCEDIMIENTOS DE EVALUACIÓN y CERTIFICACIÓN

Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos.

Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.-

CRONOGRAMA DE EVALUACIÓN

Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirán respecto a dicho trabajo y al finalizar el programa los participantes entregarán el mismo (anteúltima clase).

En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.

DOCENTE

Ing. Juan Zaffaroni

Big Data – Apache Hadoop

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas