Medrano 951 - 2do. Piso - Of. 206 CABA - Lunes a viernes de 9 a 21 hs
(5411) 4867 7500 (Int. 7745/7749) info@sceu.frba.utn.edu.ar
Big Data – Pentaho Data Integration- Apache NiFi

Big Data – Pentaho Data Integration- Apache NiFi

Este curso forma parte de la
Diplomatura en Arquitecturas de Big Data Aplicadas

 

PRESENTACIÓN

En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos.

En los últimos 15 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos.

La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en familias de columnas y las basadas en grafos.

La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan. Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL , Data Scientists, Data Engineers y Data Architects.

A su vez, los datos procesados y almacenados por estas bases de datos tanto SQL como NoSQL, son difíciles de unificar sin una herramienta adecuada que esté orientada a la integración de los mismos. Los tiempos de hoy necesitan de la toma de decisiones en base a una visión global de los datos, la cual permita concluir en mejores estrategias de mercado.

Es por esto, que dentro de las herramientas de integración de datos, se encuentra Pentaho Data Integration y Apache NiFi. La primera se basa en técnicas ETL (extracción, transformación y carga) que facilitan el proceso de captura, limpieza y almacenamiento de datos utilizando un formato uniforme y consistente para los usuarios finales. La herramienta fue lanzada en sus primeras versiones en el año 2004, y hoy en día es propiedad del grupo Hitachi.

Por su parte Apache NiFi es una plataforma integrada de procesamiento y logística de datos en tiempo real, la cual nos permite automatizar el flujo de datos entre diferentes sistemas de forma rápida, fácil y segura. Apache NiFi fue desarrollado y liberado por la NSA que lo utiliza desde el 2010.

La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de BI + ETL y tener mayores herramientas para insertarse laboralmente en un mercado que consideramos va a ser demandante de profesionales en los próximos años

 

OBJETIVOS

Se espera que al finalizar el programa, los participantes puedan:

  • Entender el contexto y agentes del mercado en el cual surgen la inteligencia de negocios.
  • Entender el concepto de Inteligencia de Negocio (BI) y su uso en las aplicaciones, con sus ventajas asociadas.
  • Entender los conceptos de DataWarehouse, DataMart y DataLake.
  • Realizar modelados dimensionales utilizando PDI y NiFi como herramienta ETL.
  • Entender cómo utilizar PDI y NiFi para extraer datos, actualizarlos, borrarlos y limpiarlos para luego volcarlos convenientemente.
  • Diseñar e implementar mecanismos de ETL en PDI y NiFi.
  • Comprender la arquitectura interna y sus componentes principales de PDI y NiFi.
  • Conocer herramientas de administración de PDI y NiFi.

 

DESTINATARIOS 

  • El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en PDI y NiFi.
  • El curso está también dirigido a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieran aprender de PDI y NiFi.

 

REQUISITOS

Es recomendable contar con estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos.

 

DURACIÓN

16 horas, 4 clases

 

TEMARIO

Unidad 1: Business Intelligence

  1. Definición de Sistemas de Información
  2. Características, diferencias y similitudes de Sistemas OLTP y OLAP
  3. Relación de sistemas de la información con la Inteligencia de Negocio (BI)
  4. Definición, conceptos e historia de Business Intelligence
  5. Diferencias entre conceptos  DATOS – INFORMACIÓN – CONOCIMIENTO
  6. Análisis OLAP – Multidimensional
  7. Herramientas de visualización de reportes y tableros
  8. ¿Por qué utilizar Business Intelligence? 

Unidad 2 : BI Analítica, Funciones Analíticas. Data Warehouse y modelado

  1. Concepto de BI Analítica, evolución y comparación con Inteligencia de Negocios tradicional
  2. Presentación de Funciones Analíticas, Aggregate y Rank
  3. Definición, características y objetivos de DataWareHouse
  4. Alimentación DataWareHouse mediante procesos Ingesta (ETL) 
  5. Definición e identificación de conceptos principales (Desnormalización / Staging Area / Datamarts / Tecnología OLAP)
  6. Enfoques de construcción de Datawarehouse
  7. Objetivos y conceptos de modelado dimensional
  8. Concepto de tabla de hechos y dimensiones asociadas
  9. Definición de métricas e indicadores de progreso (KPI’s)

Unidad 3: Pentaho Data Integrator

  1. Pentaho – Instalación y utilización
  2. Definición y objetivos de la extracción, transformación y carga (ETL)
  3. Introducción a las herramientas del suite de Pentaho
  4. Herramienta ETL Pentaho Data Integrator y sus componentes
  5. Conectividad, usos comunes y composición
  6. Valores, metadatos, tipos de datos y métricas

Unidad 4: Aplicaciones de transformaciones y jobs en PDI

  1. Introducción a transformaciones básicas
  2. Introducción a componentes básicos
  3. Extracción de datos de diversas fuentes 
  4. Limpieza de Datos de origen
  5. Vuelco de información procesada en diferentes salidas
  6. Modos de Ejecución, variables y parámetros

Unidad 5: Introducción a Apache NiFi

  1. ¿Que es Apache NiFi?
  2. ¿Porque usar Apache NiFi?
  3. Conceptos principales y funcionalidades
  4. Arquitectura y cluster

Unidad 6: Conceptos Básicos

  1. Apache NiFi – Instalación y utilización
  2. Como analizar las colas de NiFi
  3. Concepto de atributos en flujos de datos
  4. Como consumir/ingestar archivos desde un directorio local o HDFS hacia otro directorio local o HDFS.
  5. Como consumir datos desde un web server.

Unidad 7: Automatización y administración de flujos de datos

  1. Como crear y reutilizar templates
  2. Grupos de procesadores
  3. Publicar en un tópico de Kafka y loguear en caso de error
  4. Consumir de un tópico de Kafka y almacenar en MongoDB
  5. Compresion y descompresion de archivos
    • Reconversión de gzip a bzip2 para grabar en HDFS
  6. Repositorio de flujos y archive

Unidad 8: Procesadores de NiFi

  1. NiFi expression language
  2. Procesadores:
    • Jolt Transform
    • Merge Record
    • Evaluate JsonPath
    • InferAvroSchema
  3. Apache NiFi Registry

 

DOCENTE

Ing. Juan Zaffaroni

Ing. Patricio Boffino

Ing. Martín Mihura

 

METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO

Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en PDI y NiFi.

Durante el curso los participantes trabajarán en el desarrollo de casos prácticos en los cuales puedan aplicar los conceptos adquiridos.

 

PROCEDIMIENTOS DE EVALUACIÓN Y CERTIFICACIÓN

  • Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos.
  • Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.

Cronograma de evaluación

  • Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirá respecto a dichos trabajos.
  • En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.