Big Data – Pentaho Data Integration- Apache NiFi
Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas PRESENTACIÓN En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos. En los últimos 15 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos. La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en familias de columnas y las basadas en grafos. La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan. Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL , Data Scientists, Data Engineers y Data Architects. A su vez, los datos procesados y almacenados por estas bases de datos tanto SQL como NoSQL, son difíciles de unificar sin una herramienta adecuada que esté orientada a la integración de los mismos. Los tiempos de hoy necesitan de la toma de decisiones en base a una visión global de los datos, la cual permita concluir en mejores estrategias de mercado. Es por esto, que dentro de las herramientas de integración de datos, se encuentra Pentaho Data Integration y Apache NiFi. La primera se basa en técnicas ETL (extracción, transformación y carga) que facilitan el proceso de captura, limpieza y almacenamiento de datos utilizando un formato uniforme y consistente para los usuarios finales. La herramienta fue lanzada en sus primeras versiones en el año 2004, y hoy en día es propiedad del grupo Hitachi. Por su parte Apache NiFi es una plataforma integrada de procesamiento y logística de datos en tiempo real, la cual nos permite automatizar el flujo de datos entre diferentes sistemas de forma rápida, fácil y segura. Apache NiFi fue desarrollado y liberado por la NSA que lo utiliza desde el 2010. La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de BI + ETL y tener mayores herramientas para insertarse laboralmente en un mercado que consideramos va a ser demandante de profesionales en los próximos años OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: Entender el contexto y agentes del mercado en el cual surgen la inteligencia de negocios. Entender el concepto de Inteligencia de Negocio (BI) y su uso en las aplicaciones, con sus ventajas asociadas. Entender los conceptos de DataWarehouse, DataMart y DataLake. Realizar modelados dimensionales utilizando PDI y NiFi como herramienta ETL. Entender cómo utilizar PDI y NiFi para extraer datos, actualizarlos, borrarlos y limpiarlos para luego volcarlos convenientemente. Diseñar e implementar mecanismos de ETL en PDI y NiFi. Comprender la arquitectura interna y sus componentes principales de PDI y NiFi. Conocer herramientas de administración de PDI y NiFi. DESTINATARIOS El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en PDI y NiFi. El curso está también dirigido a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieran aprender de PDI y NiFi. REQUISITOS Es recomendable contar con estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos. DURACIÓN 16 horas, 4 clases TEMARIO Unidad 1: Business Intelligence Definición de Sistemas de Información Características, diferencias y similitudes de Sistemas OLTP y OLAP Relación de sistemas de la información con la Inteligencia de Negocio (BI) Definición, conceptos e historia de Business Intelligence Diferencias entre conceptos DATOS – INFORMACIÓN – CONOCIMIENTO Análisis OLAP – Multidimensional Herramientas de visualización de reportes y tableros ¿Por qué utilizar Business Intelligence? Unidad 2 : BI Analítica, Funciones Analíticas. Data Warehouse y modelado Concepto de BI Analítica, evolución y comparación con Inteligencia de Negocios tradicional Presentación de Funciones Analíticas, Aggregate y Rank Definición, características y objetivos de DataWareHouse Alimentación DataWareHouse mediante procesos Ingesta (ETL) Definición e identificación de conceptos principales (Desnormalización / Staging Area / Datamarts / Tecnología OLAP) Enfoques de construcción de Datawarehouse Objetivos y conceptos de modelado dimensional Concepto de tabla de hechos y dimensiones asociadas Definición de métricas e indicadores de progreso (KPI’s) Unidad 3: Pentaho Data Integrator Pentaho – Instalación y utilización Definición y objetivos de la extracción, transformación y carga (ETL) Introducción a las herramientas del suite de Pentaho Herramienta ETL Pentaho Data Integrator y sus componentes Conectividad, usos comunes y composición Valores, metadatos, tipos de datos y métricas Unidad 4: Aplicaciones de transformaciones y jobs en PDI Introducción a transformaciones básicas Introducción a componentes básicos Extracción de datos de diversas fuentes Limpieza de Datos de origen Vuelco de información procesada en diferentes salidas Modos de Ejecución, variables y parámetros Unidad 5: Introducción a Apache NiFi ¿Que es Apache NiFi? ¿Porque usar Apache NiFi? Conceptos principales y funcionalidades Arquitectura y cluster Unidad 6: Conceptos Básicos Apache NiFi – Instalación y utilización Como analizar las colas de NiFi Concepto de atributos en flujos de datos Como consumir/ingestar archivos desde un directorio local o HDFS hacia otro directorio local o HDFS. Como consumir datos