Big Data – Pentaho Data Integration- Apache NiFi

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos. En los últimos 15 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos. La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en familias de columnas y las basadas en grafos. La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan. Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL , Data Scientists, Data Engineers y Data Architects. A su vez, los datos procesados y almacenados por estas bases de datos tanto SQL como NoSQL, son difíciles de unificar sin una herramienta adecuada que esté orientada a la integración de los mismos. Los tiempos de hoy necesitan de la toma de decisiones en base a una visión global de los datos, la cual permita concluir en mejores estrategias de mercado. Es por esto, que dentro de las herramientas de integración de datos, se encuentra Pentaho Data Integration y Apache NiFi. La primera se basa en técnicas ETL (extracción, transformación y carga) que facilitan el proceso de captura, limpieza y almacenamiento de datos utilizando un formato uniforme y consistente para los usuarios finales. La herramienta fue lanzada en sus primeras versiones en el año 2004, y hoy en día es propiedad del grupo Hitachi. Por su parte Apache NiFi es una plataforma integrada de procesamiento y logística de datos en tiempo real, la cual nos permite automatizar el flujo de datos entre diferentes sistemas de forma rápida, fácil y segura. Apache NiFi fue desarrollado y liberado por la NSA que lo utiliza desde el 2010. La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de BI + ETL y tener mayores herramientas para insertarse laboralmente en un mercado que consideramos va a ser demandante de profesionales en los próximos años   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: Entender el contexto y agentes del mercado en el cual surgen la inteligencia de negocios. Entender el concepto de Inteligencia de Negocio (BI) y su uso en las aplicaciones, con sus ventajas asociadas. Entender los conceptos de DataWarehouse, DataMart y DataLake. Realizar modelados dimensionales utilizando PDI y NiFi como herramienta ETL. Entender cómo utilizar PDI y NiFi para extraer datos, actualizarlos, borrarlos y limpiarlos para luego volcarlos convenientemente. Diseñar e implementar mecanismos de ETL en PDI y NiFi. Comprender la arquitectura interna y sus componentes principales de PDI y NiFi. Conocer herramientas de administración de PDI y NiFi.   DESTINATARIOS  El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en PDI y NiFi. El curso está también dirigido a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieran aprender de PDI y NiFi.   REQUISITOS Es recomendable contar con estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos.   DURACIÓN 16 horas, 4 clases   TEMARIO Unidad 1: Business Intelligence Definición de Sistemas de Información Características, diferencias y similitudes de Sistemas OLTP y OLAP Relación de sistemas de la información con la Inteligencia de Negocio (BI) Definición, conceptos e historia de Business Intelligence Diferencias entre conceptos  DATOS – INFORMACIÓN – CONOCIMIENTO Análisis OLAP – Multidimensional Herramientas de visualización de reportes y tableros ¿Por qué utilizar Business Intelligence?  Unidad 2 : BI Analítica, Funciones Analíticas. Data Warehouse y modelado Concepto de BI Analítica, evolución y comparación con Inteligencia de Negocios tradicional Presentación de Funciones Analíticas, Aggregate y Rank Definición, características y objetivos de DataWareHouse Alimentación DataWareHouse mediante procesos Ingesta (ETL)  Definición e identificación de conceptos principales (Desnormalización / Staging Area / Datamarts / Tecnología OLAP) Enfoques de construcción de Datawarehouse Objetivos y conceptos de modelado dimensional Concepto de tabla de hechos y dimensiones asociadas Definición de métricas e indicadores de progreso (KPI’s) Unidad 3: Pentaho Data Integrator Pentaho – Instalación y utilización Definición y objetivos de la extracción, transformación y carga (ETL) Introducción a las herramientas del suite de Pentaho Herramienta ETL Pentaho Data Integrator y sus componentes Conectividad, usos comunes y composición Valores, metadatos, tipos de datos y métricas Unidad 4: Aplicaciones de transformaciones y jobs en PDI Introducción a transformaciones básicas Introducción a componentes básicos Extracción de datos de diversas fuentes  Limpieza de Datos de origen Vuelco de información procesada en diferentes salidas Modos de Ejecución, variables y parámetros Unidad 5: Introducción a Apache NiFi ¿Que es Apache NiFi? ¿Porque usar Apache NiFi? Conceptos principales y funcionalidades Arquitectura y cluster Unidad 6: Conceptos Básicos Apache NiFi – Instalación y utilización Como analizar las colas de NiFi Concepto de atributos en flujos de datos Como consumir/ingestar archivos desde un directorio local o HDFS hacia otro directorio local o HDFS. Como consumir datos

Big Data – Elastic Stack

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos.  En los últimos 15 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos.  La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en familias de columnas  y las basadas en grafos.  La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan.  Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL , Data Scientists, Data Engineers y Data Architects.  La inclusión de Motores de búsqueda como Elastic Search y en particular su Stack de Elastic Stack, es debido a que son tecnologías permiten acceder a cualquier tipo de dato y visualizar su evolución en tiempo real, con un muy buen tiempo de respuesta. Siendo Elastic Search es un sistema distribuido que nos permite trabajar con datos de cualquier tipo, accediendo desde una api/rest de búsqueda y combinando datos estructurados, semi estructurados y no estructurados. Al ser un sistema distribuido, Elastic Search es capaz de correr en un cluster comupuesto de cientos de servers manejando grandes cantidades enormes de información, incluso almacenando sus índices en HDFS.   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: – Entender el funcionamiento general del Elastic Stack como así en qué casos es conveniente su utilización. – Manejar los Beats disponibles en Elastic Stack oficialmente, además conocer los creados por la comunidad – Entender la ingesta y transformación de los datos por medio del uso de codecs y filtros utilizando logstash con aplicación práctica. – Comprender el funcionamiento interno de ElasticSearch a la hora de indexar la información. – Configurar el motor de búsqueda ElasticSearch de la manera que nos resulte más eficiente a la hora de aplicarlo, dependiendo el caso en particular. – Crear, Eliminar, Modificar y Configurar adecuadamente índices para su posterior utilización. – Realizar consultas sobre nuestros índices tanto Full Text Search como Term Queries. – Explotar la información alojada en ElasticSearch utilizando Kibana. – Visualizar información por medio de Dashboards adecuados a las métricas y valores alojados en nuestro índice – Entender toda la variedad de visualizaciones de las que dispone kibana y saber aplicarlas con los datos correctos – Entender toda la variedad de visualizaciones de las que dispone kibana y saber aplicarlas con los datos correctos – Comprender todos los métodos de aplicación que nos ofrece kibana   DESTINATARIOS  El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo Motores de búsqueda y en particular con Elastic Stack. El curso está también dirigido a personas con conocimientos en el área de Big Data que quieran aprender Elastic Stack.   REQUISITOS Es recomendable contar con estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos.   DURACIÓN 12 horas, 4 clases   TEMARIO Unidad 1: Introducción a Elastic Stack  Unidad 2: Recolectando Datos por medio de beats Unidad 3: Logstash ingesta y transformación de datos Unidad 4: Introducción a ElasticSearch Unidad 5: Queries en ElasticSearch Unidad 6: Introducción a Kibana Unidad 7: Visualización de Datos en Kibana   DOCENTE Ing. Juan Zaffaroni Ing. Patricio Boffino Ing. Martín Mihura   METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en Redis. Durante el curso los participantes trabajaran en el desarrollo de casos prácticos en los cuales puedan aplicar los conceptos adquiridos.   PROCEDIMIENTOS DE EVALUACIÓN Y CERTIFICACIÓN Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.- Cronograma de evaluación Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirá respecto a dichos trabajos. En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.

Big Data – NoSQL Key-Value Redis

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos.  En los últimos 15 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos.  La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en familias de columnas  y las basadas en grafos.  La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan.  Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL , Data Scientists, Data Engineers y Data Architects.  Entre las bases de datos NoSQL, Redis es la base de datos líder en el segmento de Bases de datos NoSQL Key-Value.   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: • Entender el contexto y agentes del mercado en el cual surgen las bases de datos NoSQL • Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas. • Modelar datos para diseñar aplicaciones utilizando bases de datos Key Values. • Entender cómo utilizar Redis para insertar datos, actualizarlos, borrarlos y consultarlos. • Entender las estructuras de datos: Keys & Expiration / Strings / Hashes / Lists / Sets / Sorted Sets / Hyperloglogs • Operaciones Set • Basic Transactions y Optimistic concurrency control • Object Storage: Simple Objects / Nesting, Relationships & Folding • Poder diseñar e implementar mecanismos de replicación de datos en Redis. • Comprender la arquitectura interna y sus componentes principales de Redis. • Conocer herramientas de administración de Redis.   DESTINATARIOS  • El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en Redis. • El curso está también dirigido a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieran aprender Redis.   REQUISITOS • Recomendable contar estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos. • Los alumnos deberán asistir al curso con un equipo personal (notebook/netbook) con posibilidad de conexión a una red wifi   DURACIÓN 6 horas, 2 clases.   TEMARIO Unidad 1: Surgimiento y Conceptualización de Bases de Datos • Valor de las Bases de Datos NoSQL • Cambios en la evolución tecnológica de las BD • Surgimiento de NoSQL. Necesidades que cubren • Definicion de BD NoSQL • Tipos de bases de datos NoSQL:  Key-value, documents, column-family, graph • Persistencia Políglota: definición y necesidad de soluciones • Cuándo usar y cuándo no bases de datos Key-values. Unidad 2: Estructuras de datos Básicas en Redis • Strings • Counters • HyperLogLog • Hashes • Lists • Sets • Sorted Sets • Keys & TTLs • Performance y notación Big-O • Operaciones con claves Unidad 3: Estructuras avanzadas & Arquitectura • Geospatial • Publish / Subscribe • Usando Redis desde un lenguaje (nodeJS/Java) • Arquitectura: Persistencia / Arquitectura: Replicación & Particionamiento.  (45 min basado en lo que tardamos en NOSQL) Unidad 4: Streams  • Introduction to Messaging, Streams, and Distributed Systems • Redis Streams • The Producer • The Consumer Unidad 5: Extendiendo Redis  • Transacciones y manejo de / Scripts LUA / Redis Modules (30 min basado en lo tenemos de NOSQL) • A module: Redis Search (Lo pongo por si nos quedamos corto de tiempo)   DOCENTES Ing. Juan Zaffaroni Ing. Patricio Boffino Ing. Martín Mihura   METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en Redis. Durante el curso los participantes trabajaran en el desarrollo de casos prácticos en los cuales puedan aplicar los conceptos adquiridos.   PROCEDIMIENTOS DE EVALUACIÓN Y CERTIFICACIÓN Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.   CRONOGRAMA DE EVALUACIÓN Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirá respecto a dichos trabajos. En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.

Diplomatura en Arquitecturas de Big Data

  La Diplomatura en Arquitecturas de Big Data Aplicadas comprende los siguientes cursos/módulos Apache Hadoop Describir herramientas y componentes de las plataformas y bases de datos NoSQL tratadas. Describir la arquitectura. Describir como se accede a los datos, se insertan modifican y borran en base de datos. Usar herramientas y comandos para importar y exportar archivos desde/hacia las Plataformas y Bases de Datos tratadas. Describir como es generan y modelar estructuras. Explicar y utilizar diferentes formatos de datos. Utilización de motores de procesamiento Distribuido. Desarrollar en diferentes lenguajes sobre plataformas de procesamiento y almacenamiento distribuido y bases de datos NoSQL. Desarrollar ETLs hacia y desde Bases de Datos NoSQL y Hadoop. Configurar y hacer troubleshooting de Jobs MapReduce. Monitorear y administrar las Plataformas y Bases de Datos NoSQL tratadas.   NoSQL MongoDB Entender el contexto y agentes del mercado en el cual surgen las bases de datos NoSQL. Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas. Entender cómo utilizar MongoDB para insertar datos, actualizarlos, borrarlos y consultarlos. Entender los diferentes tipos de índices que utiliza MongoDB y cuando aplicarlos. Utilizar el framework de agregación y map reduce embebido. Modelar datos para aplicaciones eficientes. Poder diseñar e implementar mecanismos de replicación y particionamiento de datos. Conocer las herramientas y comandos de administración y monitoreo de MongoDB. Poder configurar seguridad en MongoDB.   NoSQL Cassandra y Neo4J Modelar datos para diseñar aplicaciones utilizando bases de datos basadas en familias de columnas y en grafos. Entender los diferentes tipos de column families que utiliza Cassandra y cuando aplicarlas. Entender cómo utilizar Cassandra y Neo4J para insertar datos, actualizarlos, borrarlos y consultarlos. Conocer el lenguaje CQL para desarrollar consultas y procesos sobre Cassandra. Conocer el lenguaje Cypher para desarrollar consultas y procesos sobre Neo4J. Poder diseñar e implementar mecanismos de replicación de datos en Cassandra y Neo4J. Comprender la arquitectura interna y sus componentes principales de Cassandra y Neo4J. Conocer herramientas de administración de Cassandra y Neo4J.   NoSQL Key-Value Redis Entender el contexto y agentes del mercado en el cual surgen las bases de datos NoSQL. Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas. Modelar datos para diseñar aplicaciones utilizando bases de datos Key Values. Entender cómo utilizar Redis para insertar datos, actualizarlos, borrarlos y consultarlos. Entender las estructuras de datos: Keys & Expiration / Strings / Hashes / Lists / Sets / Sorted Sets / Hyperloglogs. Operaciones Set. Basic Transactions y Optimistic concurrency control. Object Storage: Simple Objects / Nesting, Relationships & Folding. Poder diseñar e implementar mecanismos de replicación de datos en Redis. Comprender la arquitectura interna y sus componentes principales de Redis. Conocer herramientas de administración de Redis.   Elastic Stack Entender el funcionamiento general del Elastic Stack como así en qué casos es conveniente su utilización. Manejar los Beats disponibles en Elastic Stack oficialmente, además conocer los creados por la comunidad. Entender la ingesta y transformación de los datos por medio del uso de codecs y filtros utilizando logstash con aplicación práctica. Comprender el funcionamiento interno de ElasticSearch a la hora de indexar la información. Configurar el motor de búsqueda ElasticSearch de la manera que nos resulte más eficiente a la hora de aplicarlo, dependiendo el caso en particular. Crear, Eliminar, Modificar y Configurar adecuadamente índices para su posterior utilización. Realizar consultas sobre nuestros índices tanto Full Text Search como Term Queries. Explotar la información alojada en ElasticSearch utilizando Kibana. Visualizar información por medio de Dashboards adecuados a las métricas y valores alojados en nuestro índice. Entender toda la variedad de visualizaciones de las que dispone kibana y saber aplicarlas con los datos correctos. Entender toda la variedad de visualizaciones de las que dispone kibana y saber aplicarlas con los datos correctos. Comprender todos los métodos de aplicación que nos ofrece kibana.   Pentaho Data Integration- Apache NiFi Entender el contexto y agentes del mercado en el cual surgen la inteligencia de negocios. Entender el concepto de Inteligencia de Negocio (BI) y su uso en las aplicaciones, con sus ventajas asociadas. Entender los conceptos de DataWarehouse, DataMart y DataLake. Realizar modelados dimensionales utilizando PDI y NiFi como herramienta ETL. Entender cómo utilizar PDI y NiFi para extraer datos, actualizarlos, borrarlos y limpiarlos para luego volcarlos convenientemente. Diseñar e implementar mecanismos de ETL en PDI y NiFi. Comprender la arquitectura interna y sus componentes principales de PDI y NiFi. Conocer herramientas de administración de PDI y NiFi.   Programación Distribuida, Text Mining y Data Science aplicada Entender los conceptos relacionados a la programación distribuida y su aplicación en data science. Conocer las tecnologías y la arquitectura para la programación distribuida. Aprender conceptos de Machine Learning de manera teórica y práctica. Entender las funciones del rol de los data scientists y data engineer dentro de una organización. Aprender la Herramienta Mahout de la Plataforma Hadoop. Programar algoritmos de data mining con Java sobre Motor de Procesamiento MapReduce. Programar algoritmos de data mining con Python sobre Motor de Procesamiento Spark. Programar algoritmos de data mining con Scala sobre Motor de Procesamiento Spark. Programar algoritmos en Scala ó Python sobre Spark en HDFS. Programar algoritmos en Scala ó Python sobre Spark en MongoDB. Entender el concepto de arquitectura Lambda. Implementar arquitectura Lambda con los lenguajes y herramientas estudiados.   DESTINATARIOS Profesionales de Sistemas. Administradores de Bases de datos. Analistas de BI. Desarrolladores. Científicos de Datos. Arquitectos de Datos. Administradores de Sistemas. DevOps.   METODOLOGÍA A UTILIZAR – Se dictará en cuatro cursos teórico/prácticos y se rendirá un examen por cada módulo con una nota de aprobación mínima de 60/100. – Dada la temática del programa y los objetivos que persigue, en todos los cursos, permanentemente se vincularán los conceptos teóricos con casos prácticos. – Durante todos los cursos los participantes trabajarán en el desarrollo de casos prácticos en los cuales puedan aplicar los conceptos adquiridos. – Cada clase estará dividida en una parte teórica y otra parte práctica en la que se implementan los conceptos adquiridos.

Big Data – Programación distribuida, text mining y data science aplicada

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 25 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. El concepto de programación distribuida existe desde comienzo de Internet, en ámbitos académicos, sin embargo, nunca fue posible y necesario el uso, la administración y la explotación de datos como en tiempos modernos. La baja en precios por unidad de almacenamiento, el crecimiento exponencial de la capacidad de procesamiento,  la receptividad del mercado a la explotación de datos, la gran cantidad y variedad de datos (en el orden de los PB de información) favorecieron el surgimiento de herramientas como Spark y Hadoop que cambiaron el paradigma de programación, permitiendo no estar limitado a la potencia de un solo servidor, sino usar varios de ellos como uno solo. Este nuevo surgimiento, trajo nuevos desafíos y problemáticas, para ello, es muy importante entender cómo desarrollar sistemas que estén a la altura de requerimientos y fuentes de datos dinámicas, así como comprender el rol del profesional de datos orientado a resolver problemas de big data dentro de las organizaciones.   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: Entender los conceptos relacionados a la programación distribuida y su aplicación en data science. Conocer las tecnologías y la arquitectura para la programación distribuida. Aprender conceptos de Machine Learning de manera teórica y práctica. Entender las funciones del rol de los data scientists y data engineer dentro de una organización. Aprender la Herramienta Mahout de la Plataforma Hadoop. Programar algoritmos de data mining con Java sobre Motor de Procesamiento MapReduce. Programar algoritmos de data mining con Python sobre Motor de Procesamiento Spark. Programar algoritmos de data mining con Scala sobre Motor de Procesamiento Spark. Programar algoritmos en Scala ó Python sobre Spark en HDFS. Programar algoritmos en Scala ó Python sobre Spark en MongoDB. Entender el concepto de arquitectura Lambda. Implementar arquitectura Lambda con los lenguajes y herramientas estudiados   DESTINATARIOS El curso está dirigido a personas con conocimientos de programación en lenguajes tales como C++, Java, C#, Ruby, Scala, Python, R, entre otros, que quieran hacer una inmersión en el mundo de Big Data. El curso está también dirigido a personas con conocimientos en el área de Big Data, bases de datos NoSQL y Plataforma de Almacenamiento y Procesamiento distribuido como Hadoop que quieren aprender programación distribuida y data science aplicada.   REQUISITOS Recomendable contar estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de programación y bases de datos. Los alumnos deberán asistir al curso con un equipo personal (notebook/netbook) con posibilidad de conexión a una red wifi   DURACIÓN El programa tiene una duración de 36 horas, a desarrollarse en 12 clases. Carga horaria semanal: 3 horas.   TEMARIO Para ver el temario haga clic AQUÍ   DOCENTES  Ing. Juan Zaffaroni Ing. Maximiliano Mendez Ing. Martín Mihura Ing. Patricio Boffino   METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO Las clases serán dictadas por un equipo docente (2 docentes por clase) con conocimiento teórico y práctico, para asistir a los alumnos en todas las prácticas. Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos y de negocio. Durante el curso los participantes trabajaran en el desarrollo de varios casos prácticos en los cuales puedan aplicar los conceptos adquiridos.   PROCEDIMIENTOS DE EVALUACIÓN Y ACREDITACIÓN – CERTIFICACIÓN Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia. Cronograma de evaluación Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.

Big Data – NoSQL Cassandra y Neo4J

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 25 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos. En los últimos 10 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos. La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en columnas  y las basadas en grafos. La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan.  Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL hasta lo que se conoce como Data Scientists. Entre las bases de datos NoSQL, Cassandra y Neo4J son las bases de datos líderes en el segmento de Bases de datos NoSQL basadas en Columnas (Column-Family) y basadas en Grafos respectivamente. En el ranking de todo el universo de bases de datos generado por db-engines.com, Cassandra figura dentro de las 10 primeras y Neo4J entre las 25. La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de  profundizar en conceptos de NoSQL y tener mayores herramientas para insertarse laboralmente en un mercado que consideramos va a ser demandante de profesionales en los próximos años   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: Entender el contexto y agentes del mercado en el cual surgen las bases de datos NoSQL Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas. Modelar datos para diseñar aplicaciones utilizando bases de datos basadas en familias de columnas y en grafos. Entender los diferentes tipos de column families que utiliza Cassandra y cuando aplicarlas Entender cómo utilizar Cassandra y Neo4J para insertar datos, actualizarlos, borrarlos y consultarlos. Conocer el lenguaje CQL para desarrollar consultas y procesos sobre Cassandra. Conocer el lenguaje Cypher para desarrollar consultas y procesos sobre Neo4J. Poder diseñar e implementar mecanismos de replicación de datos en Cassandra y Neo4J. Comprender la arquitectura interna y sus componentes principales de Cassandra y Neo4J. Conocer herramientas de administración de Cassandra y Neo4J.   DESTINATARIOS  El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en Cassandra y Neo4J. También está orientado a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieran aprender Cassandra.   REQUISITOS Es recomendable contar con estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos.   DURACIÓN Total: 36 horas. Carga horaria semanal: 3 horas.   TEMARIO Para ver el temario, hacé clic AQUÍ   DOCENTE Ing. Juan Zaffaroni Ing. Patricio Boffino Ing. Martín Mihura Ing. Maximiliano Mendez   METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en Cassandra y Neo4J. Durante el curso los participantes trabajaran en el desarrollo de casos prácticos en los cuales puedan aplicar los conceptos adquiridos.   PROCEDIMIENTOS DE EVALUACIÓN Y CERTIFICACIÓN Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia. Cronograma de evaluación Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirá respecto a dichos trabajos. En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.  

Big Data – Apache Hadoop

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 30 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Sin embargo Algo permanece constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos. La última década ha sido protagonista de una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos. La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Una de las soluciones que más adopción ha tenido para procesar grandes volúmenes de información es Hadoop. La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan.  Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL, Administradores de frameworks como Hadoop hasta lo que se conoce como Data Scientists. Hadoop es un framework de procesamiento distribuido que es Open Source, aunque muchas compañías como Hortonworks o Cloudera han lanzado sus propias distribuciones. Hadoop permite trabajar con miles de nodos y fue inspirada por la necesidad de compañías como Google de escalar horizontalmente. La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de Hadoop desde el punto de vista de administración de la plataforma. Este curso es necesario para el otros vinculados a la explotación de la información con Hadoop.   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: • Describir varias herramientas y componentes del ecosistema Hadoop 2.0. • Describir la arquitectura del file system HDFS. • Instalar y configurar un clusterHadoop. • Monitorear y administrar un cluster. • Describir como los archivos se escriben y son accedidos en HDFS. • Describir como se ejecutan los procesos YARN. • Configurar y hacer troubleshooting de Jobs MapReduce. • Usar Sqoop para transferir datos entre Hadoop y una base de datos. • Usar Flume para tomar datos de streaming en HDFS. • Configurar un workflowOozie. • Usar Pig para transformar y preparar datos en Hadoop. • Configurar Hive. • Describir como es generan las tablas Hive. • Usar Hive para explorar como se definen e implementan las tablas Hive y analizar sets de datos. • Explicar y utilizar diferentes formatos de archivo Hive. • Usar Hive para ejecutar consultas de tipo SQL para realizar análisis de datos. • Usar Hive para hacer joins de sets de datos usando una variedad de técnicas. • Ejecutar consultas Hive eficientes.   DURACIÓN El programa tiene una duración de 36 horas cátedra, a desarrollarse durante 12 semanas consecutivas.   DESTINATARIOS El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases y Hadoop aplicando sus conceptos.   REQUISITOS PARA CURSAR Recomendable contar estudios al menos iniciales en carreras relacionadas con Sistemas, conocimientos de Unix y conceptuales de sistemas operativos.   METODOLOGÍA A UTILIZAR Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en Hadoop. Durante el curso los participantes trabajarán en el desarrollo de un caso práctico en el cual puedan aplicar los conceptos adquiridos.   PROCEDIMIENTOS DE EVALUACIÓN y CERTIFICACIÓN Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.-   CRONOGRAMA DE EVALUACIÓN Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirán respecto a dicho trabajo y al finalizar el programa los participantes entregarán el mismo (anteúltima clase). En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.   DOCENTE Ing. Juan Zaffaroni

Introducción a Big Data – NoSQLMongoDB

Este curso forma parte de la Diplomatura en Arquitecturas de Big Data Aplicadas   PRESENTACIÓN En los últimos 25 años el mundo de la informática ha experimentado cambios profundos. Han surgido nuevas arquitecturas de aplicaciones, nuevos paradigmas de programación y nuevas herramientas de desarrollo de software. Pero salvo excepciones, algo ha permanecido constante: el uso de Bases de Datos Relacionales (RDBMS) como el soporte básico para el almacenamiento y procesamiento de los datos. En los últimos 10 años se ha verificado una nueva revolución, que si bien no ha desafiado la preponderancia de las bases de datos relacionales, ha demostrado la necesidad de la utilización de nuevos paradigmas para el almacenamiento de datos. La necesidad de procesar grandes volúmenes de información a partir del uso cotidiano de las redes sociales y dispositivos móviles, es decir, el manejo de volúmenes de datos que salen de lo habitual, tendencia que actualmente denominamos como Big Data, requirió nuevas soluciones tecnológicas. Estas soluciones se encuadran dentro de lo que podemos denominar bajo la categoría de Bases de Datos NoSQL, nombre genérico en el cual podemos incluir las bases de datos key-value, las documentales, las basadas en columnas y las basadas en grafos. La adopción de estas tecnologías por las empresas está creciendo, en la medida en que también crece el volumen de datos no estructurados que estas empresas almacenan y gestionan. Consecuencia de esto se está generando un mercado laboral para especialistas en estas áreas, que incluyen desde Administradores de Bases de Datos NoSQL hasta lo que se conoce como Data Scientists. Entre las bases de datos NoSQL, MongoDB es una base basada en documentos que es hoy en día la de mayor difusión, figurando en el 5to lugar en el ranking de todo el universo de bases de datos generado por db-engines.com: http://db-engines.com/en/ranking. En Argentina MongoDB está siendo adoptado por varias empresas de todo tamaño y vemos un área de mercado que va a requerir profesionales en los próximos años. Este curso intenta cubrir esa necesidad. La fundamentación de la inclusión de este curso se basa en la otorgar a aquellos que lo deseen, la posibilidad de profundizar en conceptos de NoSQLy tener mayores herramientas para insertarse laboralmente en un mercado que consideramos va a ser demandante de profesionales en los próximos años.   OBJETIVOS Se espera que al finalizar el programa, los participantes puedan: • Entender el contexto y agentes del mercado en el cual surgen las bases de datos NoSQL • Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas. • Entender cómo utilizar mongodb para insertar datos, actualizarlos, borrarlos y consultarlos • Entender los diferentes tipos de índices que utiliza MongoDB y cuando aplicarlos • Utilizar el framework de agregación y map reduce embebido • Modelar datos para aplicaciones eficientes • Poder diseñar e implementar mecanismos de replicación y particionamiento de datos • Conocer las herramientas y comandos de administración y monitoreo de MongoDB   DURACIÓN El programa tiene una duración de 36 horas cátedras, a desarrollarse durante 12 semanas consecutivas.   DESTINATARIOS • El curso está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y Bases de datos NoSQL y aplicar sus conceptos en MongoDB • El curso está también dirigido a personas con conocimientos en el área de Big Data y bases de datos NoSQL que quieren aprender MongoDB   REQUISITOS PARA CURSAR Recomendable contar estudios al menos iniciales en carreras relacionadas con Sistemas y conocimientos de bases de datos.   METODOLOGÍA A UTILIZAR EN EL DESARROLLO DEL CURSO Dada la temática del programa y los objetivos que persigue, permanentemente se vincularán los conceptos teóricos con casos prácticos en MongoDB. Durante el curso los participantes trabajaran en el desarrollo de un caso práctico en el cual puedan aplicar los conceptos adquiridos.   TEMARIO Unidad 1 – Surgimiento y Conceptualización de Bases de Datos 1. Valor de las Bases de Datos NoSQL 2. Cambios en la evolución tecnológica de las BD 3. Surgimiento de NoSQL. Necesidades que cubren. 4. Definicion de BD NoSQL 5. Tipos de bases de datos NoSQL: Key-value, documents, column-family, graph 6. Persistencia Políglota: definición y necesidad de soluciones 7. Cuando usar y cuándo no MongoDB Unidad 2: creando, actualizando, borrando y consultando documentos MongoDB 1. Inserción 2. Removing 3. Updating 4. Querying Unidad 3: Planificación del marketing 1. Introducción al indexado 2. Explain() y hint() 3. Tipos de índices 4. Administración de índices 5. Indices especiales Unidad 4: Agregación 1. Framework de Agregación 2. Operaciones de Pipeline 3. Map Reduce 4. Comandos de Agregación Unidad 5: Diseño de Investigaciones 1. Agregado 2. Normalización versus Denormalización 3. Optimizaciones para Manipulación de Datos 4. Consistencia Unidad 6: Replicación 1. Replica Set 2. Componentes de un Replica Set 3. Conectando el Replica Set a una aplicación Unidad 7: Particionamiento 1. Introducción 2. Configuración 3. Elección de una clave de Partición 4. Administración de Particiones Unidad 8: Administración 1. Start y Stop 2. Monitoreo de MongoDB 3. Backups 4. Virtualización Unidad 9: Seguridad en MongoDB 1. Creación de usuarios 2. Roles Built In 3. Roles User-Defined 4. Seguridad en Clusters PROCEDIMIENTOS DE EVALUACIÓN Y CERTIFICACIÓN • Para obtener el certificado de aprobación, los participantes serán evaluados a través de un examen escrito y de la calificación de los trabajos prácticos. • Además la asistencia a un mínimo del 80% de las clases otorga un certificado de asistencia.-   CRONOGRAMA DE EVALUACIÓN • Durante el transcurso del programa, los participantes desarrollarán trabajos prácticos (en forma individual o grupal). A medida que se avance en los conceptos teóricos se debatirán respecto a dicho trabajo y al finalizar el programa los participantes entregarán el mismo (anteúltima clase). • En la anteúltima clase los alumnos serán evaluados a través de un examen escrito.   DOCENTES Ing. Juan Zaffaroni

DIPLOMATURA EN TECNOLOGÍA Y SALUD

OVERVIEW   El impacto de las tecnologías emergentes y de tecnologías que ya están siendo utilizadas en el ecosistema de salud abarca desde los registros de salud electrónicos, el diagnóstico asistido por computadoras, pruebas genéticas cada vez más sencillas, telemedicina y dispositivos portátiles, hasta el uso de IA para diagnósticos de pacientes. La industria de la salud proyecta atender más de 8.500 millones de personas, donde el 70% tiene acceso a aplicaciones inteligentes desde sus celulares, y mover más de USD 250.000 millones de dólares para 2030. El uso y aplicación de tecnologías emergentes es tanto un desafío como una oportunidad. La presente diplomatura está diseñada para tener inicialmente un entendimiento general de las tecnologías emergentes como IA e IA Generativa, Realidad aumentada, Analítica avanzada, Big Data, Robótica, ecosistema de salud.   Comprender el alcance y posibilidades que abre la tecnología nos ayudará a evaluar el gap entre lo que tenemos actualmente y el mejor escenario proyectando la explotación de las oportunidades que la tecnología nos abre.   OBJETIVOS GENERALES   Comprender el mapa de tecnologías emergentes y su proyección para los próximos años. Comprender el escenario actual de uso de tecnología en el ecosistema de salud a nivel local e internacional. Analizar el potencial uso de las tecnologías emergentes en el ecosistema local. Comprender el impacto positivo de la tecnología para mejorar el Journey del Paciente y del Profesional de Medicina.   OBJETIVOS ESPECIFICOS   Lograr entendimiento general de las tecnologías emergentes como IA e IA Generativa, Realidad aumentada, Analítica avanzada, Big Data, Robótica, Redes Neuronales Artificiales, LLMs entre otras y su aplicación e impacto en el ecosistema de salud. Entender ecosistema de salud local, su funcionamiento y problemáticas. Entender el Journey del paciente y del profesional de medicina. Escenario AS-IS y TO-BE. Entender los beneficios de la interoperabilidad en el ecosistema de salud. Entender la problemática alrededor de la privacidad de datos y como abordarla en el día a día. Sumar perspectivas y casos reales de referentes de la industria de tecnología y de la salud. Diseñar en forma colaborativa escenarios de aplicación de tecnología para resolver problemáticas actuales del ecosistema de salud a nivel local. Adquirir práctica en el uso de la tecnología para resolver escenarios habituales (hands-on).   CAPITULOS   Capítulo I – Impacto de la tecnología en el ecosistema de salud 3 clases virtuales + 1 clase presencial Capítulo II – Tecnologías Emergentes 3 clases virtuales + 1 clase presencial Capítulo III – Journey del Paciente 3 clases virtuales + 1 clase presencial Capítulo IV – Journey del Profesional Médico 3 clases virtuales + 1 clase presencial Capítulo V – Interoperabilidad, datos del paciente y nuevo marco normativo 3 clases virtuales + 1 clase presencial Capítulo VI – Nuevos Paradigmas y Casos Prácticos 2 clases virtuales + 2 clases presenciales DOCENTES Dra. Marisa Aizenberg – Consultora Jurídica en Transformación digital de Salud. Dirertora del Observatorio de Salud, UBA Derecho Ing. Leandro Balboni – Head of Digital Acceleration Softtek Lic Emiliano Dato – VP Operaciones Global. Softtek Lic. Gabriel Oriolo – Superintendente – Superint. De Servicios de Salud Agustina Paz – Co-Funder NeXtHumans Dr. Federico Pedernera – Subsecretario de Vigilancia Epidemiológica,  Información y Estadísticas de Salud, Ministerio de Salud de la Nación Dr. Diego Pereyra – Healthcare – Global Director Softtek Ing. David Soto – Offer Manager Softtek Ing. Juan José D’ Alessandro  – Managing Director Healthcare and Insurance, Softtek CRONOGRAMA La duración del programa es de 24 semanas con clases virtuales sincrónicas y presenciales. Consta de 6 capítulos y cada uno cierra con una clase presencial. El inicio de la diplomatura es el martes 6 de mayo. El cierre es el martes 28 de octubre. El día y horario de cursada es el Martes de 17.30 a 20.00hs