Curso Online

Especialista en Big Data con Apache Hadoop

Conoce las funciones del marco de trabajo Apache Haddop en JAVA para aplicar las técnicas y herramientas del Big Data cuando lo requieras

Ir al temarioInscripción
CAPTCHA
consultanos

Podés abonar este curso en 3 cuotas sin interés con todas las tarjetas de crédito.

Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.

La información en Internet está formada por datos estructurados, y por desestructurados, que en cantidad superan tres veces a los primeros y que provienen mayormente de las herramientas de redes sociales.

Actualmente en menos de un minuto: se generan cerca de 100.000 tweets, se descargan 25.000 aplicaciones, 300.000 personas se loguean a Facebook y se ven 1,5 millones de videos en YouTube.

Se estima que en 2014 cada día fueron creados cerca de 3 trillones de bytes de datos y se espera que para el año 2020 haya 35 zettabytes de información.

La disciplina dedicada a los datos masivos y que se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos es Big Data. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento, búsqueda, distribución (compartir), análisis y visualización de los datos.

Dentro de las herramientas para trabajar con Big Data Apache Software Foundation creó Hadoop.

Haddop es un marco de trabajo de software basado en Java y que soporta aplicaciones distribuidas bajo una licencia de software libre – freeware. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos.

La formación de Especialista en Big Data tiene como objetivo familiarizar a los participantes con el uso de las técnicas y herramientas más difundidas de Hadoop.

Se espera que los participantes incorporen criterios para saber cuándo emplear y cuando no emplear las técnicas y herramientas de Big Data.



Objetivo general

Formar a los asistentes en Big Data, para lo que se requiere que los participantes:

  • Entiendan las ventajas y desventajas de las técnicas de Big Data
  • Sepan distinguir los problemas que son susceptibles de emplear las técnicas de Big Data
  • Comprendan los contextos en los cuales Big Data no tiene sentido desde el punto de vista de almacenamiento y explotación de la información
  • Conozcan las herramientas disponibles identificando sus fortalezas y debilidades
  • Sepan utilizar las funciones más difundidas de Apache Hadoop
  • Puedan diseñar un flujo de trabajo con MapReduce, el modelo de programación utilizado por Google para dar soporte a la computación paralela

Objetivo especifico

Unidad 1:

  • Que los participantes conozcan las razones que llevan al desarrollo de las técnicas de Big Data y puedan distinguir con claridad Big Data.
  • Que los participantes comprendan las diferentes herramientas que conforman el ecosistema de Apache Hadoop y el lugar que ocupan en el mismo.


Unidad  2:     

  • Que los participantes desarrollen un criterio propio para saber cuándo aplicar herramientas de Big Data y cuando no.       
  • Que los participantes tengan como referencia aplicaciones útiles ya establecidas de las herramientas de Big Data para guiar su accionar.         
  1. Unidad 3:     
  • Que los participantes puedan elegir apropiadamente la distribución de Apache Hadoop que mejor se adapta a su problemática.
  • Que los participantes puedan configurar adecuadamente los recursos de Apache Hadoop que van a utilizar.  
    Que los participantes conozcan el impacto de los principales parámetros de configuración en el comportamiento futuro de las herramientas Apache Hadoop


Unidad 4: HDFS y MAP REDUCE

  • Que los participantes utilicen las herramientas de HDFS para manipulación de archivos.
  • Que los participantes entiendan la arquitectura de HDFS y desde esa comprensión valoren el impacto de los comandos de manipulación de archivos. 
  • Que los participantes descubran como paralelizar los problemas para sacar ventaja cabal del procesamiento distribuido.
  • Que los participantes manejen la escritura de código para la fase map y para la fase reduce.


Unidad 5: Otros Lenguajes para Hadoop y Pasos Siguientes

  • Que los participantes Entiendan las diferencias entre Hive y Pig
  • Que los participantes Conozcan proyectos relacionados de Apache con Hadoop
  • Que los participantes Conozcan las futuras tendencias sobre Hadoop

 

Destinatarios

Profesionales que quieran aplicar herramientas y técnicas de Big Data a problemas de negocios ya sea en forma general o dentro de las herramientas propuestas por Apache Hadoop.


Requisitos previos

Los alumnos se beneficiarán de conocimientos básicos de estadística, de nociones de manejo de bases de datos SQL y de programación estructurada.  Carecer de toda esta información hará difícil aunque no imposible seguir ágilmente el curso.

Se incluirán materiales complementarios y se responderán las preguntas individuales necesarias para asegurar el éxito de todos los participantes.


Metodología de enseñanza-aprendizaje

Lectura crítica del material didáctico por parte de los alumnos. Consultas e intercambios en los foros, dirigidos y coordinados por el profesor-tutor. Clases en tiempo real. Ejercicios prácticos  y evaluaciones sobre la base de análisis de situaciones y casos en contextos laborales y profesionales y, según el carácter de los temas y objetivos de la especialidad o curso, cuestionarios del tipo multiple choice.



Modalidad Educativa

La modalidad es totalmente mediada por tecnologías a través del Campus Virtual FRBA. Las actividades que se realizarán serán:

  • Foros de discusión semanal propuestos por el docente (un foro por unidad).
  • Consulta al docente a través de e-mail o chat.
  • Dictado de clases en tiempo real mediante un Aula Virtual Sincrónica (AVS)
  • Material de lectura semanal y por unidad temática
  • Actividades individuales y/o grupales de aplicación práctica semanal y por unidad temática.
  • Evaluaciones semanales y por unidad temática sobre la base de trabajos prácticos de aplicación de los conocimientos adquiridos.

Se trata de una modalidad básicamente asincrónica con el complemento del AVS, que supera la instancia de autoestudio por la implementación de foros proactivos coordinados por el profesor-tutor y dictado de clases en tiempo real. Los foros cumplen cuatro funciones pedagógico-didácticas fundamentales: 1) Son el lugar para la presentación de las dudas, consultas y opiniones críticas de los alumnos; 2) Son el principal espacio para la generación de retroalimentación (feed back) entre profesores-tutores y alumnos y alumnos entre sí; 3) Es el lugar específico para la discusión, coordinada por el profesor-tutor, de todos los temas tratados en los módulos de la especialidad o curso y 4) Es el lugar para el aprendizaje entre pares de los alumnos. A su vez, el AVS permite complementar todas aquellas instancias pedagógico-didácticas que le señalan límites a la modalidad puramente asincrónica. 

Modalidad de evaluación y acreditación

Tratándose de una modalidad mediada por tecnologías, la participación activa en los foros por parte de los alumnos, será una condición necesaria para su aprobación.

Por lo tanto, para acreditar la aprobación de la especialidad o curso, los alumnos deberán rendir satisfactoriamente las evaluaciones que los profesores-tutores determinen como obligatorias y haber participado activamente en los foros.

Finalmente deberá aprobarse una Evaluación Final Integradora Obligatoria en la modalidad  multiple choice.


Temario

El curso tendrá una duración de cinco semanas y se dividirá en cinco unidades.

Cada una de las unidades tendrá una duración de una semana:

Unidad 1: ¿Qué es Apache Hadoop?

  • Big Data y la necesidad de Apache Hadoop
  • La explosión de los volúmenes de datos
  • La variación de las estructuras de datos
  • El Origen y Diseño de Apache Hadoop
  • El procesamiento distribuido con MapReduce
  • El ecosistema de Apache Hadoop

 

Unidad 2: ¿Cuando usar Apache Hadoop?            

  • Big data vs small data: ¿Cuando usar cada aproximación? 
  • Casos de uso comunes para Big Data en Apache Hadoop (log clickstram, Detección de Fraude, Análisis de sentimientos, Clasificación de imágenes, etc)

 

Unidad 3: ¿Como configuramos un entorno Apache Hadoop?

  • La elección de una distribución de Apache Hadoop
  • La elección de una arquitectura de cluster Apache Hadoop (Modo Pseudo-distribuida vs Modalidad completamente distribuida (un clúster de nodos))
  • Instructivo para la configuración

 

Unidad 4: HDFS y MAP REDUCE

  • Almacenamiento de datos en un File System Tradicional vs Almacenamiento de datos en HDFS
  • Arquitectura HDFS
  • Gestión de archivos con los comandos del HDFS
  • Pensando en paralelo
  • Fase Map
  • Fase Reduce
  • Ejemplo ilustrativo
  • Escribiendo un Map Reduce

 

Unidad 5: Otros Lenguajes para Hadoop y Pasos Siguientes


  • Hive
  • Pig
  • Relación entre ambos lenguajes
  • Escribiendo un Map Reduce en Hive
  • Escribiendo un Map Reduce en Pig
  • Ejemplos comparativos entre MAP REDUCE, PIG y HIVE
  • Otros Lenguajes

Examen Final

 

Duración

Duración: 5 semanas

 

Carga horaria

38  HS.

 

Certificación

A todos los participantes que hayan aprobado el curso cumpliendo con todos los requisitos establecidos, se les extenderá un certificado de la Secretaría de Cultura y Extensión Universitaria, FRBA, UTN. Aquellos que aun habiendo participado activamente en los foros y realizado las actividades prácticas no cumplimentaran los requisitos de evaluación, recibirán un certificado de participación en el curso.



Dirección y cuerpo docente

Coordinador:

Ulises Martins (PMP®: ITIL V3 Certified) 

Ulises Martins es Ingeniero en Sistemas de Información de la Universidad Tecnológica Nacional (UTN). Posee un Postgrado en Ingeniería en Calidad (UTN), un Postgrado en Gestión Tecnológica (Universidad Austral) y las certificaciones Project Management Professional, Agile Certified Practitioner, Certified ScrumMaster e ITIL Foundation. Habiendo comenzado su carrera en 1996, trabajó en diversas posiciones (soporte, desarrollo, testing, integración, arquitectura y gestión de proyectos) en distintas organizaciones multinacionales.

Su experiencia laboral comprende más de 20 años trabajando en proyectos de IT en compañías como Accenture, Telefónica de Argentina, Banco Santander, IBM, Capgemini, Banco Galicia, Banco de Córdoba y SAP.

De los distintos desafíos en los que trabajó se destacan el liderazgo de un equipo de más de 70 personas (SW Factory), Proyectos complejos distribuidos en Latinoamérica, Servicios de infraestructura para todas las sucursales y casas centrales de Banco Santander en Argentina, Proyectos de outsourcing para España y la Migración de Datos del sistema CORE Banking de Banco Galicia a SAP Banking Services (2M de Cuentas y 102M de movimientos).

A nivel académico dirige el Posgrado de Gestión de Proyectos en la Universidad Tecnológica Nacional y es el creador y coordinador de diversos cursos a distancia, eLearning.

Actualmente se desempeña como Gerente de Programas para Latinoamérica en Kimberly-Clark.

Profesor-tutor:

Lic. Ignacio Urteaga

Completó la Licenciatura en Física en la UBA y trabajó en ese campo como investigador por cuatro años. Paulatinamente se fue reorientando a sistemas con foco en desarrollo de aplicaciones e inteligencia artificial.

Trabajó durante 8 años Emergencias SA en diferentes posiciones gerenciales participando de varios proyectos de desarrollo de software y de consultoría. Desarrollo un proceso de auto - aprendizaje supervisado para el sistema experto de clasificación telefónica de Emergencias Médicas. Este logro obtuvo un premio en EUNITE 2001 y fue objeto de un proceso de transferencia de "Know How" hacia SEMSA SA (gestor del sistema de emergencias de la Comunidad Autónoma de Catalunya)

Tras cumplir dos años como Gerente de Proyectos en una consultora especializada en la gestión de la tecnología en el ámbito público se independizó como consultor cubriendo temáticas de gestión de proyectos, gestión de la tecnología, emergencias públicas y análisis y gestión de proyectos.

En la actualidad se desempeña como Director de Business Intelligence en Hadasoft SA,es profesor adjunto en el MBA en Dirección de Sistemas de Información de la Universidad del Salvador y en el Postgrado en Gestión de Proyectos de la UTN además de la diplomatura en BI en la misma casa.

Profesores-tutores asociados:

Alan Ini:

Es actuario en administración con experiencia en diseño y ejecución de la estrategia para la venta de seguros en el mercado brasileño, control estadístico del rendimiento del Call Center, detección de desvíos y rastreo de las causas operativas de los mismos, administración de los datos para las campañas de LATAM, modelado del rendimiento de las campañas según la asignación de los datos y aluación económica de los datos

Además realizó consultoría actuarial para la estimación de las reservas de riesgos en curso e IBNR para Provincia Seguros y Coface,  cálculo de tarifas ART para Sancor, QBE, CNA y Liberty, desarrollo de curso de capacitación orientado a la actividad Reaseguradora para INWORX.

Fué Ayudante de la materia Administración Financiera, UBA (2008-2009) en la cátedra Heriberto Fernández. Profesor Sergio Olivo.

Ha completado la Diplomatura en Big Data, ITBA (2014)

Alejandro Carlos Renato

Se ha especializado en las áreas de Voice Mining y Text Mining en Call Centers y redes sociales. En los últimos años ha trabajado en la Consultora Maysa en Text Mining y Data Mining, impartiendo cursos de formación en programación y Data Mining en el Instituto SAS de Argentina.

Es profesor de la Maestría de Data Mining de la Universidad Austral en la materia Análisis Inteligente de Datos. Además es profesor en la Facultad de Medicina, Universidad de Buenos Aires y de la Universidad San Martín.

Entre los años 2003-2009 se radicó en Brasil donde participó de proyectos de investigación en el área de reconocimiento automático de habla. Su doctorado se enfoca en el reconocimiento de patrones por medio de redes neuronales en el habla.


Judith Donayo

Es Licenciada en Ciencias de la Computación de la UBA. Ha trabajado en desarrollos de Inteligencia Artificial en Emergencias SA y se especializa también en el área de visión Robótica para lo que participa como Jefe de Trabajos Prácticos e investigadora en la Facultad de Ingeniería de la UBA.

Actualmente se desempeña como profesora en la Diplomatura de BI de la UTN y es responsable de administración y operación de Bases de Datos en Camardir SA.

 

Bibliografía

  • Anand Rajaraman, Jure Leskovec y Jeffrey D. Ullman, "Mining of Massive Datasets".  http://infolab.stanford.edu/~ullman/mmds.html
  • Anand Rajaraman, Jure Leskovec y Jeffrey D. Ullman, "Mining of Massive Datasets".  
    http://infolab.stanford.edu/~ullman/mmds.html
  • Cannataro M & Comito C. A Data Mining Ontology for Grid Programming.  In Proceedings of the 1st International Workshop on Semantics Peer to Peer and Grid Computing. Budapest, 20-24 May 2003.
  • Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze, "Introduction to Information Retrieval".            
    http://nlp.stanford.edu/IR-book/
  • Pyle D. Business Modeling and Data Mining. The Morgan Kaufmann Series in Data Management Systems. Morgan Kaufmann Publisher. (2003).
  • Schneider R.D  Hadoop for Dummies (Wiley 2012).
  • Trevor Hastie, Robert Tibshirani y Jerome Friedman. Springer, "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". 
    http://www-stat.stanford.edu/~tibs/ElemStatLearn/
  • Zhou Z. Three perspectives of Data Mining. Artificial Intelligence. Elsevier  Science B.V. (2003).

 

Precio para Argentina

18708 Pesos Argentinos

Precio para Otros Países

261 Dólares Estadounidenses

Certificado Digital

Ayudamos al medioambiente mediante la reducción de uso de papel

Apto Crédito Fiscal para Capacitación ¡Somos UCAP!

Sepyme

El Centro de e-Learning UTN FRBA es Unidad Capacitadora, de manera que los cursos que dictamos pueden canalizarse a través del Régimen de Crédito Fiscal para Capacitación.


IMPORTANTE: Debido a los acontecimientos de público conocimiento y como medida de prevención, la Facultad Regional Buenos Aires permanecerá cerrada hasta nuevo aviso. Por dicho motivo, nos encontramos con acceso limitado a las líneas telefónicas de ciertas áreas y algunos procesos podrán demorar más de lo usual.

X
Subir