Arquitectura de Datos. Hadoop


analytics

Cliff Justice, líder en KPMG, dice que las necesidades organizacionales en el área de las analíticas serán enormes, motivado en parte al volumen de datos recogido y por el cada vez mayor número de aplicaciones (así como la robótica) alimentada por los resultados de las analíticas. Como resultado de ello, las compañías están añadiendo y creando posiciones de TI que manejen el trabajo.

De acuerdo a Barry Brunsman, también empleado en KPMG, los cargos que se verán en un futuro muy cercano serán algo como: Arquitectos de Datos (que diseñan la estructura que soporta las necesidades emergentes), Ingenieros de integración de datos (aseguran que las soluciones de datos y analíticas puedan ser integrados, sin importar la fuente), y Analistas de Planificación de TI (agregan y analizan datos desde fuentes internas y externas para ayudar a que la TI conozca lo que los negocios van a necesitar en el futuro).

Los títulos técnicos que están y que permanecerán en el tapete incluyen Desarrollador Hadoop. Ingeniero de Datos, Arquitecto de Software para Datos Grandes y Arquitecto de Datos empresariales, de acuerdo a Christian P. Hagen, socio de la firma consultora A.T. Kearney.

Al mismo tiempo, las demandas organizacionales alrededor de las Analíticas crearán una serie de posiciones gerenciales cuya finalidad es entender cómo usar las analíticas para alcanzar metas y objetivos. Continúa Hagen: “Las analíticas no significa sólo trabajar con las herramientas. Las compañías necesitarán a alguien al frente, alguien que pueda transformar a la compañía y a la TI a través de las analíticas”.

Hagen afirma que los cargos emergentes en esta área serán el Jefe de Analítica (Chief Analytics Officer), el Jefe de Datos (Chief Data Officer), Jefe Digital (Chief Digital Officer), Director de Analíticas Empresariales y VicePresidente de Datos Empresariales.

Apache Hadoop es un framework de código abierto escrito en Java para almacenamiento y procesamiento distribuido de grandes cantidades de data en clusters de computadores. Todos los módulos en Hadoop son diseñados teniendo en mente que las fallas de hardware son comunes y que deben ser manejadas automáticamente por el framework en cuestión.

El núcleo de Hadoop consiste en una parte de almacenamiento, conocido como el Sistema de Archivo distribuido de Hadoop (Hadoop Distributed File System – HDFS), y una parte para el procesamiento conocido como MapReduce. Hadoop segmenta los archivos en grandes bloques y los distribuye a lo largo de nodos en el cluster. Para procesar la data, Hadoop transfiere el código empaquetado a los nodos para procesar en paralelo basado en la data que necesita ser procesada. Este enfoque aprovecha las ventajas de la ubicación de la data (donde los nodos manipulan la data a la cual tienen acceso), para permitir que el dataset sea procesado de manera más rápida y eficiente que si fuera procesada de manera convencional, que descansa sobre un Sistema de Archivos en Paralelo, donde la computación y la data se distribuyen a través de redes de alta velocidad.

Hadoop fue creado por Doug Cutting y Mike Cafarella en el 2005. Cutting, quien estaba trabajando en Yahoo! En el momento, lo nombró así por el elefante de juguete de su hijo.

hadoop


Referencias

Tarjeta Castellanos

Banner De todo un Poco (1) 600 px

Anuncios

Acerca de Luis Castellanos

Luego de unos años en Maracaibo, de regreso en Caracas. Docente Universitario y Bloguero. Orgulloso padre de dos hijos. luiscastellanos @ yahoo.com | @lrcastellanos

Publicado el 04/01/2016 en Año 03, Tendencias laborales y etiquetado en , , , , . Guarda el enlace permanente. 1 comentario.

A %d blogueros les gusta esto: