3 lecciones de la arquitectura data lake

lecciones aprendidas desde las arquitecturas Data Lake

3 lecciones aprendidas desde las arquitecturas Data Lake

Lo usual en un proyecto es que todo inicia con un desafío, pero en el caso de proyectos de Data hay un dolor que suele pesar más: El no estar obteniendo en un corto periodo de tiempo conocimiento de los datos lo que hace que se pierdan oportunidades importantes, tanto de los datos mismos como de las opciones tecnológicas posibles de usar.

Construyendo la cultura de datos 

Desde el punto de vista de la ciencia de datos el conocimiento se obtiene aplicando técnicas algorítmicas sobre un dataset y luego mostrando los resultados obtenidos en forma de artículo,  pero la vida de un dataset es un proceso complejo; en especial si somos nosotros mismos quienes le hemos curado. La vida de una dataset incluye implementar desde la ingestión de los datos, la validación, eliminación de duplicados, anonimización o aplicación de secretos estadísticos, pasando por la formación de zonas de más confianza para finalmente “curar” un dataset que esté en las mejores condiciones posible. La evidencia muestra que entre el 70% y 90% del tiempo de los trabajos en Datos se pasan el tiempo en tareas de curación de datos (Si te pasas el día mayoritariamente entre pandas, Drill o Spark shell ya sabes a lo que me refiero).

Un día en la vida de un dataset

¿De dónde obtenemos nuestros dataset curados? ¿Vamos a guardar información y luego ver hacemos con ella? o ¿Vamos a guardar datos con los que ya sabemos qué hacer con ellos? Quienes se recuerden de Ingeniería de Software – por supuesto entenderán que – el Caso de Uso aquí es difuso, no se si es exigible a un cliente tener un caso de uso acerca de un activo de data que puede producir resultados desconocidos, muchas veces las organizaciones hacen proyectos de data (y es entendible) no solo para extraer información de los datos, sino para hacer inventario de que datos capturar o tienen. 

Lecciones aprendidas desde Data Lake

Supongamos que obtendremos nuestros datos de un DataLake, esto implica que un día en la vida de un dataset es lo siguiente: Se captura toda la data que pueda de los activos digitales bajo mi control y luego cada día (u hora o semana, depende) trataré los datos aumentando los niveles de confianza de la misma (Ejemplo clásico: Eliminar duplicados, eliminar datos corruptos), haciéndoles transitar por zonas (bronze, silver, gold) y una vez que tenga los datos sobre la zona de más alta confianza generar los dataset que serán entrada para los modelos de regresiones, clasificación, etc. 

Lección aprendida 1: “El ecosistema data & analytics no es integrado”

Dato curioso: Existe un juego online llamado “Pokemon o big data”, donde a partir del nombre de un supuesto producto Big Data se debe adivinar cual es de cada “Universo”.

Hay cientos, sino miles de productos de big data y a pesar que hay cierta tendencia, lo que podemos estar medianamente seguros es que hay algunos productos que funcionarán bien y otros peor, que hay que estudiar los productos a fondo y contar con apoyo ejecutivo cuando se trate de impulsar la implementación de algún producto. 

Data & AI Landscape 2019©

No hay a la vista una gran plataforma de Data & Analytics (+ AI), no estoy seguro suceda, de la misma forma que no sucedió con el proceso de desarrollo de software, en cuyo caso vemos hoy que cada “stack” se compone de varios productos con algunos productos coincidentes.

Aquí mis productos favoritos de Data & Analytics a Junio 2020, los que nunca me han fallado y que casi obligatoriamente pongo en las arquitecturas:

  • Kafka (Confluent Platform)
  • Spark
  • Airflow
  • Flink
  • Apache Drill (Un gran descubrimiento)
  • Jupyter
  • PostgreSQL (Por supuesto)
  • Druid
  • Dremio
  • PowerBI
  • ML Flow
  • Delta.io o Apache Iceberg.

Lección aprendida 2: “Calidad es la calidad de las preguntas”

Involucra al equipo del producto no sólo en aportar datos, sino en ser conscientes de las preguntas que los ejecutivos tienen por sobre el conocimiento generado: Técnica del sandwich, por un lado el equipo con preguntas de casuísticas concretas y por otro los ejecutivos con preguntas más estratégicas.  Este enfoque te va a sugerir una priorización mejorada en los planes o te invita a mejorar la arquitectura para responder a las preguntas. 

Realiza eventos o presentaciones como “Data show”, donde se analizan datos (o resultados generados por los modelos) en vivo en sesiones interactivas o a partir de un panel de visualización para que se pueden ver tendencias. 

Esta lección la aprendí luego de leer el maravilloso “Factfulness” de Hans Rosling

Lección aprendida 3: “Un proyecto debe estar preparado para su BAU”

Los proyectos se van terminando y los artefactos generados quedan implementados bajo operación de otras personas (Operativizar, podría ser un palabro adecuado aquí), genera un manual de operaciones de todo lo que estás construyendo porque ten claro que no serás tu o tu equipo quien opere a mediano/largo plazo los artefactos que dejaste implementado en tal o cual proyecto.

Fuentes:

Noticias y Publicaciones

Cómo ser ingeniero de datos: funciones, skills y salario

Cómo ser ingeniero de datos: funciones, skills y salario

¿Quieres aprender sobre uno de los perfiles más demandados en el mercado laboral? En este artículo te contamos como ser ingeniero de datos. ...
Cómo retener talento sin recurrir al dinero usando el salario emocional

Cómo retener talento sin recurrir al dinero usando el salario emocional

Viajes, salud, formación, mascotas... Aprende a usar el salario emocional para fidelizar empleados, como ya lo están haciendo otras empresas. ...
¿Es recomendable externalizar servicios? + Ejemplos de outsourcing

¿Es recomendable externalizar servicios? + Ejemplos de outsourcing

Conoce os argumentos a favor de de externalizar servicios y ejemplos de outsourcing fácil ...
Scrum Master: quién es, qué hace y skills necesarias

Scrum Master: quién es, qué hace y skills necesarias

Una figura clave para llevar a cabo proyectos grandes: facilita el éxito del equipo y el desarrollo rápido de los proyectos. Veamos en qué consiste este rol. ...
Nuestros equipos de España, Colombia y Paraguay, más unidos que nunca

Nuestros equipos de España, Colombia y Paraguay, más unidos que nunca

Esta semana Luis Flores, CEO, y Pamela Castro, Strategic Planning Office Director, han viajado a Colombia y a Paraguay en el marco de una misión comercial con el ICEX. Os dejamos un breve resumen de lo que han sido estos días allí, y que nos contarán más en detalle en nuestro próximo Open Town& ...