3 lecciones aprendidas desde las arquitecturas Data Lake

lecciones aprendidas desde las arquitecturas Data Lake

3 lecciones aprendidas desde las arquitecturas Data Lake

Lo usual en un proyecto es que todo inicia con un desafío, pero en el caso de proyectos de Data hay un dolor que suele pesar más: El no estar obteniendo en un corto periodo de tiempo conocimiento de los datos lo que hace que se pierdan oportunidades importantes, tanto de los datos mismos como de las opciones tecnológicas posibles de usar.

Construyendo la cultura de datos 

Desde el punto de vista de la ciencia de datos el conocimiento se obtiene aplicando técnicas algorítmicas sobre un dataset y luego mostrando los resultados obtenidos en forma de artículo,  pero la vida de un dataset es un proceso complejo; en especial si somos nosotros mismos quienes le hemos curado. La vida de una dataset incluye implementar desde la ingestión de los datos, la validación, eliminación de duplicados, anonimización o aplicación de secretos estadísticos, pasando por la formación de zonas de más confianza para finalmente “curar” un dataset que esté en las mejores condiciones posible. La evidencia muestra que entre el 70% y 90% del tiempo de los trabajos en Datos se pasan el tiempo en tareas de curación de datos (Si te pasas el día mayoritariamente entre pandas, Drill o Spark shell ya sabes a lo que me refiero).

Un día en la vida de un dataset

¿De dónde obtenemos nuestros dataset curados? ¿Vamos a guardar información y luego ver hacemos con ella? o ¿Vamos a guardar datos con los que ya sabemos qué hacer con ellos? Quienes se recuerden de Ingeniería de Software – por supuesto entenderán que – el Caso de Uso aquí es difuso, no se si es exigible a un cliente tener un caso de uso acerca de un activo de data que puede producir resultados desconocidos, muchas veces las organizaciones hacen proyectos de data (y es entendible) no solo para extraer información de los datos, sino para hacer inventario de que datos capturar o tienen. 

Lecciones aprendidas desde Data Lake

Supongamos que obtendremos nuestros datos de un DataLake, esto implica que un día en la vida de un dataset es lo siguiente: Se captura toda la data que pueda de los activos digitales bajo mi control y luego cada día (u hora o semana, depende) trataré los datos aumentando los niveles de confianza de la misma (Ejemplo clásico: Eliminar duplicados, eliminar datos corruptos), haciéndoles transitar por zonas (bronze, silver, gold) y una vez que tenga los datos sobre la zona de más alta confianza generar los dataset que serán entrada para los modelos de regresiones, clasificación, etc. 

Lección aprendida 1: “El ecosistema data & analytics no es integrado”

Dato curioso: Existe un juego online llamado “Pokemon o big data”, donde a partir del nombre de un supuesto producto Big Data se debe adivinar cual es de cada “Universo”.

Hay cientos, sino miles de productos de big data y a pesar que hay cierta tendencia, lo que podemos estar medianamente seguros es que hay algunos productos que funcionarán bien y otros peor, que hay que estudiar los productos a fondo y contar con apoyo ejecutivo cuando se trate de impulsar la implementación de algún producto. 

Data & AI Landscape 2019©

No hay a la vista una gran plataforma de Data & Analytics (+ AI), no estoy seguro suceda, de la misma forma que no sucedió con el proceso de desarrollo de software, en cuyo caso vemos hoy que cada “stack” se compone de varios productos con algunos productos coincidentes.

Aquí mis productos favoritos de Data & Analytics a Junio 2020, los que nunca me han fallado y que casi obligatoriamente pongo en las arquitecturas:

  • Kafka (Confluent Platform)
  • Spark
  • Airflow
  • Flink
  • Apache Drill (Un gran descubrimiento)
  • Jupyter
  • PostgreSQL (Por supuesto)
  • Druid
  • Dremio
  • PowerBI
  • ML Flow
  • Delta.io o Apache Iceberg.

Lección aprendida 2: “Calidad es la calidad de las preguntas”

Involucra al equipo del producto no sólo en aportar datos, sino en ser conscientes de las preguntas que los ejecutivos tienen por sobre el conocimiento generado: Técnica del sandwich, por un lado el equipo con preguntas de casuísticas concretas y por otro los ejecutivos con preguntas más estratégicas.  Este enfoque te va a sugerir una priorización mejorada en los planes o te invita a mejorar la arquitectura para responder a las preguntas. 

Realiza eventos o presentaciones como “Data show”, donde se analizan datos (o resultados generados por los modelos) en vivo en sesiones interactivas o a partir de un panel de visualización para que se pueden ver tendencias. 

Esta lección la aprendí luego de leer el maravilloso “Factfulness” de Hans Rosling

Lección aprendida 3: “Un proyecto debe estar preparado para su BAU”

Los proyectos se van terminando y los artefactos generados quedan implementados bajo operación de otras personas (Operativizar, podría ser un palabro adecuado aquí), genera un manual de operaciones de todo lo que estás construyendo porque ten claro que no serás tu o tu equipo quien opere a mediano/largo plazo los artefactos que dejaste implementado en tal o cual proyecto.

Fuentes:

Noticias y Publicaciones

La inteligencia artificial aplicada a negocios de diferentes sectores

La inteligencia artificial aplicada a negocios de diferentes sectores

La inteligencia artificial aplicada a negocios de diferentes sectores Lo cierto es que estar al día y conocer el potencial para tu negocio de los avances de inteligencia artificial puede resultar abrumador para muchas compañías. No obstante el concepto esencial que no puedes perder de vista se ...
Para qué sirve el Big Data en el sector financiero

Para qué sirve el Big Data en el sector financiero

Para qué sirve el Big Data en el sector financiero Lo cierto es que la tecnología ha evolucionado a pasos agigantados en los últimos años, llegando a incorporarse en nuestro día a día. Esta digitalización de la vida cotidiana supone que se generan todos los días cientos de miles de datos. Esto es ...
Digitalización y Big Data, ¿cómo hacer ambos a la vez?

Digitalización y Big Data, ¿cómo hacer ambos a la vez?

Digitalización y Big Data, ¿cómo hacer ambos a la vez? Antes de la llegada de internet, los ordenadores supusieron una revolución tecnológica y antes de eso, los teléfonos. Gracias a todos los dispositivos tecnológicos nuestra sociedad ha avanzado a pasos agigantados en los últimos años. Todo, ...