3 lecciones aprendidas desde las arquitecturas Data Lake

lecciones aprendidas desde las arquitecturas Data Lake

3 lecciones aprendidas desde las arquitecturas Data Lake

Lo usual en un proyecto es que todo inicia con un desafío, pero en el caso de proyectos de Data hay un dolor que suele pesar más: El no estar obteniendo en un corto periodo de tiempo conocimiento de los datos lo que hace que se pierdan oportunidades importantes, tanto de los datos mismos como de las opciones tecnológicas posibles de usar.

Construyendo la cultura de datos 

Desde el punto de vista de la ciencia de datos el conocimiento se obtiene aplicando técnicas algorítmicas sobre un dataset y luego mostrando los resultados obtenidos en forma de artículo,  pero la vida de un dataset es un proceso complejo; en especial si somos nosotros mismos quienes le hemos curado. La vida de una dataset incluye implementar desde la ingestión de los datos, la validación, eliminación de duplicados, anonimización o aplicación de secretos estadísticos, pasando por la formación de zonas de más confianza para finalmente “curar” un dataset que esté en las mejores condiciones posible. La evidencia muestra que entre el 70% y 90% del tiempo de los trabajos en Datos se pasan el tiempo en tareas de curación de datos (Si te pasas el día mayoritariamente entre pandas, Drill o Spark shell ya sabes a lo que me refiero).

Un día en la vida de un dataset

¿De dónde obtenemos nuestros dataset curados? ¿Vamos a guardar información y luego ver hacemos con ella? o ¿Vamos a guardar datos con los que ya sabemos qué hacer con ellos? Quienes se recuerden de Ingeniería de Software – por supuesto entenderán que – el Caso de Uso aquí es difuso, no se si es exigible a un cliente tener un caso de uso acerca de un activo de data que puede producir resultados desconocidos, muchas veces las organizaciones hacen proyectos de data (y es entendible) no solo para extraer información de los datos, sino para hacer inventario de que datos capturar o tienen. 

Lecciones aprendidas desde Data Lake

Supongamos que obtendremos nuestros datos de un DataLake, esto implica que un día en la vida de un dataset es lo siguiente: Se captura toda la data que pueda de los activos digitales bajo mi control y luego cada día (u hora o semana, depende) trataré los datos aumentando los niveles de confianza de la misma (Ejemplo clásico: Eliminar duplicados, eliminar datos corruptos), haciéndoles transitar por zonas (bronze, silver, gold) y una vez que tenga los datos sobre la zona de más alta confianza generar los dataset que serán entrada para los modelos de regresiones, clasificación, etc. 

Lección aprendida 1: “El ecosistema data & analytics no es integrado”

Dato curioso: Existe un juego online llamado “Pokemon o big data”, donde a partir del nombre de un supuesto producto Big Data se debe adivinar cual es de cada “Universo”.

Hay cientos, sino miles de productos de big data y a pesar que hay cierta tendencia, lo que podemos estar medianamente seguros es que hay algunos productos que funcionarán bien y otros peor, que hay que estudiar los productos a fondo y contar con apoyo ejecutivo cuando se trate de impulsar la implementación de algún producto. 

Data & AI Landscape 2019©

No hay a la vista una gran plataforma de Data & Analytics (+ AI), no estoy seguro suceda, de la misma forma que no sucedió con el proceso de desarrollo de software, en cuyo caso vemos hoy que cada “stack” se compone de varios productos con algunos productos coincidentes.

Aquí mis productos favoritos de Data & Analytics a Junio 2020, los que nunca me han fallado y que casi obligatoriamente pongo en las arquitecturas:

  • Kafka (Confluent Platform)
  • Spark
  • Airflow
  • Flink
  • Apache Drill (Un gran descubrimiento)
  • Jupyter
  • PostgreSQL (Por supuesto)
  • Druid
  • Dremio
  • PowerBI
  • ML Flow
  • Delta.io o Apache Iceberg.

Lección aprendida 2: “Calidad es la calidad de las preguntas”

Involucra al equipo del producto no sólo en aportar datos, sino en ser conscientes de las preguntas que los ejecutivos tienen por sobre el conocimiento generado: Técnica del sandwich, por un lado el equipo con preguntas de casuísticas concretas y por otro los ejecutivos con preguntas más estratégicas.  Este enfoque te va a sugerir una priorización mejorada en los planes o te invita a mejorar la arquitectura para responder a las preguntas. 

Realiza eventos o presentaciones como “Data show”, donde se analizan datos (o resultados generados por los modelos) en vivo en sesiones interactivas o a partir de un panel de visualización para que se pueden ver tendencias. 

Esta lección la aprendí luego de leer el maravilloso “Factfulness” de Hans Rosling

Lección aprendida 3: “Un proyecto debe estar preparado para su BAU”

Los proyectos se van terminando y los artefactos generados quedan implementados bajo operación de otras personas (Operativizar, podría ser un palabro adecuado aquí), genera un manual de operaciones de todo lo que estás construyendo porque ten claro que no serás tu o tu equipo quien opere a mediano/largo plazo los artefactos que dejaste implementado en tal o cual proyecto.

Fuentes:

Noticias y Publicaciones

Google DevFest 2020, del 16 al 18 de octubre

Google DevFest 2020, del 16 al 18 de octubre

Google DevFest 2020, del 16 al 18 de octubre Miles de desarrolladores de todo el mundo tienen del 16 al 18 de octubre una cita en el DevFest 2020, un fin de semana virtual de aprendizaje técnico dirigido por la comunidad de Google, los Google Developer Groups (GDG). Las sesiones cubren una amplia ...
Gobernanza de datos en cloud

Gobernanza de datos en cloud

Gobernanza de datos en cloud Lo cierto es que la gobernanza de datos en cloud aporta multitud de ventajas, ya que supone pasar de varios almacenes y procesos a una estrategia de integración cloud. Dar el salto a cloud supone delegar determinadas tareas a terceros. Las soluciones cloud se basan en ...
Microsoft, líder en Predictive Analytics & Machine Learning según The Forrester Wave

Microsoft, líder en Predictive Analytics & Machine Learning según The Forrester Wave

Microsoft, líder en Predictive Analytics & Machine Learning según The Forrester Wave En su reciente estudio «Wave report for Notebook-based Predictive Analytics and Machine Learning» del tercer trimestre de 2020, la consultora Forrester sitúa a Microsoft Azure como líder. En este estudio, ...

Al hacer clic en "Aceptar todas las cookies", acepta que las cookies se guarden en su dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y colaborar con nuestros estudios de marketing.    Política de Cookies

Los ajustes de cookies en esta web están configurados para «permitir las cookies» y ofrecerte la mejor experiencia de navegación posible. Si sigues usando esta web sin cambiar tus ajustes de cookies o haces clic en «Aceptar», estarás dando tu consentimiento a esto.

Cerrar