Durante la última década hemos pasado de almacenes de datos rígidos a data lakes flexibles y, más recientemente, a arquitecturas lakehouse que prometen combinar lo mejor de ambos mundos.
Sin embargo, pasar de una generación de plataformas de datos a la siguiente está resultando más difícil de lo esperado. Aquellos que ya están en este camino están descubriendo desafíos y repitiendo errores al trasladar viejos patrones de diseño a nuevos sistemas.
Habiendo ayudado a múltiples organizaciones a diseñar y escalar plataformas de datos modernas, he visto que el éxito no depende de las herramientas, sino de la disciplina. Este artículo es una guía práctica sobre cómo hacer la transición de manera efectiva, qué evitar y cómo traducir las decisiones técnicas en valor empresarial medible.
Si miramos atrás, el movimiento del big data comenzó con el sueño de almacenamiento ilimitado y experimentación sin fin. Alrededor de mediados de la década de 2010, las empresas comenzaron a recopilar cada registro, clic y transacción posibles, convencidas de que el volumen por sí solo traería información valiosa. En la práctica, esta creencia solo creó más complejidad. Los data lakes aparecieron como el sucesor de moda de los almacenes, pero la mayoría de ellos pronto se convirtieron en pantanos de datos, lugares donde la información entraba fácilmente pero rara vez regresaba en una forma utilizable.
Para 2022, la industria había madurado y las preguntas habían comenzado a cambiar. Los equipos ya no preguntan cuántos datos pueden almacenar, sino cómo pueden confiar y usar lo que ya tienen. El verdadero desafío hoy no es la capacidad sino la gobernanza, no la ingesta sino la interpretación.
La lección clave aquí es simple. Recopilar más datos no hace que una empresa esté impulsada por datos. Lo que realmente importa es comprender los datos, mantener una gobernanza adecuada y usarlos de manera eficiente.
Recomiendo definir la propiedad de cada conjunto de datos, establecer políticas claras de retención y calidad, y enfocar los esfuerzos de ingeniería en los datos que respaldan directamente las decisiones empresariales. Sin esta base, incluso el lakehouse más avanzado eventualmente se convierte en un pantano moderno.
El auge del lakehouse refleja exactamente este cambio. En lugar de elegir entre rendimiento y flexibilidad, el modelo lakehouse combina ambos. En su núcleo, utiliza almacenamiento en la nube económico en formatos como Delta o Iceberg, enriquecido con metadatos y garantías transaccionales. El resultado es un sistema que cuesta tan poco como un lake y se comporta como un almacén cuando se consulta.
Esto es importante para los líderes empresariales porque elimina el constante equilibrio entre almacenamiento económico para datos históricos y sistemas costosos para análisis en vivo. Siempre sugiero posicionar su lakehouse no como un reemplazo de todo lo demás, sino como una base compartida que permite tanto análisis tradicional como aprendizaje automático en un solo entorno.
En un lakehouse, el mismo entorno puede soportar un Panel para el Director Financiero, un modelo de aprendizaje automático que predice el comportamiento del cliente y una consulta ad hoc de un analista de producto. Los datos ya no se duplican en los sistemas, lo que hace que la gobernanza sea más simple y permite que la Optimización de costos ocurra naturalmente.
Cuando las empresas pasan de almacenes de datos clásicos o data lakes a una arquitectura lakehouse más flexible, la transición rara vez es fluida. Muchos equipos copian estructuras existentes del antiguo almacén al nuevo entorno sin repensar su propósito. El resultado es la aparición de silos de datos, en otras palabras, Fragmentación. Una versión de los datos vive en el almacén, otra en el lake y una tercera en algún lugar intermedio. Evite esto rediseñando los esquemas para el lakehouse desde cero. Modele los datos basándose en patrones de acceso y necesidades del consumidor en lugar de la lógica heredada del almacén.
Otro problema recurrente es la normalización. ¿Qué quiero decir con eso? Los almacenes se construyen sobre estructuras estrictas y profundamente normalizadas con docenas de tablas interconectadas. Cuando estas se copian directamente en un lake, cada consulta requiere un bosque de uniones. El rendimiento colapsa, los ingenieros culpan a la infraestructura y el proyecto pierde credibilidad. En cambio, desnormalice donde ayude al rendimiento y coloque las entidades relacionadas más juntas para minimizar el movimiento. Trate el diseño de rendimiento como parte del modelado de datos, no como una Optimización posterior.
La gobernanza y el control son críticos. En un data lake, a menudo hay poca supervisión porque los equipos trabajan directamente con archivos. En un almacén, se aplican reglas estrictas como seguridad a nivel de fila, acceso basado en roles y registros de auditoría detallados. Un lakehouse debe lograr un equilibrio asegurando apertura sin perder responsabilidad. Debe implementar acceso basado en roles y seguimiento de linaje desde el principio. La gobernanza funciona mejor cuando crece junto con la plataforma y se convierte en la base de la confianza.
El rendimiento también depende de un diseño inteligente. Los almacenes tradicionales dependen de la Indexación automática, pero en los lakehouses la eficiencia proviene de la partición o agrupación líquida, el almacenamiento en caché y la elección de los formatos de archivo correctos para análisis. Recomiendo tratar la estrategia de partición y el diseño de archivos como ciudadanos de primera clase en su arquitectura.
La Optimización de costos es otra promesa clave del lakehouse, pero no viene automáticamente. Aunque el almacenamiento en la nube es económico y los análisis pueden escalar hacia arriba o hacia abajo según sea necesario, estas ventajas a menudo se ven compensadas por un diseño de datos deficiente y un crecimiento descontrolado. Debe gestionar activamente los ciclos de vida de los conjuntos de datos y eliminar copias no utilizadas. Si se ignora este proceso, los costos en la nube aumentarán silenciosamente con el tiempo.
Me gustaría enfocarme con más detalle en la Optimización de costos, ya que es una de las ventajas clave de la arquitectura lakehouse.
Una de las formas clave en que la arquitectura lakehouse reduce costos es minimizando el movimiento, es decir, el movimiento de datos entre sistemas o nodos de procesamiento. Para lograr esto, siempre diseñe sus datos de modo que las entidades relacionadas se almacenen juntas.
Al mantener todos los datos en un solo lugar y almacenar entidades relacionadas cerca, el lakehouse elimina la necesidad de uniones excesivas y transferencias de datos. Cuando realizamos análisis, por ejemplo, cuando construimos un modelo de aprendizaje automático para análisis de clientes, podemos usar tanto datos históricos como transaccionales reales sin copiarlos ni moverlos entre sistemas.
Otro principio clave que permite la Optimización de costos es la desvinculación del almacenamiento y el cómputo. El almacenamiento de datos y el procesamiento de datos escalan independientemente según la demanda real. Pagamos solo por los recursos que usamos en lugar de mantener grandes sistemas de capacidad fija. El almacenamiento permanece económico y escalable, y la potencia de cómputo puede aumentarse o reducirse cuando sea necesario. Esta flexibilidad conduce a menores costos de infraestructura y operaciones de datos más eficientes. Siempre comience pequeño y deje que el autoescalado haga su trabajo. Monitoree el uso y comprenda sus patrones de carga de trabajo antes de comprometerse con capacidad reservada.
Los clústeres de autoescalado ayudan aún más a controlar los costos. Una carga de trabajo de aprendizaje automático necesita recursos informáticos en la nube, máquinas virtuales con memoria y capacidad de procesamiento similar a una computadora normal. En el pasado, las empresas compraban o arrendaban servidores físicos por adelantado y ejecutaban procesos en esa capacidad fija. En la nube, pagamos por el cómputo según el uso real, por unidad de tiempo y por cantidad de recursos. Recomiendo encarecidamente comenzar con tamaños mínimos de clúster, observar el comportamiento de escalado y establecer límites superiores para evitar costos desbocados.
Hablemos de la arquitectura lakehouse. De muchas maneras, su diseño depende de cómo estructuramos el modelo de datos. El enfoque más común y efectivo es la arquitectura en capas, o medallón, donde cada capa sirve un propósito específico y soporta diferentes tipos de usuarios y cargas de trabajo.
— La primera capa, a menudo llamada raw o bronce, es una copia directa de los datos de origen. Sirve principalmente a necesidades técnicas y se mantiene solo por un período corto para permitir un reprocesamiento rápido cuando sea necesario. Debe tratarse como almacenamiento temporal.
— La segunda capa, o capa de normalización, contiene datos limpios y estructurados, a veces unidos con otras tablas como usuarios y pedidos. Aquí es donde a menudo se entrenan los modelos de aprendizaje automático. Es mejor práctica automatizar la validación de datos y la aplicación de esquemas en esta etapa. Mantener la consistencia es más valioso que procesar grandes volúmenes de datos.
— La capa final, conocida como capa gold, es donde viven los datos agregados. Los paneles y herramientas de BI como Tableau o Power BI típicamente se conectan a esta capa para acceder a métricas y visualizaciones listas. Aún así, no todo puede ser precalculado.
Cada capa tiene un propósito, y juntas permiten que tanto el aprendizaje automático como la inteligencia empresarial prosperen.
Debe alinear su estrategia de capas con los patrones de consumo. Los científicos de datos generalmente trabajan con la capa silver, y los ejecutivos esperan respuestas de la capa gold. La flexibilidad es la verdadera fortaleza del lakehouse, la capacidad de servir a múltiples audiencias sin construir y mantener múltiples sistemas separados.
Si estuviera diseñando desde cero, haría algunas cosas de manera diferente a cómo la industria abordó los datos en el pasado.
A continuación se presentan las lecciones que he aprendido de implementaciones reales y lo que ahora recomiendo.
Migrar todo a la vez no siempre es óptimo. Las empresas a menudo intentan levantar y cambiar terabytes de datos a un nuevo sistema, solo para descubrir que nadie lo usa. Un mejor camino es comenzar con un solo caso de uso que entregue valor empresarial claro, como un motor de recomendaciones, precios dinámicos o un modelo de retención de clientes. El éxito en esa Área proporciona tanto credibilidad como un modelo para escalar.
Traduciría los Requisitos empresariales en técnicos lo antes posible. Si un informe necesita filtrar por región, ese requisito implica particionar por región a nivel de almacenamiento. Si los Analistas esperan actualizaciones en tiempo casi real, eso impulsa decisiones sobre Indexación o almacenamiento en caché. Sin esta traducción, la tecnología se aleja de los objetivos empresariales y la confianza se erosiona.
Siempre haría coincidir la tecnología con las capacidades de la organización. Una empresa con una cultura de ingeniería sólida puede preferir componentes de código abierto y máximo control. Una empresa con recursos técnicos limitados puede estar mejor servida por servicios administrados que exponen interfaces SQL a los Analistas. No hay una solución universal, lo que importa es alinear la ambición con la capacidad.
Finalmente, cuestionaría el supuesto de que un lakehouse es simplemente un lake mejor. En realidad, es un paradigma diferente. Hereda algunas características tanto de lakes como de almacenes, pero no es un reemplazo para cada caso de uso. Las cargas de trabajo transaccionales de alta frecuencia, por ejemplo, aún pueden requerir sistemas especializados. Reconocer estos límites previene la decepción y asegura que el lakehouse se use donde realmente sobresale.

