Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

The Modern Data Lakehouse: una innovación arquitectónica

Imagina tener acceso directo a todos los datos comerciales, en cualquier lugar, y poder explorarlos todos a la vez. Imagina responder rápidamente preguntas comerciales casi al instante, sin esperar a que se encuentren, compartan e ingieran datos. Imagina descubrir de forma independiente nuevos conocimientos empresariales a partir de datos estructurados y no estructurados trabajando juntos, sin tener que esperar a que los conjuntos de datos estén disponibles. Como analista de datos o científico de datos, a todos nos encantaría poder hacer todas estas cosas y muchas más. Esta es la promesa de la arquitectura moderna de data lakehouse.

Según el analista de Gartner, Inc. Sumit Pal, en “Exploring Lakehouse Architecture and Use Cases”, publicado el 11 de enero de 2022: “Los data lakehouses integran y unifican las capacidades de los data warehouses y data lakes, con el objetivo de admitir IA, BI, ML, e ingeniería de datos en una sola plataforma”. Esto suena muy bien sobre el papel, pero ¿cómo construimos esto en la realidad, en nuestras organizaciones, y cumplimos la promesa del autoservicio en todos los datos?

Las innovaciones traen nuevos desafíos

Cloudera ha estado trabajando en casos de uso de lagos de datos durante muchos años, utilizando motores de código abierto con datos abiertos y formatos de tablas, lo que permite un uso fácil de la ingeniería de datos, la ciencia de datos, el almacenamiento de datos y el aprendizaje automático en los mismos datos, on premise o en cualquier nube. Las innovaciones en la nube han impulsado explosiones de datos. Estamos haciendo preguntas nuevas y más complejas sobre nuestros datos para obtener aún más información. Estamos incorporando nuevos conjuntos de datos en tiempo real, de fuentes más diversas que nunca. Estas nuevas innovaciones traen consigo nuevos desafíos para nuestras soluciones de gestión de datos. Estos desafíos requieren cambios en la arquitectura y la adopción de nuevos formatos de tabla que puedan admitir una escala masiva, ofrecer una mayor flexibilidad del motor de cómputo y los tipos de datos, y simplificar la evolución del esquema.

  • Escala: con el crecimiento masivo de nuevos datos nacidos en la nube surge la necesidad de tener formatos de datos nativos de la nube para archivos y tablas. Estos nuevos formatos deben adaptarse a los aumentos masivos de escala y acortar las ventanas de respuesta para acceder, analizar y usar estos conjuntos de datos para obtener información empresarial. Para responder a este desafío, debemos incorporar un nuevo formato de tabla nativo de la nube que esté listo para el alcance y la escala de nuestros datos modernos.
  • Flexibilidad: con mayor madurez y experiencia en técnicas de análisis avanzadas, exigimos más. Necesitamos más información de nuestros datos, aprovechando más tipos de datos y niveles de gobernanza. Con esto en mente, está claro que ninguna arquitectura “one size fits all” funcionará aquí; necesitamos un conjunto diverso de servicios de datos, aptos para cada carga de trabajo y propósito, respaldados por herramientas y motores informáticos optimizados.
  • Evolución del Esquema: con datos que se mueven rápidamente y la ingestión de datos en tiempo real, necesitamos nuevas formas de mantenernos al día con la calidad, la coherencia, la precisión y la integridad general de los datos. Los datos cambian de muchas maneras: la forma de los cambios de datos; los cambios de volumen, variedad y velocidad. A medida que cada conjunto de datos se transforma a lo largo de su ciclo de vida, debemos poder acomodarlo sin carga ni demora, al tiempo que mantenemos el rendimiento, la coherencia y la confiabilidad de los datos.

Una innovación en formatos de tablas nativos de la nube: Apache Iceberg

Apache Iceberg, un proyecto de Apache de nivel superior, es un formato de tabla nativo de la nube creado para enfrentar los desafíos del lago de datos moderno. Hoy, Iceberg disfruta de una gran comunidad activa de código abierto con una sólida inversión en innovación y una importante adopción en la industria. Iceberg es un formato de tabla nativo de la nube de próxima generación diseñado para ser abierto y escalable a conjuntos de datos de petabytes. Cloudera ha incorporado Apache Iceberg como un elemento central de Cloudera Data Platform (CDP) y, como resultado, es un contribuyente muy activo.

Apache Iceberg está especialmente diseñado para enfrentar los desafíos de hoy

Iceberg nació de la necesidad de asumir los desafíos de la analítica moderna y se adapta particularmente bien a los datos nacidos en la nube. Iceberg aborda la escala de datos exponencial, métodos avanzados de análisis y generación de informes sobre datos, y cambios rápidos en los datos sin pérdida de integridad a través de una serie de innovaciones.

  • Iceberg maneja datos masivos nacidos en la nube. Con innovaciones como particiones ocultas y metadatos almacenados a nivel de archivo, Iceberg hace que las consultas en conjuntos de datos muy grandes sean más rápidas, al tiempo que hace que los cambios en los datos sean más fáciles y seguros.
  • Iceberg está diseñado para soportar múltiples motores de análisis. Iceberg es abierto por diseño, y no solo porque es de código abierto. Los colaboradores y confirmadores de Iceberg están dedicados a la idea de que para que Iceberg sea más útil, debe ser compatible con una amplia gama de motores y servicios informáticos. Como resultado, Iceberg es compatible con Spark, Dremio, Presto, Impala, Hive, Flink y más. Con más opciones de formas de ingerir, administrar, analizar y usar datos, se pueden crear casos de uso más avanzados con mayor facilidad. Los usuarios pueden seleccionar el motor correcto, el conjunto de habilidades correcto y las herramientas correctas en el momento correcto, sin las trabas de ningún motor ni conjunto de herramientas fijos, sin tener que bloquear sus datos en una solución de un solo proveedor.
  • Iceberg está diseñado para adaptarse a los cambios de datos de forma rápida y eficiente. Innovaciones como la evolución de esquemas y particiones significan que los cambios en las estructuras de datos se toman con calma. Con el cumplimiento de ACID en datos de ingesta rápida, Iceberg toma los datos de rápido movimiento con calma sin pérdida de integridad y precisión en el data lakehouse.

Una innovación arquitectónica: Cloudera Data Platform (CDP) y Apache Iceberg

Con Cloudera Data Platform (CDP), Iceberg no es “otro formato de tabla más” al que puede acceder un motor de cómputo patentado que utiliza tablas externas o enfoques “agregados” similares. CDP integra completamente Iceberg como un formato de tabla clave en su arquitectura, lo que facilita el acceso, la administración y el uso de los datos.

CDP incluye un metastore común y ha integrado completamente este metastore con tablas Iceberg. Esto significa que los activos de datos con formato Iceberg están completamente integrados en la experiencia de datos compartidos (SDX) única de CDP y, por lo tanto, aprovechan al máximo esta fuente única para la seguridad y la gestión de metadatos. Con SDX, CDP respalda las necesidades de autoservicio de científicos de datos, ingenieros de datos, analistas comerciales y profesionales de aprendizaje automático con servicios preintegrados adecuados para su propósito.

Los servicios preintegrados que comparten el mismo contexto de datos son clave para desarrollar soluciones comerciales modernas que conduzcan a un cambio transformador. Hemos visto a las empresas luchar por integrar múltiples soluciones de análisis junto de múltiples proveedores. Cada nueva dimensión, como la captura de un flujo de datos, el etiquetado automático de datos para la seguridad y el gobierno, o la realización de trabajos de ciencia de datos o AI/ML, requerían mover datos dentro y fuera de formatos propietarios y desarrollar puntos de integración personalizados entre servicios. CDP con Apache Iceberg reúne los servicios de datos bajo un mismo techo, un único contexto de datos.

CDP utiliza una estrecha integración informática con Apache Hive, Impala y Spark, lo que garantiza un rendimiento óptimo de lectura y escritura. Y a diferencia de otras soluciones que son compatibles con las tablas de Apache Iceberg y pueden leerlas y realizar análisis en ellas, Cloudera ha hecho de Iceberg una parte integral de CDP, lo que lo convierte en un formato de tabla nativo completo en toda la plataforma, compatible con lectura y escritura, cumplimiento ACID, evolución de esquemas y particiones, viajes en el tiempo y más, para todos los casos de uso. Con este enfoque, es fácil agregar nuevos servicios de datos y los datos nunca cambian de forma ni se mueven innecesariamente solo para que el proceso encaje.

Actualización in situ para tablas externas

Dado que ya existen petabytes y petabytes de datos, que atienden cargas de trabajo de misión crítica en numerosas industrias en la actualidad, sería una pena ver que esos datos se quedan atrás. Con CDP, Cloudera agregó una instrucción de modificación de tabla sencilla que migra tablas administradas por Hive a tablas Iceberg sin perder el ritmo. Para que tus datos nunca se muevan, simplemente al cambiar tus metadatos puedes comenzar a beneficiarte del formato de tabla Iceberg de inmediato.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Deja un comentario