Una parte clave del negocio es el impulso por la mejora continua, para hacerlo siempre mejor. “Mejor” puede significar diferentes cosas para diferentes organizaciones. Podría tratarse de ofrecer mejores productos, mejores servicios, o el mismo producto o servicio por un mejor precio o cualquier cantidad de cosas. Fundamentalmente, ser “mejor” requiere un análisis continuo del estado actual y la comparación con el anterior o el siguiente. Suena sencillo: solo se necesitan datos y los medios para analizarlos.
Sí y no. Los datos están ahí, en abundancia. Los volúmenes de datos han estado creciendo durante años y se prevé que alcancen los 175 ZB para el 2025. Sin embargo, hay dos cosas que bloquean el éxito. En primer lugar, las organizaciones tienen dificultades para manejar sus datos. Se generan más datos en variedades cada vez más amplias y en más ubicaciones. Lo que antes eran datos bien definidos y estructurados en unos pocos lugares controlados y de propiedad total, como un centro de datos, ahora generan torrentes de datos de todas las formas y tamaños repartidos por entornos edge y en la nube. Las organizaciones ya no saben lo que tienen y, por lo tanto, no pueden capitalizarlo por completo, la mayoría de los datos generados no se utilizan en la toma de decisiones. Y segundo, de los datos que se utilizan, el 80% son semiestructurados o no estructurados. Combinar y analizar datos estructurados y no estructurados es un desafío completamente nuevo que enfrentar, y mucho menos hacerlo en diferentes infraestructuras. Ambos obstáculos se pueden superar utilizando arquitecturas de datos modernas, específicamente estructura de datos y lago de datos. Cada uno es poderoso por derecho propio, pero cuando se usan juntos generan sinergias que crean más opciones para ser “mejores”.
Data Fabric unificado
Para muchas organizaciones, un Data Fabric es un primer paso para volverse más data driven. Un Data Fabric responde quizás a la pregunta más importante de todas: ¿con qué datos tenemos que trabajar? Administrar y hacer que las fuentes de datos individuales estén disponibles a través de la integración de datos empresariales tradicionales, y cuando los usuarios finales las soliciten, especialmente a la luz de un número creciente de fuentes y volumen.
Los tremendos gastos generales de TI obstaculizan la velocidad con la que las organizaciones pueden reunir cada vez más datos para implementar nuevos casos de uso. Lo que es más, los usuarios de datos siempre están plagados por la sensación de que hay más datos, quizás mejores datos, en alguna parte, lo que hace que los equipos cuestionen los resultados o recurran al uso de fuentes no autorizadas, lo que crea riesgos de cumplimiento.
Una estructura de datos cambia el enfoque tradicional de integración de datos empresariales “según sea necesario”, con equipos de estructura de datos capaces de integrar todas las fuentes de datos de una manera totalmente controlada, entenderlas y ponerlas a disposición a través del autoservicio.
Con una gestión de datos sólida en todo el proceso, una estructura de datos ingiere todas y cada una de las fuentes de datos, independientemente de la variedad o la velocidad. Luego, las fuentes de datos pueden procesarse y almacenarse, así como integrarse y limpiarse para descubrir lo que representan y hacer que las fuentes de datos estén disponibles para los usuarios, cuando sea necesario, de manera segura y compatible.
Todas las capacidades de Cloudera Data Platform (CDP) surten efecto cuando las empresas implementan una arquitectura de Data Fabric; algunos usuarios han estado creando estructuras de datos incluso antes de que se nombrara como tal. Donde CDP realmente brilla, y lo que lo convierte en un Data Fabric verdaderamente unificado, es a través de Shared Data Experience (SDX). SDX proporciona un enfoque integral para la seguridad y el gobierno de los datos con un control de acceso potente y detallado activado por clasificaciones de datos descubiertas a través del descubrimiento de datos automatizados. Esto hace posible abrir el acceso a los datos a más usuarios, incluso para fuentes de datos previamente desconocidas. Y lo hace no solo en una infraestructura, sino en todas las infraestructuras: híbrida y multinube. Gobernanza y seguridad de datos coherentes en todos los tejidos. A través de un panel único, Data Catalog de SDX brinda acceso de autoservicio a los datos a los usuarios finales, lo que les permite encontrar los datos que necesitan, apreciar el contexto y brindarles la confianza de que han encontrado todos los datos que necesitan.
Open Data Lakehouse
Una vez que tengan acceso a todos los datos que necesita en el momento adecuado, el siguiente paso es poder utilizar los datos de manera eficiente, abrir la puerta a nuevos casos de uso analíticos. Aquí es donde el lago de datos entra en juego. Cada vez más organizaciones se están dando cuenta de que es la arquitectura más eficiente y de mayor rendimiento para ejecutar análisis multifunción porque hace que todos sus datos sean más utilizables y efectivos. Las empresas necesitan respuestas a preguntas comerciales más complejas que requieren la integración de datos no estructurados, datos en tiempo real con el uso de los mejores motores modernos para análisis, procesamiento de flujo e IA y ML para análisis predictivo. Estas respuestas deben ser confiables y entregadas rápidamente. Si los datos tienen que transformarse a formatos propietarios y moverse para cada uno de los motores de cómputo que se desean usar, se generarían silos de datos, datos obsoletos y conocimientos retrasados. Un lago de datos que permite que varios motores funcionen con los mismos datos mejora la velocidad de comercialización y la productividad de los usuarios.
Cloudera ha sido compatible con Data Lakehouses durante más de cinco años. Se ha brindado el rendimiento y la confiabilidad del almacén de datos con la flexibilidad y la escala de un lago de datos con los motores de servicio de datos y Hive Metastore. Con la integración de Apache Iceberg, un formato de tabla basado en código abierto y estándar abierto en SDX, Cloudera está llevando el lago de datos al siguiente nivel mediante la creación de un lago de datos abierto. La aplicación del formato de tabla Iceberg a todos los datos de la organización en el lago de datos lo hace más eficaz y utilizable a escala. Un lago de datos abierto, impulsado por Iceberg, hace que los datos de la organización sean independientes de los motores de procesamiento, lo que brinda mayor flexibilidad y opciones. Simplifica la gestión de datos a escala y agrega superpoderes como viajes en el tiempo, aislamiento de instantáneas y evolución de particiones al lago de datos tradicional.
Mejor juntos
Las organizaciones necesitan que las dos arquitecturas de datos funcionen juntas en armonía para generar valor y conocimiento a partir de cada vez más datos, más rápido. Una estructura de datos combinada con un lago de datos es la base ideal para la mayoría de las organizaciones. Este combo permite a las empresas orquestar tus datos y optimizar la obtención de valor y conocimiento de ellos. Sin embargo, ambas arquitecturas deben implementarse en la misma plataforma y admitir la nube híbrida para que las organizaciones obtengan el máximo valor de tu inversión. Eso es lo que obtienen las empresas con el tejido de datos unificado de CDP impulsado por SDX, un lago de datos abiertos que es posible gracias a la integración con Apache Iceberg. Cloudera Data Platform es una plataforma híbrida única para arquitecturas de datos modernas con datos en cualquier lugar.
Por ejemplo, una organización multinacional de investigación clínica y tecnología de la información de la salud se dio cuenta de que los desafíos que ellos mismos experimentaban eran compartidos por sus clientes. No solo combinaron e implementaron ambas arquitecturas para su propio uso, sino que también las convirtieron en parte integral de los productos que ofrecen. Tanto la organización como sus clientes ahora pueden desbloquear fuentes de datos de una manera segura y compatible, así como obtener información más rápida a partir de datos estructurados y no estructurados. Su PaaS para el cuidado de la salud combina de manera eficaz las capacidades de Data Fabric y Data Lakehouse, lo que lleva a una mayor productividad para los equipos de investigación y desarrollo, al mismo tiempo que garantiza el cumplimiento de HIPAA y PII. Además, tanto la organización como sus clientes se benefician de un TCO más bajo para la prestación de servicios.
Este es el valor que obtienen las empresas con el Data Fabric unificado de CDP impulsado por SDX y un lago de datos abierto que es posible gracias a la integración con Apache Iceberg. Cloudera Data Platform es una plataforma híbrida única para arquitecturas de datos modernas con datos en cualquier lugar.