Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

Opciones de estrategia de lagos de datos: de self-service a full-service

La importancia de los datos sigue creciendo para obtener información sobre los clientes, proyectar tendencias y entrenar algoritmos de inteligencia artificial (IA) o aprendizaje automático (ML). En una búsqueda para abarcar por completo todas las fuentes de datos, los investigadores de datos maximizan la escala y el alcance de los datos disponibles volcando todos los datos corporativos en una sola ubicación.

Por otro lado, tener todos esos datos críticos en un solo lugar puede ser un objetivo atractivo para los piratas informáticos que investigan continuamente las defensas en busca de debilidades, y las sanciones por violaciones de datos pueden ser enormes. Los equipos de seguridad de TI necesitan un sistema que permita que la seguridad diferencie entre diferentes categorías de datos para aislarlos y protegerlos contra el uso indebido.

Los lagos de datos brindan la solución actual para maximizar la disponibilidad y la protección de los datos. Para las grandes empresas, sus administradores de datos y equipos de seguridad de datos pueden elegir entre muchos proveedores de lagos de datos diferentes para satisfacer sus necesidades.

Sin embargo, si bien cualquiera puede crear un lago de datos, no todos tendrán los recursos para escalar, extraer valor y proteger sus recursos por su cuenta. Afortunadamente, los proveedores ofrecen herramientas sólidas que permiten que los equipos más pequeños obtengan los beneficios de un lago de datos sin requerir los mismos recursos para administrarlos.

¿Qué son los lagos de datos?

Los lagos de datos crean un repositorio único para los datos sin procesar de una organización. Las fuentes de datos traen datos de bases de datos, plataformas SaaS, rastreadores web e incluso dispositivos como cámaras de seguridad o bombas de calor industriales.

Al igual que un disco duro gigante, los lagos de datos también pueden incorporar estructuras de carpetas y aplicar seguridad a carpetas específicas para limitar el acceso, los privilegios de lectura/escritura y los privilegios de eliminación para usuarios y aplicaciones. Sin embargo, a diferencia de un disco duro, los lagos de datos deberían poder crecer en tamaño para siempre y nunca requerir una eliminación de datos debido a restricciones de espacio.

Los lagos de datos admiten todos los tipos de datos, escalan automáticamente y admiten una amplia gama de análisis, desde funciones integradas hasta herramientas externas compatibles con las API’s. Las herramientas analíticas pueden realizar búsquedas de metadatos o contenido o categorizar datos sin cambiar los datos subyacentes.

Herramientas self-service de lagos de datos

Técnicamente, si una empresa puede colocar todos sus datos en un solo disco duro, eso es el equivalente a un lago de datos. Sin embargo, la mayoría de las organizaciones tienen astronómicamente más datos que eso, y las grandes empresas necesitan enormes repositorios.

Algunas organizaciones crean sus propios lagos de datos en sus propios centros de datos. Este esfuerzo requiere mucha más inversión en:

  • Gastos de capital: edificios, hardware, software, sistemas de control de acceso.
  • Gastos operativos: energía eléctrica, sistemas de enfriamiento, conexiones de red/internet de alta capacidad, costos de mantenimiento y reparación.
  • Gastos de mano de obra: TI y empleados de seguridad de TI para mantener el hardware, la seguridad física.

Los proveedores de esta categoría proporcionan las herramientas necesarias para que un equipo cree su propio lago de datos. Las organizaciones que elijan estas opciones deberán proporcionar más tiempo, gastos y experiencia para construir, integrar y proteger sus lagos de datos.

Apache: Hadoop y Spark

Los proyectos de código abierto de Apache proporcionan la base para muchas herramientas de computación en la nube. Para crear un lago de datos, una organización podría combinar Hadoop y Spark para crear la infraestructura base y luego considerar proyectos relacionados o herramientas de terceros en el ecosistema para desarrollar capacidades.

Apache Hadoop proporciona procesamiento distribuido escalable de grandes conjuntos de datos con contenido de datos estructurados o no estructurados. Hadoop proporciona la solución de almacenamiento y las herramientas básicas de búsqueda y análisis de datos.

Apache Spark proporciona un motor de código abierto escalable que agrupa datos, transmite datos, realiza análisis de SQL, entrena algoritmos de aprendizaje automático y realiza análisis de datos exploratorios (EDA) en grandes conjuntos de datos. Apache Spark proporciona herramientas de análisis profundo para exámenes de datos más sofisticados que los disponibles en la implementación básica de Hadoop.

Hewlett Packard Enterprise (HPE) GreenLake

El servicio HPE GreenLake proporciona hardware y software preintegrados que se pueden implementar en centros de datos internos o en instalaciones de colocación. HPE se encarga del trabajo pesado de la implementación y cobra a los clientes en función de su uso.

HPE supervisa el uso y escalará la implementación del lago de datos de Hadoop en función de las necesidades y brinda soporte para el diseño y la implementación de otras aplicaciones. Este servicio acelera una implementación interna típica de Hadoop al externalizar parte de la mano de obra y la experiencia a HPE.

Herramientas de lagos de datos en la nube

Las herramientas del lago de datos en la nube proporcionan la infraestructura y las herramientas básicas necesarias para proporcionar un lago de datos llave en mano. Los clientes usan herramientas integradas para adjuntar fuentes de datos, almacenamiento, seguridad y API para acceder y explorar los datos.

Después de seleccionar las opciones, algunos paquetes de software ya estarán integrados en el lago de datos en el momento del lanzamiento. Cuando un cliente selecciona una opción en la nube, inmediatamente estará listo para recibir datos y no tendrá que esperar el envío, la instalación del hardware, la instalación del software, etc.

Sin embargo, en un intento de maximizar la capacidad de personalización del lago de datos, estas herramientas tienden a imponer una mayor responsabilidad al cliente. La conexión de fuentes de datos, el análisis de datos externos o la aplicación de seguridad será un proceso más manual que en comparación con las soluciones de servicio completo.

Algunos proveedores de lagos de datos proporcionan herramientas que proporcionan una interfaz para el análisis y la transferencia de datos. También pueden haber otras herramientas complementarias que brinden las funciones disponibles en las soluciones de servicio completo.

Los clientes pueden elegir el lago de datos básico y luego hacer más trabajo pesado o pagar más por las funciones de la versión de servicio más completo. Estos proveedores tampoco tienden a fomentar el desarrollo de múltiples nubes y se centran en impulsar más negocios hacia sus propias plataformas en la nube.

Lagos de datos de Amazon Web Services (AWS)

AWS ofrece enormes opciones para la infraestructura de la nube. Su oferta de lago de datos proporciona una colección configurada automáticamente de servicios básicos de AWS para almacenar y procesar datos sin procesar.

Las herramientas incorporadas permiten a los usuarios o aplicaciones analizar, controlar, buscar, compartir, etiquetar y transformar subconjuntos de datos internamente o con usuarios externos. Las plantillas federadas se integran con Microsoft Active Directory para incorporar reglas de segregación de datos existentes ya implementadas internamente dentro de una empresa.

Nube de Google

Google ofrece soluciones que pueden albergar un lago de datos completo o simplemente ayudar a procesar una carga de trabajo de lago de datos desde una fuente externa (generalmente, centros de datos internos). Google Cloud afirma que pasar de una implementación local de Hadoop a una implementación alojada en Google Cloud puede bajar los costos hasta en un 54%.

Google ofrece su propio análisis de BigQuery que captura datos en tiempo real mediante una función de ingestión de transmisión. Google admite la migración de Apache Spark y Hadoop, la ciencia y el análisis de datos integrados y las herramientas de administración de costos.

Microsoft Azure

La solución Azure Data Lake de Microsoft implementa Apache Spark y Apache Hadoop como ofertas de nube totalmente administradas, así como otros clústeres analíticos como Hive, Storm y Kafka. El lago de datos de Azure incluye soluciones de Microsoft para seguridad, auditoría y soporte de nivel empresarial.

Azure Data Lake se integra fácilmente con otros productos de Microsoft o con la infraestructura de TI existente y es completamente escalable. Los clientes pueden definir y lanzar un lago de datos muy rápidamente y usar su familiaridad con otros productos de Microsoft para navegar intuitivamente a través de las opciones.

Herramientas full-service de lagos de datos

Los proveedores de lagos de datos full-service agregan capas de seguridad, GUI fáciles de usar y restringen algunas funciones a favor de la facilidad de uso. Estos proveedores pueden proporcionar funciones de análisis adicionales integradas en sus ofertas para proporcionar un valor adicional.

Algunas empresas no pueden o eligen estratégicamente no almacenar todos sus datos con un solo proveedor de nube. Otros administradores de datos pueden simplemente querer una plataforma flexible o pueden estar tratando de unir recursos de datos de subsidiarias adquiridas que usaron diferentes proveedores de nube.

La mayoría de los proveedores en esta categoría no ofrecen alojamiento de datos y actúan como administradores de datos agnósticos y promueven el uso de lagos de datos de múltiples nubes. Sin embargo, algunos de estos proveedores ofrecen sus propias soluciones en la nube y ofrecen una oferta de servicio completo integrada que puede acceder a múltiples nubes o transferir los datos a su plataforma totalmente controlada.

Plataforma en la nube de Cloudera

La plataforma de datos de Cloudera proporciona un software unificador para ingerir y administrar un lago de datos potencialmente distribuido entre los recursos de la nube pública y privada. Cloudera optimiza las cargas de trabajo en función del análisis y el aprendizaje automático, además de proporcionar interfaces integradas para asegurar y controlar los datos y metadatos de la plataforma con interfaces integradas.

Cohesity

La plataforma Helios de Cohesity ofrece una plataforma unificada que proporciona lago de datos y capacidades de análisis. La plataforma se puede licenciar como solución SaaS, como software para lagos de datos autohospedados o para lagos de datos administrados por socios.

Databricks

Databricks proporciona soluciones de data lakehouse y data lake basadas en tecnología de código abierto con seguridad integrada y gobierno de datos. Los clientes pueden explorar datos, crear modelos en colaboración y acceder a entornos de aprendizaje automático preconfigurados. Databricks funciona con múltiples proveedores de nube y administra los repositorios de datos a través de una interfaz consolidada.

Domo

Domo proporciona una plataforma que permite una gama completa de soluciones de lagos de datos, desde el almacenamiento hasta el desarrollo de aplicaciones. Domo aumenta los lagos de datos existentes o los clientes pueden alojar datos en la nube de Domo.

IBM

Los lagos de datos basados en la nube de IBM se pueden implementar en cualquier nube y construyen el gobierno, la integración y la virtualización en los principios básicos de su solución. Los lagos de datos de IBM pueden acceder al Watson AI, pionero de IBM para el análisis, así como acceder a muchas otras herramientas de IBM para consultas, escalabilidad y más.

Oracle

Big Data Service de Oracle implementa una versión privada de la plataforma en la nube de Cloudera y la integración con su propia solución data lakehouse y la plataforma en la nube de Oracle. Oracle se basa en su dominio de la tecnología de bases de datos para proporcionar herramientas sólidas para consultas de datos, gestión de datos, seguridad, gobernanza y desarrollo de IA.

Snowflake

Snowflake proporciona una solución de lago de datos de servicio completo que puede integrar soluciones informáticas y de almacenamiento de AWS, Microsoft o Google. Los administradores de datos no necesitan saber cómo configurar, mantener o admitir servidores y redes y, por lo tanto, pueden usar Snowflake sin establecer previamente ninguna base de datos en la nube.

Elección de una estrategia y arquitectura de lago de datos

El análisis de datos continúa aumentando en importancia a medida que las empresas encuentran más usos para variedades más amplias de datos. Los lagos de datos brindan una opción para almacenar, administrar y analizar todas las fuentes de datos para una organización, incluso cuando intentan descubrir qué es importante y útil.

Este artículo proporciona una descripción general de las diferentes estrategias para implementar lagos de datos y las diferentes tecnologías disponibles. La lista de proveedores no es exhaustiva y constantemente ingresan nuevos competidores al mercado.

Lo recomendable es no comenzar seleccionando un proveedor. Primero se comienza con una comprensión de los recursos de la empresa disponibles para respaldar un lago de datos.

Si los recursos disponibles son pequeños, es probable que la empresa deba buscar una opción full-service en lugar de un centro de datos interno. Sin embargo, muchas otras características importantes juegan un papel en la determinación del proveedor óptimo, tales como:

  • Caso de uso del negocio
  • Compatibilidad con IA
  • Capacidad de búsqueda
  • Compatibilidad con data lakehouse u otras herramientas de búsqueda de datos
  • Seguridad
  • Gobernanza de datos

Una vez establecidos, los lagos de datos se pueden mover, pero esto podría ser una propuesta muy costosa ya que la mayoría de los lagos de datos serán enormes. Las organizaciones deben tomarse su tiempo y probar ejecuciones de prueba a menor escala antes de comprometerse por completo con un solo proveedor o plataforma.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Deja un comentario

Related Post