Bienvenidos a AboutData.blog de Gold Light Data, donde exploramos lo último en Big Data, IA, ML, Analítica de Negocios e Inteligencia de Negocios. Únete a nosotros para mantenerte informado y empoderado en el dinámico mundo de la tecnología de datos.

Las 10 principales empresas de datos

El término “empresa de datos” es ciertamente amplio. Fácilmente podría incluir redes sociales gigantes como Meta. La empresa tiene quizás uno de los conjuntos de datos más valiosos del mundo, que incluye alrededor de 2,940 millones de usuarios activos mensuales (MAU) . Meta también cuenta con muchos de los científicos de datos de élite del mundo en su personal.

Pero para efectos de este artículo, el término será más restringido. La atención se centrará en aquellos operadores que crean plataformas y herramientas para aprovechar los datos, una de las tecnologías más importantes en las empresas en estos días.

Sin embargo, incluso esta categoría todavía tiene muchas empresas. Por ejemplo, si realizamos una búsqueda de análisis de datos en G2, veremos resultados de más de 2,200 productos.

Entonces, al crear una lista de las principales empresas de datos, será… bueno… imperfecta. Independientemente, hay empresas que realmente están en una liga propia, desde nombres establecidos hasta nuevas empresas de rápido crecimiento, que cotizan en bolsa y de propiedad privada. Echemos un vistazo a 10 de ellas.

Databricks

En 2012, un grupo de informáticos de la Universidad de California, Berkeley, creó el proyecto de código abierto, Apache Spark. El objetivo era desarrollar un sistema distribuido de datos sobre un grupo de máquinas.

Desde el principio, el proyecto tuvo mucha tracción, ya que había una gran demanda de aplicaciones sofisticadas como deep learning. Los fundadores del proyecto luego crearon una empresa llamada Databricks.

La plataforma combina un data warehouse y data lakes, que se encuentran de forma nativa en la nube. Esto permite aplicaciones de análisis e inteligencia artificial mucho más potentes. Hay más de 7,000 clientes de pago, como H&M Group, Regeneron y Shell. El verano pasado, el ARR (ingreso anual recurrente) alcanzó los 600 millones de dólares.

Aproximadamente al mismo tiempo, Databricks recaudó $1.6 mil millones en una financiación de la Serie H y la valoración se fijó en $38 mil millones. Algunos de los inversores incluyeron a Andreessen Horowitz, Franklin Templeton y T. Rowe Price Associates. Se espera una oferta pública inicial en algún momento, pero incluso antes de la actual caída de las acciones tecnológicas, la empresa no parecía tener prisa por probar los mercados públicos.

Hemos incluido Databricks en nuestras listas de las mejores soluciones de lago de datos, las mejores herramientas de DataOps y los mejores productos de almacenamiento de Big Data.

SAS

SAS (Statistical Analysis System), durante mucho tiempo una empresa privada, es uno de los pioneros del análisis de datos. Los orígenes de la empresa en realidad se remontan a 1966 en la Universidad Estatal de Carolina del Norte. Los profesores crearon un programa que realizaba funciones estadísticas usando el mainframe IBM System/360, pero cuando la financiación del gobierno se agotó, SAS se convirtió en una empresa.

Sin duda fue un buen movimiento. SAS se convertiría en el estándar de oro para el análisis de datos. Su plataforma permite la IA, el aprendizaje automático, el análisis predictivo, la gestión de riesgos, la calidad de los datos y la gestión del fraude.

Actualmente, hay 80,800 clientes, lo que incluye 88 de los 100 principales en Fortune 500. Hay 11,764 empleados y los ingresos alcanzaron los 3,200 millones de dólares el año pasado.

SAS es una de las empresas de software privadas más grandes del mundo. El verano pasado, SAS estaba en conversaciones para vender a Broadcom por $15 mil millones a $20 mil millones. Pero los cofundadores decidieron permanecer independientes y, a pesar de haber permanecido privados desde la fundación de la empresa en 1976, planean una oferta pública inicial para 2024.

No debería sorprender absolutamente a nadie que SAS figurara en nuestra lista de los mejores productos de análisis de datos.

Snowflake

Snowflake, que opera una plataforma de datos basada en la nube, realizó la oferta pública inicial más grande para una empresa de software a finales de 2020. Recaudó 3,400 millones de dólares. El precio de oferta fue de $120 y aumentó a $254 el primer día de negociación, lo que elevó el valor de mercado a más de $70 mil millones. No está mal para una empresa que tenía unos ocho años.

Las acciones de Snowflake eventualmente superarían los $350. Pero, por supuesto, con la caída de las acciones tecnológicas, el precio de las acciones de la compañía también estaría bajo una presión extrema. Alcanzaría un mínimo de $110 hace unas semanas.

A pesar de todo esto, Snowflake sigue creciendo a un ritmo vertiginoso. En el último trimestre, la compañía reportó un aumento del 85% en los ingresos a $422.4 millones y la tasa de retención neta fue de un impresionante 174%. La base de clientes, que superaba los 6,300, tenía 206 empresas con acuerdos de capacidad que generaron más de $1 millón en ingresos por productos en los últimos 12 meses.

Snowflake comenzó como un almacén de datos. Pero desde entonces, la compañía ha ampliado sus ofertas para incluir lagos de datos, ciberseguridad, colaboración y aplicaciones de ciencia de datos. Snowflake también se ha trasladado al almacenamiento local, como consultar sistemas compatibles con S3 sin mover datos.

Snowflake se encuentra en las primeras etapas de oportunidad. Según su última presentación para inversores, el mercado total direccionable es de unos 248,000 millones de dólares.

Al igual que Databricks, Snowflake hizo nuestra lista de las mejores herramientas de Data Lake, DataOps y Big Data Storage.

Splunk

Fundada en 2003, Splunk es pionera en recopilar y analizar grandes cantidades de datos generados por máquinas. Esto hace posible crear informes y dashboards de gran utilidad.

Una clave del éxito de Splunk es su vibrante ecosistema, que incluye más de 2,400 socios. También hay un mercado que tiene más de 2,400 aplicaciones.

Una buena parte del enfoque de Splunk ha estado en la ciberseguridad. Mediante el uso de análisis de registros en tiempo real, una empresa puede detectar valores atípicos o actividades inusuales.

Sin embargo, la plataforma Splunk ha tenido éxito en muchas otras categorías. Por ejemplo, la tecnología ayuda con la migración a la nube, la modernización de aplicaciones y la modernización de TI.

En marzo, Splunk anunció un nuevo CEO, Gary Steele. Antes de esto, fue director ejecutivo de Proofpoint, una empresa de seguridad basada en la nube de rápido crecimiento.

Sobre el primer informe de ganancias de Steele, dijo: “Splunk es un sistema de registro que está profundamente integrado en los negocios de los clientes y proporciona la base para la seguridad y la resiliencia para que puedan innovar con velocidad y agilidad. Todo esto se tradujo en una oportunidad masiva, única y sin explotar, a partir de la cual creo que podemos impulsar un crecimiento duradero a largo plazo mientras aumentamos progresivamente los márgenes operativos y el flujo de caja”.

Cloudera

Si bien hay un cambio secular hacia la nube, la realidad es que muchas grandes empresas todavía tienen una huella local significativa. Una razón clave para esto es el cumplimiento. Existe la necesidad de tener mucho más control sobre los datos debido a los requisitos de privacidad.

Pero hay otras áreas donde la fragmentación de datos es inevitable. Este es el caso de los dispositivos perimetrales y la transmisión de terceros y socios.

Cloudera, otra de nuestras principales soluciones de lago de datos, ha creado una plataforma que es para la estrategia de datos híbridos. Esto significa que los clientes pueden aprovechar al máximo sus datos en cualquier lugar.

Holger Mueller de Constellation Research elogia la confianza de Cloudera en la tecnología de código abierto Apache Iceberg para Cloudera Data Platform.

“El código abierto es clave cuando se trata de la mayoría de las ofertas de infraestructura como servicio y plataforma como servicio, razón por la cual Cloudera ha decidido adoptar Apache Iceberg”, dijo Mueller. “Cloudera podría haber seguido un camino propietario, pero adoptar Iceberg es una triple victoria. En primer lugar, es una ventaja para los clientes, que pueden almacenar sus tablas analíticas de gran tamaño en un formato de código abierto basado en estándares, al tiempo que pueden acceder a ellas con un lenguaje estándar. También es una victoria para Cloudera, ya que proporciona una característica clave en una línea de tiempo acelerada mientras admite un estándar de código abierto. Por último, es una victoria para Apache, ya que obtiene la aceptación de otro proveedor”.

El año pasado, Cloudera reportó ingresos de más de mil millones de dólares. Entre sus miles de clientes, se incluyen más de 400 gobiernos, las diez principales empresas de telecomunicaciones globales y nueve de las diez principales empresas de atención médica.

MongoDB

Los fundadores de MongoDB no provenían de la industria de las bases de datos. En cambio, fueron pioneros de las redes publicitarias de Internet. El equipo, que incluía a Dwight Merriman, Eliot Horowitz y Kevin Ryan, creó DoubleClick, que se lanzó en 1996. A medida que la empresa creció rápidamente, tuvieron que crear sus propios almacenes de datos personalizados y se dieron cuenta de que las bases de datos relacionales tradicionales no estaban a la altura del trabajo.

Tenía que haber un nuevo tipo de enfoque, que escalara y permitiera una rápida innovación. Entonces, cuando dejaron DoubleClick después de vender la empresa a Google por 3,100 millones de dólares, desarrollaron su propio sistema de base de datos. Se basó en un modelo de código abierto y esto permitió una distribución rápida.

La tecnología subyacente se basó en un modelo de documento y se llamó NoSQL. Proporcionó una forma más flexible para que los desarrolladores codificaran sus aplicaciones. También se optimizó para enormes cargas de trabajo transaccionales.

Desde entonces, la base de datos MongoDB se ha descargado más de 265 millones de veces. La compañía también ha agregado los tipos de características requeridas por las empresas, como alto rendimiento y seguridad.

Durante el último trimestre, los ingresos alcanzaron los 285.4 millones de dólares, un 57% más año tras año. Hay más de 33,000 clientes.

Para mantener el crecimiento, MongoDB se enfoca en quitarle participación de mercado a los jugadores tradicionales como Oracle, IBM y Microsoft. Con este fin, la empresa ha construido el Migrador Relacional. Analiza visualmente esquemas relacionales y los transforma en bases de datos NoSQL.

Confluent

Cuando los ingenieros Jay Kreps, Jun Rao y Neha Narkhede trabajaron en LinkedIn, tuvieron dificultades para crear una infraestructura que pudiera manejar datos en tiempo real. Evaluaron soluciones listas para usar, pero nada estaba a la altura del trabajo.

Entonces, los ingenieros de LinkedIn crearon su propia plataforma de software. Se llamaba Apache Kafka y era de código abierto. El software permitió fuentes de datos de baja latencia y alto rendimiento.

Desde el principio, Apache Kafka fue popular. Y los ingenieros de LinkedIn vieron la oportunidad de crear una empresa en torno a esta tecnología en 2014. La llamaron Confluent.

La estrategia de código abierto fue ciertamente acertada. Más del 70% de las empresas Fortune 500 utilizan Apache Kafka.

Pero Confluent también ha sido inteligente en la construcción de un próspero ecosistema de desarrolladores. Hay más de 60,000 miembros en todo el mundo. El resultado es que los desarrolladores fuera de Confluent han seguido creando conectores, nuevas funciones y parches.

En el trimestre más reciente, Confluent informó un aumento del 64% en los ingresos a $126 millones. También hubo 791 clientes con $100,000 o más en ARR (ingresos anuales recurrentes), un 41% más año tras año.

Datadog

Fundada en 2010, Datadog comenzó como operador de una plataforma de datos unificados en tiempo real, pero esta ciertamente no fue la última de sus nuevas aplicaciones.

La empresa ha sido innovadora y también ha tenido bastante éxito en la adopción de sus tecnologías. Las otras categorías en que Datadog ha ingresado incluyen monitoreo de infraestructura, monitoreo de rendimiento de aplicaciones, análisis de registros, monitoreo de experiencia de usuario y seguridad. El resultado es que la compañía es uno de los principales actores en el mercado de observabilidad de rápido crecimiento.

El software de Datadog no es solo para grandes empresas. De hecho, está disponible para empresas de cualquier tamaño.
Por lo tanto, no debería sorprender que Datadog haya crecido muy rápido. En el último trimestre, los ingresos se dispararon un 83% a $363 millones. También hubo alrededor de 2,250 clientes con más de $100,000 en ARR, frente a los 1,406 hace un año.

Un factor clave de éxito para Datadog ha sido su enfoque en romper los silos de datos. Esto ha significado mucha más visibilidad entre las organizaciones. También ha permitido una mejor IA.

La oportunidad para Datadog aún se encuentra en las primeras etapas. Según el análisis de Gartner, se espera que el gasto en observabilidad pase de $38 mil millones en 2021 a $53 mil millones para 2025.

Fivetran

Las herramientas de integración de datos tradicionales se basan en herramientas de extracción, transformación y carga (ETL), pero este enfoque realmente no maneja los desafíos modernos, como la expansión de las aplicaciones y el almacenamiento en la nube.

¿Qué hacer? Bueno, los empresarios George Fraser y Taylor Brown buscaron crear una mejor manera. En 2013, cofundaron Fivetran y obtuvieron el respaldo del famoso programa Y Combinator.

Curiosamente, en primera instancia crearon una herramienta para Business Intelligence (BI), pero rápidamente se dieron cuenta de que el mercado ETL estaba maduro para la disrupción.

En cuanto al desarrollo del producto, los fundadores querían simplificar enormemente la configuración, puesto que el objetivo era acelerar el tiempo de generación de valor para los proyectos de análisis. En realidad, se les ocurrió el concepto de configuración y mantenimiento cero, ya que la visión de Fivetran es hacer que “los datos comerciales sean tan accesibles como la electricidad”.

En septiembre pasado, Fivetran anunció una impresionante ronda de $565 millones en capital de riesgo. La valoración se fijó en 5,600 millones de dólares y entre los inversores se encontraban Andreessen Horowitz, General Catalyst, CEAS Investments y Matrix Partners.

Tecton

Kevin Stumpf y Mike Del Balso se conocieron en Uber en 2016 y trabajaron en la plataforma de inteligencia artificial de la empresa, que se llamó Michelangelo ML. La tecnología permitió a la empresa escalar miles de modelos en producción, y solo algunos de los casos de uso incluyeron detección de fraude, predicciones de llegada y fijación de precios en tiempo real.

Esto se basó en la primera tienda de features, lo que permitió activar rápidamente las funciones de ML que se basaban en estructuras de datos complejas.

Sin embargo, esta tecnología aún dependía de un gran personal de ingenieros de datos y científicos. En otras palabras, una tienda de funciones era principalmente para los operadores de mega tecnologías.

Pero Stumpf y Del Balso pensaron que había una oportunidad de democratizar la tecnología. Esto se convirtió en el foco de su startup, Tecton, que lanzaron en 2019.

La plataforma ha pasado por varias iteraciones. Actualmente, es esencialmente una plataforma para administrar el ciclo de vida completo de las funciones de ML. El sistema maneja el almacenamiento, el intercambio y la reutilización de capacidades de almacenamiento de características. Esto permite la automatización de canalizaciones para datos por lotes, de transmisión y en tiempo real.

En julio, Tecton anunció una ronda de financiación de la Serie C por 100 millones de dólares. El inversor principal fue Kleiner Perkins. También hubo participación de Snowflake y Databricks.

Tags :

Author: Iván Torres
Author: Iván Torres

Iván Torres actualmente cuenta con una Maestría en Ciencias en Analítica de Negocios e Inteligencia Artificial Aplicada, otorgada por la Universidad de Charleston (West Virginia, USA), también es profesor de Ingeniería y Maestría en la Universidad TecMilenio, y ha contribuido en diferentes proyectos tecnológicos como analista, consultor y líder para empresas de ámbito internacional acumulando más de 15 años de experiencia en los campos de desarrollo de Software, Big Data, analítica de negocio e I.A. Editor de About Data Blog.

Deja un comentario

Related Post