Una arquitectura simple para crear un data lake de big data en Azure con Talend Cloud

La aparición de los big data ha demostrado su utilidad como la herramienta más importante que las empresas ponen en práctica para modelar su futuro. Empresas de envergadura, como Amazon, Uber o Netflix, utilizan los big data para insuflar una velocidad vertiginosa a su innovación en todos los ámbitos, desde el compromiso con los clientes al desarrollo de productos nuevos o la estrategia de optimización de la empresa. Y el auge de las tecnologías de big data, como Hadoop, Spark, Kubernetes o Kafka, combinado con la promesa de la tecnología cloud, ha facultado a innumerables empresas para implantar sus iniciativas de big data sin ningún esfuerzo. Avanzando hacia el universo cloud, las empresas ya están recogiendo frutos, como la velocidad de aprovisionamiento, el tiempo de llegada al mercado, la flexibilidad y agilidad, la escalabilidad instantánea o la reducción de los gastos generales de informática y empresa, por poner tan solo algunos ejemplos.

Cómo empezar a trabajar con Azure y Talend Cloud

 

Entre las plataformas cloud más prominentes, una de las más utilizadas es Microsoft Azure, una plataforma cloud para empresas segura y flexible que ofrece IaaS, PaaS, SaaS y muchas más herramientas de desarrollo y frameworks que pueden contribuir a crear un data lake para suministrar analítica de big data a escala corporativa.

Por otro lado, Talend Cloud es una solución de integración cloud abierta y muy escalable (iPaaS) que simplifica sus integraciones de datos y aplicaciones. Talend Cloud aporta:

  • Una amplia conectividad que le permite conectarse a cualquier base de datos local, aplicaciones SaaS, aplicaciones cloud, Azure Blob Storage, Azure Data Lake Store, Azure HDInsight, Azure SQL Data Warehouse, Azure CosmosDB y muchos más.
  • Compatibilidad nativa con Spark y Hadoop
  • Calidad de datos integrada
  • Capacidades en autoservicio, como preparación, administración y gobernanza de datos
  • Capacidades corporativas como SDLC y compatibilidad multicloud

Crear un data lake de big data en Azure para tener datos exactos y fiables

Talend y Azure han unido fuerzas para ofrecer una solución de data lake para big data a hiperescala para sus clientes comunes capaz de proporcionar información ejecutable. Pero antes que nada, ¿qué es un data lake? Un data lake es una arquitectura que permite a las organizaciones guardar grandes cantidades de datos en un repositorio central. Habitualmente esto suele incluir datos de distintos tipos y de diferentes fuentes, disponibles ya para ser categorizados, procesados, analizados y consumidos por grupos diversos dentro de la organización. Los data lakes contribuyen a eliminar los compartimentos de datos y captan imágenes exhaustivas de los datos de clientes, socios y de la organización. En comparación con el almacenamiento y la analítica de datos tradicionales, los data lakes ofrecen mayor agilidad y flexibilidad, en especial cuando están integrados en un entorno cloud. Una arquitectura de data lake no está limitada por el tiempo de respuesta cuando necesita cambios rápidos, como adoptar nuevas soluciones informáticas, conectarse a nuevos tipos y fuentes de datos y realizar nuevos tipos de análisis.

El siguiente diagrama muestra cómo un cliente prototípico implanta una solución de data lake con la ayuda de Azure y Talend Cloud:

En este caso práctico simplificado, ingiere sus datos estructurados o no estructurados desde aplicaciones web, sociales, sensores mecánicos, dispositivos o aplicaciones locales a Azure Data Store (ADL Store), un sistema de archivos Hadoop a hiperescala para cargas de trabajo de analítica de big data. Es compatible con el Sistema de archivos distribuidos de Hadoop (HDFS, en inglés) y funciona con el ecosistema Hadoop.

A continuación Talend Cloud crea un perfil de sus datos guardados en la ADL Store, añadiendo requisitos de gobernanza de datos, reglas corporativas, normativa y cumplimiento. A partir de aquí puede utilizar la calidad de datos integrada en Talend de forma nativa en Azure HDInsight para preparar los datos para las analíticas. Por último debe trasladar los datos transformados y limpiados a Azure SQL Data Warehouse y, desde ese almacén los analistas empresariales podrán acceder directamente a todos los datos para sus informes de business intelligence.

Gracias a Talend, muchas empresas aceleran su tiempo de ingesta en un 50 % a su Microsoft Azure Data Lake. Vea el siguiente vídeo y descubra cómo está ayudando Talend Cloud a sus clientes a dar el salto a la tecnología cloud o a empezar a experimentar Talend Cloud de primera mano inscribiéndose para recibir una prueba gratuita de 30 días hoy mismo.

Participe en las conversaciones

0 Comments

Leave a Reply