A principios de siglo el auge de las bases de datos relacionales, el acceso web público, inalámbrico y otras tecnologías convirtieron el estudio y la gestión de datos en volumen en un desafío real y actual que necesitaba un nombre. El mes de julio de 2013, el diccionario de inglés Oxford incorporó la expresión «big data», pero llevaba utilizándose desde la Segunda Guerra Mundial para referirse al uso de grandes cantidades de información.

Big data son conjuntos de datos demasiado grandes y complejos para las aplicaciones de tratamiento y gestión de datos tradicionales.  Big data se volvió muy popular con la llegada de la tecnología móvil y el Internet de las cosas, cuando la gente empezó a producir más y más datos (geolocalización, aplicaciones sociales, de fitness, etc.) y a acceder a datos digitales desde sus dispositivos.

También se ha convertido en un término comodín para referirse a la recopilación, análisis y empleo de cantidades ingentes de información digital para mejorar las operaciones comerciales. A medida que los conjuntos de datos siguen aumentando y las aplicaciones pasan a funcionar en tiempo real, big data y su tratamiento se pasan cada vez más a cloud.

Descargar El futuro de big data ahora
Ver ahora

¿Por qué es tan importante big data?

Los consumidores viven en un mundo digital de expectativa instantánea. Desde las transacciones comerciales digitales a los comentarios o el perfeccionamiento sobre la comercialización, hoy en día en el mundo de los negocios en cloud todo avanza a gran velocidad. Todas estas transacciones rápidas producen y recogen datos con la misma celeridad. Sacar partido a toda esta información en tiempo real suele inclinar la balanza entre explotar la información para obtener una visión completa del público objetivo o perder clientes a manos de los competidores que sí lo hagan.

Las posibilidades (y posibles escollos) de gestión y empleo de las operaciones de datos son infinitas. He aquí algunas de las vías más importantes por las que big data puede transformar una organización:

  • Business intelligence: el término business intelligence se acuñó para describir la ingesta, análisis y aplicación de big data en beneficio de una organización y se trata de una arma decisiva para la contienda del mercado moderno. Al delinear y predecir puntos de actividad y de dificultad, business intelligence pone a trabajar los grandes datos de una organización en nombre de su producto.
      .
  • Innovación: analizando una visión de periscopio del sinfín de interacciones, patrones y anomalías que se producen en un sector o un mercado, se utilizan los big data para impulsar el uso de nuevos y creativos productos y herramientas en el mercado.
     
      Imaginemos que la «Empresa de miniaplicaciones Acme» revisa su panorama de big data y descubre que, en un clima más cálido, la miniaplicación B se vende prácticamente el doble de rápido que la miniaplicación A en el Medio Oeste de EE.UU., mientras que las ventas siguen siendo las mismas en la Costa Oeste y en el Sur. Acme podría crear una herramienta de marketing que lanzara campañas por redes sociales pensadas para los mercados del Medio Oeste con una publicidad particular en las que se resaltara la popularidad y la disponibilidad inmediata de la miniaplicación B. De esta manera Acme sacaría provecho de su big data con productos nuevos o personalizados y anuncios que maximizarían su posible beneficio.
      .
  • Menor coste de la propiedad: si es verdad que no hay mejor ahorrar que poco gastar, los big data tienen el potencial de lograr muchísimos ahorros. Los profesionales de la informática cuantifican las operaciones no por lo que marca el precio del equipo, sino a partir de un abanico de factores, como los contratos anuales, las licencias o los gastos de personal.

    La información que se extrae de las operaciones de big data puede reflejar rápidamente dónde se están infrautilizando los recursos y qué campos exigen una mayor atención. Esta información conjunta faculta a los gestores para mantener los presupuestos lo suficientemente flexibles como para operar en un entorno moderno.

Las organizaciones y las marcas de prácticamente todos los sectores están utilizando big data para abrirse nuevos caminos. Las empresas de transporte dependen de ellos para calcular el tiempo de tránsito y fijar tarifas. Big data es la columna vertebral de investigaciones científicas y médicas revolucionarias, al aportar la capacidad de analizar y estudiar a una velocidad nunca vista. Y afecta a la forma en la que vivimos nuestro día a día.

Descargar El futuro de big data ahora
Ver ahora

Las cinco Vs de big data +1

Big data suele cualificarse muchas veces como las cinco Vs por los expertos del sector y cada una de ellas debería abordarse individualmente y en relación con su modalidad de interacción con los demás elementos.

Volumen: elabore un plan para la cantidad de datos que se pondrán en juego y cómo y dónde se albergarán.

Variedad: identifique todas las distintas fuentes de datos en juego en un ecosistema y adquiera las herramientas adecuadas para su ingesta.

Velocidad: una vez más, la velocidad es de una importancia crítica para la empresa moderna. Investigue y despliegue las tecnologías adecuadas para garantizar que se esté generando una visión de big data lo más cercana posible a un tiempo real.

Veracidad: lo que recibes es lo que das, así que asegúrese que sus datos sean precisos y estén limpios.

Valor: no toda la información recabada del entorno tiene la misma importancia, así que cree un entorno de big data que revele business intelligence explotable e inteligible.

Y nos gustaría añadir otra:

Virtud: la ética del uso de big data también debe ser abordada a la luz de toda la normativa relativa a la confidencialidad de los datos y la conformidad jurídica.

Analítica de big data y data lakes 

A decir verdad, big data se fundamenta en las nuevas casuísticas y la nueva información extraída, no tanto en los datos en sí mismos. La analítica de big data es el proceso de estudio de conjuntos de datos muy voluminosos y granulares para descubrir patrones ocultos, correlaciones desconocidas, tendencias de mercado, preferencias de clientes y nueva información de valor comercial. Hoy en día se pueden formular preguntas que antes eran imposibles con un almacén de datos tradicional, dado que tan solo podía guardar datos consolidados.

Imaginen por un segundo que observan un cuadro de la Mona Lisa y solo ven los píxeles grandes, pues esa es la visión que obtiene de sus clientes en un almacén de datos. Para tener una visión pormenorizada de sus clientes, tendría que almacenar datos finos, granulares, a nanoescala, sobre esos mismos clientes y emplear la analítica de big data, como la extracción de datos o el machine learning, para poder ver un retrato detallado.

Un data lake es un repositorio de almacenamiento centralizado que contiene big data de varias fuentes en un formato granular y sin procesar. Puede guardar datos estructurados, semiestructurados o no estructurados, lo que significa que los datos pueden conservarse en un formato más flexible para usarlos en un futuro. Al guardar datos, un data lake los asocia con identificadores y etiquetas de metadatos para poder extraerlos más rápidamente. Los científicos de datos pueden acceder, preparar y analizar datos más rápidamente y con mayor precisión gracias a los data lakes. Para los expertos en analítica, este inmenso conjunto de datos (disponibles en distintos formatos no tradicionales) ofrece una oportunidad de acceso a los datos para una amplia gama de casuísticas, como análisis de sentimiento o detección de fraude.

Cómo se usa big data 

Para dominar todo lo expuesto, lo primero es conocer los fundamentos. En el caso de big data, las herramientas más básicas son Hadoop, MapReduce y Spark, tres ofertas de los proyectos de software Apache.

Hadoop es una solución de software de código abierto pensada para operar con big data. Las herramientas de Hadoop pueden distribuir la carga de procesamiento exigida para procesar conjuntos de datos en volumen en varios nodos de computación distintos (varios centenares de miles, se entiende). En lugar de trasladar un petabyte de datos a un punto de procesamiento ínfimo, Hadoop hace lo contrario y de esta manera aumenta muchísimo la velocidad a la que se pueden procesar los conjuntos de información.

MapReduce, como su nombre indica, permite cumplir dos funciones: recabar y organizar (mapear) conjuntos de datos, y luego pulirlos en conjuntos organizados más pequeños que se utilizan para responder a tareas o consultas.

Spark también es un proyecto de código abierto de la Fundación Apache y consiste en un framework distribuido ultrarrápido para el procesamiento y el machine learning a gran escala. El motor de procesamiento de Spark es capaz de operar como una instalación autónoma, un servicio de cloud o allá donde ya se ejecuten sistemas de computación distribuida muy populares, como Kubernetes o el predecesor de Spark, Apache Hadoop.

Estas y otras herramientas de Apache son algunas de las vías más fiables para sacar provecho a los grandes datos en su organización.

El auge y el futuro de big data 

Con la explosión de las tecnologías en cloud, la necesidad de echarle el lazo a un mar creciente de datos ha pasado a ser uno de los primeros puntos a la hora de diseñar una arquitectura digital. En un mundo en el que las transacciones, el inventario e incluso la infraestructura informática pueden existir en un estado puramente virtual, un buen enfoque de big data crea una visión panorámica completa al ingerir datos desde muchas fuentes, como por ejemplo:

  • Registros virtuales de red
  • Incidencias y patrones de seguridad
  • Patrones mundiales de tráfico de red
  • Detección y resolución de anomalías
  • Información de conformidad
  • Conducta del cliente y seguimiento de preferencias
  • Datos de geolocalización
  • Datos del canal social para control del sentimiento de marca
  • Niveles de inventario y seguimiento de envíos
  • Otros datos concretos que afectan a su organización

Hasta el análisis más conservador de las tendencias de big data apunta a una reducción continua de las infraestructuras físicas presenciales y una creciente confianza en las tecnologías virtuales. Esta evolución vendrá de la mano de una dependencia cada vez mayor de herramientas y socios capaces de gestionar un mundo en el que las máquinas están siendo reemplazadas por bits y bytes que las emulan.

Big data no es tan solo una parte importante del futuro, sino que bien podrían ser el futuro en sí mismo. La manera en la que las empresas, las organizaciones y los profesionales de la informática que los respaldan enfocan sus misiones seguirá viéndose condicionada por cómo evoluciona la forma en la que almacenamos, transferimos y entendemos los datos.

Big data, cloud y serverless computing 

Antes de empezar a usar plataformas cloud, todo el procesamiento y el manejo de big data se realizaba localmente. No obstante, la introducción de plataformas en cloud como Microsoft Azure, Amazon AWS, Google Cloud, etc., llevó al despliegue en cloud de un clúster gestionado de big data.

Fue un advenimiento repleto de complicaciones, como los usos indebidos, la infrautilización o la sobreutilización en determinados periodos. Para aislar los problemas asociados a un clúster gestionado, la mejor solución es una arquitectura serverless (sin servidor), que presenta las siguientes ventajas:

  • Tan solo se paga por la aplicación que se utiliza: tanto la capa de almacenamiento como la de computación se separan, paga durante el tiempo que guarda la cantidad de datos en la capa de almacenamiento y por el tiempo necesario para realizar el cálculo correspondiente.
  • Menor tiempo de implantación: a diferencia de desplegar un clúster gestionado, que tarda horas o días, la aplicación de big data serverless se efectúa en tan solo cuestión de minutos.
  • Tolerancia a fallos y disponibilidad: por defecto, la arquitectura serverless gestionada por un proveedor de servicios cloud ofrece tolerancia a fallos y disponibilidad basada en un acuerdo de nivel de servicio (SLA, por sus siglas en inglés). Así que no se requiere la figura del administrador.
  • Fácil de escalar y de autoescalar: unas reglas definidas de autoescalamiento permiten redimensionar la aplicación en función de la carga de trabajo. Esto ayuda a reducir considerablemente el coste del procesamiento.

¿Qué debe buscarse en una herramienta de integración de big data?

Las herramientas de integración de big data tienen el potencial de simplificar considerablemente este proceso. Las prestaciones que deberían buscarse en una herramienta de big data son:

  • Muchos conectores: son muchos los sistemas y aplicaciones de este mundo. Cuantos más conectores preinstalados tenga su herramienta de integración de big data, más tiempo le ahorrará a su equipo.
  • Código abierto: las arquitecturas de código abierto suelen ofrecer una mayor flexibilidad, con lo que contribuyen a evitar depender de un solo proveedor; además, el ecosistema de big data está compuesto por tecnologías de código abierto que seguramente le convendrá utilizar y adoptar.
  • Portabilidad: es importante, puesto que cada vez más las empresas se pasan a modelos de cloud híbrida, para poder crear sus integraciones de datos y ejecutarlas en cualquier entorno: local, híbrido o cloud.
  • Facilidad de uso: las herramientas de integración de big data deberían ser fáciles de aprender y utilizar con una interfaz GUI para facilitar la visualización de sus canalizaciones de datos.
  • Un modelo de precios transparente: su proveedor de herramientas de integración de big data no debería machacarle por aumentar el número de conectores o volúmenes de datos.
  • Compatibilidad cloud: su herramienta de integración de big data debería funcionar de forma nativa en un entorno de una única cloud, multicloud o cloud híbrida, ser capaz de ejecutarse en contenedores y usar serverless computing para minimizar el coste de procesamiento de big data y pagar tan solo por lo que se utilice, no por tener servidores inactivos.
  • Calidad y gobernanza de datos integradas: big data suele proceder del mundo exterior y los datos relevantes deben ser procesados y gobernados antes de poder entregarlos a los usuarios comerciales, de lo contrario podría acarrear una gran responsabilidad para una empresa. Al elegir una herramienta o plataforma de big data, asegúrese de que lleve incorporadas calidad y gobernanza de datos.

Big data con Talend

 Talend ofrece robustas  herramientas de integración de big data para la integración y el procesamiento de big data. Con la integración de big data de Talend, los ingenieros de datos pueden finalizar sus tareas de integración 10 veces más rápido que programando a mano y por un precio mucho más reducido que el de la competencia.

  • Nativas: Talend se ejecuta de forma nativa en plataformas cloud y de big data. Talend genera código nativo capaz de ejecutarse directamente en una cloud, en modalidad serverless o en una plataforma de big data, sin necesidad de instalar ni mantener software patentado en cada nodo y cada clúster, con lo que se eliminan los gastos generales.
  • Abiertas: Talend es de código y normas abiertos, es decir, abrazamos las últimas innovaciones de los ecosistemas de cloud y big data, una oportunidad que nuestros clientes también pueden aprovechar.
  • Unificadas: Talend proporciona una única plataforma y una cartera integrada para la integración de datos (que incluye calidad de datos, MDM, integración de aplicaciones y catálogo de datos) e interoperatibilidad con tecnologías complementarias.
  • Tarifas: La plataforma de Talend se ofrece vía licencia de suscripción basada en el número de desarrolladores que la utilicen o por el volumen de datos del número de conectores, CPU o núcleos, clústeres o nodos. Las tarifas por usuario son más predecibles y no cobran un «impuesto por los datos» por el uso del producto.

Talend Big Data Platform ofrece otras prestaciones, como las capacidades de gestión y seguimiento, calidad de datos integrada en la misma plataforma o asistencia suplementaria por web, correo electrónico y teléfono.

También proporciona funcionalidad multicloud nativa, escalabilidad para cualquier tipo de proyecto y 900 conectores preinstalados.

Talend Real-Time Big Data Platform le permite lograr todo esto, además de propulsar Spark Streaming en tiempo real para sus proyectos de big data.

Cómo empezar a trabajar con big data 

Pruebe Talend Big Data Platform hoy mismo. Talend Big Data Platform simplifica integraciones complejas para aprovechar Spark, Hadoop, NoSQL y cloud,para que su empresa transforme más datos en información fiable. Y para sacar el máximo partido a su prueba gratuita, eche un vistazo a nuestra guía Cómo empezar a trabajar con big data