All’inizio di questo secolo, con la diffusione di database relazionali, accesso pubblico al Web, Wi-Fi e altre tecnologie, lo studio e la gestione di enormi set di dati sono diventati una sfida reale e presente che necessitava di un nome. Nel luglio del 2013, il termine “big data” è stato ufficialmente inserito nell’Oxford English Dictionary, ma era già in uso dai tempi della seconda guerra mondiale, quando veniva impiegato per riferirsi all’utilizzo di grandi quantitativi di informazioni.

Si definiscono big data i set di dati troppo grandi e complessi per essere gestiti dalle tradizionali applicazioni di gestione ed elaborazione dei dati.  I big data sono diventati più popolari con l’avvento della tecnologia mobile e dell’IoT, che hanno permesso alle persone di produrre un numero sempre maggiore di informazioni (geolocalizzazione, social network, app per il fitness, ecc.) e di accedere ai dati digitali dai propri dispositivi.

Il termine si usa anche comunemente per descrivere il processo di acquisizione, analisi e utilizzo di quantità massicce di dati digitali per migliorare le attività aziendali. A mano a mano che i set di dati aumentano e le applicazioni diventano sempre più in tempo reale, i big data e l’elaborazione dei big data si trasferiscono progressivamente nel cloud.

Scarica Il futuro dei big data ora
Guarda ora

Perché i big data sono così importanti?

I consumatori vivono ormai in una realtà digitale dalle aspettative immediate. Nell’odierno mondo del business basato sul cloud, ogni cosa, dalle transazioni commerciali digitali al feedback di marketing, si muove rapidamente. Tutte queste transazioni rapide producono dati a una velocità altrettanto impressionante. Riuscire a trasformare questi dati in informazioni fruibili in tempo reale spesso fa la differenza tra mettere a frutto quanto acquisito per ottenere una visione a 360 gradi del proprio pubblico di destinazione oppure perdere clienti a vantaggio di concorrenti che lo fanno.

Le possibilità (e le potenziali insidie) della gestione e dell’utilizzo dei processi basati sui dati sono infinite. Di seguito sono elencati alcuni dei più importanti modi in cui i big data possono trasformare un’organizzazione:

  • Business intelligence — Coniato per descrivere il processo di assimilazione, analisi e applicazione dei big data a vantaggio di un’organizzazione, il termine business intelligence descrive un’arma di importanza chiave nella moderna lotta per il mercato. Analizzando e facendo previsioni a livello di attività e punti deboli, i processi basati sulla business intelligence mettono a frutto i big data di un’organizzazione a vantaggio di ciò che viene prodotto.
  • Innovazione — Analizzando fin nel minimo dettaglio la miriade di interazioni, schemi e anomalie che si verificano all’interno di un settore o di un mercato, i processi basati sui big data vengono utilizzati per lanciare sul mercato prodotti e strumenti nuovi e creativi.

    Si immagini l’azienda di fantasia “Acme Widget” che, dall’analisi dei propri big data, scopre che nelle regioni dal clima più caldo il Widget B vende quasi il doppio rispetto al Widget A in Piemonte, mentre le vendite si equivalgono in Toscana e nel Lazio. Acme potrebbe sviluppare uno strumento di marketing che pubblichi sui social network campagne destinate ai mercati dell’Italia settentrionale con annunci pubblicitari esclusivamente incentrati sulla popolarità e l’immediata disponibilità del Widget B. In tal modo, Acme riuscirebbe a mettere a frutto i propri big data creando prodotti nuovi e campagne pubblicitarie mirate che ottimizzino i potenziali profitti.

  • Costi di proprietà ridotti — Se un euro risparmiato è un euro guadagnato, i big data aumentano le possibilità di accumulare euro. I professionisti IT misurano i processi non a partire dal prezzo delle attrezzature, ma sulla base di numerosi altri fattori, tra cui contratti annuali, licenze e costi del personale.

    Le informazioni acquisite dall’elaborazione dei big data possono rapidamente identificare dove le risorse sono sottoutilizzate e le aree che richiedono maggiore attenzione. Tutte queste informazioni consentono ai manager di gestire i budget in modo flessibile e di operare al meglio nel moderno ambiente di business.

Aziende e brand di ogni settore utilizzano i big data per esplorare nuovi territori. Le ditte di spedizione si affidano ai big data per calcolare tempi di transito e definire tariffe. I big data sono la spina dorsale della ricerca medica e scientifica, in quanto consentono di condurre analisi e studi a velocità prima impensabili. E tutto questo ha un considerevole impatto sulla nostra vita quotidiana.

Scarica Il futuro dei big data ora
Guarda ora

Le cinque “V” dei big data (più una)

I big data vengono spesso descritti dagli esperti utilizzando la regola delle cinque “V”; ognuna di queste “regole” deve essere analizzata sia singolarmente che in relazione alle sue interazioni con le altre.

Volume — Sviluppare un piano per la quantità di dati in gioco, che comprenda modalità e luogo di conservazione.

Varietà — Identificare tutte le diverse sorgenti di dati in gioco nell’ecosistema e procurarsi i giusti strumenti per poterle assimilare.

Velocità — Anche in questo ambito, la velocità è un fattore di vitale importanza. Cercare e implementare tecnologie in grado di elaborare i big data in tempi il più possibile prossimi al tempo reale.

Veracità — Assicurarsi che i dati elaborati siano il più possibile accurati e puliti.

Valore — Non tutte le informazioni ambientali raccolte hanno la stessa importanza; è pertanto necessario creare un ambiente big data in grado di mettere in luce business intelligence immediatamente fruibile e facile da comprendere.

E noi vorremmo aggiungere una sesta “V”:

Virtù — Applicare l’etica di utilizzo dei big data, nel rispetto di tutte le normative di riservatezza e conformità dei dati vigenti.

Analisi dei big data e data lake 

In ambito di big data, non sono tanto i dati in sé ad essere importanti, quanto i nuovi possibili impieghi delle informazioni e i nuovi dati di intelligence che ne possono derivare. L’analisi dei big data è il processo che esamina enormi volumi di dati granulari allo scopo di individuare schemi nascosti, correlazioni sconosciute, tendenze di mercato, preferenze dei clienti e nuove informazioni di business. Ora è possibile porre domande prima impensabili, in quanto i tradizionali data warehouse potevano ospitare solo dati aggregati.

Per avere un’idea del quadro sui clienti che è possibile ottenere da un data warehouse, si immagini per un attimo di osservare il dipinto della Gioconda di Leonardo e di vedere solo degli enormi pixel. Per avere una visione dettagliata della clientela, è necessario archiviare dati minuziosi, granulari, a livello micro su tali clienti e utilizzare gli strumenti di analisi dei big data, come data mining o apprendimento automatico, per ottenere un quadro completo e dettagliato.

I data lake sono un repository di archiviazione centrale in cui vengono conservati big data provenienti da varie sorgenti, in formato grezzo, granulare. I data lake possono archiviare dati strutturati, semi-strutturati o non strutturati; in altre parole, in questi repository i dati possono essere conservati in un formato più flessibile per l’impiego futuro. Quando vengono archiviati nei data lake, i dati vengono associati a identificativi e tag di metadati per un recupero più rapido. I data scientist possono accedere, preparare e analizzare i dati più rapidamente e con maggiore precisione utilizzando i data lake. Per gli esperti di analisi, questi enormi insiemi di dati – disponibili in diversi formati non tradizionali – offrono l’esclusiva opportunità di poter accedere alle informazioni per gli scopi più disparati, come l’analisi del sentiment o l’identificazione delle frodi.

Utilizzo dei big data 

Per familiarizzare con quanto detto finora è necessario partire dalle basi. Nel caso dei big data, per “basi” generalmente si intende Hadoop, MapReduce e Spark, ovvero tre prodotti di Apache Software Projects.

Hadoop è una soluzione software open-source pensata per lavorare con i big data. Gli strumenti di Hadoop aiutano a distribuire il carico di elaborazione necessario per trasformare enormi quantità di dati all’interno di alcune decine — o magari alcune centinaia di migliaia — di nodi informatici. Anziché trasferire un petabyte di dati in un minuscolo sito di elaborazione, Hadoop fa il contrario, incrementando sensibilmente la velocità di elaborazione delle informazioni.

MapReduce, come suggerisce il nome, aiuta a svolgere due mansioni: compila e organizza (mappa) set di dati, per poi perfezionarli ulteriormente in set più piccoli e organizzati, utilizzabili per eseguire compiti o query.

Spark, un altro progetto open-source di Apache Foundation, è un framework distribuito, ultra-rapido, per l’elaborazione su vasta scala e l’apprendimento automatico. Il motore di elaborazione di Spark può essere implementato come installazione autonoma, servizio cloud o ovunque siano già in esecuzione i più popolari sistemi informatici distribuiti, come Kubernetes o Apache Hadoop, predecessore di Spark.

Questi, così come altri strumenti di Apache, sono tra i sistemi più efficaci per sfruttare al meglio i big data all’interno di un’organizzazione.

Sviluppo e futuro dei big data 

Con l’esplosione delle tecnologie cloud, l’esigenza di gestire una quantità di dati in continua espansione è diventata una considerazione prioritaria nella progettazione di un’architettura digitale. In un mondo in cui transazioni, inventario e addirittura infrastruttura IT possono esistere anche in forma puramente virtuale, una strategia di gestione dei big data efficace può garantire una visione olistica dei processi aziendali, assimilando dati dalle sorgenti più disparate, quali:

  • Registri di reti virtuali
  • Schemi ed eventi di sicurezza
  • Schemi di traffico di reti globali
  • Rilevamento e risoluzione di anomalie
  • Informazioni di conformità
  • Monitoraggio del comportamento e delle preferenze dei clienti
  • Dati di geolocalizzazione
  • Dati provenienti da canali social per il monitoraggio del sentiment del brand
  • Monitoraggio dei livelli delle scorte e delle spedizioni
  • Altri dati specifici che possono avere un impatto importante sul business

Anche le analisi più conservative sulle tendenze dei big data indicano una progressiva ma continua riduzione dell’infrastruttura fisica locale a fronte di una sempre più crescente fiducia nelle tecnologie virtuali. Questa evoluzione porta con sé una crescente dipendenza da strumenti e partner capaci di gestire ambienti in cui le macchine vengono progressivamente sostituite da bit e byte in grado di emularle.

I big data non sono semplicemente un elemento importante del nostro futuro, ma potrebbero essere essi stessi il futuro. Le modalità in cui le organizzazioni e i professionisti IT che li supportano conseguono i loro obiettivi continueranno a dipendere dalle evoluzioni nel modo di archiviare, trasferire e analizzare i dati.

Big data, cloud e serverless computing 

Prima dell’introduzione delle piattaforme cloud, tutte le attività di elaborazione e gestione dei big data venivano svolte a livello locale. Tuttavia, con l’avvento di piattaforme basate sul cloud come Microsoft Azure, Amazon AWS, Google Cloud, ecc., si è aperta la strada all’implementazione nel cloud di cluster di big data gestiti.

Questo ha comportato non pochi problemi legati all’utilizzo, come uso improprio, utilizzo eccessivo o mancato utilizzo in determinati periodi di tempo. Per evitare le problematiche associate al cluster gestito, la soluzione migliore è l’architettura serverless, che offre i seguenti vantaggi:

  • Si paga solo l’applicazione che viene utilizzata — Il layer di archiviazione e quello di elaborazione sono separati: si paga una tariffa per il tempo in cui i dati restano archiviati nel layer di storage, quindi una per il tempo necessario ad elaborarli.
  • Tempi di implementazione ridotti — A differenza di un cluster gestito la cui implementazione richiede ore, se non giorni, l’architettura serverless per i big data si implementa in pochi minuti.
  • Disponibilità ed elevata tolleranza agli errori — Per impostazione predefinita, un’architettura serverless gestita da un provider di servizi cloud offre una disponibilità e una tolleranza agli errori basate su accordi sui livelli del servizio (SLA). Di conseguenza, non è richiesto un amministratore.
  • Scalabilità semplice e automatica — Regole di scalabilità automatica definite permettono di adattare l’applicazione in base al carico di lavoro, con una conseguente sensibile riduzione dei costi di elaborazione.

Che cosa cercare in uno strumento di integrazione dei big data

Gli strumenti di integrazione dei big data possono semplificare enormemente le procedure. Di seguito sono indicate le caratteristiche da ricercare in un buono strumento per la gestione dei big data.

  • Una grande quantità di connettori: il mondo è pieno di sistemi e applicazioni diverse. Maggiore è il numero di connettori integrati nello strumento di integrazione, più tempo riuscirà a risparmiare il team IT.
  • Open-source: le architetture open-source in genere garantiscono maggiore flessibilità, evitando all’azienda di doversi legare a un singolo fornitore; inoltre, l’ecosistema dei big data è costituito da tecnologie open-source che è possibile utilizzare e adottare liberamente.
  • Portabilità: è importante, ora che le aziende si stanno sempre più orientando verso ambienti cloud ibridi, essere in grado di creare una sola volta le integrazioni di big data per poi eseguirle ovunque in base alle necessità: localmente, su sistemi ibridi o nel cloud.
  • Semplicità d’uso: gli strumenti di integrazione dei big data dovrebbero essere facili da imparare e da usare e presentare un’interfaccia utente grafica che semplifica la visualizzazione delle pipeline di big data.
  • Modello di prezzi trasparente: un buon provider di strumenti per l’integrazione dei big data non dovrebbe addebitare costi in caso di aumento del numero di connettori o dei volumi di dati.
  • Compatibilità cloud: lo strumento per l’integrazione dei big data dovrebbe funzionare in modo nativo in ambienti single-cloud, multi-cloud o ibridi, supportare l’esecuzione in container e utilizzare il serverless computing per ridurre al minimo i costi di elaborazione, grazie a modelli di prezzi al consumo.
  • Qualità e governance dei dati integrate: i big data provengono generalmente dal mondo esterno, quindi le informazioni sensibili devono essere selezionate e regolate prima di essere rilasciate agli utenti aziendali, per non rischiare di diventare un’enorme responsabilità per l’organizzazione. Quando ci si trova a scegliere uno strumento o una piattaforma per i big data, è fondamentale assicurarsi che disponga di funzionalità di qualità e governance dei dati integrate.

Big data e Talend

Talend offre efficaci strumenti per l’integrazione e l’elaborazione dei big data. Scegliendo la piattaforma Talend per l’integrazione dei big data, i tecnici specializzati nella gestione dei dati possono portare a termine lavori di integrazione 10 volte più rapidamente rispetto a quanto sia possibile mediante codifica manuale e a una frazione dei costi rispetto alla concorrenza.

  • Nativo: Talend viene eseguito in modo nativo nel cloud e su piattaforme per big data. Talend genera codice nativo che può essere eseguito direttamente nel cloud, in modalità serverless o su piattaforme per big data, senza la necessità di installare e mantenere software proprietario su ciascun nodo e cluster — con una conseguente eliminazione dei costi fissi.
  • Aperto: Talend è open-source e basato su standard aperti, il che ci consente di adottare le più recenti innovazioni degli ecosistemi cloud e big data e di permettere ai nostri clienti di fare altrettanto.
  • Unificato: Talend offre un’unica piattaforma e un portafoglio integrato per l’integrazione dei dati (che include funzionalità di qualità dei dati, MDM, integrazione delle applicazioni e catalogazione dei dati) e garantisce l’interoperabilità con tecnologie complementari.
  • Prezzo: la piattaforma Talend viene offerta tramite licenza in abbonamento basata sul numero di sviluppatori che la utilizzano, rispetto al volume dei dati e al numero di connettori, CPU o core, cluster o nodi. Il prezzo per utente è più prevedibile e non comporta addebiti di “imposte sui dati” per l’utilizzo del prodotto.

Talend Big Data Platform offre funzionalità aggiuntive di gestione e monitoraggio dei dati, presenta funzioni di qualità dei dati integrate e garantisce il supporto via Web, email e telefono.

Inoltre, offre funzionalità multi-cloud native, garantisce la scalabilità per qualunque tipo di progetto e dispone di 900 connettori.

Talend Real-Time Big Data Platform offre tutto quanto indicato sopra e in più sfrutta tutta la potenza in tempo reale di Spark Streaming per accelerare i progetti basati sui big data.

Introduzione ai big data

Prova oggi stesso Talend Big Data Platform. Talend Big Data Platform semplifica le integrazioni complesse per usufruire di Spark, Hadoop, NoSQL e del cloud, permettendo alla tua azienda di trasformare più rapidamente i dati in informazioni fruibili. E per sfruttare al meglio il periodo di prova gratuita, dai un’occhiata alla nostra guida Getting Started With Big Data.