Che cos’è una pipeline di dati?

Attraverso le quattro azioni cruciali eseguite all’interno delle pipeline di dati è possibile ottenere l’integrazione dei dati. Il processo parte da dati grezzi per produrre alla fine informazioni fruibili.

Guarda ora

Guida per principianti all’elaborazione in batch

L’elaborazione in batch è un metodo di esecuzione di job sui dati, utilizzabile quando le risorse lo permettono, che richiede solo una minima interazione da parte dell’utente, consentendo di migliorare l’efficienza e automatizzare i processi.

Guarda ora

Qualità dei big data

Con l'avvento dei big data, gestire la qualità dei dati è diventato sempre più importante e complicato. Fortunatamente, grazie alla combinazione delle tecnologie di elaborazione distribuite open source di Hadoop e delle soluzioni di gestione dei dati open source di Talend, le attività finalizzate alla qualità dei big data sono alla portata di qualunque organizzazione.

Guarda ora

Scrittura e lettura di dati su file HDFS

In questo tutorial, genereremo dati casuali per poi scriverli su file HDFS. Quindi, passeremo alla lettura dei dati da file HDFS, al loro ordinamento e alla successiva visualizzazione del risultato nella console.

Guarda ora

ETL ed ELT: principali differenze

La differenza tra ETL ed ELT sta nel luogo in cui i dati vengono trasformati in business intelligence e nella quantità di informazioni conservate nei data warehouse. Scopri cosa implicano tali differenze in termini di disponibilità di business intelligence, quale approccio è più adatto alla tua organizzazione e perché il cloud sta trasformando il modo di approcciarsi a queste tecnologie.

Guarda ora

Il futuro dei big data

Big data è il termine di uso comune utilizzato per descrivere il processo di acquisizione, analisi e utilizzo di enormi quantità di informazioni digitali per ottimizzare le attività aziendali. I big data stanno rapidamente trasformando il modo in cui lavoriamo, facciamo acquisti e viviamo la nostra quotidianità. È importante comprendere cosa sono i big data e in che modo possono essere sfruttati.

Guarda ora

Data lake e data warehouse

Con “data lake” e “data warehouse” si definiscono due soluzioni ampiamente utilizzate per l’archiviazione dei big data, tuttavia non si tratta di termini intercambiabili. Un data lake è un enorme insieme di dati grezzi il cui scopo non è ancora definito. Un data warehouse è un repository di dati strutturati e filtrati, già elaborati per una finalità specifica.

Guarda ora

Modernizzare gli Operational Data Store con Hadoop

Gli Operational data stores (ODS) oggi gestiscono un maggior volume di dati, e supportano dati di diversa tipologia e varietà come mai successo in passato, pertanto gli utilizzi pratici possono essere molteplici. La chiave del successo di questo tipo di innovazione è l’utilizzo della piattaforma di innovazione Hadoop.

Guarda ora

6 Trend Principali per gli IT Decision-Makers nel 2017

Nel 2016 metà della popolazione mondiale si è connessa ad internet* e il numero delle macchine connesse ha superato i 6.4 miliardi**. Questo porta ad una proliferazione di dati eterogenei provenienti da fonti differenti. In questo white paper, Bernard Marr dell’Advanced Performance Institute indica le opportunità e i rischi relativi a 6 trend principali in ambito IT

Scarica ora

Hortonworks and Talend Sandbox

Hortonworks delivers enterprise-class Hadoop capable of supporting interactive, batch and real-time data access. The Hortonworks and Talend Big Data Sandbox includes a preloaded virtual machine to get up and running quickly: Hadoop can be tested by loading, manipulating and profiling data in its native format through Talend's easy to use drag-and-drop interface and 900 connectors.

Guarda ora