Tout savoir sur l’exploration de données, ses avantages et sa mise en place

Le data mining n’est pas née lors de l’ère numérique. Ce concept existe depuis plus d’un siècle mais il est devenu réellement connu dans les années 1980. Depuis, un long chemin a été parcouru. Les entreprises utilisent désormais le data mining et le machine learning pour accomplir de nombreuses tâches, de l’amélioration du processus de vente à l’interprétation des données financières pour l’investissement.

En savoir plus

Différences entre lac de données et entrepôt de données

Les termes « data lake » et « data warehouse » sont utilisés très couramment pour parler du stockage des big data, mais ils ne sont pas interchangeables (et noter qu’il n’est pas d’usage de rendre ces termes par un équivalent français). Un data lake est un vaste gisement (pool) de données brutes dont le but n’a pas été précisé. Un data warehouse est un référentiel de données structurées et filtrées qui ont déjà été transformées dans un but spécifique.

En savoir plus

Tout savoir sur le big data et son avenir

Le concept de big data existe au moins depuis la Seconde Guerre mondiale. Cependant, ce terme n’a fait son apparition dans les glossaires et dictionnaires qu’au cours de la dernière décennie. C’est l’arrivée de la Wi-Fi, de l’Internet 2.0 et d’autres technologies connectées utilisant l’intelligence artificielle (IA) qui ont fait de la gestion et de l’analyse d’ensemble de données massifs une réalité et une nécessité pour tous.

En savoir plus

ELT ou ETL : Définir la différence

La différence entre l’ETL et l’ELT réside dans le fait que les données sont transformées en informations décisionnelles et dans la quantité de données conservée dans les entrepôts. Découvrez ce que signifie ces différences pour les données décisionnelles, la meilleure approche pour votre entreprise et pourquoi le Cloud est un élément décisif.

En savoir plus

Hadoop – Présentation générale

Hadoop est un framework Java open source utilisé pour le stockage et traitement des big data. Les données sont stockées sur des serveurs standard peu coûteux configurés en clusters. Le système de fichiers distribué Hadoop supporte des fonctionnalités de traitement concurrent et de tolérance aux incidents.

En savoir plus

MapReduce – Présentation générale

MapReduce est un modèle de programmation disponible dans les environnements Hadoop qui est utilisé pour accéder aux big data stockées dans le Hadoop File System (HDFS). La fonction map analyse les entrées, les paires et les processus et elle produit un autre ensemble de paires intermédiaires en sortie.

En savoir plus

Tests ETL – Présentation générale

Les tests ETL sont appliqués tout au long du processus ETL pour valider, vérifier et garantir la qualité des données tout en évitant la duplication des enregistrements et la perte de données. Ce document vous propose de découvrir les huit étapes des tests ETL, les neuf types de tests ETL, les défis les plus courants, comment identifier les outils les mieux adaptés à vos besoins, etc.

En savoir plus

Qu’est-ce qu’un data lake ?

Un data lake est un emplacement de stockage centralisé qui contient des big data sous un format brut provenant d’un grand nombre de sources. Les avantages du format data lake incitent de nombreuses entreprises à abandonner leurs data warehouses. Découvrez les avantages spécifiques des data lakes, pourquoi ils sont de plus en plus populaires et comment faire vos premiers pas pour en créer un.

En savoir plus

Qu’est-ce que le machine learning ?

Le machine learning est une technique qui utilise des probabilités statistiques pour donner aux ordinateurs la capacité d’apprendre par eux-mêmes grâce à leur exposition à différents types de données en entrée. On parle également, mais plus rarement d’« apprentissage automatique [par les machines] ».

En savoir plus

Utiliser le machine learning pour la qualité des données

Découvrez comment les big data modifient la méthodologie de qualité des données. Les big data ont démocratisé le machine learning et tout comme la qualité des données a transformé le machine learning, ce dernier transforme également la méthodologie de mise en œuvre de la qualité des données.

En savoir plus

Exécuter un Job sur Spark

Apprenez à créer un Job Big Data Batch à l’aide du framework Spark, ainsi qu’à lire des données depuis HDFS, à les trier et à les afficher dans la console.

Regarder

Déployer un data lake gouverné dans le cloud

L’objectif principal du « data lake » est d’offrir un accès direct et sans restriction à des données organisationnelles brutes (non filtrées) en lieu et place d’un stockage de datasets divergents et parfois limités dans des silos de données épars et disparates.

En savoir plus

Sqoop

Talend, leader des solutions d'intégration de données open source, étend les possibilités de Sqoop en l'insérant dans une solution d'intégration big data unifiée, polyvalente et facile à utiliser.

En savoir plus