Predictive Analytics sind aus dem Alltag von Data Scientists nicht mehr wegzudenken. Wie wichtig Sie für den Bereich, aber auch Unternehmen generell sind, verdeutlicht ein kurzes Szenario zur Einführung.
Weitere Informationen
Data-Mining analysiert riesige Datenmengen, um Erkenntnisse zu gewinnen, die helfen, Probleme zu lösen, Risiken zu verringern oder Chancen zu ergreifen.
Weitere Informationen
Wie bei jedem angesagten neuen Begriff aus der Tech-Welt fragen Sie sich vielleicht: „Was ist eine Data Fabric?“ und „Wozu brauche ich eine Data Fabric?“
Weitere Informationen
Erfahren Sie mehr über Datensilos und darüber, wie diese Ihr Unternehmen ausbremsen können.
Weitere Informationen
Die Unterschiede zwischen strukturierten und unstrukturierten Daten im Überblick: Datenformat, -speicherung, -typ, -schema und anvisierter Benutzer der Daten.
Weitere Informationen
Erfahren Sie mehr über die Unterschiede der beiden Optionen, damit Sie entscheiden können, welche am besten zu Ihrem Unternehmen passt.
Weitere Informationen
Lernen Sie die 16 Data-Mining-Verfahren kennen, mit denen Sie Rohdaten in Erkenntnisse verwandeln und den Nutzen Ihrer Dateninvestitionen maximieren.
Weitere Informationen
Prescriptive Analytics analysiert Daten und bietet sofortige Empfehlungen zur Optimierung der Geschäftspraktiken für mehrere prognostizierte Ergebnisse.
Weitere Informationen
ELT ist der Prozess, mit dem Rohdaten extrahiert, geladen und in einen Datensee oder ein Lager umgewandelt werden. Im Gegensatz zu ETL bietet ELT ein schnelleres Laden.
Weitere Informationen
Die Datenarchitektur von Data Lakes muss auf Merkmalen einzelner Data Assets basieren, damit Sie mit den Daten arbeiten können.
Weitere Informationen
Bei der Datentransformation geht es um die Konvertierung von Daten in verschiedene Formate. In der Regel wird dabei das Datenformat des Ursprungssystems in das des Zielsystems umgewandelt.
Weitere Informationen
Erfahren Sie, wie Big Data die Vorgehensweise beim Datenqualitätsmanagement verändert. Mit Big Data ist maschinelles Lernen (ML) zum Mainstream geworden und genauso wie Data Quality (DQ) ML beeinflusst hat, so verändert auch ML die Vorgehensweise bei der DQ-Implementierung.
Weitere Informationen
Unternehmen können zuverlässige Daten schneller bereitstellen, wenn diese in ein Cloud-Data-Warehouse oder Cloud-Data-Lake verlagert werden.
HERUNTERLADEN
Angesichts der wachsenden Menge an Big Data sollten Unternehmen ihre Prozesse optimieren. Big Data zu optimieren bedeutet zum Beispiel, (1) Latenz bei der Verarbeitung zu vermeiden, (2) Daten in Echtzeit zu nutzen und (3) Daten zuerst zu analysieren und erst dann Entscheidungen zu treffen. Erfahren Sie alles, was Sie wissen müssen, um heute noch loszulegen.
Weitere Informationen
Batch processing is a method of running data jobs when resources permit and with little or no user interaction to improve efficiency and automate processes.
Weitere Informationen
Erfahren Sie, wie Sie mittels Spark-Framework einen Big-Data-Batch-Job erstellen und Daten aus HDFS lesen, sortieren und in der Konsole anzeigen.
Jetzt ansehen
In diesem Tutorial erstellen Sie zufällige Daten und schreiben diese in HDFS. Anschließend lesen Sie die Daten aus HDFS, sortieren sie und zeigen das Ergebnis in der Konsole an.
Jetzt ansehen
Erfahren Sie, wie Sie Hadoop-Cluster-Metadaten automatisch durch eine Verbindung zu Cloudera Manager erstellen.
Jetzt ansehen
Mit Datenanalysen gewinnen Sie Erkenntnisse aus Daten. Sie können sie extrahieren, transformieren und zentralisieren, um Muster, Beziehungen, Trends, Korrelationen und Anomalien zu entdecken und zu analysieren beziehungsweise eine Theorie oder Hypothese zu validieren.
Weitere Informationen
In diesem Tutorial erfahren Sie, wie Sie Hadoop-Cluster-Metadaten erstellen, indem Sie die Konfiguration aus den Hadoop-Konfigurationsdateien importieren.Dieses Tutorial basiert auf Talend Data Fabric Studio Version 6 und einem Hadoop-Cluster: Cloudera CDH Version 5.4.1. Erstellen Sie eine neue Hadoop-Cluster-Metadaten-DefinitionWählen Sie die Ansicht Integration aus.Erweitern Sie im Project Repository den Bereich Metadata, klicken Sie mit der rechten Maustaste auf Hadoop Cluster und klicken Sie anschließend auf Create Hadoop Cluster, um den Assistenten zu öffnen.Geben Sie im „Hadoop Cluster Connection“-Assistenten im Feld „Name“ MyHadoopCluster_files ein. Geben Sie im Feld „Purpose“ Cluster connection metadata ein. Geben Sie im Feld „Description“ Metadata to connect to a Cloudera CDH 5.4 cluster ein und klicken Sie auf Next.
Jetzt ansehen
Der Zweck eines Data Lake liegt im Wesentlichen darin, einen direkten und umfassenden Zugriff auf rohe (ungefilterte) Unternehmensdaten bereitzustellen. Data Lakes sind eine Alternative zur Speicherung einer begrenzten Anzahl unterschiedlicher Datensätze in verteilten, heterogenen Datensilos.
Weitere Informationen
Talend, der Spezialist für Open-Source-Integration, bietet nahtlose Hadoop Hive-Unterstützung in Talend Open Studio for Big Data. Als erste reine Open-Source-Lösung für Big-Data-Management vereinfacht Talend Open Studio for Big Data die Arbeit mit Hadoop Hive und die Integration von Hive in die Datenflüsse Ihres Unternehmens.
Weitere Informationen
Talend, der führende Anbieter von Open-Source-Lösungen für Datenintegration, integriert Sqoop-Funktionen in eine einheitliche, vielfältige und benutzerfreundliche Big-Data-Integrationslösung und steigert so den Nutzen von Sqoop.
Weitere Informationen
Die vier kritischen Aktionen in Datenpipelines dienen allesamt der Datenintegration. Die Ausgangsbasis stellen die Rohdaten dar, die letztendlich zu aussagekräftigen Informationen und Erkenntnissen führen sollen.
Weitere Informationen
Dieses Whitepaper von Databricks und Talend erklärt, wie man mit intelligenten und automatisierten Cloud-Tools große Datenmengen skalieren und maschinelles Lernen operationalisieren kann.
HERUNTERLADEN