ELT ist der Prozess, mit dem Rohdaten extrahiert, geladen und in einen Datensee oder ein Lager umgewandelt werden. Im Gegensatz zu ETL bietet ELT ein schnelleres Laden.
Weitere Informationen
Erfahren Sie, wie Sie mittels Spark-Framework einen Big-Data-Batch-Job erstellen und Daten aus HDFS lesen, sortieren und in der Konsole anzeigen.
Jetzt ansehen
In diesem Tutorial erstellen Sie zufällige Daten und schreiben diese in HDFS. Anschließend lesen Sie die Daten aus HDFS, sortieren sie und zeigen das Ergebnis in der Konsole an.
Jetzt ansehen
Erfahren Sie, wie Sie Hadoop-Cluster-Metadaten automatisch durch eine Verbindung zu Cloudera Manager erstellen.
Jetzt ansehen
In diesem Tutorial erfahren Sie, wie Sie Hadoop-Cluster-Metadaten erstellen, indem Sie die Konfiguration aus den Hadoop-Konfigurationsdateien importieren.Dieses Tutorial basiert auf Talend Data Fabric Studio Version 6 und einem Hadoop-Cluster: Cloudera CDH Version 5.4.1. Erstellen Sie eine neue Hadoop-Cluster-Metadaten-DefinitionWählen Sie die Ansicht Integration aus.Erweitern Sie im Project Repository den Bereich Metadata, klicken Sie mit der rechten Maustaste auf Hadoop Cluster und klicken Sie anschließend auf Create Hadoop Cluster, um den Assistenten zu öffnen.Geben Sie im „Hadoop Cluster Connection“-Assistenten im Feld „Name“ MyHadoopCluster_files ein. Geben Sie im Feld „Purpose“ Cluster connection metadata ein. Geben Sie im Feld „Description“ Metadata to connect to a Cloudera CDH 5.4 cluster ein und klicken Sie auf Next.
Jetzt ansehen
Talend, der Spezialist für Open-Source-Integration, bietet nahtlose Hadoop Hive-Unterstützung in Talend Open Studio for Big Data. Als erste reine Open-Source-Lösung für Big-Data-Management vereinfacht Talend Open Studio for Big Data die Arbeit mit Hadoop Hive und die Integration von Hive in die Datenflüsse Ihres Unternehmens.
Weitere Informationen
Talend, der führende Anbieter von Open-Source-Lösungen für Datenintegration, integriert Sqoop-Funktionen in eine einheitliche, vielfältige und benutzerfreundliche Big-Data-Integrationslösung und steigert so den Nutzen von Sqoop.
Weitere Informationen
ETL-Tests beziehen sich auf Prüfungen während des ETL-Prozesses, um die Genauigkeit von Daten zu validieren, zu verifizieren und sicherzustellen sowie Dubletten und Datenverluste zu verhindern. Erfahren Sie mehr über die 8 Phasen von ETL-Tests, 9 Arten von Tests, häufige Herausforderungen, wie Sie das beste Tool finden und mehr.
Weitere Informationen
Hadoop ist ein Java-basiertes Open Source-Framework zum Speichern und Verarbeiten von Big Data. Die Daten werden dabei auf preiswerten Commodity-Servern gespeichert, die in Clustern verbunden sind. Sein verteiltes Dateisystem ist fehlertolerant und ermöglicht eine parallele Verarbeitung.
Weitere Informationen
MapReduce ist ein Programmiermodell bzw. Muster im Hadoop-Framework, das für den Zugriff auf Big Data im Hadoop File System (HDFS) verwendet wird. Die Map-Funktion nimmt die Eingabedaten, erstellt Paare, verarbeitet sie und generiert einen weiteren Satz an Zwischenpaaren als Ausgabe.
Weitere Informationen
Der Unterschied zwischen ETL und ELT liegt zum einen am Ort, an dem die Daten in Geschäftsinformationen umgewandelt werden, und an der Menge der Daten, die in Data-Warehouses gehalten wird. Erfahren Sie, wie sich diese Unterschiede auf die Geschäftsinformationen auswirken, welcher Ansatz sich am besten für Ihr Unternehmen eignet und warum die Cloud im Begriff ist, alles zu verändern.
Weitere Informationen
Dieser praktische Leitfaden zeigt Entwicklern und Systemadministratoren, wie sie cloudbasierte Hadoop Cluster effizient in den AWS-, Microsoft Azure- und Google Cloud Platform-Services installieren, verwenden und verwalten können.
HERUNTERLADEN
TDWI hat führende Datenmanagementexperten befragt, um die zwölf wichtigsten Faktoren für eine erfolgreiche Data-Lake-Implementierung zu identifizieren.
HERUNTERLADEN
Hadoop und Data Lakes gelten als bahnbrechende Technologien, mit denen sich das Potenzial von Big Data großflächig nutzen lässt.
HERUNTERLADEN
2016 war der Punkt erreicht, an dem die Hälfte der Weltbevölkerung mit dem Internet verbunden war*. Gleichzeitig wurde bei den angebundenen Maschinen die 6,4 Milliarden-Marke geknackt**. Das sind viele Daten aus vielen Quellen. Dieses White Paper von Bernard Marr vom Advanced Performance Institute identifiziert die Chancen und Gefahren, die mit 6 Schlüsseltrends in der IT zusammenhängen
HERUNTERLADEN
Viele Organisationen sind heute mit ihren Daten überfordert. Die meisten von ihnen schaffen es nicht einmal, einen Bruchteil der Daten zu analysieren, die sie selbst sammeln und erfassen. Um eine datengestützte Unternehmenskultur zu fördern, setzen viele Organisationen auf einen neuen Ansatz: die sogenannte Selfservice-Analyse.
HERUNTERLADEN
This report examines how innovative software is improving the data preparation process for IT and business users to help meet the demand for business analytics.
HERUNTERLADEN