[TOS tutorial 03] Eine Datei sortieren

In diesem Tutorial werden Sie mit einer Verarbeitungskomponente arbeiten und lernen, wie man die Daten einer Datei sortiert.

Für diese Anleitung benötigen Sie Talend Open Studio Data Integration Version 6.

1. Einen neuen Job erstellen

  1. Wählen Sie die Ansicht Integration aus.
  2. Erstellen Sie einen neuen Job und nennen Sie ihn SortCSVFile.

Im Job Designer wird ein leerer Job geöffnet.

2. Eine „tFileInputDelimited“-Komponente hinzufügen und konfigurieren

  1. Fügen Sie dem Job eine „tFileInputDelimited“-Komponente hinzu.
  2. Sie konfigurieren die „tFileInputDelimited_1“-Komponente in der Component-Ansicht. Klicken Sie neben dem Feld FileName auf [...], wählen Sie die Datei auf der Festplatte aus, und klicken Sie auf Open.
  3. Jetzt muss noch die Dateistruktur festgelegt werden. Öffnen Sie den Schema-Assistenten für „tFileInputDelimited_1“ und klicken Sie neben dem Feld „Edit schema“ auf [...].
  4. Klicken Sie auf das [+]-Symbol, um die erste Spalte einzufügen, und geben Sie die Daten für die Spalte ein.
  5. Wiederholen Sie Schritt d für alle anderen Spalten in der CSV-Datei und schließen Sie den Schema-Assistenten

3. Die Daten im Job sortieren

  1. Fügen Sie eine „tSortRow“-Komponente ein und verbinden Sie die beiden Komponenten. Hinweis: Die verbundene „tSortRow“-Komponente übernimmt das Schema der „tFileInputDelimited_1“-Komponente, sodass Sie nichts weiter konfigurieren müssen.
  2. Um das Schema zu sehen, das vererbt wurde, klicken Sie in der Component-Ansicht der „tSortRow“-Komponente neben „Edit schema“ auf […].
  3. Um eine neue Sortierregel basierend auf dem Erscheinungsjahr eines Films zu erstellen, klicken Sie in der Spalte „Schema“ auf [+], dann auf releaseYear und geben Sie dann durch Auswahl von desc die Sortierreihenfolge an (absteigend).
  4. Damit Sie die Ergebnisse der Sortierregel sehen können, fügen Sie in Job Designer eine „tLogRow“-Komponente ein und verbinden dann die „tSortRow_1“- mit der „tLogRow_1“-Komponente.
  5. Klicken Sie in der Run-Ansicht des sortCSVFile-Jobs auf Run, um den Job auszuführen.

Die Filme in der Quelldatei werden jetzt nach Erscheinungsjahr des Films sortiert.

4. Eine zweite Sortierregel hinzufügen

  1. Im nächsten Schritt erstellen Sie eine zweite Sortierregel. Klicken Sie in der Component-Ansicht der „tSortRow_1“-Komponente auf (+) und wählen Sie in der Schema-Spalte „title“ aus. In der Sortierspalte wählen Sie alpha.
  2. Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.

Die Filme werden jetzt nach Erscheinungsjahr und innerhalb eines Jahres alphabetisch nach Filmtitel sortiert.

5. Das Ergebnis des Jobs in einer Datei speichern

  1. Fügen Sie eine „tfileOutputExcel“-Komponente in Job Designer ein und ziehen Sie eine Verbindung zu „tLogRow_1“.
  2. Zum Konfigurieren der Komponente geben Sie in der „Component“-Ansicht den Pfad und Namen der Outputdatei ein.
  3. Wählen Sie Include Header aus, um eine Header-Zeile in die Outputdatei zu übernehmen.
  4. Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.
  5. Prüfen Sie die resultierende „moviesSorted.xls“-Datei. Öffnen Sie den Ordner, in dem die Datei erstellt wurde. Die Datei enthält die sortierten Daten.
  6. Wenn Sie nicht möchten, dass die sortierten Daten in der Run-Ansicht angezeigt werden, klicken Sie mit der rechten Maustaste auf tLogRow_1 und wählen Sie Deactivate tLogRow aus.
  7. Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.

Der Job wird erneut ausgeführt. Diesmal jedoch sind in der Run-Ansicht keine Daten zu sehen.

← PREVIOUS TUTORIAL | NEXT TUTORIAL →

Sind Sie bereit, mit Talend durchzustarten?