[TOSチュートリアル03] ファイルのソート
このチュートリアルでは、処理コンポーネントを使用してファイルからのデータをソートする方法について説明します。
このチュートリアルでは、Talend Open Studio Data Integrationバージョン6を使用します。
1. 新しいジョブを作成する
- [Integration]パースペクティブが選択されていることを確認します。
- 新しいジョブを作成し、SortCSVFileという名前を指定します。
ジョブを含まないジョブデザイナーが開きます。
2. tFileInputDelimitedコンポーネントを追加・構成する
- tFileInputDelimitedコンポーネントをジョブに追加します。
- tFileInputDelimited_1コンポーネントを構成するには、コンポーネントの[Component]ビューで、[FileName]フィールドの横の[...]をクリックし、ローカルディスクからファイルを選択して、[Open]をクリックします。
- ファイルの構造を記述するには、tFileInputDelimited_1のスキーマウィザードを開き、[Edit schema]フィールドの横の[...]をクリックします。
- [+]アイコンをクリックして最初の列を追加し、その列の詳細を入力します。
- CSVファイルの各列について手順dを繰り返し、スキーマウィザードを閉じます。
3. ジョブのデータをソートする
- tSortRowコンポーネントをジョブに追加し、2つのコンポーネントをリンクします。 注:tFileInputDelimited_1コンポーネントのスキーマは、リンクされたtSortRowコンポーネントにより継承されるため、構成する必要はありません。
- 継承されたスキーマを表示するには、tSortRowコンポーネントの[Component]ビューで、[Edit schema]フィールドの横の[…]をクリックします。
- 映画の公開年に基づいて新しいソートルールを作成するには、[Schema column]で[+]をクリックして[releaseYear]をクリックし、ソート順として[desc]をクリックして指定します。
- ソートルールの結果を表示するには、ジョブデザイナーでtLogRowコンポーネントを追加し、tSortRow_1コンポーネントとtLogRow_1コンポーネントをリンクします。
- ジョブを実行するには、ジョブsortCSVFileの[Run]ビューで[Run]をクリックします。
これで、ソースファイルの映画が公開年でソートされます。
4. 第2のソートルールを追加する
- 第2のソートルールを追加するには、tSortRow_1コンポーネントの[Component]ビューで[+]をクリックし、[Schema column]で[title]を選択します。続いて、[sort num or alpha?]列で[alpha]を選択します。
- ジョブを実行するには、[Run]ビューで[Run]をクリックします。
これで、映画が公開年でソートされ、各年で映画はタイトルのアルファベット順にソートされます。
5. ジョブの結果をファイルに保存する
- tfileOutputExcelコンポーネントをジョブデザイナーに追加し、tLogRow_1をリンクします。
- 出力コンポーネントを構成するには、コンポーネントの[Component]ビューで出力ファイルのパスと名前を指定します。
- 出力ファイルにヘッダー行を含めるには、[Include header]のチェックをオンにします。
- ジョブを実行するには、[Run]ビューで[Run]をクリックします。
- moviesSorted.xlsファイルをチェックするには、ファイルが作成されたフォルダーに移動してファイルを開きます。ソートされたデータを含むファイルが表示されます。
- ソートされたデータが[Run]ビューに表示されないようにするには、[tLogRow_1]を右クリックし、[Deactivate tLogRow]をクリックします。
- ジョブを実行するには、[Run]ビューで[Run]をクリックします。
ジョブが再び実行されます。しかし、[Run]ビューにデータは表示されません。
← PREVIOUS TUTORIAL | NEXT TUTORIAL →
Talendを使う準備はできていますか?
追加の関連記事
- Talend Open Studio for Data Integrationの使用開始
- [TOSチュートリアル02] ファイルの読み込み
- [TOSチュートリアル01] Talend Studioの紹介
- [TOSチュートリアル07] tMapでの結合の構成
- [TOSチュートリアル08] tMapコンポーネントを使用した条件ベースフィルターの追加
- [TOSチュートリアル09] コンテキスト変数の使用
- [TOSチュートリアル06] tMapコンポーネントによる2つのデータソースの結合
- [TOSチュートリアル05] tMapコンポーネントを使用したデータのフィルタリング
- [TOSチュートリアル04] メタデータの作成(メタデータエディタ)と活用
- [TOSチュートリアル13] Sparkでのジョブの実行
- [TOSチュートリアル12] HDFSでのデータの読み書き
- [TOS tutorial 11] Creating Cluster Connection Metadata from Configuration Files
- [TOSチュートリアル10] クラスター接続メタデータの作成
- [TOS tutorial 14] Running a Job on YARN