このチュートリアルでは、Cloudera Managerに接続してHadoopクラスターメタデータを自動的に作成します。
このチュートリアルでは、Talend Data Fabric Studioバージョン6とHadoopクラスター(Cloudera CDHバージョン5.4)を使用します。
1. 新しいHadoopクラスターメタデータ定義を作成します
- [Integration]パースペクティブが選択されていることを確認します。
- プロジェクトリポジトリの[Metadata]を展開して[Hadoop Cluster]を右クリックし、[Create Hadoop Cluster]をクリックしてウィザードを開きます。
- [Hadoop Cluster Connection]ウィザードの[Name]フィールドにMyHadoopClusterと入力します。[Purpose]フィールドにCluster connection metadataと入力し、[Description]フィールドにMetadata to connect to a Cloudera CDH 5.4 clusterと入力してから、[Next]をクリックします。
Hadoop Configuration Import wizardウィザードが開きます。
2. 自動設定方法を選択します
- [Hadoop Configuration Import]ウィザードの[Distribution]リストで[Cloudera]を選択し、[Version]リストで[4(YARN mode)]を選択します。
Hadoopクラスターメタデータを作成するには、次のようなさまざまな方法があります。
– AmbariまたはCloudera Managerから設定内容を取得することによる自動設定
– Hadoop設定ファイルから設定内容をインポートすることによる自動設定
– 手動による設定
. - 自動設定方法を選択するには、[オプション]パネルで[Retrieve configuration from Ambari or Cloudera]を選択し、[Next]をクリックします。
3. Cloudera Managerに接続します
Cloudera Managerは、Cloudera CDHクラスターを管理するためのエンドツーエンドのアプリケーションです。接続情報を取得して、対応するメタデータを作成するには、Cloudera Managerに接続します。
- Cloudera Managerに接続するには、Cloudera Managerの認証情報を入力します。[Manager URI (with port)]ボックスにhttp://clusterCDH54:7180と入力します。[Username]ボックスと[Password]ボックスにadminと入力し、[Connect]をクリックします。
Cluster 1という名前のクラスターが[Discovered clusters]リストに表示されます。
- 検出されたクラスター設定を取得するには、[Fetch]をクリックします。
ウィザードが設定ファイルを検出し、対応するサービスのリストを表示します。このチュートリアルでは、デフォルトの設定をそのまま使用し、YARN、HDFS、Hive、HBaseのメタデータ定義を作成します。Sparkの定義は利用できません。
- 作成したHadoopクラスターメタデータに設定内容をインポートするには、 [Finish]をクリックします。
4. Spark以外のリストされたサービスに対応するメタデータを作成します
- [Hadoop Cluster Connection]ウィザードの認証パネルで、ユーザー名にstudentと入力し、[Check Services]をクリックします。[Checking Hadoop Services]ウィンドウが開きます。NamenodeとResource Managerのステータスは100%です。
- [Checking Hadoop Services]ウィンドウを閉じます。[Hadoop Cluster Connection]ウィザードを閉じてメタデータを作成するには、[Finish]をクリックします。
5. リポジトリに作成されたメタデータを調査します
- [Repository]で[Hadoop Cluster]を展開します。
これでメタデータ定義が利用可能になりました。 - YARNサービスに対応している[MyHadoopCluster]というメイン定義を展開します。[HBase]、[HDFS]、[Hive]を展開します。
メタデータ定義がTalendジョブで使用できるようになりました。