構造分析の実行
タスクの概要
データのプロファイリングのために、Talend Studioでは多様な分析を使用できます。構造分析によって、データベースとカタログに関する基本情報(テーブルの数、テーブルごとの行の数、索引の数、プライマリーキーの数など)を取得できます。この概要を起点として役立てることで、個別のデータソースを比較でき、また、データクオリティの要件を満たすために必要な構造がデータに含まれることを確認できます。
Talend Studioを起動した後は、ローカルのデータベースサーバーへの接続を確立します。続いて、CRMデータベースに焦点を当て、構造分析を使用して、MySQLサーバーに格納されたデータベースの概要を作成します。
トレーニング環境では、単一の仮想マシン(VM)を使用します。この仮想マシンには、チュートリアルを最後まで実行するために必要な、Talend StudioやMySQLを含むすべてのソフトウェアが含まれています。
Talend Studioの起動
-
仮想マシンを起動するには、同じページで新しいタブを開き、START VM!リンクをクリックします。
Webブラウザーで仮想マシンが起動します。Windowsが起動するまで待ちます。
スクリプトが自動的に開始されます。これを閉じるには、[X]ボタンをクリックします。
-
画面の右側に表示される[Networks]パネルで、[Yes]を選択します。
-
Talend Studioを起動するには、仮想マシンのデスクトップでTalend Studioショートカットをダブルクリックします。
-
Talend Data Fabricウィンドウが開きます。
「DQ Essentials」というプロジェクトが使用可能になっています。
[Finish]をクリックします。
-
スプラッシュスクリーンが表示されることを確認します。
-
[Start now!]ボタンをクリックします(下にスクロールしなければならないことがあります)。
ウィンドウが開きます。
環境設定と使用可能なツールによって、画面が異なることがあります。
一般的に使用されるエリアが表示されます。
- [DQ Repository]:データ分析とメタデータが格納されるエリアです。左上に表示されます。
- ワークスペース:ジョブの作成/変更、分析の実行、結果の検査を実行するエリアです。中央に表示されます。
データベース接続メタデータの作成
-
プロファイリングのパースペクティブをすでに使用していない場合は、[Profiling]アイコンをクリックします。
-
メタデータを作成します。[DQ Repository]で、[Metadata]を展開します。
[DB connections]を右クリックし、[Create Connection]をクリックします。
トレーニング環境ですでに構成されているデータベースのコレクションに対して、接続を作成します。
-
[Name]テキストボックスに、StagingDBと入力します。
-
[Next]をクリックします。
-
[DB Type]リストで、[MySQL]をクリックします。[Db Version]ボックスのデフォルト値は変更しないでください。
-
以下の設定を入力します。
-
-
[Login]および[Password]テキストボックスに、rootと入力します。
-
[Server]テキストボックスに、localhostと入力します。
-
[DataBase]テキストボックスは空のままにします(ローカルサーバーに構成されたすべてのデータベースにアクセスできるようにするため)。
-
-
-
接続情報を確認するには、[Check]ボタンをクリックします。
- [Check Connection]ウィンドウで、[OK]をクリックするか、または必要に応じて修正して再び[Check]をクリックします。
-
[Finish]をクリックします。
「StagingDB」という新しいデータベース接続がリポジトリに表示されます。
ワークスペースには、この接続の構成情報が表示されます。
必要に応じて接続設定を変更します。
-
接続概要分析の作成
- フォルダーを作成します。
-
[DQ Repository]で、[Data Profiling]を展開します。
-
分析用フォルダーを作成するには、[Analyses]を右クリックし、[Create Folder]を選択します。
名前をCRM_Analysisと指定し、[Finish]をクリックします。
-
-
分析を作成します。
- [CRM_Analysis]フォルダーを右クリックし、[New Analysis]をクリックします。
-
[Structural Analysis]を展開し、[Connection Overview Analysis]をクリックします。
- バックグラウンド情報を読み、[Next]をクリックします。
-
分析をセットアップします。
-
分析を特定します。
[Name]テキストボックスに、Database_Server_Connection_Analysisと入力します。
- [Next]をクリックします。
-
分析対象の接続を選択します。[DB connections]を展開し、[StagingDB](すでに作成したデータベース接続メタデータ)をクリックします。
- [Next]をクリックします。
-
分析を特定のテーブルまたはビューに制限できます。テキストボックスを空にすると、分析にはデータベース接続に関するすべての情報が含まれます。
-
[Finish]をクリックします。
ワークプレースに、結果を含まない分析が開きます。
-
結果の分析
- 分析を実行します。
-
ワークスペースの上部に表示されている[Run]アイコンをクリックします。
-
分析の実行が成功すると、[Analysis Results]タブが表示されます。
[Analysis Settings]タブと[Analysis Results]タブの間で切り替えるには、ワークスペースの下部に表示されているタブバーを使用します。
[Statistical Information]セクションには、各データベースのグローバル統計が表示されます。
-
- CRMカタログを確認します。
-
カタログに関する追加情報を表示するには、[Statistical Information]で、[Catalog]列に表示される[crm]をクリックします。
左下のテーブルには、選択したカタログの各テーブルに含まれる行、プライマリーキー、索引それぞれの数が表示されます。
- 左下のテーブルで、[country]行を右クリックし、[View keys]をクリックします。
表示には何通りかあります。[View]キーをクリックすると、[Profiling]パースペクティブから[Data Explorer]パースペクティブに変更できます。現在のパースペクティブは、右上に示されます。ここを1回クリックするだけで、パースペクティブを切り替えることができます。
[Data Explorer]パースペクティブには、新しい要素が表示されます。
- 分析結果の下には、[Database Detail]ビューが開き、countryテーブルのプライマリーキーに関する基本情報が表示されます。
このテーブルの詳細は、[Database Detail]ビューのその他のタブに含まれています。
- [Database Structure]ツリーは、ウィンドウの右側に表示されます。
スクリーンショットで選択されているデータベースは、[Database Detail]ビューで表示されるデータベースと同じです。テーブルのプライマリーキーには、プライマリーキーであることを示すアイコンが付いています。
-
左上に表示されるタブには、基本的な接続とSQL履歴の情報が表示されます。
-
- 再び[Profiling]ボタンをクリックします。
このチュートリアルでは、Talend Studioを起動し、パースペクティブについて学びました。データベース接続情報をメタデータとして作成し、DQリポジトリに格納しました。最後に、構造分析について学び、接続概要分析を作成・実行して、データベースに含まれる情報タイプの包括的な概要を表示しました。
チュートリアルはこれで終了です。