データ変換の定義
増え続けるデータ量は、より良い意思決定を下し、成果を高めるための無限の機会をビジネスに提供します。しかし、ビジネス、顧客、競合他社についての知識を企業内の全員が利用しやすいものにするには、どうしたらよいのでしょうか。その答えがデータ変換です。
データ変換の定義
データ変換は、データをあるフォーマットから別のフォーマットに変換するプロセスです。通常は、ソースシステムのフォーマットからターゲットシステムで必要とされるフォーマットに変換します。データラングリングやデータウェアハウスなど、大半のデータ統合やデータ管理のタスクでは、データ変換が構成要素となります。
ELT/ETLプロセスの1ステップであるデータ変換には、ターゲットの宛先に配信される前に必要となるデータ変更の種類に応じて、「単純」なものも「複雑」なものもあります。データ変換プロセスは、自動化されることも、手動で処理されることも、両方の組み合わせで実行されることもあります。
ビッグデータの時代となり、データ変換がこれまで以上にビジネスにとって重要となってます。ますます多くのプログラム、アプリケーション、デバイスが絶えず大量のデータを生成しています。そして、さまざまなソースからの多種多様のデータストリーミングが行われ、データの互換性が常に危険にさらされています。ここで大きな役割を担うのがデータ変換プロセスです。データ変換によって、あらゆるソースからのデータを、実用的なビジネスインテリジェンスのために統合・保存・分析し、最終的にマイニングできるフォーマットに変換できます。
データ変換の仕組み
データ変換プロセスの目的は、ソースからデータを抽出し、それを使用可能なフォーマットに変換してターゲットに配信することです。このプロセス全体はETL(抽出、ロード、変換)として知られています。抽出段階では、データが識別され、さまざまな場所(ソース)から単一のリポジトリに取り込まれます。
ソースの場所から抽出されたデータは未処理のままであることが多く、そのままでは使用できません。この障害を克服するためには、データを変換する必要があります。これは、ビジネスインテリジェンスのためにマイニングできるようにすることで、データに最大の価値を付加するETLプロセスのステップです。変換中に、それを希望フォーマットに変換するためにいくつかのステップが行われます。データを変換する前に、まずデータをクレンジングしなければならない場合もあります。データクレンジングは、矛盾や欠損値を解決することによってデータを変換できるように準備します。データがクレンジングされると、変換プロセスの次のステップが発生します。
- データディスカバリ―。データ変換プロセスの最初のステップは、ソースのフォーマットでデータを識別して理解することです。これは通常、データプロファイリングツールを使用して行われます。このステップは、データを目的のフォーマットに変換するためにデータに何が必要かを判断するのに役立ちます。
- データマッピング。この段階では、実際の変換プロセスが計画されています。
- コードの生成。変換プロセスを完了するには、変換ジョブを実行するためのコードを作成する必要があります。多くの場合、これらのコードはデータ変換ツールまたはプラットフォームを利用して生成されます。
- コードの実行。計画されコード化されたデータ変換プロセスが実行され、データが目的の出力に変換されます。
- レビュー。変換されたデータは、正しくフォーマットされていることを確認するために検査されます。
これらの基本的ステップに加えて、以下のようなカスタマイズされた処理が行われる場合もあります。
- フィルタリング(例:ロードする特定の列のみを選択する)。
- エンリッチメント(例:フルネームからファーストネーム、ミドルネーム、ラストネームへ)。
- 1つの列を複数の列に分割する。または、その逆を行う。
- 複数のソースからのデータを結合する。
- 重複データを排除する。
変換されたデータは、ターゲットにロードして利用できる準備が整います。
最後に、すべてのデータを変換する必要があるわけではない点に注意してください。ソースからのデータがすでに使用可能なフォーマットである場合があります。これは「直接移動」または「パススルー」データと呼ばれます。
データ変換のメリット
顧客の行動、社内プロセス、サプライチェーン、さらには気象に関するものなど、データは効率を高めて収益を生み出す可能性があります。このことは、あらゆる業界の企業や組織が理解しています。ここでの課題は、収集されるすべてのデータを確実に使用できるようにすることです。データ変換プロセスにより、企業は以下のようにデータから大きな利益を得ることができます。
- データから最大の価値を引き出す:Forrester社の報告によると、分析されず、ビジネスインテリジェンスに生かされていないデータは全体の60~73%にも上ります。データ変換ツールを使用することで、データを標準化してアクセシビリティとユーザビリティを向上させることができます。
- データをより効率的に管理する:ますます多くのソースからデータが生成され状況において、メタデータの一貫性に問題があると、データの編成と理解が困難になります。データ変換はメタデータを洗練して、データセットの内容を編成し、理解しやすくします。
- より高速なクエリーを実行する:変換されたデータは標準化され、ソースの場所に保管され、そこで迅速かつ容易に取り出すことができます。
- データクオリティを向上する:ビジネスインテリジェンスを取得する上では、不良データの使用によるリスクとコストのために、データクオリティが組織にとっての大きな関心事になりつつあります。データを変換するプロセスは、矛盾や欠落値などの品質の問題を軽減または排除できます。
実際のデータ変換
どのような業界の企業や組織にも、データ変換のニーズがあります。多数の国で何百万件ものトランザクションを管理する必要があるeコマースビジネスでも、さまざまなソースからの寄付者データを組み合わせる必要がある非営利団体でも、データ変換ツールは生産性の障壁を取り去り、投資したデータに対する深い知見をもたらします。
- RingCentral 社は、クラウドベースの通信/メッセージング/コラボレーションソリューションを中小ビジネスおよび大企業の顧客に提供しています。100を超えるさまざまなシステムを使用しているため、データプロセスの合理化と標準化は同社の成功にとって非常に重要です。 ETLを含むデータ統合ソリューション を使用することで、RingCentral社は主要人事プロセスを自動化し、従業員がより多くの時間を戦略に費やし、管理業務にかける時間を短縮できます。
- 英国セーブ・ザ・チルドレン Save the Children UK、SCUK)は、自然災害や人道的緊急事態で、人命救助のための準備・対応を行っています。目標を達成するために、組織は寄付者、ボランティア、コンプライアンス対応に関連する大規模なデータを効果的に管理する必要があります。データ管理プラットフォームを使用することで、同団体は複数のCRMソースからのデータを統合して統合データベースを作成し、必要な情報をすばやく見つけることができます。
- グローバルに事業展開するテクノロジー/製造企業のJohnson Controls社は、200ものERP/CRMシステムを使用して国際的業務を管理しています。また、同社は12万人の従業員を抱え、顧客も世界中の150以上の国にわたって分散しています。このため、実用的なデータに素早くアクセスすることは譲れない条件となっています。同社は包括的なデータ管理プラットフォームを使用して、業務全体でデータプロセスを統合・合理化しています。
データ変換ツール
データ変換をハンドコーディングで済ませてしまおうと思われるかもしれません。しかし多くの場合に、データ変換ツールまたはプラットフォームを使用する方が費用対効果も効率も優れています。ハンドコーディングはエラーを引き起こしやすく、反復が簡単ではありません。プロセスが実行されるたびに、コードの書き直しもしばしば発生します。その結果、ハンドコーディングのコストは、しばしばETLツールの実装コストよりもはるかに高くなります。
ETLツールは、コスト削減にとどまらない追加のメリットを提供します。データフローを視覚的に表現することで理解しやすくし、多くは並列化、監視、フェイルオーバーの機能を組み込んでいます。一方で、カスタムコーディングされた統合を扱うのに必要なスキルが見つけるのは困難です。このため、カスタムコードは拡張とイノベーションを阻害します。ハンドコーディングによりコストを節約しても、通常はメンテナンスのコストが大きく増加し、また拡張できないため、当初のメリットは相殺されます。
データ変換のオプションを検討する際には、今日のハイブリッドデータ処理環境が以前よりはるかに複雑であることを認識することも重要です。従来のサーバーはビッグデータアナリティクスプラットフォームにリンクされており、さらに多くのデータがオンサイトとクラウドの両方に存在します。また、さまざまなデータ資産を管理するための「as-a-Service」ソリューションへの依存度も高まっています。多くのETLツールには、これらの多様なソースからデータを移行するために必要なコネクターが含まれています。
最後に、ETLツールはETLプロセスの各段階を最適化するように設計されているため、生データをビジネスの知見に変換するのにかかる時間が短縮されます。
今すぐデータ変換をスタート!
データ変換により、場所やフォーマットが多様なデータを実用的な知見に変えることができます。そのために、このように多種のデータを洗練、標準化、統合するプロセスを合理化します。
Talend Open Studio for Data Integrationは、フォーマットや保存場所に関係なく、データを抽出・変換・ロードするための単一のプラットフォームを提供します。グラフィカルなドラッグアンドドロップツールとさまざまなコンポーネント/コネクターにより、ETL/ELTジョブの迅速な立ち上げと実行が簡単になります。今すぐダウンロードしましょう。