ELTとETLの違い BIへの影響と最適なアプローチ

TLとELTの違いは、データが変換される場所、そして運用中のデータウェアハウスに保持されるデータの量にあります。

ETL(Extract/Transform/Load)は、リモートソースから情報を取得し、定義されたフォーマットとスタイルに変換し、データベース、データソース、またはデータウェアハウスにロードする統合アプローチです。

ELT(Extract/Transform/Load)も、1つまたは複数のリモートソースからデータを抽出します。しかし、抽出後に他のフォーマットに変換せずにターゲットのデータウェアハウスにロードします。ELTプロセスでは、データの変換はターゲットデータベース内で行われます。ELTはリモートのソースに負荷をかけず、ローデータと前処理されていないデータのみを要求します。

どちらのアプローチも実行可能ですが、データアーキテクチャーを設計する際、IT部門の意思決定者は社内の対応能力とクラウドテクノロジーの影響の大きさを考慮する必要があります。

ELTの進化

ELTは、特に新しいものではありません。しかし、大規模なワークロードを数千の作業ノードに分散させて処理する並列処理のフレームワークであるApache Hadoopのようなツールによって、再び注目を集めています。従来、ペタバイト規模のローデータを変換するような大規模タスクは、小さなジョブに分割してリモートで処理してから戻し、データベースにロードしていました。

しかし、処理能力の進化、とりわけ仮想クラスタリングにより、ローカルサーバーリソースの能力が飛躍的に高まり、ジョブを分割する必要性が低下しました。クラウドで分散して処理してから戻していたビッグデータタスクを、1か所で処理できるようになったのです。

ELTの仕組みと用途

ELTは、ETLとは違い、無制限のソースから情報を収集し、処理場所にロードし、実用的なビジネスインテリジェンス(BI)に変換するプロセスです。

  • 抽出 - 最初のステップである抽出は、データ管理アプローチではETLでもELTでも同じように機能します。仮想インフラストラクチャ、ソフトウェア、アプリケーションからのローデータストリームは、完全に、または事前定義されたルールに従って取り込まれます。
  • ロード - ELTとETLが異なるのは、この段階からです。大量のローデータを暫定的な処理サーバーにロードして変換する代わりに、ELTはデータ全体を最終的に配置されるサイトに提供します。これによって抽出とデリバリーのサイクルが短縮される一方で、データが有用なものとなる前にさらに多くの作業が必要とされます。
  • 変換 - データベースまたはデータウェアハウスはデータをソートして正規化し、その一部または全部を手元で保持し、カスタマイズされたレポート作成向けにアクセス可能にします。このように大規模のデータを格納するためのオーバーヘッドは大きくなりますが、関連するBIについてカスタムのマイニングをほぼリアルタイムで実行する機会が生まれます。

では、ELTを選択すればよいのかと言うと、企業の既存のネットワークアーキテクチャー、予算、クラウドとビッグデータテクノロジーの活用度によっては、必ずしもその限りではありません。しかし、次の3つの焦点領域のいずれかまたはすべてが該当する場合は、ELTが最適な選択肢となる可能性が高いと考えられます。

  1. 取り込みのスピードが決定的に重要な場合。ELTでは、データがオフサイトで処理され、ロードされるのを待つ必要がありません。データのロードと変換を並行して実行できるので、取り込みプロセスが大幅に加速し、ローデータのデリバリがETLよりも迅速に行われます。
  2. インテリジェンスが多ければ多いほど望ましい場合。データをBIに変えることのメリットは、隠されたパターンを実用的な情報に明確化する能力にあります。履歴データをすべて取得することで、タイムライン、売上パターン、季節変動など、組織にとって重要となる新しい測定基準に沿ってマイニングを実行できます。データはロード前に変換されないため、すべてのローデータにアクセスできます。通常、クラウドデータレイクにはローデータストアがあり、次に洗練(変換)されたデータストアがあります。たとえば、データサイエンティストはローデータにアクセスすることを好むのに対し、ビジネスユーザーは正規化されたデータからBIを得たいと考えます。  
  3. 将来拡張する必要があることがわかっている場合。Hadoopやクラウドデータウェアハウスなどのハイエンドのデータ処理エンジンを使用している場合、ELTはネイティブの処理能力を活用して拡張性を向上できます。

ETLとELTは、いずれもローデータからBIを導き出す有効性が実証されている方法論です。しかし、どのようなテクノロジーにも当てはまることですが、クラウドによってELTの課題に対する取り組みのあり方が変わってきています。 

クラウドでELTを使用するメリット

クラウドの機能拡大に伴って、多くの業界専門家が最終的にオンプレミスのデータセンターは時代遅れとなるだろうと考えるようになっています。クラウドは以下の機能を提供することで、ELTでは当然のものと考えられていた障害を克服します。

  • 拡張性 - 従来のオンサイトのデータセンターでは、ELT機能によってローカルの処理とストレージの能力が急速に圧迫され、高価なハードウェアのアップグレードと調整中の計画ダウンタイムが必要になる可能性があります。 iPaaS(integration Platform-as-a-Service)やSaaS(Software-as-a-Service)のような、仮想のクラウドインフラストラクチャやホステッドサービスによって、組織は臨機応変にリソースを拡張できるようになっています。大規模なデータ変換タスクでも、これらの機能によって必要とされるコンピューティングの時間とストレージ容量が追加されます。
  • (ほぼ)シームレスな統合 - クラウドベースのELTは、クラウドプラットフォームの他のサービスやデバイスと直接的にやりとりするため、進行中のデータのマッピングのような従来は複雑であったタスクが劇的に簡素化されます。かつては非常に難しかった課題も、単純で対話的なグラフィカルインターフェイスとして表示し、すべての重要な情報を一目で把握できるようになっています。
  • オープンソース - 最高のELTソリューションは、ライブのオープンソースクラウドプラットフォームの力を活用し、企業全体で改善、セキュリティ、コンプライアンスを推進するために連携します。オープンソースのELTによって、グローバルな専門家コミュニティはネットワークで発生する(または発生する前の)データの問題を排除できるようになります。
  • 所有コストの削減 - ETLが標準であったとき、機能拡大はコスト拡大を意味していました。処理能力とストレージのリソースを増やすことはそのままコストの増加を意味し、ハードウェアへの大規模な投資が必要でした。このアプローチでは、日常業務では一部しか使用しないにもかかわらず、将来必要になるかもしれない最大限の備えに対するコストを先行して支払わなければならず、おのずと限界がありました。

ほとんどのクラウドサービスと同様に、クラウドベースのELTは従量制です。つまり、大規模なETLジョブが処理されるときはコンピューティングとストレージのコストが高くなりますが、最小限の負荷で動作している場合はほとんどコストがかからなくなります。年間を通して平均化すると、総所有コストがはるかに低くなります。特に、先行投資を必要としない点も合わせて考慮すると、大きなコストメリットがあります。

上記をはじめとする多くのメリットを持つクラウドによって、企業がそれぞれ独自の方法でビジネスインテリジェンスを創出する状況と方法が再定義されつつあります。

ELTを使用する際によくおこる課題

タスクを適切に遂行するためには、適切なツールと専門知識が必要です。どのようなタスクでも、生産プロセスの早い段階でミスが起こると、プロジェクトの進捗に従って問題が大きくなります。ELTのアーキテクチャーを損なう可能性がある落とし穴として、一般的な課題を以下に紹介します。

  • セキュリティのギャップ - ペタバイト規模のデータを移動し、すべてのアプリケーションやユーザーがデータにアクセスできるようにすることには、セキュリティのリスクが伴います。安全な設計アプローチは、企業のあらゆるレベルでセキュリティを統合し、データセットの破損や侵害によってデータウェアハウスが感染しないように保証します。
  • コンプライアンスへの対応 - HIPAA、PCI、GDPRのようなコンプライアンスの枠組みが拡大する中で、義務化された監査を実施して基準を満たしていることを証明するよう、組織への圧力が高まっています。どのようなELTアプローチでも、国内および国際的な規制への抵触を回避するよう、コンプライアンスが設計に含まれていなければなりません。
  • リソースの増大 - ビジネスインテリジェンスのためのマイニングにデータウェアハウスを使用することは、メリットであると同時に、すべてのデータを維持しなければならないという当然の問題ももたらします。クラウドプロバイダーと従量制の料金体系によって、ビッグデータをこれまで以上に手頃な価格で活用できるようになりました。しかし、運用する情報が無限に増大するのを抑制するための計画がなければ、階層化されたストレージ価格設定であっても、コストの増大を引き起こす可能性があります。
  • データガバナンスの欠如 - データガバナンスがない - ELTプロセスを通過するデータのセキュリティが重要であるのと同様に、「データガバナンスの5W」も重要です。 Who:組織内のマスターデータ管理を制御するのは誰か? What:どのようなデータが収集/保管されるのか? When:概観と監査はいつ行われるのか? Where:データはどこに保存されるのか? Why:ELTの取り組みがビジネスパフォーマンスに良い影響を与えるのはなぜか?

重要事項をあらかじめ考慮することで、責任あるELTのプラクティスが生まれ、日々の成果に影響を与える豊かな情報活用のためにビジネスを準備できます。

ELTとETLのまとめ

15年以上にわたり、Talendは全世界のパートナーにビジネス変革に必要なツールを提供しています。世界有数の企業でも高い信頼度で使用され、世界中でサポートされている無償のプラットフォームのTalend Open Studio for Big Dataに、どのような大規模のELTジョブもお任せください。

Talendのビッグデータ向けツールでELTやETLを開始しましょう。Talendの活用方法について、お問い合わせください。

Talendを使う準備はできていますか?