データレイクの運用に役立つ5つのベストプラクティス

従来は、収集したデータの管理、保存、処理のためにデータウェアハウスを使用するのが一般的でした。しかし、ビッグデータの登場によって、これらのシステムは負荷が増大し、能力が追いつかず、ストレージコストが高くなりました。このため一部の企業は、データレイクと呼ばれる新タイプのリポジトリにデータを移行するようになりました。

データレイク構造は、データウェアハウスやデータマートなどの他のタイプのデータリポジトリに比べて、内部、外部、構造化、非構造化など、あらゆるタイプのデータを格納できるため、多くのメリットをもたらす傾向があります。データレイクの構造が不足し、柔軟性が向上しているため、リポジトリのモデルとクエリを比較的簡単に変更できるだけでなく、変化するビジネスニーズに基づいて構造を再構成することも可能です。

構造上のメリットに加えて、データレイクはアクセシビリティとデータの民主化を改善する傾向もあります。通常、データレイクの主なユーザーはデータサイエンティストになりますが、リポジトリにより、誰でも効率的かつ迅速に企業データから知見を導き出すことができます。このようなアクセシビリティは、反復的な調査をサポートします。したがって、構造化されておらず、柔軟なソリューションを必要とする問題の答えを見つけるうえで、データレイクは最適な候補となります。

データリポジトリに理想的な選択肢です。

データレイクが自分にも自社のビジネスに適していると判断したら、さっそく使用を開始しましょう。ここでは、データレイクをセットアップするためのベストプラクティスと、データ統合ツールを活用して長期的な成功を確保する方法について説明します。

データレイクの使用開始

ビジネス目標をサポートするデータレイクを構築するには、最初にいくつかの基本的な質問に答えて、組織のニーズを特定する必要があります。

データはどこにありますか？
どのような種類のデータがありますか？
データはどのように扱われていますか？
データは正確で安全ですか？
特定のテクノロジーやベンダーに縛られないようにするため、どのような回避策をとることができますか？
将来の業界のイノベーションをどのように活用できますか？

データの状態を理解することに加えて、誰がデータにアクセスし、どのようにデータにアクセスするかを考慮する必要があります。これは、データレイクの主なメリットがデータに簡単にアクセスできることであるためです。

これらの要因を評価し、理想的なデータ管理戦略を確立したら、現在の要件をサポートし、将来のデータストレージニーズに合わせて拡張できるデータリポジトリを作成する準備が整います。

データレイクの移行における5つのステップ

データレイクと管理ソリューションの増加に伴い、市販のツールを購入して終わらせたくなったとしても無理はありません。しかし、ストレージと管理システムの確立を成功させるには、次の戦略的ベストプラクティスに従う必要があります。

1）将来のデータ量を考慮して拡張する

利用可能なデータの量は膨大であり、日々増加しています。データレイクが現在および将来のデータプロジェクトをどのように処理するかを考慮する必要があります。これは、パフォーマンスに影響を与えることなく、数百または数千の新しいデータソースの管理、クレンジング、管理を、効率的かつコスト効果の高い方法で実行するために、十分な開発者と適切なプロセスを確保することを意味します。

2）ビジネス成果に焦点を当てる

ビジネスにとっての重要事項を理解していなければ、企業の変革も実現できません。組織のコアビジネスのイニシアチブを理解することは、データレイクの課題、ユースケース、アナリティクス、データ、および基盤となるアーキテクチャーとテクノロジーの要件を特定するための鍵です。

3）データチームを拡大する

データの品質は、ITチームだけでなく、さまざまな部門の個人が関与する全社的な戦略的優先事項になりつつあります。不良データはビジネスアナリストに影響を与えることが多いため、ビジネスユーザーをデータクオリティプロセスに関与させることが理にかなっています。ビジネスアナリストは、ビジネスニーズに適したデータを選択するための専門知識とスキルを備えています。セルフサービス型のアクセスを提供することにより、データレイクが主要目的の一部を確実に満たすよう支援します。

4）インフラストラクチャを将来に対応させる

ビジネスニーズは常に変化しているため、データレイクも他のプラットフォームで実行する必要が生じる可能性があります。同じ組織でも、チームが異なれば、ニーズとリソースに基づいて異なるクラウドプロバイダーを使用することが多いため、ほとんどの企業はマルチクラウドのインフラストラクチャで運用しています。

皆さんの組織にもこれが当てはまる場合は、テクノロジーの選択肢が変化しても俊敏性を維持できる柔軟な戦略を選択して、データインフラストラクチャが対応できるようにする必要があります。データボルトを使用することで、新しいタイプのデータを継続的にオンボーディングするための柔軟性を提供できるので、多くの場合に健全なアプローチとなります。

5）データガバナンス戦略を策定する

データレイクが構築されてからデータの品質について考えるのでは遅すぎます。最初から適切に作成されたデータガバナンス戦略を持つことは、ビッグデータプロジェクトの基本的なプラクティスであり、一貫性のある共通のプロセスと責任を確保するのに役立ちます。まず、慎重に制御する必要があるデータについて、ビジネス推進要素を特定し、この取り組みから期待されるメリットを把握します。この戦略が、データガバナンスのフレームワークの基礎となります。

最適なデータ統合ツールを見つける方法

データレイクへの移行は、複雑になることがありますが、データ統合ツールは、遭遇する可能性のあるほとんどの課題を克服するのに役立ちます。ソリューションを選択するときは、データの取り込みから共有まで、エンタープライズデータ管理のすべてのステップをサポートできるソリューションを探してください。データ管理ツールは次の機能を持っている必要があります。

あらゆるデータソースに接続し、新しいソースを簡単に追加する
高性能で安全な方法でデータを処理する
バッチおよびリアルタイムのデータを任意の速度で処理する
機械学習およびデータクオリティのツールを組み込んでいる
データガバナンス、メタデータ管理、データリネージ追跡の機能を組み込んでいる
ビジネスユーザーから熟練したデータサイエンティストまで、誰でもアクセスできるセルフサービスツールを提供する
どのようなクラウドまたはオンサイトのプラットフォームでも実行できる
データボルトの機能とサービスを組み込んでいる

これらすべてのチェックポイントに合致するツールを見つけることは、データレイクのセットアップの成功を支援するだけでなく、ビジネスに最適な方法でデータレイクを簡単かつ効率的に維持するうえで役立ちます。

Lenovo社、クラウドデータレイクで収益を11%向上

世界最大級のPCベンダーであるLenovo社は、全世界数百万の顧客それぞれについて360°ビューを獲得するため、年間220億件以上の構造化/非構造化データのトランザクションを分析しています。この膨大な顧客情報から、革新的な新製品の創出に応用できる実際のビジネス知見を得ることに手を焼いていたLenovo社は、Talendと提携しました。これにより、リアルタイム予測アナリティクスをサポートする俊敏なクラウドデータレイクを構築できました。

利用可能なすべてのデータを1つのリポジトリにまとめることで、Lenovo社のアナリティクスチームは60以上のソースからのデータにアクセスできるようになり、顧客体験の向上と競合他社との差別化を実現しています。クラウドデータレイクのプロジェクトは、ユニットあたりの収益を11%向上させ、1年以内に運用コストを100万ドル以上削減し、生産性を2倍以上に高め、レポート作成と処理の時間を数時間から数分に短縮するといった、測定可能な成果を出しています。

他の多くの組織は、クラウドデータレイクに移行することが、ビッグデータの力を活用するための正しい選択であることを認識しています。データレイクが必要かどうかはもはや問題ではなく、どのソリューションを展開するかが問題になっています。生データを貴重な知見に変換するための完全なプラットフォームを提供するのがTalend Cloudです。

Talendソリューションは、実証済みの手法とオープンスタンダードのアプローチに沿って、データレイクの展開で通常遭遇する多くの障害を取り除きます。ハンドコーディングを減らすことで、移植性と保守の問題を解決します。さらに、高度なプラットフォームにより、日常的なタスクを自動化できるため、開発者は機械学習などの価値の高い作業に集中できます。

効率的なデータ管理構造に取り組む準備はできましたか？Talend Cloud Integrationの無償トライアルで、ビジネスKPIに役立つデータレイクの構築を開始しましょう。

Talendを使う準備はできていますか？

営業に連絡する