データプロファイリングとは?

ツールと実例

データの健全性は、データがどれだけ十分にプロファイリングできているかにかかっています。データクオリティの評価によって、わずか3%のデータしか品質基準を満たしていないことが明らかになりました。すなわち、データの管理が不十分であるために、企業は時間やお金を無駄にしたり、データの潜在能力を活用できなくなったりして、数百万ドルもの損失を被っているということです。

健全なデータとは、データを使う必要のある人が簡単に見つけて理解することができる有用なものであり、あらゆる企業はその実現のために努力すべきです。データプロファイリングによって、チームはデータを体系化して分析することが可能となり、データから得られる価値を最大化して、市場における明確な競争力を獲得できます。この記事では、データプロファイリングのプロセスについて掘り下げ、それが生データをビジネスインテリジェンスおよび実用的なインサイトへと変換するのにどう役立つのかについて見ていきます。

データプロファイリングの基礎

データプロファイリングとは、データを調査および分析して、有用なデータのサマリーを作成するプロセスのことです。このプロセスによって、データクオリティ上の問題やリスク、全体的なトレンドを特定するのに役立つ大局的な概要を作成できます。企業はデータプロファイリングによって得られる、データに対する極めて重要な知見を活用して、優位性を確立できます。

具体的には、データプロファイリングではデータを選別して、その正当性と品質を判定します。分析アルゴリズムがデータセットの特性(平均、最小、最大、パーセンタイル、頻度など)を検出し、データを極めて詳細に検査します。その後、分析を行って、度数分布やキーのリレーションシップ、外部キー候補、関数従属性のなどのメタデータを明らかにします。最後に、得られたすべての情報を使用して、各要因がビジネスの基準や目標にどのように整合しているのかを明らかにします。

データプロファイリングを行うことで、顧客データベースで頻繁に発生する、大きな被害をもたらすエラーを排除できます。こうしたエラーには、null値(不明な値や欠落している値)、含まれるべきでない値、異常に高い値や低い値、想定されるパターンに従っていない値、通常の範囲から外れた値などがあります。

データプロファイリングがどのようにデータ整合性リスクの低減に役立つのかをご確認ください。

データプロファイリングがもたらす4つのメリット

低品質なデータによって、企業は収益の30%以上の損害を受ける可能性があります。多くの企業にとってそれは、数百万ドルもの無駄なコストが発生し、戦略の再検討を強いられ、評判に傷がつくことを意味します。では、データクオリティの問題はどのようにして生じるのでしょうか?

多くの場合、その原因は見落としです。企業は時としてデータ収集と業務管理に忙殺され、データの有効性と品質が損なわれます。結果として生産性は低下し、売り上げの機会が失われ、収益向上のチャンスを逃してしまう可能性があります。このような状況で役立つのが、データプロファイリングツールです。

データプロファイリングアプリケーションが導入されると、重要な知見をノートパソコンから直接利用できるようにするために、データの分析やクレンジング、更新が連続的に行われます。具体的には、データプロファイリングは以下のメリットをもたらします。

データクオリティと信頼性の向上

データを分析したら、アプリケーションによって重複や異常を排除できます。ビジネス上の選択に影響を及ぼす可能性のある有益な情報を特定し、企業のシステム内に存在する品質上の問題を明らかにするとともに、企業の将来の健全性に関する確かな結論を導き出すこともできます。

予測的な意思決定

プロファイリングされた情報を使用すると、小さな誤りが大きな問題に発展するのを食い止めることができます。また、新たなシナリオによって起こりうる結果を明らかにすることもできます。データプロファイリングによって、ある時点での企業の健全性を正確に把握し、より正しい情報に基づく意思決定を行うことが可能になります。

予防的な危機管理

データプロファイリングによって、問題を素早く、場合によっては発生する前に特定し、対処することが可能になります。

体系化されたソート

ほとんどのデータベースは、ブログやソーシャルメディア、その他のビッグデータ流通場所を含む、多種多様なデータセットとの間でデータのやり取りを行います。データプロファイリングを行うことで、元のデータソースまで遡ってトレースし、安全のための適切な暗号化を確実に施すことができます。その後、データプロファイリング担当者はこれらの異なるデータベースやソースアプリケーション、テーブルを分析して、データが標準的な統計手法や特定のビジネスルールに従っていることを確認できます。

企業は利用可能なデータと欠落しているデータ、そして必要なデータの間の関係を理解することによって将来の戦略を策定し、長期的目標を決定できます。データプロファイリングアプリケーションにアクセスすることで、これらの活動を合理化できます。

データプロファイリングの種類

データプロファイリングアプリケーションは一般的に、データベースに関する情報の体系化と収集を通じてデータベースを分析します。その際、カラムプロファイリング、クロスカラムプロファイリング、クロステーブルプロファイリングといったデータプロファイリング手法が用いられます。ほとんどのプロファイリング手法は、以下の3つのうちのいずれかに分類されます。

  • 構造検出 — 構造の検出(または分析)は、データが一貫していて、正しい形式となっているかどうかを判断するのに役立ちます。基本的な統計を使用して、データの妥当性に関する情報を提供します。
  • コンテンツ検出 — コンテンツ検出はデータクオリティに着目します。データの形式を整えて標準化し、既存のデータと適切に統合する作業を迅速かつ効率的に行う必要があります。たとえば、住所や電話番号の形式が間違っていると、一部の顧客に連絡できなくなったり、配送先を間違えたりする可能性があります。
  • リレーションシップ検出 — リレーションシップ検出は、異なるデータセット間の関係性を特定します。

実際のデータプロファイリングの事例

膨大な量のデータを利用できる現代の企業は、時として収集した情報に圧倒されてしまいます。その結果、データを十分に活用できておらず、データの価値と有用性が損なわれています。データプロファイリングによって、ビッグデータの体系化と管理が可能となり、その潜在能力を最大限に引き出して強力な知見を得ることができます。Talendはまさに、企業のこの活動を支援しています。

ドミノ・ピザに押し寄せるデータ

14,000近い店舗を展開するドミノ・ピザは、2015年の時点で既に世界最大のピザチェーン運営企業でした。しかし同社は、AnyWare注文システムの稼働を開始したことにより、突如として莫大な量のデータに対応する必要に迫られました。ユーザーがスマートウォッチやテレビ、カーエンターテインメントシステム、ソーシャルメディアプラットフォームなど、ほとんどあらゆる種類のデバイスやアプリから注文できるようになったためです。

これは、ドミノ・ピザに対してデータが全方位から押し寄せるということでした。データの分析を最適化してデータクオリティを改善するために、ドミノ・ピザでは信頼性の高いデータプロファイリングを活用して、同社のすべてのPOSシステムからのデータを収集して分析するようになりました。その結果、同社は顧客基盤に対する深い知見を得て、不正検知プロセスを強化し、業務効率を大幅に改善して、売り上げを拡大しました。

カスタマーロイヤルティを実現するデータクオリティ

オフィス・デポは、オンラインで出店するとともに実店舗運営も継続する戦略をとっています。そのため、冊子のカタログ、オンラインのWebサイト、カスタマーコールセンターの3つのチャネルからの情報を組み合わせる、データ統合が不可欠です。

特に、オフィス・デポではデータプロファイリングを使用して、データが同社のデータレイクに入る前にデータのチェックと品質管理を行っています。オンラインデータとオフラインデータを統合することで、360°の完全な顧客ビューがもたらされます。また、バックオフィス機能部門全体に対しても高品質なデータを提供しています。

健全なデータによる顧客ライフタイムバリューの向上

Globe Telecomは、フィリピンで9,420万人を超えるモバイル回線の顧客と、200万人を超える家庭用ブロードバンド回線の顧客に対して接続サービスを提供しています。市場シェア拡大のチャンスが限られていたGlobeにとって、既存の顧客基盤を深く理解し、それぞれの顧客のライフタイムバリューを成長させることは極めて重要でした。

Globeは必要とする顧客の知見を得るために、データアナリティクスなどの用途に適した健全なデータを入手する必要がありました。しかし、データのスコアリングなどの領域では当時、既存のデータの検証とデータクオリティルールの適用をスプレッドシートやオフラインのデータベースを使用して手作業で行っており、健全なデータの入手が困難でした。

現在Globeでは、データクオリティ、データエンジニアリング、データガバナンスを包含する、データのためのセンター・オブ・エクセレンスを運用しています。Talendは同社に対して、データスコアリング、データプロファイリング、データクレンジングの機能を提供しています。  Globeでは健全なデータによって、データクオリティのスコアリング頻度が月に1回から毎日に向上し、信頼できるメールアドレスが400%増加したのに加えて、1リードあたりのコストが30%削減、コンバージョン率が13%増加、クリックスルー率が80%増加というマーケティング活動あたりのROIの向上を実現できました。

データレイクとクラウドを活用するデータプロファイリング

膨大な量のデータをクラウドに格納する企業が増えるにつれて、効果的なデータプロファイリングの必要性もこれまで以上に高まっています。クラウドベースのデータレイクにより、企業は既にペタバイト規模のデータを格納できるようになりました。また、モノのインターネット(IoT)によって、私たちの家や衣服から使っているテクノロジーに至るまで、拡大し続けるソースから膨大な量の情報が収集されることによってデータ容量が増大しています。

現代の市場は、クラウドネイティブなビッグデータ機能によって推進される傾向が強まっています。そうした市場の中で競争力を維持するには、すべてのデータを活用できる態勢を整える必要があります。コンプライアンス基準の対応から、卓越したカスタマーサービスで知られるブランドの確立まで、データストアの管理において成否を分けるのはデータプロファイリングです。

プロファイリングをスタートする

データプロファイリングは手作業で行う必要はありません。実のところ、プロファイリングのプロセスを最も効率的に管理する方法は、データ管理ソリューションを使用して自動化することです。データプロファイリングツールは、エラーを除去してデータプロファイリングプロセスに一貫性をもたらすことによって、データの整合性を向上させます。Talend Data Fabricの機能を使用すると、手間のかかるハンドコーディングのプロセスを必要とせずに、ほとんどあらゆるソースからデータをデータウェアハウスに抽出し、処理してプロファイリングできます。

無償試用版をリクエストして、データ統合への最短ルートをご確認ください。

Talendを使う準備はできていますか?