世界中の企業は、ますますデータに依存しています。しかしながら、日々データに囲まれていることと、データを活用して日々のビジネスにおける意思決定を行うことには隔たりがあります。基本的なビジネス目標を達成するには、高品質で信頼できるデータ、つまり健全なデータに基づいて対策を講じるしかありません。ですが、私たちはビッグデータの時代に生きており、組織が管理するデータが多くなれば、そのデータの健全性を維持することが難しくなります。

多くの人は、健全なデータはクリーンで完全であり、各種法規制の要件に準拠していなければならないということを直感的に理解しています。ですが、残念なことに、これらの要素だけでは、データがビジネス上の意思決定に活用できる状態にあることを保証できません。ほとんどの組織では、データの健全性を測定することはできません。そして、健全性を測定できないデータに依存するのは愚かなことです。データの健全性の意味を理解しているつもりでも、データの健全性の定義や評価に苦労していることも問題です。

データの健全性について明確に定義することから始めましょう。

データの健全性の定義

データの健全性とは、企業が保有するデータの状態と、データが効果的かつタイムリーな意思決定とビジネス目標に対してどの程度対応しているかを示すものです。組織のデータが健全であることを把握するには、データが有効かつ完全で、意志決定者がビジネス上の意思決定を行う際に安心して頼ることができる分析を行えるだけの十分な品質であることを証明できなければなりません。

Talendが考えるデータの健全性とは、テクノロジーと行動を組み合わせてデータの測定と管理を行い、見つけやすさ、分かりやすさ、そして価値を向上させることです。健全なデータとは、組織内のあらゆる人が必要なときに必要な情報にアクセスでき、そのデータの妥当性を気にせずに使用できることを意味します。

医療システムと同じように、データの健全性にはライフサイクル全体にわたる監視と介入が含まれます。データの健全性については、予防、処置、そして支援の枠組みで考えています。

  • 予防ケア:データに関する課題を先回りして特定する
  • 効果的な処置:データの信頼性に関する問題とリスクを体系的に解決する
  • 支援文化:協力してデータを守るという規律を構築する

データのビジネス価値を証明するデータの健全性指標を使用すると、組織は運用のほぼすべての側面を改善できます。

  • セールスとマーケティング分析の強化
  • データガバナンスとコンプライアンスへの対応
  • 業務プロセスの改善
  • カスタマーエクスペリエンスの変革
  • 360度エンゲージメントの促進
  • 機械学習とAIの実現

健全なデータが存在しなければ、これらのプロセスはすべてうまくいきません。業務の根拠として使用するデータが不正確、管理されていない、または古くなっている場合、お客様への適切な対応、セールスサイクルの短縮、プロセス改善を行うことはできません。データが健全でないと、企業の意思決定における時間と品質が犠牲になり、余分なコストがかかり、収益に悪影響を与える可能性があります。ビッグデータが使用できるまでにスケールアップすると、データの健全性はますます重要になります。ビッグデータを扱う企業にとって、健全性指標を策定することは極めて重要です。

では、データの健全性はどのように判断すればいいのでしょうか?

データの健全性を測定する

データの健全性を考える上で、データの品質は重要なポイントになります。 DAMA UK(国際データマネジメント協会英国支部) では、データ品質の測定に使用される6つの観点を定義しています。

  • 正確性 —記述している現実世界のオブジェクトやイベントを正確に表している度合い

    • 例:従業員の給与計算は実労働時間に基づいて行われているか?
  • 完全性 —保存されているデータの割合は、潜在的な全データに対して100%網羅していること

    • 例:住所レコードの各フィールドには、宛先に郵送物を送る上で必要なデータがすべて入力されているか?郵便番号はすべて入力されているか?国名は入力されているか?
  • 一貫性 — 1つの定義に対して、複数の表現に差異がないこと

    • 例:特定の部門が組織再編後に消滅した場合でも、その部門に属するデータが1つのテーブルに入力されているか?
  • 適時性 — 要求する時点の現実を表している度合い

    • 例:販売統計に基づいて予算を決定する場合、意志決定者はどのくらい早く売上データを入手できるのか?
  • 一意性— アイテムやエンティティのインスタンスが、特定された方法に基づいて複数回記録されていないこと
    • 例:システムのレコード更新時、最新情報で元のレコードの複製が作成されていないことを確認できるか?
  • 妥当性または整合性 — 定義されている構文規則(フォーマット、型、範囲)に準拠している度合い

    • 例:「1000 Data Way」という住所は有効ですが(必ずしも正確ではありません)、「/03H8 Data Way」という住所は無効。

データチームは、データが健全であると見なすために必要なデータ品質レベルを独自で評価して、データの利用者に対してその品質レベルを証明し、ユーザーが自信を持って使用できるようにする必要があります。データが有効であっても、利用できない、または信頼できなければ、依然としてビジネス上の意思決定を支援していないということを忘れないでください。このようなデータは健全なデータではありません。

データの健全性はビジネスに対するデータの価値を測るものであるため、透明性と利便性は品質と同じように重要です。意思決定者が必要なデータをすぐに利用できない場合、その組織は対象のデータを保有していない可能性があります。一方で、個人を特定できる情報(PII)に関するデータプライバシーが適用される場合があります。このような場合は、一部のデータを権限のないユーザーから隔離することをお勧めします。テクノロジープラットフォームのデータガバナンスを強化して、ビジネス専門家にデータスチュワードとして協力してもらうと、データの正確性とセキュリティを同時に向上させることができます。

組織におけるデータの健全性指標には、合理性や整合性といった他の要素が含まれている場合があります。どのような要素を含めるにしても、重要なのは、データを信頼できるものにし、企業全体で利用できるようにすることです。各観点での評価が高くなれば、データはより健全であると判断できます。

データの健全性評価

測定する内容は理解しましたが、データの健全性はどのように評価しますか?

データの健全性における全体的な体系は、データ品質で使用されている国際測定基準に依存しています。標準の測定基準を使用すると、データの信頼性や使用可能性に関する評価が可能になります。先に述べたように、企業データの作成担当者は、データが品質基準を満たしているという点を把握するだけでは不十分です。エンドユーザーは、データ品質を証明する指標があって初めて、自分の判断を心から信頼できるのです。

Talendが2021年に実施した Data Health Survey(データの健全性に関する調査)では、自社はデータ品質基準を使用していると確信しているエグゼクティブは半数以下であることが明らかになりました。エグゼクティブの約3分の1は基準の文書化は行っていないと回答し、19%以上は分からないと回答しています。業界を超えて世界で使用されているデータ品質基準の必要性を感じているかという質問に対しては、95%のエグゼクティブが「はい」と回答しています。

組織がSaaSのプラットフォーム、データベース、公開用Webサーバーで管理しているデータ量を考えると、すべてのデータセットに存在するすべてのレコードを誰かに調べてもらうことは不可能です。これを行うには、データ統合機能とガバナンス機能を兼ね備えたデータプラットフォームを導入するのがベストです。

このソフトウェアを使用すると、データの健全性に関する測定値を取得できるだけでなく、健全ではないデータを修復することもできます。理想的には、信頼できるデータを即座に把握し、信頼できないデータを修正するツールを備えておくことです。このプラットフォームでは、セルフサービスアクセス、広範なデータ品質ツール、そしてデータフローとデータソースをエンドツーエンドで網羅する包括的なガバナンス機能を提供することにより、データの健全性に関する問題に対処する必要があります。

データはどの程度健全ですか?

組織は意思決定がすぐにできるデータを提供できるという自信はありますか?データの健全性に関する統計に疑問を感じていますか?Talendにお任せください。まずは、データのサブセットをエクスポートして、Talend Trust Assessorで実行する無料診断から始めましょう。この無料サービスでは、データの妥当性、完全性、一意性をすぐに評価します。まず仕組みだけを確認したい場合は、サンプルのデータセットでお試しください。