データの健全性、予後から治療まで

健康的なライフスタイルについて話すとき、私たちは食事や運動以上のものが必要になることを知っています。生涯にわたる健康の実践には、規律と詳細な計画、そして設備が必要です。データの健全性に関しても同様です。健全性プログラム全体をサポートするインフラストラクチャーがなければ、プログラムは意味のないものとなります。健全なデータの慣行を確立するために必要なのは、役割と責任を明確にすること、監視と監査を過度な抵抗なく広範囲にわたって行うこと、そして規制に仕方なく従うのではなく、中核的プロセスに規制をシームレスに統合することです。

私はTalendのCTOとして、データの健全性の問題を解決する方法を考えるのに多くの時間を費やしています。私たちTalendは、評価、改善、指標、予防のための監視といった、データクオリティのサイクル全体に取り組んでいます。そしてまた評価に戻ります。良いデータを目指すプロセスに終わりはないからです。もちろんツールだけでなく、プロセスや人も含まれます。どんな保健制度でも、患者自身が主要な関係者であるのと同じように、データを扱うデータ専門家やその他のユーザーは、データの健全性を実現するソリューションの一部です。データの健全性は、データに触れるすべての従業員に影響を与えるため、データの健全性へのアプローチは広く展開される必要があります。

データクオリティのあらゆる側面を理解することで、良好なデータの健全性を長期的に実践する準備が整います。そして、良好なデータの健全性の実践を組織内で推進すればするほど、誤った決定やセキュリティ漏洩につながるデータの問題のリスクが低下します。

 

「良好な」データには何が入るか?

データの健全性には、データクオリティが不可欠です。従来、データは人による入力またはサードパーティデータの統合によって作り出されるものであり、どちらも誤りが起こりやすく、制御が非常に困難です。さらに、意図されたアプリケーションでは素晴らしく機能するデータであっても、別の用途(多くは分析)のために抽出された場合には客観的な品質上の問題が生じる可能性があります。意図された環境の外では、データは自身をコンテキスト内に配置するビジネスロジックや、文書化されないことの多い一般ユーザーの習慣や回避策、ベストプラクティスから分離されます。意図された環境の外では、データは、その文脈を生み出すビジネスロジックや、文書化されないことが多い一般ユーザーの習慣、回避策、ベストプラクティスから切り離されます。

統合や分析では、さまざまなアプリケーションやデータベースからのデータセットが使用されます。しかし組織には、アプリやデータベース間で一貫性のない規格や、さまざまな埋め込みおよび最適化技術、さらにソース内部では意味があるものの、元のコンテキストから分離されると文書化されていない改変となる過去の回避策も多く存在します。そのため、あるデータフォーマットやコンテンツが、元々のサイロの中では客観的に見て品質問題ではない場合でも、統合や分析プロジェクトのために他のデータと組み合わせて抽出されると、ほぼ確実に品質問題になります。

データクオリティとは、こうした問題に対抗する規律、方法論、テクニック、ソフトウェアを指します。最初のステップは、ユーザーがデータの品質を客観的に評価できるような、明確かつ効率的な測定基準を確立することです。2つ目は、品質問題を未然に防ぐための対策と、データを本来の用途に合わせてさらに効果的なものに改善することです。

データクオリティが全社的な優先事項となると、分析部門は異種のソースからのデータ結合時に特有の課題に対処する必要がなくなり、代わりに組織の最も重要な意思決定に集中できるようになります。

 

データクオリティの測定

データクオリティの観点のカテゴリには、ファイルやデータベース、データレイク、データウェアハウスの全体的な品質を示す、多くの指標が含まれています。学術的な研究では、最大で10のデータクオリティの観点(場合によってはそれ以上)について言及されていますが、実践的には、多くのユーザーにとって重要な要素は5つあります。完全性、適時性、正確性、一貫性、アクセシビリティです。

  • 完全性:データは意図された用途に対して十分に完全ですか?
  • 正確性:データは正しく、信頼でき、ガバナンス機関によって認証されていますか?データの出所とリネージ(データがどこから来て、どのように利用されてきたか)も、この観点に含まれます。あるソースのデータは他よりも正確、あるいは信頼できると見なされるためです。
  • 適時性:データは最新のものですか? 意図された用途に利用できるほど十分新しいですか?
  • 一貫性:データセット全体を通じて、データの一貫した形式が維持されていますか?更新前後やバージョン間でも一定ですか?結合やエンリッチ化できるほど十分に他のデータセットと整合していますか?
  • アクセシビリティ:データを必要とする人がデータを簡単に取得できますか?

これらの各観点は、分析部門にとっての課題に対応します。たとえばデータが現実を明瞭かつ正確に映し出していない場合、誤った意思決定や機会損失、コスト上昇、コンプライアンスのリスクにつながります。

こうした一般的な観点に加えて、事業領域に特有の観点もよく追加されます。多くはコンプライアンスに関してです。

最終的には、データクオリティの測定は複数の観点が関係する非常に複雑な問題となります。この課題に加えて、データソースの量と多様性は、長年にわたり人間のキュレーション能力を上回ってきました。だからこそ、データクオリティの方法論では各観点に対して、計算して組み合わせることでデータ品質の客観的な測定を自動化できる指標を定義します。

この組み合わせ指標には、より主観的な測定も依然として追加できます。これは通常ユーザーに評価を依頼するか、あるいはガバナンスワークフローを通じて行われます。しかしこの手作業でさえも、機械学習と人工知能によって補完される傾向がますます強まっています。

 

データを正しい道筋に乗せる

企業には常に多くのデータが流入するため、データクオリティの評価は継続的なプロセスでなければなりません。データクオリティの評価は通常、データを観察して、関連するデータクオリティ指標を計算するところから始まります。より網羅的に把握するために、多くの企業ではサンプリングやランダムテスト、そしてもちろん広範にわたる自動化といった、従来型の品質管理手法を導入しています。信頼できるデータクオリティの測定には、複雑かつ集約的な計算アルゴリズムが必要です。

しかし企業は、Talend Trust Score™のような、異なる観点をまたいだ集計が可能な品質指標にも目を向けるべきです。データクオリティの問題とその解決方法に重点を置いた静的または動的なレポート、ダッシュボード、ドリルダウン調査(BIと混同しないでください)により、データクオリティの全体像が把握できます。さらにきめ細かい知見を得るために、問題にはタグが付けられるか、または各種の視覚化手法で強調表示されます。また、優れたデータクオリティソフトウェアによって、通知やトリガーなどのワークフロー手法が追加され、データクオリティの問題が発生した際にタイムリーに修復できるようになります。

従来、データクオリティの評価は、データが存在するアプリケーションやデータベース、データレイク、データウェアハウスの上位層で行われてきました。多くのデータクオリティ製品は、データガバナンスのワークフローの一環として、監査のような評価を実行する前に、実際に自分のシステムでデータを収集する必要があります。しかし、多くの企業では扱っているデータが膨大なため、このようなデータの複製は効率的ではありません。さらに重要なことは、システムに取り込まれた後のデータ品質を評価することは、無用なリスクと追加コストを招くことになるということです。

より現代的なアプローチとしては、普遍的なデータクオリティをデータサプライチェーンに直接統合する方法があります。評価をできるだけ上流で行うことで、リスクの早期特定が可能となり、修復にかかるコストも低減されます。だからこそ、Talendは常に、データをデータレイクやデータウェアハウスから移動しないプッシュダウンアプローチを採用し、統合パイプラインの中にデータクオリティ改善プロセッサを統合してきました。

 

常に改善を続ける

データクオリティは、セキュリティ監査や財務監査のような必要悪として、評価という観点からのみ捉えられることがあまりにも多いです。しかし、本当の価値は継続的な改善にこそあります。データクオリティはサイクルであるべきです。すなわち、定期的に(より望ましくは継続的に)評価が実行され、自動化が常に洗練され、劣悪なデータがシステムに入る前にソースの段階で新たなアクションがとられるべきです。

問題が発生した後の対処では依然として非常にコストがかかることに加えて、データの問題に対して事前でなく事後の対応を行っている企業は、不確かな意思決定や機会損失に悩まされることになります。体系化されたデータクオリティ評価は、誤った決定やコンプライアンス上の責任を回避するための大きな一歩となることは間違いありません。評価は前提条件ですが、継続的な改善は終盤を締めくくる重要な段階です。だからこそ継続的な改善は、包括的なデータの健全性の製品を提供するTalendのアプローチの中核を成しているのです。

実際には、根本原因の分析によって明らかになったソースでの修正と、データレイクやデータウェアハウスなどのデスティネーションでの修正は、常にトレードオフの関係にあります。データの入力やアプリケーション、業務プロセスが非効率でも「機能している」限り、企業は変更には乗り気でないかもしれません。オペレーションの変更は難しいものです。長期的にはより効果的で効率的なプロセスになるとしても、誰も請求書発行機や発送機を壊したくはありません。しかし近年、企業がますますデータ駆動型となり、信頼できないデータが危険因子として見なされる傾向が高まるにつれて、この文化も変化し始めています。Talendでも、BIを超えたデータクオリティの改善プロセスを実行する機会が見られます。多くの運用事例から1つだけ例を挙げると、カスタマーサービスの向上や営業効率の向上のために、CRM内のデータの標準化や重複除去を行うなどです。

データクオリティの評価と改善は、相互に密接に絡み合っています。意味抽出のような高度なリバースエンジニアリング手法により、十分に正しく、精度の高いデータクオリティ評価が実現したらと想像してみてください。品質基準から逸脱した場合、プロセス内で対応する改善が自動的に行われるはずです。たとえば、データ形式に一貫性がない場合、対象のデータの種類(例:会社名や電話番号)に該当する標準化プロセスが適用され、クリーンで一貫性のあるデータがワークフローに入力されます。評価が正確かつ完全であればあるほど、同様に適用できる自動化の選択肢が増えます。

どんなガバナンスプロセスもそうであるように、データクオリティの改善にはツール、プロセス、人のバランスをとる必要があります。ツールがすべてではありません。また、すべてのプロセスが自動化できるわけではありませんし、そうすべきでもありません。しかしTalendはData Fabricにより、信頼できるデータ駆動型の意思決定を促進する大きな一歩を踏み出しました。

そして、Talendは方程式における人の存在も無視していません。人間の経験と専門知識は、重要な知見やニュアンスをもたらし、ますますAI主導型となる世界に必要なチェックを入れることができます。データの専門家であってもデータクオリティの専門家ではない人をメンバーとするには、高度に専門化されたワークフローとユーザーエクスペリエンスが必要となりますが、それを提供できる製品はほとんどありません。Talendはこの分野で、Trust Score™やData Inventory、Data Stewardshipなどのツールによって業界をリードしています。こうしたツールは、評価やタグ付けなどの人間が生成したメタデータを使用する、連携型のデータキュレーションを可能にします。

 

データの健全性の処方箋

データの健全性に関しては、身体的健康のたとえが良く当てはまります。健全性と健康の概念には両方とも、完全なライフサイクルと一連の関係者が含まれています。医療機関と患者自身は、経過予測と治療、衛生、予防に責任を負う必要があります。しかし、インフラストラクチャ-や規制、健康保険も保健制度の重要な部分を占めます。

それでは、優れたデータの健全性システムを構築するには何が必要でしょうか?

  • 危険因子の特定。一部のリスク(企業独自のアプリケーション、プロセス、従業員など)は内因性である一方、他のリスク(パートナー、サプライヤー、顧客)は外部からやって来ます。最大のリスクとなる領域を識別することで、危険が生じる前に効果的に予防できます。
  • 予防プログラム。良好なデータの衛生には、良好なデータの慣行と規律が必要です。栄養表示ラベルを例に見ると、標準的な栄養成分表や栄養スコアを一般化することで、所定の食べ物が総合的な健康にどのように影響するかを教えてくれます。これと同じように、Talend Trust Score™はデータ摂取の評価と制御を可能にし、理解しやすく無視しづらい情報を生成します。
  • 事前の予防接種。ワクチンは、感染が始まる前に病原体を認識して戦うことを体に教えるものです。当社のデータインフラでは、機械学習が同様の役割を果たし、不良データや疑わしいソースが定着して当社のプログラム、アプリケーション、分析を汚染する前に、それを認識するようシステムを訓練します。
  • 定期的なモニタリング。医療の分野では、かつては患者の長期的な健康状態をモニタリングする主な方法は年1回の検診でした。活動量や心拍数といった標準的な指標から、糖尿病患者における血糖値レベルのモニタリングといった特定の機能まで、多くの指標を収集できるウェアラブルな医療機器が出現したことで、人体は観察可能になりました。データの世界では、私たちは評価プロファイリングといった用語を使用していますが、基本的には同様です。そしてデータの領域でも、継続的な観測が近い将来現実のものになるかもしれません。問題を早期に発見すればするほど、効果的な治療を行える可能性も高くなります。医学では、それは生死を分ける問題となりえます(アップルウォッチは既に命を救っています)。もちろん危険度は異なりますが、データクオリティの観測が可能になることで、企業の命も救われるかもしれません。
  • 継続的な経過予測のためのプロトコル。医師が適切な治療を処方できるのは、治療する対象がわかっている場合だけです。しかし、(これはデータの健全性に関するもう1つのたとえですが)医学は純粋な自然科学ではありません。経過予測は、常に改訂と改善を必要とするモデルです。この想定はデータの健全性にも適用できるでしょう。データの健全性も継続的な改善を必要とするモデルですが、それを持たないというわけにはいかないのです。
  • 効率的な治療。どんな治療も、常にリスク・ベネフィット評価を行います。効果が潜在的な副作用を上回る場合、治療が推奨されます。これはリスクがゼロの時だけ治療するという意味ではありません。データにもトレードオフがあります。データクオリティによって、プロセスに余分な手順が導入される可能性があります。セキュリティに不可欠なレイヤーは、各種の物事をスローダウンさせるかもしれません。発生頻度が低くて多岐にわたるエッジケースのデータクオリティの問題も存在し、それらは単純な自動化だけでは解決できず、ヒューマンエラーの可能性があるとしても手作業を必要とします。Talendのような優れたデータの健全性の専門家は、こうした事象をまるで医師が行うように両立することに精通しています。

データの健全性に影響を与える要因の全体像を、医学と同じように完全に描き出すことはできないかもしれません。しかし、データクオリティのために利用できる最良のツールとソフトウェアを備えた人材の支援を受けて、継続的な改善の文化を確立することにより、私たちは頻繁に起きる最大のリスクから身を守ることができます。そして、データがパイプラインに入る前の段階で、データライフサイクルにデータクオリティ機能を組み込むことができれば、データがシステム内を流れ、アナリストやアプリケーションによって使用されるに従い、データの健全性を日常の一部とすることができます。

ディスカッションに参加

0件のコメント

Leave a Reply