データ完全性とは? その重要性とは?

想像してみてください。製薬会社が画期的な新薬の安全性を宣伝しています。しかし、FDAがオフショアの製造施設を検査したところ、直ちに操業が止まりました。重要な品質管理データが欠けていたのです。残念ながら、データ完全性の不備というこの実例は珍しいものではありません。データの正確性と一貫性をめぐる課題はすべての業種が抱えており、軽微なものからビジネスに甚大な影響を与えるものまで、あらゆる問題を引き起こす可能性があります。

このビッグデータの時代には、これまで以上に多くの情報が処理され保存されるようになり、収集されたデータ完全性を維持するための方策を実施することの重要がますます高まっています。データ完全性の基礎とその仕組みを理解することは、データを安全に保つための最初のステップです。ここでは、データ完全性とは何か、なぜ重要なのか、そしてデータを損なわないために何ができるのかについて説明します。

データ完全性とは?

データ完全性は、データの全体的な正確性、完全性、一貫性を指します。また、GDPR準拠などの規制準拠やセキュリティに関するデータ安全性も指します。これは、設計段階で実装された一連のプロセス、ルール、標準によって維持されます。データ完全性が確保されていれば、データベースに格納されている情報は、格納されている期間やアクセス頻度に関係なく、完全で正確、そして信頼性の高い状態を保ちます。データ完全性は、データがいかなる外部の影響からも保護されていることも保証します。

データ完全性の種類

データ完全性には、物理的完全性と論理的完全性の2種類があります。どちらも、階層型データベースとリレーショナルデータベースの両方でデータ完全性を強化するプロセスと手法の集合です。

物理的完全性

物理的完全性は、データの保存および取得時における全体性と正確性の保護です。自然災害が発生したり、停電したり、ハッカーがデータベース機能を妨害したりすると、物理的な完全性が損なわれます。人的ミス、ストレージの腐食などの多数の問題により、データ処理マネージャー、システムプログラマー、アプリケーションプログラマー、内部監査人が正確なデータを取得できなくなる可能性もあります。

論理的完全性

論理的完全性により、リレーショナルデータベースでデータがさまざまな方法で使用される際もデータは変更されません。論理的完全性は、人的ミスやハッカーからもデータを保護しますが、その方法は物理的完全性とは大きく異なります。論理的完全性には4つの種類があります。

エンティティ完全性

エンティティ完全性は、主キー、つまりデータの一部を識別する一意の値の作成に依存し、データが複数回リストされないようにし、テーブル内のフィールドがnullにならないようにします。これは、リンクによりさまざまな方法で使用できるテーブルにデータを格納するリレーショナルシステムの機能です。

参照完全性

参照完全性とは、データが一様に保存・使用されるようにするための一連のプロセスを指します。外部キーの使用方法に関してデータベースの構造に埋め込まれたルールによって、データの適切な変更、追加、削除のみが行われるようになります。ルールには、重複するデータの入力を排除する、データが正確であることを保証する、適用されないデータの入力を禁止するといった制約などがあります。

ドメイン完全性

ドメイン完全性は、ドメイン内の各データの正確性を保証するプロセスの集まりです。この文脈において、ドメインとは、列に含めることが許可された一連の許容値です。入力されるデータのフォーマット、タイプ、量を限定するための制約やその他の対策などがあります。

ユーザー定義完全性

ユーザー定義完全性には、特定のニーズに合うようにユーザーが作成したルールと制約が含まれます。エンティティ完全性、参照完全性、ドメイン完全性がデータを保護するのに十分でない場合もあります。特定のビジネスルールを考慮に入れ、データ完全性の方策に組み込む必要がしばしばあります。

データ完全性に含まないもの

データ完全性についてさまざまに論じる中で、真の意味があやふやになりがちです。データセキュリティやデータクオリティがデータ完全性として誤って語られることがありますが、それぞれの用語には異なる意味があります。

データ完全性はデータセキュリティではない

データセキュリティは、データの破損を防ぐための一連の対策です。有害な方法または意図しない方法でデータを使用する可能性がある他者がデータにアクセスできないようにするシステム、プロセス、手続きの使用を取り入れます。データセキュリティの侵害には、小規模で簡単に封じ込めることができるものも、大規模で甚大な損害を引き起こすものもあります。

データ完全性は、情報が存在している間中、その情報が損なわれないように正確に保つことに関係しますが、データセキュリティの目的は外部からの攻撃から情報を保護することです。データセキュリティは、データ完全性の多くの側面の1つにすぎません。時間の経過とともにデータが変更されないようにするためには、多くのプロセスが必要とされます。それらを包含するほどデータのセキュリティの範囲は広くありません。

データ完全性はデータクオリティではない

データベース内のデータは、貴社が定義した標準とビジネスのニーズを満たしていますか? データクオリティは、データの古さ、関連性、正確性、完全性、信頼性を評価する多彩なプロセスにより、これらの課題に対応します。

データセキュリティと同様に、データクオリティはデータ完全性の一部にすぎませんが、非常に重要です。データ完全性はデータクオリティのすべての側面を網羅し、データの入力、保存、転送などの方法を管理する一連のルールとプロセスを実装することによって、さらに広範な領域を対象とします。

データ完全性とGDPRコンプライアンス

データ完全性は、GDPRのようなデータ保護規制に準拠するための鍵です。これらの規制を遵守しない場合、企業は大きな罰金を科される可能性があります。場合によっては、多額の罰金に加えて告訴される可能性もあります。コンプライアンス違反が繰り返されると、廃業に追い込まれる可能性さえあります。

幸い、GDPRなどのデータ保護法への準拠に必要なデータ完全性を保証する方法があります。GDPRコンプライアンスへの実践的なステップのシリーズをご覧ください。

データ完全性のリスク

データベースに格納されているデータの完全性に影響を与える可能性がある要因には、さまざまなものがあります。例をいくつか挙げます。

  • 人的ミス:個人が誤った情報を入力したり、データを複製または削除したり、適切なプロトコルに従わなかったり、情報保護の手順の実行中にミスを犯したりすると、データ完全性が危険にさらされます。
  • 転送エラー:データベース内のある場所から別の場所にデータを正常に転送できなかった場合は、転送エラーが発生します。リレーショナルデータベースの転送先テーブルにデータが存在し、転送元テーブルには存在しない場合に、転送エラーが発生します。
  • バグとウイルス:スパイウェア、マルウェア、ウイルスは、コンピューターに侵入してデータを改ざん、削除、窃取することが可能なソフトウェアです。
  • ハードウェアの侵害:突然のコンピューターまたはサーバーのクラッシュ、コンピューターなどのデバイスの機能にかかわる問題は、重大な失敗の例です。これらはハードウェアの侵害を示唆している可能性があります。ハードウェアが侵害されると、データが誤った方法または不完全な方法で処理されたり、データへのアクセスが制限/排除されたり、情報が使いにくくなったりする可能性があります。

データ完全性のリスクは、以下を行うことで容易に最小化または排除できます。

  • データへのアクセスを制限し、権限を変更して権限のない者による情報への変更を制限する
  • データの収集時と使用時の両方でデータが正しいことを確認するための検証を行う
  • データをバックアップする
  • ログを使用してデータがいつ追加され、変更され、または削除されたかを追跡する
  • 定期的な内部監査を実施する
  • エラー検知ソフトウェアを使用する

データ完全性への取り組みをスタート

従来の方法で自社のデータ完全性を保護することは、非常に大きなタスクのように思えるかもしれません。安全なクラウドベースのデータ統合プラットフォームは、すべてのデータに対してリアルタイムの可視性を提供する最新の代替手段となります。業界をリードするクラウド統合ツールにより、複数のソースのデータアプリケーションを接続して、1つの場所でデータすべてにアクセスできます。

データガバナンスガイド決定版では、データ完全性のためのフレームワークを確立する方法を紹介しています。

Talendを使う準備はできていますか?