データファブリックとは何か?

ここ数か月で、データ管理と分析の流行語一覧に「データファブリック」という用語が追加されました。 実際、Gartnerは最近「データファブリック」を「2019年のデータと分析テクノロジーのトレンド トップ10」の1つに認定しました。皆さんは他の新しいテクノロジーの用語と同じように、「データファブリックとは何だろう?」「なぜ必要なのだろう?」と思われるかもしれません。

データファブリックを最も簡単な言葉で説明すると、統一されたアーキテクチャーと、そのアーキテクチャー上で動作するサービスやテクノロジーで構成された、企業のデータ管理を支援する単一の環境のことです。 データファブリックの最終的な目標は、データの価値を最大限に高め、デジタルトランスフォーメーションを加速することです。

データファブリックの目標

データファブリックとは、複数の場所やデータの種類、データソースを接続して、データにアクセスするための方法を提供する、広い空間に張られた織物のようなものと考えてください。 データは、データファブリック内で移動しながら処理、管理、保存することができます。 また、あらゆる企業のさまざまな分析や業務のユースケースのために、社内外のアプリケーションからデータにアクセスしたり、データをアプリケーションに共有したりできます。ユースケースには予測のための高度な分析や製品開発、セールスとマーケティングの最適化などが含まれます。 目標は多数ありますが、いくつか例を挙げると、より高度なモバイルアプリと対話を通じた顧客エンゲージメントの向上や、データ規制の遵守、サプライチェーンの最適化などです。

もちろん、細部が肝心です。 実際のデータファブリックの構成要素は、使う人の役割(アナリスト、経営幹部、データエンジニア、データサイエンティスト、事業部門のデータアナリスト)によって異なります。 しかしデータファブリックによって、分散データ環境内のデータのアクセス、取得、統合、共有が可能になるという前提は、広く受け入れられています。 具体的には、データファブリックは次を行います。

  • 事前にパッケージ化されたコネクターとコンポーネントを介してあらゆるデータソースに接続し、コーディングを不要にします
  • 2つまたはそれ以上のデータソースやアプリケーション間での、データ取得やデータ統合の機能を提供します
  • バッチ、リアルタイム、ビッグデータのユースケースに対応します
  • 複数の環境(オンプレミスやクラウド、ハイブリッド、マルチクラウド)を、データソースおよびデータの利用者として管理します
  • 組み込みのデータクオリティ、データプレパレーション、データガバナンス機能を提供します。これは機械学習で強化された自動化によって支えられています
  • APIサポートを介した、社内外の関係者へのデータ共有をサポートしています

データはあらゆる企業の競争優位性を向上させる

私たちは、ビジネスとイノベーションが過去に前例のないスピードで変化する時代を生きています。 この枠組みの中では、あらゆる企業を成功と繁栄に導く競争優位性はデータによって高まります。企業はビジネスニーズと顧客のニーズを満たすために、データを素早く提供する必要があります。 事実、最近のForresterの調査によると、インサイト主導型の企業は年平均で30%以上の成長率を達成しています。

このことを踏まえて、新たな収益源の創出や事業の効率化によるコスト削減などのさまざまな方法により、データから更なる価値を得ようとする企業が増えています。 しかし、クラウドやモノのインターネット(IoT)が普及し、ストレージや処理のコストがますます安価となったことで、データはオンプレミスのデータセンターに縛られなくなりました。 データの量と種類が増え、データがより多くの場所に存在するようになると、管理が非常に難しくなります。

データ管理の課題

こうした環境の中で成功を収め、データ駆動型の企業となることは容易ではありません。 デジタルリーダーになるまでの過程には、多くの障害があります。 企業で使用するアプリケーションが増えるにつれて、データのサイロ化はますます進み、当初の範囲を超えてアクセスできなくなります。 レガシーなインフラストラクチャーやシステムでは、問題は悪化する一方ですが、クラウドへの移行を試みたとしても、データがサイロ化する可能性はあります。 異なるパブリッククラウド(AWSやAzureなど)に存在するデータの間や、パブリッククラウドとオンプレミスのデータセンターの間、あるいはすべてクラウドデータウェアハウスに保存されているデータの間でデータ共有を行うのは、特に困難となる可能性があります。

今日の典型的な企業は、データをオンプレミスの複数の場所や、複数のパブリッククラウドまたはプライベートクラウドに保存しています。 データには構造化データと非構造化データの両方があり、ファイルシステムやリレーショナルデータベース、SaaSアプリケーションなどのさまざまな形式で保持されています。 そしてそのデータの処理は、バッチのETLやELT処理から、変更されたデータキャプチャー、リアルタイムストリーミングまで、多くのテクノロジーにまたがっています。 企業の約4分の3(74%)は、6個以上のデータ統合ツールを使用しているため、データを素早く取得、統合、分析、共有し、新たなデータソースを組み込むことは企業にとって非常に困難となります。

データの量とデータソースが増加し続けるにつれて、問題は悪化するばかりです。 その結果、データ専門家はその時間の75%をデータ分析以外の作業に費やしています。 これは、企業がデータをタイムリーに最大限活用する能力を大きく阻害するだけでなく、極めて無駄で非生産的なデータ専門家の時間の使い方でもあります。

企業のデータへの素早いアクセスを妨げる障害だけでなく、データ自体の信頼性の確保を難しくする問題も多くあります。 実のところ、企業のデータの約半数には整合性の問題があります。 そして、基になるデータに欠陥があるデータに依存して業務を行ってしまうと、10倍のコストが発生します。

データファブリックによる救助

データファブリックを導入してデータの収集、ガバナンス、統合、共有を管理することで、企業は上記のような課題に対応し、デジタルリーダーになることができます。 データファブリックは、特定のデータ統合や管理の問題を単発で修正するものではありません。 統一された環境下ですべてのデータを管理する、恒久的かつスケーラブルなソリューションです。

データファブリックを導入すると以下のことが可能となり、企業は最終的に自社のデータ管理の課題に対処して、デジタルリーダーとなることができます。

  • データの場所や保存方法によらず、すべてのデータにアクセスしてデータを収集できる単一の環境を提供することで、データサイロを解消します
  • 複数のツールを排除して信頼できるデータへのアクセスを迅速化することで、データ統合や品質、ガバナンス、共有などのデータ管理を、よりシンプルで一元化されたものにします
  • スケーラビリティを向上させ、ますます増大するデータ量やデータソース、アプリケーションに対応できるようにします
  • オンプレミス、ハイブリッド、マルチクラウド環境と、これらの環境間での高速な移行をサポートすることで、クラウドの活用を容易にします
  • 従来のインフラストラクチャーやソリューションへの依存を軽減します
  • 既存の接続やデプロイメントを中断することなく、新たなデータソースやエンドポイント、新しいテクノロジーをデータファブリックに追加可能であるため、データ管理インフラストラクチャーの将来の動作が保証されます

信頼できるデータを迅速に実現する方法

Talend Data Fabricは、ネイティブなアーキテクチャーを備えた統一された環境により、現代のデータ駆動型企業が必要とする広範な機能を提供します。組み込みのデータ整合性によって、変化に迅速に適応できます。 Talend独自の差別化要因により、妥協を強いられることなく信頼性とスピードを両立することが可能になります。

統一された環境

Talendでは、すべてのニーズに対応できる統一された環境を提供しており、生データを信頼できるデータに変換するのに役立ちます。 Talend Data Fabricなら、複数のデータ統合製品や契約、サポートの仕組みが不要になります。 データの検出や取得から、複数のソースからのデータ統合、データのクレンジングと整合性の確保、そして最終的にはデータの分析と関係者への共有が可能になります。

ネイティブコード生成

Talendは、データパイプラインの構築時に最適化されたJava/Spark/SQLのネイティブなコードを生成するため、業界大手のプラットフォームのすべてを活用できます(AWS、Azure、Snowflakeなど)。 それに加えて、業界をリードするアプリケーションや環境向けに用意された、Talendの1,000を超える組み込みのコネクターとコンポーネントにより、コード作成やパイプライン構築時の作業が容易になります。

オンプレミスでもクラウドでも

さらに、Talend Data Fabricはオンプレミス環境とクラウド環境の両方でネイティブに動作するように設計されています。 Talendを実行して、OracleやSAPなどのオンプレミスのバックオフィス環境と、AWSやAzure、Google Cloud、Snowflakeのようなクラウド環境の両方からデータを取得して統合しましょう。 DockerやKubernetesによるコンテナや、Databricks、Qubole、Spark、サーバーレスコンピューティングによる高度な分析のような、新しいクラウドベースのテクノロジーを迅速に活用できます。

広範囲にわたるデータクオリティとガバナンス

Talend Data Fabricでは、データ管理の各ステップにデータクオリティが統合されています。データの検出と取得や、データスチュワードシップへのTalendの利用、データクレンジングのためのロールの整備、あるいはコンプライアンスと整合性を確保するためにデータリネージの追跡が必要な場合でも、データクオリティが保証されます。 Talend Data Fabricでは、IT部門とビジネス部門が連携して、セルフサービスのデータ管理を使用してデータを共有できるように設計されています。

データファブリックとは何か、そしてその仕組みについて詳しくご理解いただけたと思いますので、Talend Data Fabricの無償トライアルをダウンロードいただき、お客様のデータで何が実際にできるのかをご確認ください。

Talendを使う準備はできていますか?