Jean-Michel Franco

Jean-Michel Franco is Director of Product Marketing for Talend. He has dedicated his career to developing and broadening the adoption of innovative technologies in companies. Prior to joining Talend, he started out at EDS (now HP) by creating and developing a business intelligence (BI) practice, joined SAP EMEA as Director of Marketing Solutions in France and North Africa, and then lately Business & Decision as Innovation Director. He authored 4 books and regularly publishes articles, presents at events and tradeshows and can be followed on Twitter: @jmichel_franco

『データプレパレーションに関するガートナーマーケットガイド2019』の3つの重要点

Jean-Michel Franco          2019年4月26日 ガートナーは、データプレパレーションに関するマーケットガイド2019([1])(2019 Market Guide for Data Preparation)を公表しました。マーケット黎明期の2015年、データプレパレーションが主にセルフサービスのユースケースを支援することを想定していた時代に初めて作られたガイドで、今回が第4版となります。 マジック・クアドラントと比較すると、この マーケットガイドシリーズは主に初期、成熟、または小規模なマーケットを取り上げており、ベンダー間の競争の位置づけに関する情報は少ないですが、マーケットの状況や長期的に見た市場の発展についての情報は充実しています。このような資料では、多くの人がまずベンダーのプロフィールをチェックされるかと思います(Talend Data Preparation も詳細なプロフィールと一緒に紹介されています)。このレポートが提供するリーダーシップについての思考と市場分析にもぜひ注目していただけると幸いです。 組織内でのデータプレパレーションの価値と拡張を成功させる方法について、著者のEhtisham ZaidiとSharat Menonのコメントも参考にしてください。 このレポートを調べた後に、私はデータプレパレーションという刺激的なマーケットでのお客様のニーズに対応する3つの重要な点をお伝えしたいと考えました。   データプレパレーションは、データ管理をチームスポーツへ データプレパレーションの市場が誕生したきっかけは、セルフサービス機能がトレンドになったことでした。これは、TableauやPower BIといった最新のデータディスカバリーツールを使用して権限が与えられていても、ビジネスユーザーが知見を得る前に新しいデータソースを効率よく見つける方法がなかったことから発生しました。ビジネスユーザーはIT部門に頼るか、ガバナンスの十分ではない方法でMicrosoft Excelなどのツールを使用してデータをサイロ化するしかありませんでした。データプレパレーションツールはこうした生産性の面での課題に対応するものでした。 レポートによると、データ専門家やビジネスアナリストは、データから実際に知見を引き出せるようにするために、データの検索や保護の準備に業務時間の80%を費やしています。データプレパレーションは、より多くの関係者がデータ統合やデータ品質管理を利用できるようにすることによって、このような状況を改善するために登場したのです。これは21世紀初頭では大きな課題でしたが、それ以降、データ関連業務はより規模の大きなゲームになっていきました。個人の生産性の問題ではなくなり、データ駆動型の知見の活用に向けた企業文化の育成も重要になってきています。 ガートナーのマーケットガイドは、このような動向に焦点をあて強調したことにあります。手法やツールが完成しつつある現在、データプレパレーションを社内とIT部門の誰もが連携してデータを活用できるチームスポーツにすることが主な課題になっています。結果として、もっとも重要なことは運用です。 ビジネスユーザー、ビジネスアナリスト、データサイエンティストやデータエンジニアが別々にその場しのぎで行っていることを集約し、生産時に十分にガバナンスされた方法で繰り返し実行できる、社内全体で活用できる資産にする必要があります。 最終的にこのアプローチは、データ統合、データ分析やビジネスインテリジェンス、データサイエンス、データウェアハウス構築、データ品質管理といった会社全体での取り組みに役立ちます。   スマートな人にはスマートなツールを…逆もまたしかり ガートナーのマーケットレポートでは、データカタロギング、パターン認識、スキーマオンリード、機械学習といった最新鋭のテクノロジーがツールに組み込まれていることも強調しています。 これによってスキルの低いユーザーでもデータを使って複雑な活動ができるようになり、一方でデータ変換、統合、照合や復旧は、それらが繰り返し作業になった時点で自動化できるようになりました。 さらに興味深いのは、ガートナーがこうしたテクノロジーのイノベーションを市場の収束に結び付けているということです。レポートでは次のような予測が書かれています。 「2024年までには、機械学習によって強化されたデータプレパレーション、データカタログ、データ統一化およびデータ品質管理ツールは、統合された最新のエンタープライズ情報管理プラットフォームにまとめられるだろう」。 実際、データプレパレーションを特定のビジネスユーザーを対象にした単独の規律であると考えるのは思い違いといえるでしょう。むしろ、潜在的にはあらゆる人が作業に関与できるようにする機能が整っていることから、情報管理における革新的テクノロジーとみなすべきです。革新的なテクノロジーを活用し、企業は新しい共同作業を通じてデータバリューチェーンを組織することができます。 Talendでは「コラボレーション型データ管理」と呼び、このマーケットガイドでのガートナーを含む一部のアナリストはDataOpsとして言及している手法です。 データ品質管理を例にとってみましょう。 多くの企業では、データ品質の対応に苦労しています。中央IT部門やCDOオフィスといった中央組織の少人数しかいないデータ品質管理の専門家に頼りすぎるアプローチをとっているためです。こうした専門家は、データ品質プロファイリングの調整や復旧では重要な役割を果たしますが、社内で最もデータを熟知しているというわけではありません。データの取得源に近いところで働いている同僚に、データクリーニング作業の一部を依頼する必要があります。こうした人々が手軽なデータプレパレーションツールを使えると、データ品質管理の効率は非常に高くなります。   ハイブリッドクラウドの価値 ガートナーはまた、革新的なPaaS(Platform as a Service)デプロイメントモデルを通じて提供されるデータプレパレーションに対する顧客の需要の高まりを把握しています。ガートナーが強調するのは、基本的なSaaSを超えるはるかに洗練されたデプロイメントモデルが必要であるということです。 レポートでは「企業が必要としているのは、事前にデータを移動させなくても、もっとも意義のある場所でデータプレパレーションを行うことができるような柔軟性が必要である」と説明しています。 …

Read Article

ビッグデータガバナンスとメタデータ管理を成功させるためのTalendの5本の柱

| 2016年10月10日 | Data Management / Data Governance Hadoop MDM / Metadata ビッグデータ統合

  本シリーズの前回の記事では、データガバナンスによりビッグデータイニシアティブを持続可能な成功に導くための6つの鍵を検討しました。 これらの6つのステップは、TDWIが最近発表した「Governing Big Data and Hadoop(ビッグデータの管理とHadoop)」というレポートで明らかにされたものです。 このレポートは、独立した立場から課題とベストプラクティスについて取り上げていますが、Talendによる課題への具体的な取り組みについては明記していません。シリーズ第2回となるこの記事では、前回述べた6つの重要課題に対して、Talend Data Fabricの統一プラットフォームを構成する各主要コンポーネントがどのように対処できるかについて説明します。これを、メタデータ管理のためのTalendの5本柱と呼びます。 Talend Studioで設計するメタデータ メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータがなければ、情報サプライチェーンの包括的で活用可能なビューを作成する方法はありません。 メタデータは、場合によっては遡ってエンジニアリングすることもできますが、作成後のメタデータを即座にソースで収集、処理、保守、追跡する方がはるかに簡単です。 Talendを使用する場合、データフローはビジュアルなメタデータ駆動型環境で設計されます。 これによって、開発と展開が加速するだけではありません。データフローが実行されると、情報サプライチェーンの詳細なビュー(データの元の場所、保存場所、データポイント間の依存関係)が提供されます。 Map ReduceやSpark等の多くの強力なデータ処理環境は、SQL等の従来のデータ管理標準と違ってメタデータ駆動型ではないため、これはビッグデータの領域では非常に重要です。 Talend Open Studioのような高レベルの抽象化を提供し、ゼロコーディングアプローチを採用しているツールがなければ、Hadoopのデータ駆動型プロセスの管理、ガバナンス、保護は非常に難しくなります。 Talend Open Studioとその集中リポジトリは、常に最新のバージョンのデータフローを維持してデータ設計者や開発者の間で共有し、Cloudera Navigator、Apache Atlas、Talend Metadata Manager等の他のツールにエクスポートして、より広範なデータワーカーに公開できます。この最後の点に関する詳細は後述します。 さらにTalendは、開発者がデータ管理の全ての分野(データ統合、ビッグデータ統合、アプリケーション統合、クラウド統合、データクオリティ及びMDM、セルフサービス型データプレパレーション)を単一プラットフォームで使用することを可能にしています。これによってIT部門は、オンプレミスまたはクラウドの従来のデータとビッグデータの両方で、保存データと実行データの両方についてデータフローのグローバルビューを提供できます。 Talend Metadata Bridgeを使用してデータプラットフォーム全体でメタデータを同期する Talend Metadata Bridgeを使用すると、開発者はTalend Studio(及び、同様にTalend Metadata Manager)からメタデータをインポート及びエクスポートすることができ、ほぼ全てのデータプラットフォームのメタデータにアクセスできます。 100以上のコネクターが用意されているTalend Metadata Bridgeは、モデリングツール(Erwin、Embarcadero等)、ETLツール(Informatica、IBM DataStage等)、SQL及びNoSQLデータベース、Hadoop、人気の高いBI及びデータ検出ツール(Tableau、Qlik、BusinessObjects等、XMLまたはCobol構造等)からメタデータを取得するのに役立ちます。 これらのブリッジにより、開発者は一度設計したデータ構造を、さまざまなツールやプラットフォームにわたって繰り返し伝播させることができます。 これにより、ほとんどのサードパーティツールやプラットフォームからTalendにデータ形式を変換できるため、標準仕様を容易に適用し、変更を伝播させ、移行を容易にすることができます。 たとえば、Oracleテーブルを使用してTalendにインポートし、それをRedshift等の別のサードパーティプラットフォームに伝播させることが可能です。Talend Big Dataは、従来のETLジョブをネイティブのHadoopプロセスに簡単にオフロードできます。 Talend Big DataによりHadoopのガバナンスの課題に対応する Hadoopは、データの拡散を加速するよう設計されています。 また、データ、データ操作、及び関連メタデータの単一の参照ポイントとなる従来のデータベースとは異なり、Hadoopは複数のストレージ及びデータ処理オプションを組み合わせています。 さらに、高可用性戦略の一環として、Hadoopは多くのノードにわたってデータを複製し、処理ステップ間に生データの中間コピーを作成するうえで役立ちます。 …

Read Article

データガバナンスとメタデータ管理によりHadoopの道のりを切り開く6つのステップ

  この記事は、ビッグデータとHadoopの管理に焦点を当てた2部構成シリーズの第1回です。 データ駆動の旅に出発する準備ができていますか。 ビジネスケースとプロジェクトの青写真が明確に定義され、デジタルの変革に向けて経営幹部の支援もすでに取り付けています。 Hadoopに基づく最新のデータプラットフォームを実行する準備も整い、チームはビッグデータの明るい展望を組織内でより広く提供するためにスタート台についています。 しかし、まったく新しい挑戦を想像して躊躇しています。ビッグデータのスピードに対応する準備はできていますか。データレイクのデータの拡散から必然的に生じるリスクを制御する準備はできていますか。現在は少数のデータサイエンティストだけがアクセス可能なデータラボを、誰でもアクセスでき、重要なビジネスプロセスにシームレスに接続する、広く共有されるセルフサービス型のセンターオブエクセレンス(CoE)に拡張する準備はできていますか。 好むと好まざるとにかかわらず、セキュリティ、文書化、監査、トレーサビリティに関してエンタープライズが抱える従来の課題に対処しない限りは、取り組みを成功させる準備が整っているとは言えません。その一方で、ビジネス上の大きなメリットをもたらすための最新の方法として、データガバナンスによりHadoopイニシアチブを活用できるという朗報があります。 多様な新しいビッグデータの管理における6つ緊急課題への対応 Hadoopのデータガバナンスに関連する潜在的な利点とベストプラクティスを完全に理解するためにTalendが委託したTDWIのレポートでは、ビッグデータプロジェクトの成功を保証するための6つの柱が明らかにされています。 1.  データを危険にさらすことなく、幅広いユーザーにビッグデータのアクセシビリティを提供する。 セルフサービス型のアプローチとツールにより、ITリーダーは、データワーカーやアナリストが自律的に独自のデータプロビジョニングを実行できるように推進できます。しかし、このサービスを管理された拡張性の高い方法で提供するガバナンスの枠組みを最初に構築することなく、データ準備ツールをビジネスユーザーに引き渡すことは適切ではありません。 2.  スマートな発見と探索によりデータの取り込みを加速する。既存のデータプラットフォームを使用して新しいデータセットをオンボードし、適切なオーディエンスに公開するには、数週間、場合によっては数か月かかります。 現在、新しい「スキーマオンリード」のアプローチにより、ITとデータの専門家はデータのオンボードをデータ到着時に実行できます。 これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。 3.  これが完了すると、すぐにデータワーカーのコミュニティ全体がデータに即時にアクセスできるようになり、いつでも臨機応変にデータの発見、モデリング、接続、調整を柔軟に実行できます。メタデータは、データ駆動型アプリケーションの重要要素であり、文書を埋め込むことでデータアクセシビリティを高め、生データにコンテキストを組み合わせて解釈を強化し、異種データポイント間を接続してデータから意味と知見を引き出します。 さらに、情報サプライチェーン全体の制御とトレーサビリティを実現します。現代のデータプラットフォームは、メタデータのキャプチャー、ステッチ、クラウドソース、及びキュレーションの新しい方法を提供します。 4.  データ管理の分野を共通のプラットフォームに統合する。 サイロはエンタープライズデータの価値を破壊し、品質とセキュリティの両方のリスクをもたらします。 T多様な統合形式にわたって一元的な制御とアクセスを確立しながら、データユーザーの責任を分散する必要があります。 5.  Hadoopの柔軟性を検討する一方で、ガバナンスの課題に注意する。 Hadoopは、より大規模で多様なデータをより迅速に処理して、より俊敏な方法でより多くのユーザーに配信できます。 しかし、極端に大規模、高速、広範囲での運用が可能になった現在、データのトレーサビリティと監査性、保護、文書化、ポリシー適用等を習得する必要があります。これらの課題に完全に対応するため、メタデータ駆動型プラットフォームと併せてApache AtlasやCloudera Navigatorのような環境を検討する必要があります。 6.  変化、継続的なイノベーション、多様性に対する準備を整える。ITシステムは、モノリシックからマルチプラットフォームへと進化しています。SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。   SQLデータベースはもはや、データのモデリング、保存、リンク、処理、アクセスの全てに対応する環境ではありません。 このシリーズの第2回では、Talend Big Data、Metadata Manager、Talend Data Preparation、及びTalend Data Fabricを使用して、Talendがどのようにこれらの課題に取り組むかをご案内します。

Read Article