注目の投稿

Talend Summer ’21:企業が健全なデータを実現するためのさらなる手段

詳細情報
注目の投稿

データは健全ですか?

詳細情報
注目の投稿

データの健全性、予後から治療まで

詳細情報
注目の投稿

正しいデータについての問題をついに解決できます。

詳細情報
注目の投稿

15歳になったTalendは、データに関わる作業を自動化し続けます

詳細情報

Talend Summer ’21:企業が健全なデータを実現するためのさらなる手段

企業がデータに求めるものと、実際にデータから得ることのできる成果との間のギャップは、ますます広がっています。企業はあまりに長い間、誤った課題に取り組んできました。データをA地点からB地点に移動した後で、問題を場当たり的に修正してきたのです。しかしこの方法では、そもそもデータを修正しなければいけないという根本的な問題の解決にはなりません。これらの問題が未解決のまま放置される期間が長ければ長いほど、ダメージはより深刻なものとなり、損失も増大します。 データの健全性の向上に向けて企業文化全体をシフトさせること、すなわちデータの検索性とわかりやすさ、そしてその価値の向上に向けてデータの測定と管理をすることで、企業の損害を防止できます。今回発表するTalend Data Fabricの一連の革新的な新機能は、最新のデータ環境への移行を加速し、データガバナンスにおけるコラボレーションを促進して、データセキュリティを向上させることにより、企業の健全なデータの実現を支援します。   最新のデータ環境への移行を加速 Talend Data FabricがSpark 3上のDatabricks 7.3 LTSとAWS EMR 6.2に対応したことで、高度なデータ分析とデータ共有に関する機能が拡張されました。これにより、TalendのユーザーはSpark 3による並外れたパフォーマンスと使いやすさ、そして非常に高い柔軟性を備えた最先端のデータおよび分析プラットフォームを活用できるようになります。また、AWSおよびAzure上のCloudera CDP Public Cloudに対応範囲が拡張されたことで、ユーザーはCloudera Data HubおよびHortonworks Data Platformのオンプレミスの実装から、CDP Public Cloudに移行する際にかかる時間を削減することが可能となり、ビッグデータワークロードにおけるクラウドによる効率化の恩恵を直ちに得ることができます。 データ共有の面では、企業の社内外へのデータ共有がかつてないほど簡単になります。ガートナーによると、データ共有の拡大に成功した企業は、検証可能な価値を1.7倍効果的に得ることができます。さらに、データ共有を推進させる企業は2023年までに、ほとんどのビジネスバリューの指標においてそうでない企業を上回ると予想しています。 データ共有をさらに推進させるために、TalendではAPIとドキュメントの一元的なリストを提供する、セルフサービスのAPI Portalの提供を開始しました。この機能により、社内外でのAPIの開発と採用が加速し、データを社内のデータユーザーやパートナー、サプライヤー、顧客に容易に共有できるようになり、データが民主化されるとともにその価値を最大化できます。   ポータルにより、ユーザーは以下のことが可能になります: アプリ開発チーム全体でのAPIやドキュメント、データ構造の共有が容易になり、開発者の生産性と共同作業の効率が最大化する ドキュメントの自動生成により、オンボーディングとサポートにかかる時間を最小限に抑える APIの検索、理解、トライを容易にすることによってAPIの採用を後押しし、多くのチームやシステム、アプリケーション間のデータ共有と共同作業を促進する それだけではありません。Talend Data Fabricのパフォーマンスを向上させて利用しやすくする、以下の拡張も含まれています: ストリーミングタスク設計時の、ルートとデータサービスに関する新しいライブでのデバッグ機能 Talend Data Mapperでの複数の出力におけるフラット化マッピングの改善。マッピングを高速化するステップバイステップのウィザードと「ベストオプション」の推奨により、生産性を向上させる Python 3プロセッサのサポートによる、クラウドネイティブなアプリでの高度な変換のための一般的なライブラリへのアクセスの提供   データガバナンスにおける大規模な共同作業 健全なデータへと向かう道のりには、ガバナンスが徹底された高品質のデータによるサポートが必要です。データクオリティとデータガバナンスの確保は、IT部門とビジネス部門の専門家との間が分断されている多くの企業にとって困難な課題です。だからこそTalendは、Talend Data Stewardshipを使用する際には、誰もがデータをより健全にすることに貢献できるよう、新しいコラボレーションの方法を導入しています。 まず、データクオリティとデータガバナンスを監督するビジネス部門の専門家は、IT部門の介入なしでTalend …

続きを読む

データは健全ですか?

企業がデータから得る必要があるものと実際にデータから得られるものが全く異なるということは、特に目新しい事実ではありません。。 当社の最近の調査によると、企業の役員のほとんどがデータを毎日利用していますが、そのデータを常に信頼できている人は、わずか40%に過ぎません。 また役員の78%が、データ駆動型の意思決定を行う上で課題を抱えていることも明らかとなりました。 どの企業も、かつてないほど大量のデータを収集しており、データの不足が問題であるはずはありません。 問題なのは、行動に使用するための準備が整っていないデータが多すぎるということです。 データにアクセスできない、データが信頼できない、あるいはデータを十分に理解できない状況であるとすれば、ビジネスリーダーの3分の1が、データではなく直感に頼って意思決定していると言うのも不思議ではありません。 もっと良い方法があるはずです。 私たちが「データの健全性」と呼んでいる考え方を通じて、企業はデータをより深く理解し、同じ意識と言葉を使ってデータクオリティ(データの品質向上)にとりくむことができます。 この新しいアプローチによって、誰もが企業データの健全性維持に参加できるようになり、データに安心して意思決定のガイド役を任せられるようになります。    

続きを読む

データの健全性、予後から治療まで

健康的なライフスタイルについて話すとき、私たちは食事や運動以上のものが必要になることを知っています。生涯にわたる健康の実践には、規律と詳細な計画、そして設備が必要です。データの健全性に関しても同様です。健全性プログラム全体をサポートするインフラストラクチャーがなければ、プログラムは意味のないものとなります。健全なデータの慣行を確立するために必要なのは、役割と責任を明確にすること、監視と監査を過度な抵抗なく広範囲にわたって行うこと、そして規制に仕方なく従うのではなく、中核的プロセスに規制をシームレスに統合することです。 私はTalendのCTOとして、データの健全性の問題を解決する方法を考えるのに多くの時間を費やしています。私たちTalendは、評価、改善、指標、予防のための監視といった、データクオリティのサイクル全体に取り組んでいます。そしてまた評価に戻ります。良いデータを目指すプロセスに終わりはないからです。もちろんツールだけでなく、プロセスや人も含まれます。どんな保健制度でも、患者自身が主要な関係者であるのと同じように、データを扱うデータ専門家やその他のユーザーは、データの健全性を実現するソリューションの一部です。データの健全性は、データに触れるすべての従業員に影響を与えるため、データの健全性へのアプローチは広く展開される必要があります。 データクオリティのあらゆる側面を理解することで、良好なデータの健全性を長期的に実践する準備が整います。そして、良好なデータの健全性の実践を組織内で推進すればするほど、誤った決定やセキュリティ漏洩につながるデータの問題のリスクが低下します。   「良好な」データには何が入るか? データの健全性には、データクオリティが不可欠です。従来、データは人による入力またはサードパーティデータの統合によって作り出されるものであり、どちらも誤りが起こりやすく、制御が非常に困難です。さらに、意図されたアプリケーションでは素晴らしく機能するデータであっても、別の用途(多くは分析)のために抽出された場合には客観的な品質上の問題が生じる可能性があります。意図された環境の外では、データは自身をコンテキスト内に配置するビジネスロジックや、文書化されないことの多い一般ユーザーの習慣や回避策、ベストプラクティスから分離されます。意図された環境の外では、データは、その文脈を生み出すビジネスロジックや、文書化されないことが多い一般ユーザーの習慣、回避策、ベストプラクティスから切り離されます。 統合や分析では、さまざまなアプリケーションやデータベースからのデータセットが使用されます。しかし組織には、アプリやデータベース間で一貫性のない規格や、さまざまな埋め込みおよび最適化技術、さらにソース内部では意味があるものの、元のコンテキストから分離されると文書化されていない改変となる過去の回避策も多く存在します。そのため、あるデータフォーマットやコンテンツが、元々のサイロの中では客観的に見て品質問題ではない場合でも、統合や分析プロジェクトのために他のデータと組み合わせて抽出されると、ほぼ確実に品質問題になります。 データクオリティとは、こうした問題に対抗する規律、方法論、テクニック、ソフトウェアを指します。最初のステップは、ユーザーがデータの品質を客観的に評価できるような、明確かつ効率的な測定基準を確立することです。2つ目は、品質問題を未然に防ぐための対策と、データを本来の用途に合わせてさらに効果的なものに改善することです。 データクオリティが全社的な優先事項となると、分析部門は異種のソースからのデータ結合時に特有の課題に対処する必要がなくなり、代わりに組織の最も重要な意思決定に集中できるようになります。   データクオリティの測定 データクオリティの観点のカテゴリには、ファイルやデータベース、データレイク、データウェアハウスの全体的な品質を示す、多くの指標が含まれています。学術的な研究では、最大で10のデータクオリティの観点(場合によってはそれ以上)について言及されていますが、実践的には、多くのユーザーにとって重要な要素は5つあります。完全性、適時性、正確性、一貫性、アクセシビリティです。 完全性:データは意図された用途に対して十分に完全ですか? 正確性:データは正しく、信頼でき、ガバナンス機関によって認証されていますか?データの出所とリネージ(データがどこから来て、どのように利用されてきたか)も、この観点に含まれます。あるソースのデータは他よりも正確、あるいは信頼できると見なされるためです。 適時性:データは最新のものですか? 意図された用途に利用できるほど十分新しいですか? 一貫性:データセット全体を通じて、データの一貫した形式が維持されていますか?更新前後やバージョン間でも一定ですか?結合やエンリッチ化できるほど十分に他のデータセットと整合していますか? アクセシビリティ:データを必要とする人がデータを簡単に取得できますか? これらの各観点は、分析部門にとっての課題に対応します。たとえばデータが現実を明瞭かつ正確に映し出していない場合、誤った意思決定や機会損失、コスト上昇、コンプライアンスのリスクにつながります。 こうした一般的な観点に加えて、事業領域に特有の観点もよく追加されます。多くはコンプライアンスに関してです。 最終的には、データクオリティの測定は複数の観点が関係する非常に複雑な問題となります。この課題に加えて、データソースの量と多様性は、長年にわたり人間のキュレーション能力を上回ってきました。だからこそ、データクオリティの方法論では各観点に対して、計算して組み合わせることでデータ品質の客観的な測定を自動化できる指標を定義します。 この組み合わせ指標には、より主観的な測定も依然として追加できます。これは通常ユーザーに評価を依頼するか、あるいはガバナンスワークフローを通じて行われます。しかしこの手作業でさえも、機械学習と人工知能によって補完される傾向がますます強まっています。   データを正しい道筋に乗せる 企業には常に多くのデータが流入するため、データクオリティの評価は継続的なプロセスでなければなりません。データクオリティの評価は通常、データを観察して、関連するデータクオリティ指標を計算するところから始まります。より網羅的に把握するために、多くの企業ではサンプリングやランダムテスト、そしてもちろん広範にわたる自動化といった、従来型の品質管理手法を導入しています。信頼できるデータクオリティの測定には、複雑かつ集約的な計算アルゴリズムが必要です。 しかし企業は、Talend Trust Score™のような、異なる観点をまたいだ集計が可能な品質指標にも目を向けるべきです。データクオリティの問題とその解決方法に重点を置いた静的または動的なレポート、ダッシュボード、ドリルダウン調査(BIと混同しないでください)により、データクオリティの全体像が把握できます。さらにきめ細かい知見を得るために、問題にはタグが付けられるか、または各種の視覚化手法で強調表示されます。また、優れたデータクオリティソフトウェアによって、通知やトリガーなどのワークフロー手法が追加され、データクオリティの問題が発生した際にタイムリーに修復できるようになります。 従来、データクオリティの評価は、データが存在するアプリケーションやデータベース、データレイク、データウェアハウスの上位層で行われてきました。多くのデータクオリティ製品は、データガバナンスのワークフローの一環として、監査のような評価を実行する前に、実際に自分のシステムでデータを収集する必要があります。しかし、多くの企業では扱っているデータが膨大なため、このようなデータの複製は効率的ではありません。さらに重要なことは、システムに取り込まれた後のデータ品質を評価することは、無用なリスクと追加コストを招くことになるということです。 より現代的なアプローチとしては、普遍的なデータクオリティをデータサプライチェーンに直接統合する方法があります。評価をできるだけ上流で行うことで、リスクの早期特定が可能となり、修復にかかるコストも低減されます。だからこそ、Talendは常に、データをデータレイクやデータウェアハウスから移動しないプッシュダウンアプローチを採用し、統合パイプラインの中にデータクオリティ改善プロセッサを統合してきました。   常に改善を続ける データクオリティは、セキュリティ監査や財務監査のような必要悪として、評価という観点からのみ捉えられることがあまりにも多いです。しかし、本当の価値は継続的な改善にこそあります。データクオリティはサイクルであるべきです。すなわち、定期的に(より望ましくは継続的に)評価が実行され、自動化が常に洗練され、劣悪なデータがシステムに入る前にソースの段階で新たなアクションがとられるべきです。 問題が発生した後の対処では依然として非常にコストがかかることに加えて、データの問題に対して事前でなく事後の対応を行っている企業は、不確かな意思決定や機会損失に悩まされることになります。体系化されたデータクオリティ評価は、誤った決定やコンプライアンス上の責任を回避するための大きな一歩となることは間違いありません。評価は前提条件ですが、継続的な改善は終盤を締めくくる重要な段階です。だからこそ継続的な改善は、包括的なデータの健全性の製品を提供するTalendのアプローチの中核を成しているのです。 実際には、根本原因の分析によって明らかになったソースでの修正と、データレイクやデータウェアハウスなどのデスティネーションでの修正は、常にトレードオフの関係にあります。データの入力やアプリケーション、業務プロセスが非効率でも「機能している」限り、企業は変更には乗り気でないかもしれません。オペレーションの変更は難しいものです。長期的にはより効果的で効率的なプロセスになるとしても、誰も請求書発行機や発送機を壊したくはありません。しかし近年、企業がますますデータ駆動型となり、信頼できないデータが危険因子として見なされる傾向が高まるにつれて、この文化も変化し始めています。Talendでも、BIを超えたデータクオリティの改善プロセスを実行する機会が見られます。多くの運用事例から1つだけ例を挙げると、カスタマーサービスの向上や営業効率の向上のために、CRM内のデータの標準化や重複除去を行うなどです。 データクオリティの評価と改善は、相互に密接に絡み合っています。意味抽出のような高度なリバースエンジニアリング手法により、十分に正しく、精度の高いデータクオリティ評価が実現したらと想像してみてください。品質基準から逸脱した場合、プロセス内で対応する改善が自動的に行われるはずです。たとえば、データ形式に一貫性がない場合、対象のデータの種類(例:会社名や電話番号)に該当する標準化プロセスが適用され、クリーンで一貫性のあるデータがワークフローに入力されます。評価が正確かつ完全であればあるほど、同様に適用できる自動化の選択肢が増えます。 どんなガバナンスプロセスもそうであるように、データクオリティの改善にはツール、プロセス、人のバランスをとる必要があります。ツールがすべてではありません。また、すべてのプロセスが自動化できるわけではありませんし、そうすべきでもありません。しかしTalendはData Fabricにより、信頼できるデータ駆動型の意思決定を促進する大きな一歩を踏み出しました。 そして、Talendは方程式における人の存在も無視していません。人間の経験と専門知識は、重要な知見やニュアンスをもたらし、ますますAI主導型となる世界に必要なチェックを入れることができます。データの専門家であってもデータクオリティの専門家ではない人をメンバーとするには、高度に専門化されたワークフローとユーザーエクスペリエンスが必要となりますが、それを提供できる製品はほとんどありません。Talendはこの分野で、Trust Score™やData Inventory、Data Stewardshipなどのツールによって業界をリードしています。こうしたツールは、評価やタグ付けなどの人間が生成したメタデータを使用する、連携型のデータキュレーションを可能にします。   データの健全性の処方箋 データの健全性に関しては、身体的健康のたとえが良く当てはまります。健全性と健康の概念には両方とも、完全なライフサイクルと一連の関係者が含まれています。医療機関と患者自身は、経過予測と治療、衛生、予防に責任を負う必要があります。しかし、インフラストラクチャ-や規制、健康保険も保健制度の重要な部分を占めます。 それでは、優れたデータの健全性システムを構築するには何が必要でしょうか? 危険因子の特定。一部のリスク(企業独自のアプリケーション、プロセス、従業員など)は内因性である一方、他のリスク(パートナー、サプライヤー、顧客)は外部からやって来ます。最大のリスクとなる領域を識別することで、危険が生じる前に効果的に予防できます。 …

続きを読む

正しいデータについての問題をついに解決できます。

世界共通のデータの健全性基準の実現に向けて 私たちは今、ビッグデータの世界に生きている 2020年の後半、米国のある銀行のCEOは、今日では多くの企業で一般的となった考え方を明らかにしました。CEOは次のように言いました。「当行は103年の歴史を持つ銀行です。私たちはすべての業務をスプレッドシートを使って行っています。しかし、当行は、金融ニーズを予測して、フリクションレスな体験を通じてクライアントを支援する、収益性の高いデジタルファーストな銀行になろうとしています。つまり、私たちはデータ企業となる必要があるのです。」 業界を問わず、企業は自社が持つデータに完全に依存しています。小売業者は、単に店で商品を販売しているだけではありません。小売業の成功は、消費者の行動や嗜好、活動に関するデータの収集、分析、共有にかかっています。金融サービス企業は、取引で得た豊富なデータを活用して知見を得るだけでなく、データをインテリジェンスの源とすることで新たな収益源を創出できます。医療機関は、単に患者の病気やけがを治療するだけではなく、患者の容体が悪化する前に、データを収集して分析して治療します。 今やあらゆる企業が、データを扱うビジネスを行っていると言えます。新型コロナウイルスが大流行する以前から、既に多くの企業がデータ企業となるための第一歩を踏み出していました。私たちが世界的なパンデミックに直面したことに気付いたとき、変革はますます喫緊の課題となりました。   木が多すぎるのに森が足りない しかし、企業がデータ駆動型になることを目指しており、またその必要があるにも関わらず、その活動はあまり成功していません。調査によると、70%近くの企業​ ではデータ駆動型の組織がまだ構築されておらず、半数以上はデータをビジネス資産として扱っていないと回答しています。将来に向かって進むためには、データの利用に頼る必要があることに企業は気付いています。では、データの利用はなぜそれほど困難なのでしょうか?​ 何十年もの間、分析のためにデータを管理・利用することために、データを収集し、クレンジングし、保存し、カタログ化するといった、​プロセスに焦点を当てていました。しかし、解決すべき問題はこれではないことがわかりました。データ管理の仕組みにこだわったために、いくつかの大きな課題が生まれたのです。 データプレパレーションを行う人と、意思決定を行ったりビジネスの状態を評価したりする人の間につながりがない。 日々の業務に供給されているデータが信頼できる、あるいは安全であるということを、最前線にいる人やシステムが容易に検証できる方法がない。 データの管理、統合、保存に対する断片的なアプローチにより、データがサイロ化している。その結果、コストがかかり管理が困難になっているだけでなく、分析で見通すことのできないダークデータが生じる。 ほとんどの場合、データの移動や収集、プレパレーション、保存のためのソフトウェアやプラットフォームは、企業が自社のデータを深く理解したり、データからより良い成果を得たりするのには役立たない。 こうした断片的なアプローチではうまくいかないことに、企業はようやく気付きつつあります。単にデータの収集や移動、プレパレーションを効率的に行うだけでは不十分だということです。 データ管理は誤った課題に注力している 約1,300億ドルの市場規模と推定されているデータ管理市場は近年、多くの注目を集めていますが、それも当然です。こうしたソリューションは、ますます多くの企業データを極めて効果的に移動し、保存できるようになってきています。しかし、多くの企業において、効率化によって、それで得た成果と同じくらいのリスクが生じていると、当社は考えています。 データの取得と保存は、数ある問題のうちの1つではありましたが、取り組むべき問題では決してなく、そして解決すればそれで終わりという問題でもありませんでした。企業では古くから、「できるだけ多くのデータを収集すべきであり、どう使うかは後で考えよう」と言われてきました。その「後」が到来しましたが、多くの企業ではデータ飽和型からデータ駆動型へと移行する準備が整っていません。 データが単に移動されて考慮なく保存されている場合、データ保管場所は実質的に企業情報のデジタルゴミ集積場と化してしまいます。データは問題を解決するのではなく、実際には混沌とした状況の整理を困難にしているのです。企業は自社のデータの中で溺れています。 ​私たちは、非常に恐ろしい状況に置かれています。事業を継続するためにデータに依存し、データ企業に​ ​なる ​必要があると考えている膨大な数の企業が、未だにデータの方程式を構成する最も基本的な要素に取り組んでいないのです。こうした企業では、どんなデータがどこに存在し、誰が使用しているのかを把握できておらず、さらに危機的なことに、データの健全性を測定する方法を全く持っていません。 ビジネスの健全性をどのように評価しているのかと尋ねれば、どんな企業でも事業運営の基盤となるデータに裏付けされた、一連の指標を提示するでしょう。従業員を除けば、データは企業が所有する最も重要な資産であるにも関わらず、最も理解されておらず、測定もされていません。​データは世界を動かしているのに、私たちがそれを最も理解できていないのです。   企業データの健全性を把握する 今日のデータ管理は多くの場合、単純な素通しのプロセスとなっていますが、それでいいはずがありません。組織がデータの信頼性やリスク、企業に価値をもたらす可能性を深く理解できるようにする、積極的かつ意図的なシステムでなければなりません。データに対する可視性と透明性が得られる必要もあります。​データ管理に使用するソリューションは、より賢明で俊敏、そして効率的な組織を実現するのに役立つ知識を提供できるのと同時に、リスクを回避できるものでなければなりません。 これは不可能に聞こえるかもしれません。企業のどこにどんなデータがあるのか、データは正確なのか、誰がアクセスしたのか、どのように配布されたのかを理解することは本当に妥当なことなのでしょうか?最も価値がありながら、今日では最も無形のビジネス資産に対して、測定可能で定量的な見解を得ることは本当に可能なのでしょうか? ​はい、できます。データの健全性という考え方を用いることで、あらゆる企業がこれを実現することができます。 データの健全性は、予防的な対策、効果的な処置、協力的な文化で構成される総合的なシステムによって、企業情報の健康を積極的に管理するというTalendのビジョンです。このシステムには、企業の生存に不可欠な資産の総合的な信頼性やリスク、リターンを定量化可能な方法で理解してコミュニケーションできるようにする、監視およびレポート作成のツールが含まれます。 データの健全性ソリューションは、将来的には企業データの健全性を評価するための普遍的な一連の指標の作成を支援するとともに、企業の総合的な強みを示す不可欠な指標としての地位を確立することを目指しています。   私たちはあまりにも長い間、データを単純で具体的な単位として扱ってきました。データとは、表計算ソフトのセルやデータベースのフィールドなど、分析者を待つ受動的なデジタルオブジェクトでした。しかしこれは、もはや十分なモデルではありません。データは複雑で、常に変化を続ける生き物です。新しい入力が流入しては流出し、ユーザーによって更新され、コンテキストの転換によって形を変えます。こうした入力やアクションは、データ自体の価値について理解し、変化させる機会となります。データが持つ意味を真に理解するには、そのデータを信頼のおける総合的な方法で可視化する必要があります。 データは複雑であり、どの組織にも独自の要件や規則、リスクの許容範囲が存在します。だからこそ、私たちはデータの健全性の実現を旅のようなものだと考えています。人間の健康と同じようにデータの健全性も、各企業の年齢やライフステージ、成熟度レベルに応じて異なるでしょう。どのようなタイプの企業にどのような基準が最も適しているかについて合意するには、市場での相当な協力と調査が必要です。当社の最初のフレームワークでは、データの健全性の構築に利用される、4つの主要重点領域を想定しました。 当社の最初のフレームワークでは、企業がデータの健全性の構築を開始する際に重点を置くべき、3つの領域を想定しています。 予防的な対策 — データの課題を前もって特定して解決する 効果的な処置 — データの信頼性を体系的に向上させ、リスクを低減させる 協力的な文化 — データの管理と保守に関する組織的な規律を確立する プロアクティブな監視およびレポート機能を持つ包括的なシステムは、これらの重点領域のすべてを監督し、データの健康が実現したことを示します。このシステムを形成するテクノロジーと文化的な慣行の組み合わせは各企業ごとに異なりますが、極めて重要なのは、適用される基準は普遍的なものであるということです。   より良い未来へのビジョン そう遠くない未来に、過去を振り返って「当社の成功に極めて重要な役割を果たす資産の信頼性やリスク、リターンを定量化できる方法なしに、当時はどのようにしてビジネスで、あるいはより広い社会の中で機能できていたのだろう」と不思議に思う時が来ることを、私たちは確信しています。問題のあるデータのリスク(とイノベーションのチャンス)は、あまりにも大きすぎます。 …

続きを読む

15歳になったTalendは、データに関わる作業を自動化し続けます

    Talendは今年、創業15周年を迎えました。 これはお客様やパートナー、そしてTalendの中核とも言うべき当社の従業員なくしては到達できなかった節目です。 15年前、フランスの起業家であるFabrice BonanとBertrand Diardはフランスのシュレンヌで、テクノロジーの大衆化によるデータへのアクセスと管理の迅速化、および向上に着手しました。 オープンソースから事業を開始したTalendは、2007年に最初の商用製品をリリースし、その翌年にはフランスで開催されたITの展示会に初出展しました。 Talendとして初めて出展したブースで、テレビクルーにカメラの充電をご提供したところ、思わぬお礼としてテレビの全国放送で取り上げられたという逸話を、古参の社員のひとりが披露してくれました。 その後のデータの歴史は、皆さんご存知のとおりです。 現在、Talendは世界中にオフィスを構える上場企業となりました。 成功のあとも、そのルーツを祝うことはこれまで通り重要だと考えています。なぜなら当社の独特な社風には、ヨーロッパの伝統が依然として反映されているからです。 本社はカリフォルニア州レッドウッドシティにありますが、私たちの呼び起こす何とも言えない確かな魅力が、当社を他のシリコンバレー企業とは一線を画すものにしています。 Talendの非常に素晴らしい文化と職場環境は群を抜いており、これこそが当社を前進させる原動力となります。 Talendでは、データが最高の地位に君臨していますが、当社の中核を成しているのが従業員であるのは間違いありません。 当社の文化の中には、従業員の思考の多様性や受容、包摂性を重視する姿勢が織り込まれています。 私たちは従業員に、職場で本当の自分を見せるよう求めていますが、私も率先してそうしています。 正直な会話には、当社の非常に熱心なチームの前進を助けるという価値があります。そして、進んでいく中では間違いが起こりうると納得することを厭わない気持ちが、私たちの革新的な創造力を刺激するのです。 簡単に言えば、私たちは共通のビジョンに基づいて世界中で働く、信じられないほど有能な人たちをを採用し、育成し、お客様に貢献すると同時に、お互いに貢献しています。 当社のお客様に対するコミットメントは、長年にわたって明らかです。 アストラゼネカやドミノ・ピザ、ロレアルといった企業が、戦略的パートナーとしてTalendを引き続き採用し、信頼できるデータに基づく事業運営に役立てています。 こうした企業は、特別なカスタマーエクスペリエンスの設計や業務の改善、コンプライアンスの確保、イノベーションの推進に必要なデータを手に入れています。 お客様がデータジャーニーのどの地点にいても、そこに適合できる能力はTalendだけのものです。 私たちは、お客様のデジタルによる変革を支援して質問に答え、イノベーションを加速することで、企業が競争力を獲得し、不可能と考えていたことを実現できるようにします。 私はこの15周年の節目の年に、当社の社員が持つ強みと、世界中の企業を支援するのだという情熱こそが、企業としての進化を促進すると確信しています。 私たちは、成長と規模拡大を加速するための基盤を築いています。 当社の目標は、世界の意思決定方法の変革です。私たちはそれを、あらゆる組織のデジタルトランスフォーメーションのあらゆる段階で、データを有用なものにすることで実現します。 当社の成功に貢献くださっている、拡大を続けるTalendコミュニティのすべての方に感謝いたします。 Talendでの、私自身の旅は始まったばかりです。 この数か月間にわたって、私は従業員やパートナー、お客様から学ぶ機会に恵まれました。 なぜ人々がTalendと一緒に働く選択をするのかを体験し、理解することができました。 当社の文化には情熱と誇り、エネルギーがあり、それは組織全体に浸透しています。私がTalendを次のレベルに導いていけることを、喜ばしく思います。 15周年おめでとう、Talend!  

続きを読む

自社のデータの健全性を信頼していますか?

  今日では企業は、ビジネスの健全性に関するあらゆる側面を測定することが可能ですが、ビジネスの意思決定を推進するデータの健全性だけはその例外です。 データは重要な意思決定、例えば、市場への新しいルートの特定や、ビジネスの俊敏性をサポートするシステムの選定や、より弾力性に富んだサプライチェーンの決定などに不可欠です。 ハーバードビジネスレビューでは、次のように言及されています。「組織が持つデータは、イノベーションのチャンスと困難の両方を生み出します。チャンスと困難の差は、一連の生データを明確で実用的な情報へと変換できるかどうかです。」 正しい意思決定を行うことは非常に重要ですが、ほとんどの企業では、ビジネスを運営する分析システムと、それらのシステムを駆動するデータを確実に信頼できるものにするための人材やテクノロジーとの間には事実上関連がありません。   実際には、信頼できるデータを入手することは、あらゆる企業のあらゆるレベルの意思決定において極めて重要です。 正しい意思決定を下さなくてはいけないという大きなプレッシャーを社内外から受けている経営幹部は、クリーンで妥協のないデータを得ることで、組織全体の意思決定の質と精度を劇的に向上させることができます。 ダッシュボードやレポートが氾濫し、何が重要で何が信頼できるデータなのかを理解するのに苦慮しているビジネスユーザーは、データがどこから来たのか、どのように修正されたのかという記録に基づいた簡潔なデータにより、データの信頼性を明確に測定することができます。 タイムリーに、理解しやすいデータを提供するために無数のリクエストをこなし、社内のパートナーが使用しているデータへの洞察力とコントロールを必要とする テクニカルユーザー 信頼できるデータを使用することで、作業の正確性と完全性を具体的に証明することができ、複雑な分析に集中することができます。   企業が利用するデータの健全性を向上させるためには、「信頼(Trust)の5つのT」と呼ばれる基本原則に従う必要があります。 すなわち、データは徹底した(Thorough)、透明性(Transparent)、適時性(Timely)、追跡可能(Traceable)、そしてテスト済み(Tested)のものである必要があります。新しいTalend Trust Scoreは、ユーザーがこれらの基準に基づいてデータセットを動的に評価できるように設計されており、利用可能なすべてのデータと洞察力を使って意思決定を行う方法を根本的に変える可能性があります。 企業データの健全性に関する詳細については、ハーバードビジネスレビューが公開している最新の記事をご覧ください。    

続きを読む

Talend、Q2 2020 Forrester WaveTMのEnterprise Data Fabricリーダーの一社に選ばれる

TalendがThe Forrester Wave™: Enterprise Data Fabric.Q2 2020でリーダーの一社に選ばれたことを発表できてうれしく思います。データ統合、整合性、およびガバナンスを単一プラットフォームに結合する、Talendのデータ管理への統合アプローチは、データの明確さと確実性を実現するための最善の方法です。2015年にTalend Data Fabricを発表して以来、当社は、データ統合と管理は、静的なサイロ化したエンタープライズソフトウェアソリューションでは解決できないと強く感じています。企業とデータユーザーは、柔軟で、ニーズと共に拡大でき、組織全体が使用してそこから利益を得るのに十分統合されたソリューションが必要です。しかし、このトピックは複雑なので、今日はこれらを少しかみ砕いてお話ししたいと思います。     Enterprise Data Fabricが解決できる課題についての、深く掘り下げた調査から始めましょう。Forresterによると、従来のデータ統合へのアプローチは、「リアルタイムで接続されたデータ、セルフサービス、および高度な自動化、スピード、およびインテリジェンスの組み合わせを必要とする新しいビジネス要件に対処できません。様々なソースからデータを収集することは比較的容易ですが、顧客、パートナー、製品、および従業員の包括的な視点を提供するために、複数のソースを使ってデータを統合、処理、整理、および変換するのに苦労する企業は多数あります。」   私たちはこれに全く同感です。カスタマー360ソリューションまたはエンドツーエンドのマーケティング活動ソリューションを構築している場合、多数のサイロ化したツールやスタンドアロンアプリケーションを使ってこれを効果的に行うことはできません。データの管理だけでなく、メタデータとプロセスを含めたプラットフォーム全体を管理するためにも、完全なエンタープライズデータファブリックが必要です。アストラゼネカ およびをはじめとする多くのお客様がこのアプローチを採用しています。規制が厳しい環境で、アストラゼネカは、データ統合と変換を中心にして活性化した成長軌道に戻るための戦略的イニシアティブを考案しました。同社はTalend Data Fabricを使って、APIによるポイントツーポイント接続の促進、データカタログによるメタデータの活用、データクオリティによるデータの信頼性向上、そしてデータパイプラインの自動化を可能にしたため、コストとリスクが大幅に軽減しました。   Talendは、データ統合とデータ管理がこれまで存在した場所ではなく、これから向かう場所に焦点を当てることで、市場リーダーとしての立場を維持できていると信じています。当社は、ビジネスに不可欠なデータの信頼性を検証するための、誰にとっても使いやすいシステムを構築しています。ビジネスを管理しているアナリティクスとシステムの間につながりを生み出して、相互牽制させ、データの品質とコンプライアンスを確実にしています。データの信用スコアでは、データクオリティ、データの評判、およびユーザー定義の評価に基づいて、データの健全性と精度を瞬時に評価できます。これによって、データの関連性と信頼性を一目で評価することが可能になります。また、クラウドに焦点を絞ること(クラウドにおけるTalendのデプロイメント、およびハイブリッド環境とマルチクラウド環境のサポート)は、過去数年間にわたり、Talendが注目するもう1つの重要な領域になっています。このため、当社はオンプレミスとクラウドにおけるTalend Data Fabric –データ統合、ガバナンス、および共有のための統合プラットフォーム – の構築を続けてきました。また、徐々に機械学習ベースの機能を多数追加して、データクオリティのタスクを自動化し、データパイプラインの知能を高め、非技術系ユーザーがデータへのセルフサービスアクセスを得るのを可能にしています。 当社の見解では、Talendが短期間で、高い定評のあるEnterprise Data Fabricリーダーの一社になるのを後押ししたのは、継続的な強化と素早い変化へのこうした集中です。Talendは、「Current Offering(現行サービス)」カテゴリのレポートでベンダーの中で最高スコアを獲得し、データクオリティ、データリネージ、およびデータカタログなどの基準で、そして当社のロードマップに対しての最高スコアを獲得しました。当社は、これらの高いスコアは、Talendのビジョンとミッションの正当性を示していると信じています。つまり企業としての皆さんは、当社を利用することで、Enterprise Data Fabricの追求において成功を収めることができます。Forresterレポート全体はこちらでお読みいただけます。  

続きを読む

Talend Winter’20で、データからインテリジェンスを引き出す

| 2020年3月12日 | データインテリジェンス

  Talendのカスタマーサクセスストーリーの中で私が好きなものの1つは、国際調査報道ジャーナリスト連合(ICIJ)の例です。その理由は、ICIJがデータを使って調査ジャーナリズムに革命を起こし、パナマ文書でピューリッツァー賞を受賞し、不法な脱税により失われた何十億ドルという巨額を取り戻すのを助けたからだけではありません。この事例は、ジャーナリズム史上最大のデータリークから入手した、まったく性格の異なる不明なデータを解読してインテリジェンスを引き出すことに成功した、興味深いストーリーでもあるのです。ICIJは、Talendを始めとする革新的なデータ管理ツールを使って膨大な量のデータをレトロエンジニアリングすることで、世界的な意味を持つストーリーを暴いたのです。 これこそ、データインテリジェンスのパワーです。では、データインテリジェンスとは何なのでしょうか。IDCのStewart Bond氏は、最近の必読ブログで、データインテリジェンスを「データからのインテリジェンスではなく、データについてのインテリジェンス」と位置づけています。さらに、「 “データインテリジェンスは、事業、技術、関係、オペレーションのメタデータを活用して、データのプロファイルや分類、品質、場所、リネージ、コンテキストの透明性を高めます。 そうして、人間やプロセス、テクノロジーを、信頼性の高いデータで支援します」と述べています。 IDCは、Stewart氏の指揮の下、このようなデータインテリジェンスの概念を、データ統合およびインテリジェンスソフトウェアという分類法に基づいた市場カテゴリ、つまりデータインテリジェンスソフトウェアに結び付けているのです。 私たちは、Talend Data FabricのWinter’20リリースが、データインテリジェンスのパワーをレベルアップするものになると確信しています。だからこそ、このブログや3月18日と19日に各地で開催する一連のウェビナーで、その重要性を強調したいのです。. デジタルトランスフォーメーションにデータインテリジェンスが欠かせない理由 デジタルトランスフォーメーションの成否を決めるのは、データであり、データが売上の推進やイノベーションの加速、顧客エクスペリエンスの変革、コストとリスクの低減など、ビジネスのあらゆる面に影響を与えるということは、共通の認識になりつつあります。 しかし、ICIJのように真の変革を実現できた企業はまだわずかです。データインテリジェンスにはギャップがあります。データが膨大に増えてサイロ化されるにつれ、せっかくの活用チャンスが、必要なデータが見つからない、見つかったとしても品質が悪くて使えないというデータの混乱の中で失われてしまいがちです。つまり、ほとんどの企業は手持ちのデータが管理できていないのです。 これは同時に、効率と生産性の危機をも意味します。IDCは、データ*インテリジェンス調査の一端として、データ専門家の時間の67%がデータの検索や準備に費やされ、具体的なビジネス成果への変換に必要な洞察を生む作業には12%しか費やされていないことを示しました。 最後に、深刻なデータ人材の不足があげられます。データエンジニア、AI専門家、DevOpsエンジニア、データアナリストおよびデータ保護責任者といったデータ専門家は、2020年に全世界で最も希少で最も需要の高い人材となっています。企業は、このような人材を惹き付け、従業員のスキルアップを図るだけでなく、既存のチームの業績を伸ばす方法も見いださなければなりません。 Talend Winter’20で、データからインテリジェンスを引き出す では、Winter’20はこのような課題にどう対応しデータからインテリジェンスを引き出すためのお客様の努力を支えることができるのでしょうか。 前出のデータの混乱については、データ全体のあらゆるデータポイントから一目でデータインテリジェンスを捉えることで対処できます。新しい(多数のコネクタが導入・拡張された)Talend Data Inventoryなら、膨大な数のデータソースに接続して自動的にメタデータを抽出し、それを1か所で共有データセットとして文書化することができます。次にTalendは、データ品質プロファイリングや人気度、クラウドソーシング評価と推奨事項に基づいてデータインテリジェンススコアを自動計算します。 効率の危機は、データエンジニアリングを高速化することで克服できます。Talend Pipeline Designerには多数のスマートな新機能が導入されています。データエンジニアやシチズンデータインテグレーターは、一元化されたクラウドネイティブなアプリケーションを用いて、あらゆるデータを統合、標準化、クレンジングおよびエンリッチすることが可能になる一方、「データ品質の常時維持」により、データが消費または複製される前に品質上の問題を解消することができます。コーディングや複雑な変換が不要なため、開発やメンテナンスの生産性が向上します。それにより、データ専門家は短時間で必要なデータにアクセスでき、生産性とデータインテリジェンスを高めることができます。 さらに、Winter’20リリースでは、Talend Data Fabricプラットフォーム全般でArtificial Intelligence (AI)の使用が拡大されています。AIを駆使したマジックフィルでデータの切り口を自由に操作できるため、誰もがデータインテリジェンスを利用できるようになります。インテリジェントなデータクオリティ機能がAIループに人間を関与させることで、より速くかつ正確にデータをマッチングし、大規模なデータインテリジェンスを実現します。 今すぐData Fabricをお試しください! Winter’20は、お手持ちのデータからインテリジェンスを引き出す、Talend Data Fabricの最新版です。このブログで紹介した以外にも、何百もの新機能が搭載されています。詳しくはこちらをご覧ください。トランスフォーメーションは、ここで終わりではありません。私たちは、クラウドの威力を活用してデータ統合やデータの完全性、データインテリジェンスの継続的なイノベーションを可能とし、デジタルトランスフォーメーションに向けたあらゆる取り組みを最良な形でサポートします。Data Fabricのオンプレミスバージョン、Talend 7.3もこのリリースに含まれています。 Talend Data Fabricの大きな特徴は、イノベーションが、サイロ化された製品一式ではなくあらゆる種類のデータを一元管理できる1つのプラットフォームを通じて提供される点です。Talend Data Fabricは、データの統合、品質、ガバナンス、関係者間でのデータ共有に、統一されたアプローチをもたらします。 さらに、Talend Data FabricはiPaaSとして提供されるため、わずかな操作でお持ちのデータからインテリジェンスを引き出し、ICIJを始めとする大勢のTalendのお客様と同様に、データ活用を通じてビジネスを変革することができます。今すぐWinter’20をお試しください!

続きを読む

Pipeline Designerの紹介:データ統合の革新

Pipeline Designerがリリースされました。この次世代クラウドデータ統合設計環境を使用することで、開発者はデータパイプラインを数分で開発/展開し、バッチとストリーミングのユースケース全体でシームレスに設計し、最新のハイブリッドおよびマルチクラウドテクノロジーでネイティブに拡張できます。 Talend Cloud Pipeline Designer あらゆる業界でデータが企業の競争力になっていることは周知の事実です。そして、競争力を維持するために、組織は3つのことを保証する必要があります。 最高の知見をもたらすデータを残さず収集すること データに依存するビジネス部門がタイムリーにデータを受け取り、迅速な決定を下すこと 新しいデータ要件が発生した場合には、拡張および革新できる簡単な手段があること 多数の新しいデータタイプとテクノロジーが出現したことを考えると、これを達成することは非常に困難です。たとえば、今日の企業が直面している大きな課題の1つは、あらゆる種類のストリーミングデータに対応し、ソーシャルメディア、Web、センサー、クラウドなどからあらゆる場所に浸透する新タイプのデータを処理することです。企業は、リアルタイムでデータを処理・提供することがリアルタイムの知見を可能にする革新を起こすと考えていますが、このデータを簡単に収集・変換することは実際には困難です。 たとえば、クリックストリームデータの場合、データはWebサイトから絶えず送られ、データのストリームは止まることなく常に流れています。確定的なデータの「開始」と「停止」に依存するデータの取り込みや処理の典型的バッチアプローチは、ストリーミングデータによって時代遅れとなり、データに対するリアルタイムの反応性が持っている潜在的価値を奪います。たとえば、オンラインショップは、クリックストリームデータに基づいて、Webサイトに対するユーザーのエンゲージメントを把握します。これは、各ユーザーに合致した商品を提示する方法を理解するために不可欠です。利益幅が非常に小さい業界では、市場シェアを獲得するための迅速な意思決定を行うために、顧客の活動と競合他社の価格データをリアルタイムで把握することが不可欠です。 また、さまざまなアプリケーションからのデータに依存している場合、企業のデータ統合ツールはデータフォーマットの変更にうまく対応できず、ソースデータに新しいフィールドが追加されるたびにデータパイプラインが破損する可能性があります。ITがデータの動的な性質に対応できたとしても、データにアクセスする必要があるビジネス部門は、他のビジネスにもデータを提供しなければならない担当者の作業量増大により、実用的な知見を得るまでに何週間も待たなければならない場合があります。 実際、最近のデータサイエンティストの調査では、データサイエンティストの30%以上が、データが利用できないこととデータへのアクセスが困難であるということが最大の課題であると報告しています。また、実用的なデータへのアクセス拡大に対して、市場の要求が高まっており、データサイエンティストに比べてデータエンジニアの求人が4倍に上っている状況にも反映されています。 データエンジニアリングのスキルセット(あらゆる種類のデータに対するアクセス、収集、変換、およびビジネスへのデリバリー)が必要とされており、今日のデータエンジニアは、絶えず変化するデータ環境で活動しながら、これまで以上に生産性を高める必要があります。同時に、アドホックインテグレーターについても、データにアクセスして統合し、ITに依存せずに活動できるように権限を強化する必要があります。 そして最後に、より多くのビジネスがより転機で成果を出すことを要求しているため、データエンジニアとアドホックインテグレータの両方がデータをすぐに統合する必要があり、データ統合ツールはこれらの新しい需要を満たすのに役立つ必要があります。データエンジニアとアドホックインテグレーターには、利用しやすく直感的なだけでなく、日常的に使用する多種多様で大量のデータを処理できる、クラウドネイティブの統合ツールが必要になっています。 途方もない問題に直面しているように感じられるかもしれませんが、心配は無用です。ここまで説明しておきながら、解決策を提示しないわけがありません。 Pipeline Designerの紹介 このようなシナリオが繰り返される中で、既存/将来のお客様の問題解決を支援するためにTalendが構築したのが、このPipeline Designerです。 Pipeline Designerは、クラウドに組み込まれたセルフサービスのWeb UIです。誰もが使いやすいクラウドアプリケーションを期待し、データの量、種類、テクノロジーが一見不可能なペースで増大している今日、より速く、より簡単に、より利用しやすいデータ統合を可能にします。 データエンジニアは、データのクラウドデータウェアハウスへの変換とデリバリー、ストリーミングデータのクラウドデータレイクへの取り込みと処理、SnowflakeとAmazon Redshiftへのバルクロードなど、軽量の統合のユースケースに迅速かつ簡単に対処できます。Pipeline Designerの最新のアーキテクチャーにより、ユーザーは、バッチデータとストリーミングデータの両方で作業できます。増加するデータ量やデータフォーマットの変更に対応するためにパイプラインを完全に再構築することを心配する必要もなく、今までにない速度でデータの変換とデリバリーを実現できます。 Pipeline Designerはどのような特長を備えているのでしょうか。皆さんと特に共有したい主要ポイントを以下に紹介します。 ライブプレビュー Pipeline Designerのライブプレビュー機能により、継続的なデータ統合設計を行うことができます。データの外観を確認するために、パイプラインを設計、コンパイル、展開、実行する必要がなくなりました。 代わりに、まったく同じ設計キャンバスで、設計プロセスのすべてのステップでデータの変更をリアルタイムで確認できます。パイプライン内の任意のプロセッサーをクリックし、変換前後のデータを確認し、出力データが期待するものに合致していることを確認します。これにより、開発時間が劇的に短縮され、デジタルトランスフォーメーションプロジェクトがスピードアップします。 簡単な例として、以下のようなPythonの変換について、入力と出力を見てみましょう。 スキーマレス設計 スキーマオンリードは、最新のデータ統合のためのデータ統合戦略です。ビッグデータプラットフォーム、メッセージングシステム、NoSQLへのデータのストリーミングなど、多くの場合に構造化されていな受信データを固定のスキーマにマッピングする必要がないため、時間を節約できます。 Pipeline Designerは、スキーマオンリードのサポートを提供し、パイプラインを構築する前にスキーマを定義する必要を排除し、スキーマが変更されたときにパイプラインの復元力を維持します。Pipeline Designerで接続またはデータセットを定義する場合、スキーマの強力な定義は存在しません。データの構造は、パイプラインが実行される時点で推測(データを収集し、その構造を推測)されます。ソーススキーマに変更がある場合、次の実行時に、パイプラインは変更を考慮に入れて適応します。これは、スキーマが動的に検出されるため、データの操作をすぐに開始し、データソースを「オンザフライ」で追加できることを意味します。要するに、「硬直的」なメタデータ定義と比較して、より高い復元力と柔軟性をもたらします。 比類のない移植性であらゆるデータを統合 Talendは、「将来に対応」する開発を長年にわたって主導しています。パイプラインをモデル化し、それを実行するプラットフォーム(オンプレミス、クラウド、またはビッグデータ)を選択できます。また、要件が変更された場合は、別のプラットフォームを選択するだけで済みます。たとえば、コードジェネレーターをMapReduceからSparkに変更した場合は、数回クリックするだけで、最適化されたネイティブのSparkを実行できるようにジョブを変更できます。しかも、今回はさらに強力な機能を利用できるようになりました。オープンソースプロジェクトのApache Beamに基づいて構築することによって、Talendは設計とランタイムを切り離すことに成功しました。つまり、パイプラインを実行する処理エンジンを考慮することなく、パイプラインを構築できます。 さらに、ストリーミングとバッチパイプラインの両方を同じパレットで設計できます。 したがって、SQLクエリなどの境界のあるソース、またはメッセージキューなどの境界のないソースに同じパイプラインを接続でき、データのソースに基づいて、バッチパイプラインまたはストリームパイプラインとして機能します。実行時には、データが置かれたクラウドプラットフォームでネイティブに実行するよう選択でき、さらに究極のスケーラビリティのためにEMRで実行することも選択できます。Pipeline Designerは、真の意味で「一度設計すればどこでも実行可能」であり、複数のクラウドでスケーラブルな方法で実行できます。 組み込みのPythonコンポーネント Pythonは最も急速に成長しているプログラミング言語であり、データエンジニアが一般的に使用するプログラミング言語でもあります。したがってTalendは、Pipeline …

続きを読む

オンプレミスからクラウドにデータを移行する方法:Amazon S3

| 2019年10月17日 | Developer Step-by-Step

クラウドへの移行 2018年はクラウドの年であり、クラウドテクノロジーに移行する企業が増えるにつれて、ビジネスがクラウドを最大限に活用する方法を理解することが重要となります。企業が今日抱えている大きな問題の1つは、オンプレミスのデータベースからクラウドデータストレージへのデータの移行です。適切なツールがなければ、これは時間のかかる退屈なプロセスになります。幸いなことに、ここでTalendを役立てることができます。 Talendでは、オンプレミスのデータベースであるMySQLをクラウドストレージのAmazon S3に移行する必要がありました。Apache Sqoopの複雑さに対処する代わりに、いつでも新しいデータをクラウドへ移行できるジョブをTalend内に作成することにしました。この方法を使用することで貴重な時間を節約でき、その分を新しく移行したデータの分析に使用できました。このブログでは、このジョブをどのように構築したかを振り返ります。早速始めましょう。 接続の作成 Talendのジョブと同様に、最初に接続を作成します。MySQLデータベースに対しては、tMysqlConnectionコンポーネントを使用します。また、tS3Connectionを使用してS3クラウドストレージへの接続を作成する必要があります。このジョブを実行するたびに、毎回MySQLとS3の両方に接続することになるので、両方のコンポーネントの前にtPrejobを追加する必要もあります。 Talendはコード生成ツールであり、tPrejobを使用することで、常に最初にコンパイルするものを制御でき、常にデータベースに接続できるようになります。両方の接続コンポーネントを構成した後、次のスクリーンショットのようにtPrejob、tMysqlConnection、tS3Connectionを接続できます。 テーブルの取得と動的スキーマの設定 両方のストレージプラットフォームに接続したので、MySQLからAmazon S3へのクラウド移行プロセスを開始できます。まず、データベースから移動する、すべてのテーブルのリストを取得する必要があります。tMysqlTableListを使用して、「WHERE句」を使用してリストするテーブルを指定できます。ただし、今回は顧客テーブルからのみ取得します。 転送対象の全テーブルのリストを取得したので、次にそのテーブル内の列のリストを取得します。 「tMysql」グローバル変数を使用することは、コンポーネントから値を取得するのに最適な方法です。これらのグローバル変数は、他のコンポーネントが使用する「tMysql」コンポーネントからデータを取得できます。この場合、((String)globalMap.get(“tMysqlTableList_1_CURRENT_TABLE”))は、tMysqlTableListコンポーネントによって収集されるテーブルからコンポーネントに列を取得させます。Talendでは、グローバル変数を記憶しなくとも簡単に検索できます。「tMysql」と入力してCtrl + スペースキーを押すだけで、すべての「tMysql」グローバル変数がリストに表示され、必要な変数を選択できます。 次に、tFixedFlowInputを追加して、「tableName」列と「columnName」列を生成する必要があります。最初にこれらの列のスキーマを構成した場合、値はtFixedFlowInputコンポーネント内にのみ表示されます。スキーマを設定したら、これらの列の値を設定できます。「tableName」については((String)globalMap.get(“tMysqlTAbleList_1_CURRENT_TABLE”))、「columnName」については((String)globalMap.get(“tMysqlTAbleList_1_COLUMN_NAME”))になります。 固定フローの後にtLogRowを追加すると、実行コンソールに情報を表示することで、ジョブの取得元であるテーブルと列の名前を確認できます。以下は、これまでのジョブを示すスクリーンショットです。 次に、オンプレミスデータベースからデータを取得するときに、データが使用する動的スキーマを設定します。名前が示すように、動的スキーマは、その時点で読み取られる列に応じて変化するスキーマタイプであり、ジョブに不可欠です。 動的なスキーマを設定するには、tSetDynamicSchemaというコンポーネントを使用します。tSetDynamicSchemaを使用すると、値「columnName」に基づいてスキーマを動的に設定できます。スキーマが動的になったので、各テーブルを個別に移動する必要はなくなり、複数の異なるテーブルを簡単に移動できます。 データの読み取りとテーブルの書き込み 動的スキーマを設定したら、tSetDynamicSchemaコンポーネントから作成された動的タイプを使用して、テーブルデータの読み取りを開始する準備ができました。オンプレミスのデータベースからデータを読み取るため、MySQLデータベースのtMysqlInputから読み取る入力コンポーネントを使用する必要があります。最初に、tMysqlInputコンポーネントのスキーマを編集して、動的DBタイプを使用する必要があります。このスキーマの列に「dynamic_row」という名前を付け、タイプは(もちろん)「Dynamic」、DBタイプは「VARCHAR」を指定します。 スキーマを設定したら、tMysqlInputコンポーネントを構成し、tMysqlTableListによってリストされている現在のテーブルからデータが取得されることを確認します。 テーブル内のデータは現在リストされている現在のテーブルから読み取られますが、依然としてデータをCSVファイルに書き出す必要があります。このために、tFileOutputDelimitedを使用します。「ファイル名」が正しいファイルパスに従っていることを確認する必要があります。 もう少しで終わります。以下は、これまでに作成したジョブを示すスクリーンショットです。 Amazon S3へのファイルの配置 これまでのところ、このジョブはcustomerという名前のすべてのテーブルを読み取り、指定されたフォルダー内のCSVファイルに書き込みます。オンプレミスのデータベースにあるテーブルからデータを取得できるようになったので、これらのファイルをAmazon S3に移動してジョブを完了します。 tFileListを使用すると、指定したフォルダー内に含まれる全ファイルのリストを取得できます。ここでは、オンプレミスデータベースから取得した全テーブルのリストを取得できます。ファイルを配置するディレクトリを指定する必要があるだけです。 すべてのファイルのリストを取得したら、それらをS3バケットに移動し始めることができます。そのために、tS3Putコンポーネントを使用します。「Bucket」、「Key」、および「File」を指定するだけです。「Key」はS3内のファイルの名前であり、「File」はS3にアップロードされるファイルの名前です。 tFileListとtS3Putの構成が完了したので、あとは、クラウド移行ジョブに最後の仕上げをするだけです。ジョブの最初に開いた接続を覚えていますか? tPostjob、tMysqlClose、tS3Closeを使用すると、ジョブが実行されるたびに開いた接続を閉じることができます。ここでも、メインループがコンパイルされた後に何が起こるかを制御でき、tPostjobコンポーネントの意義が発揮されます。簡単ですね。完成したジョブは、次のようになります。 ジョブの実行 ジョブが実行され、すべてが正常に処理すると、実行コンソールは下のスクリーンショットと一致するはずです。ご覧のとおり、コンソールには、読み取りおよび書き込み中のテーブルと、対応する列名が表示されます。 ジョブが完了したので、テーブルごとに複数のジョブを作成したり、厄介なハンドコーディングに煩わされたりすることなく、オンプレミスデータベースからクラウドストレージに任意のテーブルを移動できます。クラウド対応の準備が整うのは気持ちの良いことです。 デモをライブで視聴 このデモをライブで視聴するには、3月22日(木)にTalendのFacebookページに参加してください。#TalendDevLive ではジョブを構築する手順を紹介し、質問にも答えます。お見逃しなく!

続きを読む