注目の投稿

15歳になったTalendは、データに関わる作業を自動化し続けます

詳細情報
注目の投稿

自社のデータの健全性を信頼していますか?

詳細情報
注目の投稿

Talend、Q2 2020 Forrester WaveTMのEnterprise Data Fabricリーダーの一社に選ばれる

詳細情報
注目の投稿

Talend Winter’20で、データからインテリジェンスを引き出す

詳細情報
注目の投稿

Pipeline Designerの紹介:データ統合の革新

詳細情報

Talend’s Benchmark Against Informatica – Setting the Record Straight

| 2016年1月14日 | ETL / ELT Hadoop Open Source ビッグデータ統合

We recently published a benchmark comparing Talend Big Data Platform to Informatica Big Data Edition, showing the performance benefits of our native Apache Spark approach over Informatica’s solution.  Informatica responded with a rebuttal that combines some good points along with some claims that are either misleading or …

Read Article

Talendの「ジョブ設計パターン」とベストプラクティス

| 2015年12月7日 | Database Integration Developer Step-by-Step ETL / ELT

  Talend開発者が、経験が浅かろうが豊富であろうが共通して直面することが多いのが、「このジョブを記述する最善の方法は何か」という疑問です。  効率的で、読みやすく、記述しやすく、何よりも(ほとんどの場合)維持しやすいものであるべきなのは当然です。 また、Talend Studioという自由形式の「キャンバス」では、コンポーネント、リポジトリーオブジェクト、メタデータ、及びリンケージオプションの包括的で多彩なパレットを使用してコードを「描画」できることもわかります。  では、ベストプラクティスを使用してジョブ設計を作成したことを、どのように確認したらよいのでしょうか。 ジョブ設計パターン Talendを使い始めたバージョン3.4以降、ジョブ設計は私にとって非常に重要でした。 最初は、ジョブの開発でパターンを考慮することはありませんでした。それ以前からMicrosoft SSIS等のツールを使用していたので、Talendのようなビジュアルエディターには馴染んでいました。 パターンに焦点を当てる代わりに、基本的な機能、コードの再利用性、次にキャンバスのレイアウト、そして最後に命名規則に注目していました。 しかし、さまざまなユースケース向けに数百のTalendジョブを開発し、コードがより洗練されて再利用性や一貫性も向上したことから、一定のパターンが浮かび上がってきました。 今年1月にTalendに入社して以来、顧客が開発したジョブを目にする機会に多く恵まれました。その結果、全ての開発者にとって、それぞれのユースケースに複数のソリューションがあるという認識に確信を持ちました。  このことが、開発者の多くにとっての問題となっているようです。  私たち開発者は同じような考え方をしますが、自分のやり方が特定のジョブを開発するうえで最善であると思い込みがちです。一方で、さらに良い方法が存在する可能性に薄々気が付いてもいます。 そこで、ベストプラクティスが必要となり、この場合はジョブ設計パターンを探すことになります。 基本的指針の明確化 可能な限り最善のジョブコードを実現するために必要なことを考えるときには、常に基本的指針が適用されます。この指針は、長年にわたるミスと成功に基づく改善の積み重ねから生まれたものです。  これはコード構築の強固な基盤となり、(私見ですが)ないがしろにしてはならない重要な原則であり、次の事柄が含まれます(順序は問いません)。 – 読み取りやすさ:簡単に把握し、理解できるコードを作成する – 記述しやすさ:最短期間に平易で単純なコードを作成する – 維持性:変更の影響を最小限に抑えて適度な複雑さを組み込む – 機能:要件を満たすコードを作成する – 再利用性:共有可能なオブジェクトと小さな作業単位を作成する – 整合性:チーム、プロジェクト、リポジトリー、コードにわたる実質的な規範を作成する – 柔軟性:曲げることはできても折れることのないコードを作成する – 拡張性:要求に応じてスループットを調整する弾力のあるモジュールを作成する – 一貫性:全てにわたる共通性を作り出す – 効率:最適化されたデータフローとコンポーネント利用を作り出す – 区画化:単一の目的に対応する、焦点を絞った小さなモジュールを作成する – 最適化:最小限のコードで最大限の機能を作り出す – パフォーマンス:最速のスループットを生む効果的なモジュールを作成する これらの指針全体で実質的なバランスをとることが重要です。特に最初の3項目は常に相反するため、調整が欠かせません。 2つの項目を満たして3つ目を犠牲してしまうことはよくあります。 できるだけ重要度に基づいて順序付けるようにします。 (基準ではなく)規範としてのガイドライン 実際にジョブ設計パターンの検討に入る前に、前述した基本的指針と併せて、考慮すべきいくつかの詳細事項について確認しておきましょう。  設定されている基準に想定外の状況に対処する余地がなく、融通が利かないために、支障が出ることがしばしばあります。  …

Read Article

Beyond “The Data Vault”

| 2015年8月14日 | Data Management / Data Governance Database Integration Developer Step-by-Step ETL / ELT

  In my last blog “What is ‘The Data Vault’ and why do we need it?” I introduced a fresh, compelling methodology for data warehouse modeling authored and invented by Dan Linstedt (http://danlinstedt.com) called ‘the Data Vault’.  Solving the many characteristic and inherent problems found in crafting …

Read Article