データマイニングとは?

データマイニングは、大量のデータを分析して、問題の解決、リスクの軽減、新たなビジネス機会の創出に役立つ知見を獲得するための技術です。

詳細

データファブリックとは何か?

皆さんは他の新しいテクノロジーの用語と同じように、「データファブリックとは何だろう?」「なぜ必要なのだろう?」と思われるかもしれません。

詳細

データパイプラインとは?

データパイプライン内で発生する重要な4つのアクションは、データ統合を実現する手段です。統合は生データから始まり、最終的に実用的な情報と知見を生成します。

詳細

データ変換の定義

データ変換は、データをあるフォーマットから別のフォーマットに変換するプロセスです。通常は、ソースシステムのフォーマットからターゲットシステムで必要とされるフォーマットに変換します。

詳細

機械学習を生かしたデータクオリティ

ビッグデータがDQの手法をどのように変えているかを学びましょう。ビッグデータによって機械学習(ML)が主流になりました。DQがMLに影響を与えたように、MLもDQの実装のあり方を変えています。

詳細

初心者向けバッチ処理ガイド

バッチ処理は、効率化とプロセスの自動化を目的として、リソースが許す範囲内で、ユーザー操作をほとんど/まったく伴わずにデータジョブを実行する方法です。

詳細

データレイク:目的、プラクティス、パターン、プラットフォーム

先端的なデータ管理専門化を対象に実施されたTDWIの調査から、データレイクの実装を成功させるための12の優先事項が明らかになりました。適切なツールを使用することで、データレイクはセルフサービスのデータアクセスを実現し、データウェアハウジング、アナリティクス、データ統合などのデータ駆動型ソリューションのプログラムを拡張します。

今すぐダウンロード

HDFSでのデータの読み書き

このチュートリアルでは、ランダムデータを生成してHDFSに書き込みます。次に、HDFSからデータを読み取り、ソートして結果をコンソールに表示します。

今すぐ見る

クラウドにおける「管理されたデータレイク」

データレイクの主な目的は、分散した異種のデータサイロにさまざまな(場合によっては限定的な)データセットを格納する代わりに、生の(フィルタ処理されていない)組織データに完全かつ直接アクセスすることです。

詳細

データプレパレーションとは? ツールと実行方法

データプレパレーションとは、処理/分析前に生データをクレンジングして変換するプロセスです。時間のかかるプロセスですが、ビジネスインテリジェンスのメリットを得るために必要となります。今日では、セルフサービスの高機能なデータプレパレーションツールによって、これまで以上に簡単になり、効率化されています。

詳細

ストリーミングデータとは?

Kafkaなどのストリーミングデータフレームワークによって、スケーラブルで柔軟な方法でストリーミングデータを移動/処理できるようになりました。

詳細