Dr. Bernhard Pfeifer,
Associate Professor
ガン治療の専⾨⼤学
UMIT(The University for Health Sciences, Medical Informatics and Technology: 健康科学・医療情報⼯科⼤学)は、オーストリアのホールに位置する、IMGuS(Institute for Medical Genomics Research and Systems Biology:疾病ゲノム研究およびシステムバイオロジ協会)プロジェクトの主要メンバーです。UMIT⽣物医学科によって管理されている⽣命科学データウェアハウス・システムは、前⽴腺ガンにおけるシステムバイオロジ研究を可能にしています。ドイツとオーストリアにある他の5つの他の研究グループと協調して、UMITはプロジェクトの技術インフラとデータウェアハウスの管理を担当しています。
IMGuSプロジェクト
前⽴腺ガンは、男性に最も多い腫瘍タイプであり、2番⽬に多い死因です。IMGuSプロジェクトは、⾼いスループット・データ処理能⼒を持ったアプリケーションを作成し、前⽴腺ガンに冒されやすい分⼦サインを特定することで、患者に必要な治療処置の階層分けを可能にすることを⽬指しています。そのために、各地のプロジェクト・メンバーによって構築されたテクノロジ・プラットフォームを⽤いて、泌尿器医科⼤学およびインスブルック⼤学で既に採取されていたサンプルから、健常者および低リスクの前⽴腺ガン患者、⾼リスクの前⽴腺ガン患者の間での、ゲノム、タンパク質、代謝系に関する対照データを⽣成します。各グループの結果は統計学およびデータマイニング⼿法を⽤いて分析され、新しい治療と予測アプローチのための分⼦サインの発⾒に利⽤されます。こうして⽣成されたデータが、UMIT⽣物医学科の管理する医療データウェアハウスに統合され、継続的に蓄積されるのです。
がん研究へのキーとなるデータ処理
「今⽇のがん研究の⼤部分は、データ処理と統計分析から成っています」と、UMITの教授で⽣物医療⼯学委員会の委員でもある、Bernhard Tilg博⼠は説明します。「これらのプロジェクトのゴールは特定の種類の腫瘍と関連した分⼦サインを識別することです。それによって、効率的な診断⽤メカニズムを設計することができます。診断が間に合えば、がん治療の成功率は⾼いのです。しかし、早期の診断が、依然として困難なのです」
「我々はいくつもの異なるデータ・ソースを組み合わせて、⾼度な分析と統計処理を実⾏するためにデータ統合を使っています」と、UMITの准教授で⽣物医療⼯学委員会のBernhard Pfeifer博⼠。「そして、⾼いスループットのソースが⽣み出すデータ量のため、⾃動化されたアプローチが必須でした。我々はデータ統合ソリューションを、プロプライアタリなものもオープンなものもいくつか検討したのち、Talendのソリューションに決定しました。その柔軟性とオープン性、⾼性能がその理由でした」
実際のところ、このプロジェクトにとって、データ統合ソリューションはすべてのデータ・ソースにアクセスできるだけでなく、特定のデータ処理と統合できることが⾮常に重要でした。例えば、さまざまな医療装置が異なるフォーマットでデータを送ってくることから、これらのデータの前処理が必要となります。Talendのオープン・アーキテクチャは、そうしたデータにアクセスし処理するための、UMITによる特定のコンポーネント開発を可能にしました。
IMGuSプロジェクトにとっての統計分析の基礎となるLINDAデータウェアハウスは、PostgreSQL上に構築されており、そこへのデータ・ロードは、2つのステージに分かれています。最初のステージはEDC (Electronic Data Capture:電⼦データ・キャプチャ)と呼ばれており、患者サンプル、参照⽤医療データ、ゲノム地図等、すべての異なるデータ源からデータを収集してきます。「EDCステージは⼤変複雑です」とBernard Pfeifer博⼠は解説します。「データの提供者が⾮常に分散している(5つの⼤学と研究センター)だけでなく、データのフォーマットが実に多様です:⾮常に⼤きなCSVファイル、⾼解像度イメージ、RDBMS、XMLデータなどです」 その他の管理⽤データ、例えば患者の⼈⼝動態データ、それぞれのサンプルに関する⽣物学的情報(体組織、リンパ液等々)、情報が保管されているデータ・ソースに関する情報なども、このステージでロードされます。
第2のステージでは、EDCに含まれるデータを変換・編集し、クレンジングし、補⾜して、LINDAデータウェアハウスへのロードを⾏います。「この段階で、医学出版物、レガシー・システム、医療⽤リファレンス・データベースなど外部のプロバイダーからリファレンス・データを取り込む必要があります。そのために、TalendによるウェブサービスとXMLのネイティブ・サポートはプロジェクトにとって⼤いに価値があります」とBernard Pfeifer博⼠は認めています。「それにより、外部データの構⽂解析やクロスリファレンスが⾮常に容易であり、データウェアハウスの整備にかかる時間が⼤幅に節約されます」
データウェアハウスの頻繁なリフレッシュ(毎晩実⾏される)は、研究者がアドホックな問合せやデータマイニング・ツールを使⽤し、⾼度な統計モデルを適⽤し、研究に必要なデータを抽出することを保証しています。
「UMITの⽣物医学はデータ統合のすべてのニーズについて、Talendのソリューションに完全に依存しています」というのがBernard Pfeifer博⼠の結論です。「我々にはIMGuSプロジェクトが前⽴腺がんの死亡率減少に貢献するという⾼い望みがあります、データ統合はこのプロジェクトの重要な⼀部です。Talendは、我々が命を救うのを助けてくれているのです!」