ライフサイエンスにおけるメタデータの重要性
Posted by Nick Diamond on 01 July 2021 08:36 PM |
|
多構造化データは、ライフサイエンスにおける重要なビジネス課題の解決に役立つ新しい知見をもたらすため、大きな期待が寄せられています。しかしこの期待を現実のものとするには、データ戦略としてペタバイト級の臨床/規制/リアルワールドデータを結びつけることで、臨床の問題を解決する必要があります。ここでメタデータが必要となります。 メタデータとは何かメタデータとは単なる「データに関するデータ」です。これは情報リソースについて記述し、説明し、場所を示すことで、その発見を楽にするようなデータです。これには、構造に関するもの(「どこに含まれているのか」)、説明的なもの(「このドキュメントの著者はだれか」)、管理に関するもの(「ファイルのタイプは何か」)があります。メタデータは、データをハーモナイズし、リンクし、コンテキストを提供する接着剤のようなものです。昔ながらの図書館カード目録(デューイ十進分類法に基づく)を使って本を探したことがある人は、実はメタデータを使っていたことになります(デジタルではないメタデータですが)。 メタデータの利点ライフサイエンス企業では、データ戦略においてメタデータ管理を優先した場合、3つの大きなアドバンテージが得られます。
検索やセマンティックがないとメタデータの活用は困難メタデータの価値を最大化するデータ戦略とは、専門的な言葉を使わないで説明すると、「探しているものを簡単に見つけられるようにする」ということにつきます。一方、専門的な言葉で説明すると、最初にデータをシャーディングしなくても、強力な検索インデックスを使って複雑なクエリを実行できるということです。これらのインデックスにより、格納されたデータとメタデータの両方を対象とする検索エンジン機能がデータ戦略にもたらされます。 例えば、ある特定の薬に関して「患者アドヒアランス」(ちゃんと服薬しているかどうか)を研究する際に、リアルワールドエビデンスを抽出する必要があるとします。さまざまなソースシステムにあるデータやメタデータを検索することで、服薬しない主な原因を抽出できます。また、「特定の患者グループにおいて、他よりも強い副作用が見られるのかどうか」「治療プロトコルを、『1日1錠から2錠へ』あるいは『注射から服薬』へ変えることは可能なのか」「特定のヘルスプランにおいて、この医薬品の費用分担は大き過ぎるのか」といった問いを扱うことができます。 さらに、自分の探していたものを発見できるだけでなく、点と点を楽に結びつけられるといいでしょう。これは専門用語では、「セマンティック」と呼ばれます。セマンティックデータ(「トリプル」)とは、関連するエンティティ(人/場所/モノ)をリンクして関係性を表現したものです。データ戦略を確実なものにするには、トリプルをネイティブに格納して、データおよびメタデータに関する価値あるコンテキストを提供できる必要があります。セマンティックトリプルを活用することで、創薬をはじめとする主要な業務プロセスにおいて、探索/分類/分析などを促進できます。 まとめると、ライフサイエンス企業は、「データ戦略の立案時にメタデータ管理を優先すべき」だということです。結局のところ、大量のナレッジが含まれている古くからの図書館カード目録も、デューイ十進分類法がなければ活用は困難なのですから。 The post ライフサイエンスにおけるメタデータの重要性 appeared first on MarkLogic. | |