Veeva Japan Blog

今、クリニカルデータに必要なのはスマートオートメーション

ライフサイエンス業界では、創薬分野でターゲットの特定や分子シミュレーション、薬物特性の予測、その他の応用分野に人工知能(AI)と機械学習(ML)を取り込むことに成功しています。患者のデータではなく、ペタバイト単位の分子のデータを取り込んでパターンを抽出し、「藁の中から針を探す」ような、困難な探索を行っています。Novo Nordisk社のようにデータを現場で生かすためにAIを活用し、品質管理と商業化を促進している企業もあります。

しかし、臨床試験の現場でAIとMLを実用化する動きはまだ始まったばかりです。創薬とは異なり、臨床データ(一般的な第Ⅲ相試験のデータポイント数は最大1000万)は一般に「ビッグデータ」には相当しないか、複雑な機械学習モデルのトレーニングに必要なレベルに達していないためです。

今、クリニカルデータマネジメント(CDM)プロセスを根本的に改善することは可能ですが、AIは(まだ)その解決策であると実証されていません。最近のオートメーションとオーグメンテーションの急速な進歩により、初回品質は向上しサイクルタイムとコストは低減していますが、AIへの過度の期待から、人の手間や時間、費用を抑えるスマートオートメーションのユースケースは十分に活用されていません。

現在、AIの知識はハイプサイクルのピークと関連する実験にまったく追いついていない状況です。ビジネスリーダーやITリーダーはAI/MLへの早期投資への重要性を訴え、当然ながら自身の組織内で前向きに取り組もうとします。ベンダーは市場のAI/ML願望を利用し、至る所でメッセージを発信しています。一方、最近のSCDMウェビナーで実施したスマートオートメーションに関するアンケートでは、参加した臨床データ関係者の54%はAI/ML用語をあまり理解していないことが判明しました。私はこの問題をめぐる混乱を一掃したいと思います。

CDMにとって将来的にAI/MLから享受するメリットはあります。特に人を支援し、意思決定を強化するユースケースでは有用です。GSK社グローバル・オンコロジー・データマネジメント担当のMagda Jaskowska氏はSCDMウェビナーで次のように述べています。「AI/MLは過度に期待されているだけなのか、そうでないのか。私は現実的に考えたいと思います。限界はありますが、長期的な可能性もあります。特に『人間参加型(ヒューマンインザループ)』を維持するユースケースが該当します。人間は最終的な意思決定者である必要があり、その責任を負わなければなりません」

CDMにおけるAI/MLは、コスト、複雑性、変更管理、そしてリスクを伴うものであるため、目的を持つ必要があります。臨床試験用ソフトウェアの学習中にエラーが生じたら誰が責任を負うべきかなど、倫理的な対応を慎重に検討すべきです。さらに、現在のところAI/MLに関する規制は確立されていないため、規制団体と協力し、目的にかなうユースケースを確認しなければなりません。

クリーンで、分析にすぐに使えるデータを獲得するには高額な費用がかかり、しかも緊急の対応が必要です。AI理論に過度に振り回される余裕はありません。実用的なAIのユースケースに対する準備も進めながら、オートメーションによるROIの最適化とデータクリーニングのよりよいバランスを見つけることが期待されます。

基本的要件であるクリーンデータ

2019年のAIとMLをテーマにしたNovartis社CEO、Vas Narasimhanに対するForbes誌のインタビューで、彼はこう述べています。「(チームは)アルゴリズムを実行できるようになるまで、ほとんどの時間をデータクリーニングだけに費やすことになりました。データセットのクリーニングだけで何年もかかったのです。実際にクリーンなデータがどれほど存在しているのか、データをクリーンにしてリンクさせることがどれほど大変なことなのかは、一般に過小評価されていると思います」。数値に大きな変動はあるものの、モデルの開発時にデータサイエンティストの時間の60~80%はデータの準備に費やされているのが一般的です。

このクリーンデータの課題は、試験プロトコルとデータソースの複雑性が原因で、一層悪化してきました。多くのバイオ製薬企業は今もなお、この作業にあまりにも多大な手作業とリソースを投入しなければならないのが現状です。データクリーニングはAI/MLの目的にかなったユースケースではありませんが、将来のAI/MLのユースケースの要件なのです。

AIとオートメーションを区別する: まずはオートメーションを優先する

ライフサイエンス業界が岐路に差しかかっていることは否定できません。自動化せずに大量のデータとプロセスを管理することはすでに不可能です。オートメーションは現在すでにデータクリーニングを含め、手作業を削減し、インテリジェンスを提供しています。SCDMでもその実例は散見されました。たとえば、臨床試験の大量のデータソース全体にわたり不一致を指摘する自動データ品質チェックなどです。さらに革新的な実例も今後出現するでしょう。

しかし、こうしたスマートなユースケースを「オートメーション」ではなく「AI」と称している組織があります。あるSCDMのセッションでは、講演者が「AIリコンシリエーション」について発表し、追及されると、これはオートメーションで実現できるかもしれないと示唆しました。それならなぜ実際のオートメーションのユースケースをAIだと言うのでしょうか。この種の主張は不正確で混乱を招きます。

共通言語の必要性

次に、AIとMLについて考えてみましょう。AI/MLという形で1つにまとめられることが多いのですが、個別に定義することが重要です。人工知能(AI)は人間の知能の一部の側面を模倣するテクノロジーの機能です。AIの傘下には、わかりやすく言えばAIが提供するもの(自然言語処理など)と、それをAIが提供する方法(機械学習など)があります。

AIをオートメーションと区別する場合は、相関関係と因果関係を考えてみましょう。オートメーションは、システムの中で原因(インプット)から結果(アクション)を確実に引き起こす「歯車」だと言えます。これに対してAIは相関関係を探し、パターンを学習する「脳」です。しかしAIは原因を理解しているわけではありませんし、必ずしも繰り返し再生可能な結果を生むわけでもありません。

smart automation 1smart automation 2

既定の用語を中心に共通言語を開発することが有効かもしれません。Magdaと私はSCDMウェビナーで、こうした用語と関連するユースケースについて議論しました。こうした用語については、今後のブログでさらに深く掘り下げていく予定です。

5つの重要用語

ルールベースのオートメーション(AIではない)

現在、ユーザーが遭遇するオートメーションの大部分は、従来の代表的な論理 「if/then」ルールをベースとしたアルゴリズムで実装されています。人間がプログラミング言語で記述したもので、簡単なルールからプロセスフローを自動化するスマートルールの最適な組み合わせまで広範囲に及びます。この種のオートメーションはルールベースであるため、毎回同じ結果をもたらします。

明確なビジネス上の問題(通常はルール数が100未満)であれば、ルールベースのオートメーションが最も速いスピードで解決し、しかも最も高い信頼性を発揮します。

臨床研究業界は業務上のルールを極めて重視します。私たちは SOP や手順書等の強固な枠組みの中で業務を遂行し、システムは論理的なワークフローとステータスに厳格に従いながら設計されます。

ロボティック・プロセス・オートメーション(AIではない)

ロボティック・プロセス・オートメーション(RPA)は、クリティカルシンキングをあまり必要としないタスクを繰り返し実行できるので、時間短縮を可能にします。「ボット」と呼ばれる自動化ソフトウェアが、ボタンのクリックやフィールドへのデータ入力によって人間のアクションを模倣し、タスクをミスなく、大量に、高速で実行します。

RPAは人間がコンピューター上で実行したタスクを記録し、その後は同じタスクを人の介入なく実行できます。ユーザーの特定のアクションを覚えさせるのですが、数理モデルを用いて「学習する」ことはしないので、機械学習には該当しません。混乱を招くのが、実用性向上のためにRPAのプロセスにAI手法を組み合わせる場合があることです。この組み合わせは「インテリジェント・オートメーション」と呼ばれます。

機械学習

機械学習(ML)は数理モデルを使ってデータからアルゴリズムを開発しながら、人間の管理が入る場合か入らない場合のいずれかのプロセスを通じてそれらのモデルを改良していくものです。MLは一般に人間のプログラマーによる開発ではあまりに高額な費用がかかる場合に利用されます。たとえば、Chat GPTのように英語の文脈を理解できるコンピューターシステムを開発しようとする場合です。

自然言語処理(NLP)と大規模言語モデル(LLM)

大規模言語モデル(LLM)は自然言語処理(NLP)を実施するときに使用される最も一般的な方法です。NLPは音声認識のように、テキストや話し言葉をコンピューターが「何なのか」理解する能力に当たります。一方、LLMはデータレビュー計画用の文書生成など、テキストの処理と生成を覚えさせるときに「どのようにするのか」に当たる深層学習アルゴリズムです。CDMの領域では、NLP/LLMはデータマネージャーがクリニカルデータ・ワークベンチ・システムとの自然言語のやりとりをサポートするために使用できるので、ワークベンチ内でデータの照会と操作を行うのに必要だった技術的障壁が低減されます。LLMも、データレビュー計画などの自動文書生成プロセスの一環として使用することができます。

生成AI

生成AIは生成モデルを使い、テキストや画像、映像その他のメディアを生成できる特定のAIの機能を指します。Chat GPTは、生成AIのサブカテゴリーである自然言語処理の一例です。生成AIは人工ニューラルネットワークを使って提供されることが最も一般的です。人工ニューラルネットワークは学習するため、MLのサブカテゴリーに含まれます。生成AIはデータから結論を引き出すだけでなく、一定の基準にもとづきアウトカムを予測し、解決策を策定することもできます。

当面はスマートオートメーションを活用できる機会である

スマートオートメーションとは、物理的プロセスとデータ量の深い理解を利用して、従来は手間のかかっていた人間の活動を自動化する技術です。試験デザインとデータソースが規模と複雑性を増す中で、臨床データマネージャーは品質と効率を確保するために、ますますスマートオートメーションを必要としています。

結論

将来の希望を一気にかなえてくれる魔法の解決策はありません。一方で私たちは現在の投資について賢明に対処しなければならないのです。私は今利用可能でありながらあまり利用されていないスマートオートメーションのユースケースについて現実的に議論し、低リスクで手間と時間、コストを節約したいと願っています。私たちが全体で共有する知識は、利用可能なテクノロジーとプロセスの価値を最大化することに集中させなければなりません。並行して、将来のソリューションに向けても冷徹に優先度を決める必要があります。今後数年間は、ルールベースのオートメーションがデータクリーニングに最も寄与しながら、同時に初期の価値の兆候を示しているAIモデルに対して高品質なデータを提供すると期待しています。

CDM業界としては、効率性が必要な「今」と、よりよいデータが求められるAIの未来とのバランスをとらなければなりません。このテーマに関するウェビナーの無料のオンデマンド録画は、SCDM’s learning portalサイトから視聴できます(SCDM会員でない方は「Friend of SCDM」オプションを選択し、アカウントを作成してください)。