継続更新

ECG-Agent: デバイス上で動作する、心電図(ECG)対話のためのツール呼び出しエージェント

従来の心電図解析AIが抱えていた「複数回の対話が困難」「デバイス上での動作にはモデルが巨大すぎる」「波形の微細な測定精度が低い」という3つの主要な課題を解決するため、外部ツールを自在に使いこなす軽量なAIエージェント「ECG-Agent」を開発しました。

ECG-Agent: デバイス上で動作する、心電図(ECG)対話のためのツール呼び出しエージェント の図解
論文図解

TL;DR(結論)

従来の心電図解析AIが抱えていた「複数回の対話が困難」「デバイス上での動作にはモデルが巨大すぎる」「波形の微細な測定精度が低い」という3つの主要な課題を解決するため、外部ツールを自在に使いこなす軽量なAIエージェント「ECG-Agent」を開発しました。 10億(1B)や30億(3B)といった小規模なパラメータ数でありながら、専門的な測定ツールや分類ツールを呼び出すことで、従来の70億(7B)規模のモデルや汎用的な大規模言語モデルを精度と網羅性の両面で上回り、スマートフォン等の限られたリソース環境でも高精度な解析を可能にしました。 実際の医療相談データを基にした多層的な対話データセット「ECG-MTD」を構築し、不整脈の分類から心拍数・PQRST間隔の精密な測定、さらには診断根拠の視覚的な説明まで、ユーザーの習熟度に応じた自然な対話形式で提供できる実用的なパーソナルヘルスケア基盤を実現しました。

なぜこの問題か

近年のマルチモーダル大規模言語モデル(MLLM)の急速な進歩により、心電図(ECG)の自動分類やレポート作成、単発の質疑応答が可能になってきました。しかし、これらを実際のパーソナルヘルスモニタリングやウェアラブルデバイスで実用化するには、解決すべき3つの深刻な障壁が存在していました。第一に、既存のモデルの多くは単発の質疑応答(Single-turn QA)に特化して訓練されており、文脈を維持した複数回の対話(Multi-turn Dialogue)が困難であるという点です。実際のユーザーとのやり取りは、最初の質問に続く補足的な質問や、以前の回答を踏まえた深い相談など、連続的な対話が自然な形となります。既存のモデルでは、前のターンの内容を考慮できず、一貫した対話を提供することができませんでした。 第二に、計算リソースとメモリの制約が挙げられます。既存のECG対応モデルの多くは7B(70億)以上のパラメータを持ち、動作には膨大なメモリを必要とします。一般的なスマートフォンのRAM容量は6GBから8GB程度であり、OSの動作分を差し引くと、8Bクラスのモデルを動かすにはメモリが不足します。…

核心:何を提案したのか

本研究の核心は、言語モデルを単なる回答生成器としてではなく、専門的なツールを使いこなす「エージェント」として再定義した点にあります。これを実現するために、著者らは「ECG-Agent」という新しいフレームワークと、その学習・評価のためのデータセット「ECG-MTD(ECG Multi-Turn Dialogue)」を提案しました。ECG-Agentは、推論と計画を司る言語モデル(バックボーン)が、必要に応じて外部の専門ツールを呼び出す「ツール呼び出し(Tool-calling)」の仕組みを採用しています。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む