MEGの連続時系列をトランスフォーマー系の基盤モデルで扱う際のサンプルレベル「トークナイゼーション」を、学習型と非学習型で体系的に比べると、多くの評価観点では差が大きくならず、単純な固定手法でも基盤モデル開発を進められる可能性が示されました。
自然言語処理や視覚分野での基盤モデルの成功を受けて、神経画像データでも大規模な基盤モデルを作り、少量のラベルや課題情報に依存せずに汎用表現を学習したいという関心が高まっています。特にEEGやMEGは時間分解能が高く、多変量で長い時系列になりやすいため、自己教師ありで大規模事前学習を行う発想と相性がよいとされています。一方で、トランスフォーマー系のモデルを適用するには、連続値の時系列を離散的な記号列に変換する「トークナイゼーション」が設計上の中心になります。ここでのトークン化は単なる前処理ではなく、表現の粒度やモデルに入る帰納バイアスを左右し、結果として下流性能や生成挙動まで影響し得る部品です。 しかし、神経信号向けにどのトークナイゼーションが望ましいのか、またその違いが何にどの程度効くのかは十分に整理されていません。一般の時系列向けに発展した方法は、小売・金融・疫学などを想定しており、振動ダイナミクスやスペクトル構造、振幅分布が概ねガウス的と述べられる神経信号の性質と一致するとは限りません。適切でないトークン化は、生物学的に意味のある構造を見えにくくしたり、データの統計性質に合わない仮定を押し付けたりするおそれがあります。…
本研究の提案は、MEG向けのトランスフォーマーベース大規模神経画像モデル(Large Neuroimaging Models)を想定し、サンプルレベルのトークナイゼーションを同一の枠組みで比較評価する、という実験設計そのものにあります。評価は大きく二軸で、第一に「連続信号を離散空間へ写すときの情報損失の小ささ」を信号復元の精度で測り、第二に「そのトークン列で基盤モデルを事前学習したときの挙動」を多面的に調べます。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related