タグ: cs.CL | Cog AI Archive

AI研究 2026-01-29

LLMによって洗練されたタクソノミーを用いた階層的テキスト分類

階層的テキスト分類（HTC）において、人間が作成した従来のタクソノミー（分類体系）には曖昧さや不整合が含まれており、言語モデルの学習を妨げているという課題がある。本研究が提案する「TAXMORPH」は、大規模言語モデル（LLM）をタクソノミストとして活用し、リネームや統合、再配置を通じて分類体系全体をモデルの内部表現に適した構造へと自動的に洗練させるフレームワークである。実験の結果、LLMで洗練されたタクソノミーは人間による元の体系を最大で2.9ポイント上回るF1スコアを記録し、モデルの推論バイアスとより密接に一致することで分類精度を向上させることが確認された。

6054 字

読む →

AI研究 2026-01-29

イグボ語の発音記号復元に対するコーパスベースのアプローチ

イグボ語は自然言語処理のリソースが極めて乏しい言語であり、デジタルテキストにおいて意味や声を区別する発音記号が省略されることで生じる深刻な曖昧性が、言語理解の大きな障壁となっている。本研究では、この問題を解決するために、n-gramモデル、機械学習による分類モデル、および他言語からの投影を利用した単語埋め込みモデルという3つの主要な技術的アプローチを提案し、データセット生成のための柔軟なフレームワークを構築した。検証の結果、提案されたすべての手法が単語の出現頻度のみに基づく基準値を大幅に上回る精度を記録し、特に文脈情報を活用する手法が、検索エンジンや機械翻訳などの言語インフラを改善する上で極めて有効であることを実証した。

6243 字

読む →

AI研究 2026-01-29

大規模推論モデルにおける効率的な推論のための動的思考トークン選択

大規模推論モデル（LRM）が生成する膨大な思考プロセスは、メモリ消費と計算コストを増大させ、効率的な展開を妨げる深刻なボトルネックとなっています。本研究では、アテンションマップの解析により、思考トークンのうち最終的な回答に寄与するのはわずか約20%から30%の重要なトークンのみであり、残りの大部分は冗長であるという「推論におけるパレートの法則」を発見しました。この知見に基づき、重要な思考トークンを動的に予測・選択して保持し、不要なキャッシュを破棄する手法「DYNTS」を提案し、推論速度を最大2.62倍向上させ、メモリ使用量を最大5.73倍削減しつつ、フルキャッシュと同等の高い精度を維持することに成功しました。

6849 字

読む →

AI研究 2026-01-29

OCR強化型マルチモーダルASRは聞きながら読むことができる

本研究では、音声認識モデルのWhisperとOCRモデルのDonutを統合した、エンドツーエンドのマルチモーダル音声認識モデル「Donut-Whisper」を提案し、映画の字幕などの視覚的なテキスト情報を活用することで、音声のみのモデルが苦手とするノイズ環境や未知語の認識精度を大幅に向上させた。

5740 字

読む →

AI研究 2026-01-29

貪欲になるな、再考せよ：文書レベルの情報抽出のためのサンプリングと選択

文書レベル情報抽出（DocIE）において、従来の「貪欲法（Greedy Decoding）」による単一出力はモデルの潜在能力を制限していましたが、本研究では複数の候補を生成して最適なものを選択するフレームワーク「ThinkTwice」を提案しました。

6228 字

読む →

AI研究 2026-01-29

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

本研究は、Whisper ASRの騒音耐性を劇的に向上させるため、視覚的特徴量をエンコーダとデコーダの両方に統合する「デュアルユース」手法を提案し、従来の融合手法が抱えていた学習の不安定さや相互作用の欠如という課題を解決した。

5975 字

読む →

AI研究 2026-01-29

面白いか説得力があるか、しかし両方ではない：LLMにおけるきめ細かな多概念制御の評価

大規模言語モデルにおいて、ユーモアや説得力といった特定の文体概念を0から4までの5段階で詳細に制御する能力を測定するための、新しい評価フレームワークが提案されました。単一の概念を制御する場合には一定の精度で強弱の調整が可能ですが、二つの概念を同時に制御しようとすると、たとえそれらが理論的に独立した概念であっても、モデルの制御性能が著しく低下することが明らかになりました。この研究は、現在のモデルが複数の文体次元を組み合わせて調整する「合成性」に根本的な課題を抱えていることを示しており、今後の多次元的な制御手法を開発・評価するための標準的な基盤を提供しています。

6611 字

読む →

AI研究 2026-01-29

大規模言語モデルの人口統計学的プロービングは構成概念妥当性を欠いている

大規模言語モデル（LLM）が特定の人口統計学的属性に応じて振る舞いを変えるかを調べる「人口統計学的プロビング」において、名前や方言といった異なる「手がかり」が同じ結果を導かないという、構成概念妥当性の欠如を明らかにした。

5647 字

読む →

AI研究 2026-01-29

大規模言語モデルを用いて仮想トップマネージャーを構築する：組織研究のための手法

本研究は、製薬およびバイオテクノロジー業界のCEO181名の公開データ（年次報告書、インタビュー、ニュース記事）と道徳基盤理論（MFT）を組み合わせ、大規模言語モデル（LLM）を用いて実在の経営者を模した仮想ペルソナを構築する手法を提案した。

6016 字

読む →

AI研究 2026-01-29

社会福祉実習教育のための生成AI：リアルタイム・フィードバックを伴うクライエント・シミュレーション

本研究は、ソーシャルワーク教育における指導者不足と客観的評価の困難さを解決するため、対話型トレーニングチャットボット「SWITCH」を開発しました。このシステムは、動機づけ面接（MI）の理論に基づき、実習生の発話を20種類の専門スキルにリアルタイムで分類し、クライエントの心理状態を動的に変化させることで、高度なシミュレーションを実現しています。実習生は安全な環境で繰り返し練習を行い、客観的なデータに基づく即時フィードバックを受けることができ、指導者はより高度なメンターシップに専念することが可能になります。

5960 字

読む →

生成AI研究を、要点から追う。

最新の記事

LLMによって洗練されたタクソノミーを用いた階層的テキスト分類

イグボ語の発音記号復元に対するコーパスベースのアプローチ

大規模推論モデルにおける効率的な推論のための動的思考トークン選択

OCR強化型マルチモーダルASRは聞きながら読むことができる

貪欲になるな、再考せよ：文書レベルの情報抽出のためのサンプリングと選択

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

面白いか説得力があるか、しかし両方ではない：LLMにおけるきめ細かな多概念制御の評価

大規模言語モデルの人口統計学的プロービングは構成概念妥当性を欠いている

大規模言語モデルを用いて仮想トップマネージャーを構築する：組織研究のための手法

社会福祉実習教育のための生成AI：リアルタイム・フィードバックを伴うクライエント・シミュレーション