継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

イグボ語の発音記号復元に対するコーパスベースのアプローチ

イグボ語は自然言語処理のリソースが極めて乏しい言語であり、デジタルテキストにおいて意味や声を区別する発音記号が省略されることで生じる深刻な曖昧性が、言語理解の大きな障壁となっている。本研究では、この問題を解決するために、n-gramモデル、機械学習による分類モデル、および他言語からの投影を利用した単語埋め込みモデルという3つの主要な技術的アプローチを提案し、データセット生成のための柔軟なフレームワークを構築した。検証の結果、提案されたすべての手法が単語の出現頻度のみに基づく基準値を大幅に上回る精度を記録し、特に文脈情報を活用する手法が、検索エンジンや機械翻訳などの言語インフラを改善する上で極めて有効であることを実証した。

6243 字
読む →

大規模推論モデルにおける効率的な推論のための動的思考トークン選択

大規模推論モデル(LRM)が生成する膨大な思考プロセスは、メモリ消費と計算コストを増大させ、効率的な展開を妨げる深刻なボトルネックとなっています。本研究では、アテンションマップの解析により、思考トークンのうち最終的な回答に寄与するのはわずか約20%から30%の重要なトークンのみであり、残りの大部分は冗長であるという「推論におけるパレートの法則」を発見しました。この知見に基づき、重要な思考トークンを動的に予測・選択して保持し、不要なキャッシュを破棄する手法「DYNTS」を提案し、推論速度を最大2.62倍向上させ、メモリ使用量を最大5.73倍削減しつつ、フルキャッシュと同等の高い精度を維持することに成功しました。

6849 字
読む →

OCR強化型マルチモーダルASRは聞きながら読むことができる

本研究では、音声認識モデルのWhisperとOCRモデルのDonutを統合した、エンドツーエンドのマルチモーダル音声認識モデル「Donut-Whisper」を提案し、映画の字幕などの視覚的なテキスト情報を活用することで、音声のみのモデルが苦手とするノイズ環境や未知語の認識精度を大幅に向上させた。

5740 字
読む →

貪欲になるな、再考せよ:文書レベルの情報抽出のためのサンプリングと選択

文書レベル情報抽出(DocIE)において、従来の「貪欲法(Greedy Decoding)」による単一出力はモデルの潜在能力を制限していましたが、本研究では複数の候補を生成して最適なものを選択するフレームワーク「ThinkTwice」を提案しました。

6228 字
読む →

Whisperのエンコーダとデコーダの両方で視覚特徴量を用いる耐雑音性視聴覚音声認識

本研究は、Whisper ASRの騒音耐性を劇的に向上させるため、視覚的特徴量をエンコーダとデコーダの両方に統合する「デュアルユース」手法を提案し、従来の融合手法が抱えていた学習の不安定さや相互作用の欠如という課題を解決した。

5975 字
読む →

面白いか説得力があるか、しかし両方ではない:LLMにおけるきめ細かな多概念制御の評価

大規模言語モデルにおいて、ユーモアや説得力といった特定の文体概念を0から4までの5段階で詳細に制御する能力を測定するための、新しい評価フレームワークが提案されました。 単一の概念を制御する場合には一定の精度で強弱の調整が可能ですが、二つの概念を同時に制御しようとすると、たとえそれらが理論的に独立した概念であっても、モデルの制御性能が著しく低下することが明らかになりました。 この研究は、現在のモデルが複数の文体次元を組み合わせて調整する「合成性」に根本的な課題を抱えていることを示しており、今後の多次元的な制御手法を開発・評価するための標準的な基盤を提供しています。

6611 字
読む →

大規模言語モデルの人口統計学的プロービングは構成概念妥当性を欠いている

大規模言語モデル(LLM)が特定の人口統計学的属性に応じて振る舞いを変えるかを調べる「人口統計学的プロビング」において、名前や方言といった異なる「手がかり」が同じ結果を導かないという、構成概念妥当性の欠如を明らかにした。

5647 字
読む →

大規模言語モデルを用いて仮想トップマネージャーを構築する:組織研究のための手法

本研究は、製薬およびバイオテクノロジー業界のCEO181名の公開データ(年次報告書、インタビュー、ニュース記事)と道徳基盤理論(MFT)を組み合わせ、大規模言語モデル(LLM)を用いて実在の経営者を模した仮想ペルソナを構築する手法を提案した。

6016 字
読む →

社会福祉実習教育のための生成AI:リアルタイム・フィードバックを伴うクライエント・シミュレーション

本研究は、ソーシャルワーク教育における指導者不足と客観的評価の困難さを解決するため、対話型トレーニングチャットボット「SWITCH」を開発しました。 このシステムは、動機づけ面接(MI)の理論に基づき、実習生の発話を20種類の専門スキルにリアルタイムで分類し、クライエントの心理状態を動的に変化させることで、高度なシミュレーションを実現しています。 実習生は安全な環境で繰り返し練習を行い、客観的なデータに基づく即時フィードバックを受けることができ、指導者はより高度なメンターシップに専念することが可能になります。

5960 字
読む →

長文コンテキスト言語モデルにおけるインコンテキスト検索と効率的なKVキャッシュのためのファインチューニングの探索

長文コンテキスト言語モデル(LCLM)は数百万トークンの処理が可能ですが、従来のRAG(検索拡張生成)に性能で及ばないことが多いため、本研究ではGRPOを用いた強化学習により、膨大な情報から必要な情報を選択的に抽出・利用する能力の向上を試みました。

6729 字
読む →