継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

RIR-Mega-Speech:網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答(RIR)を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比(DRR)、明瞭度指数(C50)といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率(WER)が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。

6182 字
読む →

大規模言語モデルを用いた氏名・住所解析システム

非構造化された氏名や住所のテキストを、大規模言語モデルと決定論的な検証レイヤーを組み合わせることで、17項目の詳細なスキーマに変換する新しいフレームワークを提案しました。 追加のファインチューニングを一切行わず、入力の正規化、構造化されたプロンプト、制約付きデコード、そして厳格なルールベースの検証を統合することで、99.8%という極めて高い解析精度を達成しています。 このシステムは、多言語対応や誤字脱字への耐性を持ちながら、郵便番号と州の整合性チェックなどの実世界の制約を強制することで、大規模な情報システムにおける信頼性と再現性の高いデータ抽出を低コストで実現します。

7381 字
読む →

Sentipolis: 社会シミュレーションのための感情認識エージェント

従来の大規模言語モデル(LLM)エージェントは、感情を一時的な信号としてのみ処理するため、長期的な対話において感情の一貫性が失われる「感情的健忘(emotional amnesia)」という深刻な課題を抱えていました。

6596 字
読む →

ランダムな概念の注入によるLLMの多様性への対処

大規模言語モデル(LLM)が特定の一般的な回答ばかりを生成してしまう「ロングテール問題(モード崩壊)」に対し、プロンプトの先頭に無関係なランダムな単語や文章を付加するだけで、出力の多様性が統計的に有意に向上することを明らかにしました。

5849 字
読む →

バイリンガルの文産出における統語的転移の神経計算論的メカニズム

本論文は、バイリンガルが第二言語(L2)で文を作る際に第一言語(L1)の文法構造が干渉する「統語転移」の仕組みを、最新の神経計算モデル「ROSE」を用いて解明しています。具体的には、脳内の神経振動(オシレーション)の乱れが原因で、L1の強力なパターンがL2の計画を物理的に妨害する「サブスペース競合」と、文法要素を並べるタイミングがずれる「シーケンシング失敗」という2つの経路を提案しています。従来の脳波測定(ERP)では捉えきれなかった脳内の時間的・空間的な動態を明らかにすることで、言語間の干渉がどのように脳内で物理的に発生し、解決されるのかを説明する新しい理論的枠組みを提示しています。

5976 字
読む →

共鳴型スパース幾何ネットワーク

共鳴型スパース幾何ネットワーク(RSGN)は、脳の自己組織化されたスパースな接続性と動的な経路選択を模倣し、計算ノードを双曲幾何学空間(ポアンカレ球)に配置することで、従来のTransformerが抱える計算量の増大問題を根本から解決する新しいニューラルアーキテクチャである。

6950 字
読む →

接地された具体性:視覚言語モデルにおける人間のような具体性への感受性

視覚と言語を統合して学習したモデル(VLM)が、テキストのみのモデル(LLM)と比較して、言葉の「具体性」に対して人間により近い感受性を持つかを、Llamaシリーズを用いた制御された比較実験によって検証した。

5769 字
読む →

EvolVE:LLMベースのVerilog生成と最適化のための進化的探索

EvolVEは、大規模言語モデル(LLM)を活用してハードウェア記述言語であるVerilogのコード生成と最適化を自動化する、進化的探索アルゴリズムに基づいた革新的なフレームワークである。 機能的正当性を最大化するモンテカルロ木探索(MCTS)と、設計の最適化に特化したアイデア主導型洗練(IGR)という二つの異なる戦略を使い分け、さらに検証プロセスを高速化する構造化テストベンチ生成(STG)を導入している。 評価の結果、既存のベンチマークで世界最高水準の正解率を達成しただけでなく、産業規模の課題を含むIC-RTLベンチマークにおいて、人間による設計を大幅に上回る電力・性能・面積(PPA)の削減に成功した。

5838 字
読む →

協調的推論のきらめき:戦略的な花火エージェントとしてのLLM

大規模言語モデル(LLM)を対象に、不完全情報下での高度な協調が必要なカードゲーム「花火(Hanabi)」を用いた過去最大規模の評価を実施し、最新の推論モデルが25点満点中平均15点から18点という高いスコアを記録することを明らかにした。

5957 字
読む →

DRPG(分解・検索・計画・生成):学術的な反論のためのエージェントフレームワーク

学術論文の査読に対する反論(リバッタル)を自動生成するため、査読コメントの分解、関連情報の検索、反論戦略の計画、そして最終的な回答生成という4つの段階を踏むエージェントフレームワーク「DRPG」が開発されました。

6721 字
読む →