AI研究 | Cog AI Archive

AI研究 2026-01-29

給与システムのための大規模言語モデルにおける意味論的および構文論的理解の評価

給与計算は、わずか数セントの誤差が法令遵守に影響を与えるため、大規模言語モデル（LLM）にとって極めて高い精度と監査可能性が求められる過酷なテストケースとなります。現在のLLMは文章作成や分析において優れた能力を示していますが、厳密な数値計算や、複雑なビジネスルールを正しい順序で適用する能力については依然として不確実性が残っており、本研究ではその限界と可能性を検証しました。研究では、GPT 5 Auto、Claude Sonnet 4、Perplexity Pro、Grok Auto、Gemini 2.5 Proといった主要なモデルを対象に、5段階の難易度を持つデータセットと4段階のプロンプト手法を用いて、給与計算スキーマの意味理解と計算精度を評価しました。検証の結果、単純な計算では多くのモデルが100%の精度を達成したものの、複雑なシナリオではプロンプトの詳細度が精度に大きく影響し、特に明示的な数式を提供したレベル4においてPerplexity Proが最も高い信頼性を示しました。実験データによれば、単純な乗算を超えた複雑なタスクにおいて、LLMが単独で正確な結果を出すには限界があり、明示的なアルゴリズムの提示や外部ツールの活用が不可欠であることが明らかになりました。特に、多州にまたがる税金の按分や為替変換を含む高度なシナリオでは、モデル間で性能の差が顕著に現れており、実務への導入には慎重なプロンプト設計と検証プロセスの構築が求められるという結論に至っています。

6532 字

読む →

AI研究 2026-01-29

RIR-Mega-Speech：網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

RIR-Mega-Speechは、LibriSpeechの音声と約5,000のシミュレーションされた部屋インパルス応答（RIR）を組み合わせた、約117.5時間の新しい残響音声コーパスである。最大の特徴は、全ファイルに対してRT60、直接音対残響音比（DRR）、明瞭度指数（C50）といった詳細な音響メタデータが付与されている点にあり、WindowsおよびLinux環境でデータセットの再構築や評価結果の再現が可能なスクリプトが提供されている。Whisper smallモデルを用いた検証では、残響によって単語誤り率（WER）が5.20%から7.70%へと相対的に48%悪化することが示され、RT60の増加やDRRの低下に伴って認識精度が単調に低下する物理的特性と一致する傾向が確認された。

6182 字

読む →

AI研究 2026-01-29 長文

大規模言語モデルを用いた氏名・住所解析システム

非構造化された氏名や住所のテキストを、大規模言語モデルと決定論的な検証レイヤーを組み合わせることで、17項目の詳細なスキーマに変換する新しいフレームワークを提案しました。追加のファインチューニングを一切行わず、入力の正規化、構造化されたプロンプト、制約付きデコード、そして厳格なルールベースの検証を統合することで、99.8%という極めて高い解析精度を達成しています。このシステムは、多言語対応や誤字脱字への耐性を持ちながら、郵便番号と州の整合性チェックなどの実世界の制約を強制することで、大規模な情報システムにおける信頼性と再現性の高いデータ抽出を低コストで実現します。

7381 字

読む →

AI研究 2026-01-29

Sentipolis: 社会シミュレーションのための感情認識エージェント

従来の大規模言語モデル（LLM）エージェントは、感情を一時的な信号としてのみ処理するため、長期的な対話において感情の一貫性が失われる「感情的健忘（emotional amnesia）」という深刻な課題を抱えていました。

6596 字

読む →

AI研究 2026-01-29

ランダムな概念の注入によるLLMの多様性への対処

大規模言語モデル（LLM）が特定の一般的な回答ばかりを生成してしまう「ロングテール問題（モード崩壊）」に対し、プロンプトの先頭に無関係なランダムな単語や文章を付加するだけで、出力の多様性が統計的に有意に向上することを明らかにしました。

5849 字

読む →

AI研究 2026-01-29

バイリンガルの文産出における統語的転移の神経計算論的メカニズム

本論文は、バイリンガルが第二言語（L2）で文を作る際に第一言語（L1）の文法構造が干渉する「統語転移」の仕組みを、最新の神経計算モデル「ROSE」を用いて解明しています。具体的には、脳内の神経振動（オシレーション）の乱れが原因で、L1の強力なパターンがL2の計画を物理的に妨害する「サブスペース競合」と、文法要素を並べるタイミングがずれる「シーケンシング失敗」という2つの経路を提案しています。従来の脳波測定（ERP）では捉えきれなかった脳内の時間的・空間的な動態を明らかにすることで、言語間の干渉がどのように脳内で物理的に発生し、解決されるのかを説明する新しい理論的枠組みを提示しています。

5976 字

読む →

AI研究 2026-01-29

共鳴型スパース幾何ネットワーク

共鳴型スパース幾何ネットワーク（RSGN）は、脳の自己組織化されたスパースな接続性と動的な経路選択を模倣し、計算ノードを双曲幾何学空間（ポアンカレ球）に配置することで、従来のTransformerが抱える計算量の増大問題を根本から解決する新しいニューラルアーキテクチャである。

6950 字

読む →

AI研究 2026-01-29

接地された具体性：視覚言語モデルにおける人間のような具体性への感受性

視覚と言語を統合して学習したモデル（VLM）が、テキストのみのモデル（LLM）と比較して、言葉の「具体性」に対して人間により近い感受性を持つかを、Llamaシリーズを用いた制御された比較実験によって検証した。

5769 字

読む →

AI研究 2026-01-29

EvolVE：LLMベースのVerilog生成と最適化のための進化的探索

EvolVEは、大規模言語モデル（LLM）を活用してハードウェア記述言語であるVerilogのコード生成と最適化を自動化する、進化的探索アルゴリズムに基づいた革新的なフレームワークである。機能的正当性を最大化するモンテカルロ木探索（MCTS）と、設計の最適化に特化したアイデア主導型洗練（IGR）という二つの異なる戦略を使い分け、さらに検証プロセスを高速化する構造化テストベンチ生成（STG）を導入している。評価の結果、既存のベンチマークで世界最高水準の正解率を達成しただけでなく、産業規模の課題を含むIC-RTLベンチマークにおいて、人間による設計を大幅に上回る電力・性能・面積（PPA）の削減に成功した。

5838 字

読む →

AI研究 2026-01-29

協調的推論のきらめき：戦略的な花火エージェントとしてのLLM

大規模言語モデル（LLM）を対象に、不完全情報下での高度な協調が必要なカードゲーム「花火（Hanabi）」を用いた過去最大規模の評価を実施し、最新の推論モデルが25点満点中平均15点から18点という高いスコアを記録することを明らかにした。

5957 字

読む →

生成AI研究を、要点から追う。

最新の記事

給与システムのための大規模言語モデルにおける意味論的および構文論的理解の評価

RIR-Mega-Speech：網羅的な音響メタデータと再現可能な評価を備えた残響音声コーパス

大規模言語モデルを用いた氏名・住所解析システム

Sentipolis: 社会シミュレーションのための感情認識エージェント

ランダムな概念の注入によるLLMの多様性への対処

バイリンガルの文産出における統語的転移の神経計算論的メカニズム

共鳴型スパース幾何ネットワーク

接地された具体性：視覚言語モデルにおける人間のような具体性への感受性

EvolVE：LLMベースのVerilog生成と最適化のための進化的探索

協調的推論のきらめき：戦略的な花火エージェントとしてのLLM