継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

記号的検証によるLLMの因果推論における隠れた正当性の解明

大規模言語モデル(LLM)の因果推論能力を評価する際、従来の文字列一致や表面的な指標では、モデルが出力した因果式が数学的に正しいかどうかを正確に判定できないという問題がありました。 本研究が提案する「DoVerifier」は、do演算(do-calculus)と確率論の規則に基づき、モデルが生成した式が与えられた因果グラフから形式的に導出可能かをシンボリックに検証するシステムです。 検証の結果、従来の手法では誤答とされていた多くの回答が実は意味的に正解であったことが判明し、この手法を用いることでLLMの真の推論能力をより厳密に測定し、自己修正を促すことが可能になります。

5880 字
読む →

推論ホップのスケールアップが露呈させる弱点:大規模言語モデルにおけるホップ汎化の解明と改善

大規模言語モデル(LLM)は、学習時を超える推論ステップ(ホップ数)を要求されると、必要なスキルが同一であっても性能が急激に低下する「ホップ汎化」の課題を抱えており、本研究はその失敗が特定のトークン位置における「主要エラータイプ」に集中していることを突き止めました。

6161 字
読む →

時間的文脈とアーキテクチャ:自然主義的な脳波デコーディングのためのベンチマーク

本研究は、映画鑑賞時の脳波(EEG)データを用い、S5(状態空間モデル)やEEGXF(安定化Transformer)を含む5つのモデルで時間的コンテキストの影響を検証した。 結果として、S5は64秒の長いセグメントで98.

5635 字
読む →

パラメータ知識がすべてではない:事前学習データの検索による誠実な大規模言語モデルに向けて

大規模言語モデル(LLM)が自身の知識の境界を認識できず、事実に基づかない回答を生成する「ハルシネーション」の問題を解決するため、事前学習データにアクセス可能な公開モデル「Pythia」を活用した新しい評価ベンチマーク「TIP-TRIVIAQA」が提案されました。

6072 字
読む →

MGSM-Pro: 堅牢な多言語数学的推論評価のためのシンプルな戦略

大規模言語モデルの多言語における数学的推論能力を正確に評価するため、既存のMGSMを拡張し、数値や名前の変更、無関係な文脈の挿入を施した5つのバリエーションを持つ新データセット「MGSM-Pro」を提案し、モデルが特定の数値パターンを記憶している可能性を排除した。

5904 字
読む →

生きたガバナンスなき委任

従来のガバナンスモデルは、あらかじめ定義されたルールと事後の責任追及に依存しているが、判断そのものを機械の速度で実行するエージェント型AIの登場により、人間がシステムの挙動を追跡・修正するための「時間」という前提条件が崩壊し、既存の枠組みは構造的な限界を迎えている。

6081 字
読む →

尋ねるだけで:好奇心旺盛なコードエージェントがフロンティアLLMのシステムプロンプトを明らかにする

現代の自律型コードエージェントは、高度な推論能力を持つ一方で、自身の挙動を規定する隠されたシステムプロンプトを体系的に探索・復元されてしまうという、これまで認識されていなかった重大なセキュリティ上の脆弱性を抱えている。

5976 字
読む →

PHDME: 明示的な支配方程式を必要としない物理情報に基づいた拡散モデル

複雑な動的システムの予測において、従来の物理情報に基づく機械学習は明示的な支配方程式を必要としていたが、本研究では方程式が未知または不完全な場合でも適用可能なPHDMEという新しい拡散モデルの枠組みを提案している。

5700 字
読む →

SHARP:大規模言語モデルにおける不平等を測定するためのリスクプロファイルによる社会的危害の分析

大規模言語モデル(LLM)が金融や医療などの重要領域で活用される中、従来の平均値に基づく評価指標では、稀に発生するが深刻な社会的危害や最悪のケースにおける不適切な挙動を見逃してしまうという構造的な課題が存在しています。

6661 字
読む →

言語生成におけるノイズの影響の定量化

本研究は、言語モデルの生成能力が訓練データに含まれる有限個のノイズから受ける影響を理論的に解明し、クリーンなデータとわずか1つのノイズの間には生成可能な言語集合の厳密な減少を伴う決定的な断絶があることを数学的に証明した。

6500 字
読む →