継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

一度のアラインメントで多言語に恩恵:LLMの安全性アラインメントのための多言語一貫性損失(MLC)

多くの安全性アラインメントは高リソース言語ではうまく働いても、他言語では安全な拒否が崩れる偏りが残りやすいため、言語が違っても同じ安全方針を保つ仕組みが必要です。 / 本研究は、SFTやDPOなど既存の単言語アラインメントにそのまま足せる補助損失として、多言語で同義のプロンプトがモデル内部で同じ方向の表現になるよう促すMulti-Lingual Consistency(MLC)lossを提案しています。 / 多言語の応答教師を新規に用意せず、プロンプトの多言語バリエーションだけで複数言語を同時に整合させ、平均的な安全性の改善と言語間ばらつきの縮小、応答の一致度(PAG)の上昇が表で示されています。

6454 字
読む →

コストと不確実性のトレードオフを「見える化」して探索を最適化する:Calibrate-Then-Act(CTA)

単発回答で終わらないタスクでは、追加で調べるほど時間や手間のコストが増える一方、早く確定すると誤りのリスクが残るため、探索を続けるか確定するかの判断を「不確実性とコストの釣り合い」として扱うことが重要です。

5691 字
読む →

Fast Weightモデルを「次トークン」から「次シーケンス」へ拡張して鍛えるREFINE:強化学習による長文脈モデリング改善

Fast weightアーキテクチャは文脈長に対して一定のメモリ負荷で推論しやすい一方、次トークン予測だけの学習では接頭辞の後に続く複数トークンの意味的一貫性を直接は最適化できず、長距離依存を取りこぼしやすいと指摘されています。

6740 字
読む →

大規模言語モデルにおける合成的推論のための再帰的概念進化

大規模言語モデルは多くの推論課題で強い一方、推論中に新しい抽象を組み立てる合成的推論では、内部表現空間が固定されていること自体がボトルネックになり、探索を増やしても精度が崩れやすいと位置づけられています。

6518 字
読む →

潜在的なテキスト処置による因果効果推定

テキストを「処置」として因果効果を推定すると、同じ文章の中に処置情報と共変量情報が混ざりやすく、素朴な推定では大きな偏りが出たり、重なりの仮定が崩れたりします。 / 本研究は、疎オートエンコーダで解釈しやすい潜在特徴を仮説として選び、ステアリングでその特徴を主に変えた疑似反実仮想テキストを生成し、さらに埋め込みから処置情報を除く残差化で推定を安定化します。 / 理論整理と半合成シミュレーションにより、狙った特徴の変動を誘発できること、そして埋め込みをそのまま調整に使う方法で生じる推定誤差を残差化が緩和し得ることが示されています。

6029 字
読む →

歴史的な低資源言語のレンマ化と品詞付与をLLMで進める試み:古代ギリシア語・古典アルメニア語・古ジョージア語・シリア語での少数例/ゼロ例評価

歴史的で注釈資源が乏しい4言語(古代ギリシア語・古典アルメニア語・古ジョージア語・シリア語)のレンマ化と品詞付与を、微調整なしの大規模言語モデルでもどこまで開始できるかを、同一条件のベースラインと並べて検証した研究です。

6191 字
読む →

二値判定を越えて、動画内の多様な性差別を捉える:スペイン語マルチモーダルデータセットFineMuSeと階層タクソノミー

オンライン上の性差別は形が複数あり、性差別か非性差別かの二値だけでは、文脈に依存する微妙で暗黙的な表現が見落とされやすく、説明がない自動フラグは透明性の面でも課題になり得ます。 / そこで、スペイン語のソーシャルメディア動画を対象に、二値注釈と詳細注釈を併せ持つFineMuSeと、性差別・非性差別に加えて皮肉とユーモアも扱える三層の階層タクソノミーを提示し、二値検出と詳細検出の両方で多数の大規模言語モデルを評価しています。 / その結果、マルチモーダル大規模言語モデルはニュアンスのある性差別の同定で人手注釈者と競争的な性能を示す一方、視覚的手掛かりで伝わる「複数タイプの併発」を捉える点には難しさが残ると報告されています。

5881 字
読む →

ChartEditBench:マルチモーダル言語モデルにおける「根拠付き・複数ターンのチャート編集」を評価するベンチマーク。

マルチモーダル言語モデルは単発のチャート生成では高い性能を示しやすい一方で、実務のように既存の図を何度も直しながら仕上げる場面で必要な「共通理解の維持」と「過去の編集の追跡」を、長い会話の中で安定して行えるかは十分に測れていません。

5784 字
読む →

GLM-5:バイブ・コーディングからエージェント的エンジニアリングへ

GLM-5は、思いつきに任せたvibe codingではなく、計画・実行・自己修正までをエージェントが進めるagentic engineeringを成立させる基盤モデルとして提案されています。 / 長文脈で高コストになりやすい注意計算をDSA(DeepSeek Sparse Attention)で効率化しつつ、生成(ロールアウト)と学習を切り離す非同期の強化学習基盤と、長い相互作用から学びやすい非同期Agent RLアルゴリズムを組み合わせています。 / 主要な公開ベンチマークやArtificial Analysis Intelligence Index v4.0、LMArenaなどで強い結果が示され、特に実世界のコーディング課題で従来の基準を押し上げる能力が強調されています。

5780 字
読む →

ViTaB-A:マルチモーダル大規模言語モデルにおける「表の根拠提示(行・列・セル引用)」を評価する。

表(Markdown、JSON、画像)に対するマルチモーダル大規模言語モデルは、質問への最終回答が中程度に正しい場合があっても、その答えを支える行・列・セルを正確に指し示す能力には大きな不足があり、特にJSONでは根拠提示がほぼ偶然に近い水準まで落ちます。

5938 字
読む →