継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

多重表現生成を通じた統一マルチモーダルモデルにおける生成による理解の強化

統一マルチモーダルモデル(UMM)において、画像生成タスクを補助的に活用することで視覚的理解能力を飛躍的に向上させる新しい学習手法「UniMRG」が提案されました。 従来のピクセル再構成に加え、幾何学的な奥行き(デプス)や構造的なセグメンテーションといった複数の内部表現を生成させることで、モデルは空間関係や物体の境界をより深く学習します。 実験では、微細な知覚能力の向上やハルシネーションの抑制、空間認識の強化が確認され、理解タスクの精度向上と同時に画像生成の質も高まるという相乗効果が実証されました。

5840 字
読む →

動的モデル補間によるシステム1と2の相乗効果:DAMIフレームワークの提案

大規模言語モデルにおいて、直感的な「システム1」と熟考的な「システム2」を統合する際、従来の出力トークン数を制限する手法(出力制御)ではなく、モデルの思考の深さそのものを調整する「能力制御」という新しいパラダイムを提案します。

6065 字
読む →

難易度を考慮した強化学習による大規模推論モデルの過剰思考の軽減

大規模推論モデル(LRM)が、非常に単純な問いに対しても不必要に長い思考プロセスを展開してしまう「過剰思考(オーバーシンキング)」という課題を解決するため、タスクの難易度を自律的に認識して推論の深さを調整する新しい学習枠組み「DiPO」が提案されました。

5870 字
読む →

難易度を考慮した強化学習による大規模推論モデルの過剰思考の軽減

大規模推論モデル(LRM)が単純な課題に対しても過剰に長い思考プロセスを生成してしまう「オーバーシンキング」問題を解決するため、タスクの難易度を自己認識して推論の深さを動的に調整する強化学習フレームワーク「DiPO」が提案されました。

5792 字
読む →

ConceptMoE:適応的なトークン圧縮による暗黙的な計算資源の割り当て

ConceptMoEは、意味的に類似した連続するトークンを動的に結合して「概念(コンセプト)」表現へと圧縮し、大規模言語モデルにおける計算資源の割り当てをトークン単位から概念単位へと進化させる新しいアーキテクチャである。

6341 字
読む →

ConceptMoE:暗黙的な計算割り当てのための適応的なトークンからコンセプトへの圧縮

大規模言語モデルが全てのトークンに一律の計算資源を割り当てる非効率性を解消するため、意味的に類似した連続トークンを「コンセプト」として動的に統合し、計算を最適配分するConceptMoEを提案した。

5717 字
読む →

一貫性から相補性へ:時系列の理解と推論に向けた整列・解きほぐしマルチモーダル学習

時系列データの数値情報と視覚的なプロット図を統合し、自然言語での問いかけに対して高度な分析や推論を行うマルチモーダル言語モデル「MADI」が提案されました。このモデルは、パッチ単位での精密な位置合わせを行う「Patch-level Alignment」と、情報の重複を排除して各モダリティ固有の強みを引き出す「Discrete Disentangled Interaction」を中核としています。 従来の数値中心の手法が持つ構造把握の弱点と、視覚中心の手法が持つ数値精度の欠如という双方の課題を解決するため、数値、画像、テキストの3つのモダリティを物理的に対応付け、さらに情報の「解きほぐし」を行うことで、数値の正確性と視覚的なトレンド把握の両立を高い次元で実現しています。 合成データおよび実世界のベンチマークを用いた広範な検証において、MADIは汎用的な大規模言語モデルや時系列特化型の既存モデルを一貫して上回る性能を示しました。これにより、医療、金融、産業メンテナンスといった複雑な意思決定が求められる専門的なドメインにおいて、より信頼性の高い対話型解析が可能になります。

7402 字
読む →

一貫性から相補性へ:時系列の理解と推論に向けた整列・解絡型マルチモーダル学習

時系列データの数値的な正確性と視覚的な構造把握を両立させるため、パッチ単位での精密な位置合わせを行う「Patch-level Alignment」と、共有情報と固有情報を分離して統合する「Discrete Disentangled Interaction」を備えたマルチモーダル大型言語モデル「MADI」が提案されました。 このモデルは、数値データ、プロット図、統計テキストを物理的に対応付けることで、従来のモデルが抱えていた局所的なハルシネーションを抑制し、トレンドや周期性といった高レベルな特徴と微細な数値変動の両方を正確に捉えることに成功しています。 合成データおよび医療や金融などの現実世界のデータセットを用いた広範な検証の結果、MADIは汎用的な言語モデルや時系列特化型の既存モデルを一貫して上回る性能を示し、複雑な時間的動態に対する柔軟で解釈可能な推論能力を証明しました。

6038 字
読む →

ChipBench: AIチップ設計支援におけるLLM性能評価のための次世代ベンチマーク

既存のAIチップ設計ベンチマークは単純なモジュールに限定され、最新の大規模言語モデル(LLM)が95%以上の成功率を達成するなど飽和状態にあり、実務の複雑な階層構造や設計の機微を評価できていない。

6029 字
読む →

ChipBench: AIチップ設計におけるLLM性能を評価する次世代ベンチマーク

従来のVerilog評価ベンチマークが飽和し、最新のLLMが95%以上の合格率を達成する中で、産業レベルの複雑なチップ設計に対応するため、Verilog生成、デバッグ、リファレンスモデル生成の3つの重要タスクを網羅した「ChipBench」が提案されました。 本ベンチマークは、従来の3.8倍のコード長と13.

6285 字
読む →