継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

XIMP:分子物性予測のためのクロスグラフ間メッセージパッシング

創薬の初期段階で不可欠な分子物性予測において、従来のグラフニューラルネットワークはデータが少ない環境で精度が上がらず、古典的なフィンガープリント手法に劣るという課題がありました。 本研究で提案された「XIMP」は、原子レベルの分子グラフに加えて、構造を階層的に捉えるジャンクションツリーや薬理学的な特徴を保持する拡張縮約グラフといった複数の抽象化表現を統合し、それらの間で情報を双方向に伝達する新しい枠組みです。 10種類の多様なタスクを用いた検証の結果、XIMPは既存の最先端モデルや伝統的な手法を多くのケースで上回り、特にデータが限られた状況下で化学的な知識を効果的に活用することで高い汎化性能と理論的な表現力の向上を実現しました。

5983 字
読む →

OATS:時系列基盤モデルのためのオンラインデータ拡張

OATSは、時系列基盤モデル(TSFM)の学習を最適化するために、学習の進捗に合わせて動的に高品質な合成データを生成するオンラインデータ拡張手法である。 従来の静的な拡張手法とは異なり、データアトリビューションに基づき、モデルの損失減少に最も寄与するサンプルを特定する「時系列インフルエンススコア(TSIS)」を導入し、これをガイドとして拡散モデルでデータを生成する。 6つの主要データセットと2つの代表的なTSFMアーキテクチャを用いた検証において、OATSは従来の静的な拡張手法や通常学習を一貫して上回る予測精度と収束速度を達成し、計算効率と精度の両立を実現した。

5659 字
読む →

ユーザー編集からのLLMの原理に基づいたファインチューニング:選好、教師あり、報酬のメドレー

大規模言語モデル(LLM)のデプロイ後に得られる「ユーザーによる応答の編集」を、教師あり学習、選好学習、強化学習という3つの異なるフィードバック源として統合的に活用する新しい学習枠組みを提案しています。

6809 字
読む →

思考転移:思考連鎖推論モデルに対する間接的な標的型ポイズニング攻撃

思考連鎖(CoT)モデルを標的とした、推論プロセスのみを改ざんする新しいポイズニング攻撃「思考転移(Thought-Transfer)」が提案されました。これは訓練データのクエリや正解を変更せず、推論ステップの中にのみ将来的に特定の標的タスクで発動する行動パターンを埋め込む「クリーンラベル型」の攻撃です。

6659 字
読む →

C2NP:3D材料生成におけるスケール依存の幾何学的不変性を学習するためのベンチマーク

C2NPは、無限の周期性を持つバルク結晶と有限のナノ粒子の間にある構造的ギャップを埋めるための新しい評価用ベンチマークであり、17万件以上の多様なナノ粒子構成を用いて生成モデルの幾何学的な汎化性能を厳密に測定する。

6012 字
読む →

さらなる賭け:協力ジレンマにおける利得と言語がいかにLLMエージェントの戦略を形成するか

本研究は、大規模言語モデル(LLM)エージェントが繰り返される囚人のジレンマにおいて、利得の絶対的な大きさと提示される言語が戦略的行動にどのような影響を与えるかを、FAIRGAMEフレームワークを用いて詳細に分析した。

6424 字
読む →

スピードは自信である

生物学的な神経系がエネルギー制約下で「最初の確信的な信号」に基づいて迅速に行動することに着想を得て、反復型推論モデルのアンサンブルにおいて、単なる出力の平均化ではなく「最初に停止(Halt)したモデル」の回答を採用する「Halt-First」手法を提案した。

6003 字
読む →

EPAS:漸進的な活性化共有による効率的な学習

EPAS(Efficient training with Progressive Activation Sharing)は、Transformerモデルの深層における計算の冗長性を利用し、学習中に活性化(QKまたはKV)の共有領域を段階的に拡大させることで、学習と推論の両方の効率を飛躍的に向上させる新しい学習フレームワークである。 スイッチ切り替え可能なデコーダー層を導入し、学習の進行に合わせて深い層から浅い層へと共有範囲を広げる決定論的なスケジューリングを行うことで、モデルの精度を維持しながら学習スループットを最大11.1%、推論スループットを最大29.2%向上させることに成功した。 LLaMAモデルを用いた検証では、複雑な知識蒸留を必要とせずに既存の事前学習済みモデルを効率的な共有モデルへと変換可能であり、計算リソースや遅延の制約に応じて推論時の共有構成を柔軟に変更できるMany-in-oneモデルとしての実用的な特性を実証した。

6528 字
読む →

ニューラル物理ソルバのための分布外汎化

NOVAは、物理法則に基づいた帰納バイアスを探索することで、学習データの範囲を超えた未知の物理シナリオ(分布外)に対しても高速かつ高精度に予測を行う、新しいニューラル物理ソルバの設計フレームワークである。

6114 字
読む →

Axe:機械学習コンパイラのためのシンプルで統一されたレイアウト抽象化

Axeは、論理的なテンソル座標をデバイス、メモリ、スレッドなどのハードウェア軸にマッピングする、ハードウェアを意識した新しい抽象化手法である。 この手法は、デバイス間のデータ分散(シャーディング、複製)とデバイス内のメモリレイアウト(タイリング、オフセット)を単一の形式で統一し、一貫した記述を可能にする。

5967 字
読む →