分散型LLM推論ネットワークのための適応的かつ堅牢なコスト考慮型品質証明
分散型LLM推論において、軽量な評価ノードを用いて出力品質を保証する「Proof of Quality(PoQ)」を拡張し、悪意あるノードによるスコア操作に耐性を持つコスト考慮型の仕組みを提案している。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
分散型LLM推論において、軽量な評価ノードを用いて出力品質を保証する「Proof of Quality(PoQ)」を拡張し、悪意あるノードによるスコア操作に耐性を持つコスト考慮型の仕組みを提案している。
人間が単語の並びという線形な情報から複雑な階層的文法構造をいかに習得するかという問いに対し、本研究は機能語(冠詞や助詞など)の統計的性質に着目して解明を試みました。世界186言語の解析により、機能語が「高頻度」「特定の構造との強い結びつき」「句の境界への配置」という三つの性質を共通して持つことを明らかにし、これらが言語習得の普遍的な手がかりであることを示しました。ニューラルモデルを用いた反実仮想的な実験の結果、特に語彙頻度と構造的関連性が階層構造の学習に不可欠であり、これらが欠けると学習効率が著しく低下することが判明しました。
検証可能な報酬を用いた強化学習(RLVR)で訓練された推論モデルを初期値として用いても、埋め込みモデルの性能はベースモデルと比較して統計的に有意な向上を示さない「無効果(Null Effect)」が確認された。
RLVR(検証可能な報酬による強化学習)で最適化された推論モデルを基盤としても、テキスト埋め込みモデルの性能はベースモデルと比較して向上しないという「ゼロ効果」が、MTEBやBRIGHTなどの主要なベンチマーク評価によって明らかになりました。
ZipMoEは、メモリ制約の厳しいエッジデバイスにおいて、Mixture-of-Experts(MoE)モデルを精度劣化なく高速に実行するための革新的な推論システムです。BF16形式のパラメータに含まれる統計的な冗長性を利用した無損失圧縮技術と、マルチコアCPUによる並列展開を組み合わせることで、従来のI/Oボトルネックを計算中心のワークフローへと劇的に転換しました。NVIDIA Jetson AGX Orinを用いた広範な検証では、最新の既存システムと比較して推論遅延を最大72.77%削減し、スループットを最大6.76倍向上させるという圧倒的な性能向上を達成しており、プライバシーと精度が求められるオンデバイスAIの新たな可能性を切り拓いています。
巨大なメモリを必要とするMixture-of-Experts(MoE)モデルを、エッジデバイスの限られたリソースで効率的に動作させるための推論エンジン「ZipMoE」が提案されました。 モデルの精度を損なう量子化に頼らず、BF16形式の指数ビットに含まれる統計的冗長性を活用した無損失圧縮と、CPUとGPUがメモリを共有するアーキテクチャに最適化した並列処理を導入しています。 実機検証では、既存の最新システムと比較して推論の遅延を最大72.77%削減し、スループットを最大6.76倍に向上させるという、極めて高いパフォーマンス改善を達成しました。
Thinkerは、ロボット工学における視覚と言語の統合を目的とした100億パラメータ規模の基盤モデルであり、従来のモデルが抱えていた三人称視点と一人称視点の混同や、ビデオ終盤情報の見落としといった課題を解決するために開発されました。
大規模言語モデルの性能向上において主流であるMixture-of-Experts(MoE)は、計算効率の飽和やシステム上の通信負荷という課題に直面していますが、本研究は計算コストの極めて低いエンベディング層を拡張する「N-gram Embedding」が、特定の高スパース性条件下でエキスパートの増量よりも優れた性能対コスト比(パレート境界)を実現することを解明しました。 モデルの総パラメータの最大50%までをエンベディングに割り当て、ハッシュ衝突を回避するために語彙サイズをベース語彙の整数倍から意図的にずらすといった具体的な設計指針を提示し、これにより計算量を抑えつつモデルの表現力を大幅に強化できることを示しました。 この理論に基づき、685億パラメータを持ちながら推論時には約30億パラメータのみを活性化させる「LongCat-Flash-Lite」を開発し、同規模のMoEモデルを凌駕する性能を達成するとともに、特に複雑な推論が求められるエージェントタスクやコーディングの領域で既存のモデルに対して高い競争力を示しました。
グラフ注意ネットワーク(GAT)の注意機構を数学的な「細胞層(Cellular Sheaf)」として再定義し、学習された重みがグラフ上の信号の整合性をどのように規定するかを位相幾何学的に解釈する理論的枠組みを提案しました。