CoFrGeNet: 連分数に着想を得た新しい言語生成アーキテクチャ
TL;DR本研究では、連分数に着想を得た新しい生成モデリング用関数クラス「CoFrGeNets」を提案しています。これはTransformerの主要コンポーネントをより少ないパラメータで代替可能なアーキテクチャです。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR本研究では、連分数に着想を得た新しい生成モデリング用関数クラス「CoFrGeNets」を提案しています。これはTransformerの主要コンポーネントをより少ないパラメータで代替可能なアーキテクチャです。
TL;DR汎用的な検索システムの学習において、多様なデータセットをどう配分するかは重要だが、従来の手法には課題があった。本研究では、強化学習を用いて最適なデータ配分を自動探索する軽量なフレームワーク「Inf-DDS」を提案する。これにより、既存手法より計算コストを抑えつつ、検索精度の大幅な向上を実現した。
TL;DR大規模言語モデルの生成品質を向上させる対照的デコーディング(CD)は、通常、追加の計算コストを伴う。本研究では、モデルが局所的な選好を示すことに着目し、時間軸に沿った新しい対照的ガイダンス戦略「TeGu」を提案する。TeGuはマルチトークン予測(MTP)
TL;DRマルチエージェントシステムにおいて、個々のエージェントが誤った仲間に盲目的に従う問題を解決するため、Epistemic Context Learning (ECL) が提案された。ECLは過去の対話履歴から仲間の信頼性を推定し、信頼できる仲間から学ぶ枠組みである。
TL;DR大規模言語モデル(LLM)による科学論文への質問応答能力を向上させるため、CE-GOCDという新手法が提案されました。この手法は、論文タイトルを中心エンティティとしてサブグラフを検索・最適化し、コミュニティ検出を用いてテーマごとの論文グループを抽出します。
TL;DRウェブ規模のデータで学習する前に、形式言語などの抽象的な手続き型データで事前学習を行う手法を提案します。この手法により、文脈想起の精度が大幅に向上し、標準的なデータセットでの学習効率も改善されます。わずか0.1%の抽象データを導入するだけで、従来の55%から86%のデータ量で同等の性能に到達することが示されました。
TL;DRウェブ規模のコーパスでの直接的な事前学習に代わる手法として、抽象的な構造化データを用いた初期学習の効果を検証した研究である。形式言語などで生成された「手続き型データ」をわずか0.1%先行学習させるだけで、自然言語やコードの学習効率が大幅に向上し、同じ損失値に到達するために必要なデータ量を最大45%削減できることが示された。
TL;DR持続可能性報告書におけるグリーンウォッシングや曖昧な主張を検出するため、LLMの潜在空間を構造化するパラメータ効率の高いフレームワークを提案した研究です。対照学習と順序ランキングを組み合わせ、ゲート付き特徴変調でノイズを除去することで、既存モデルよりも高い堅牢性を実現しました。
TL;DRTACLerは、大規模言語モデルの推論効率と精度を向上させる強化学習フレームワークです。モデルの習熟度に合わせて学習データの難易度を段階的に上げるカリキュラム学習と、思考モードの有無を切り替えるハイブリッド推論を採用しています。
TL;DR大型言語モデルにおける多様なアテンションパターンを統一的に説明するフレームワーク「TAPPA」を提案する研究です。時間的に連続した視点から数理的に分析することで、パターンを予測可能と予測不能なものに分類し、その違いがクエリの自己類似性に起因することを明らかにしました。推論加速への応用も実証されています。
Pricing