タグ: cs.CL | Cog AI Archive

AI研究 2026-02-01

MURAD：大規模マルチドメイン統合アラビア語逆引き辞典データセット

MURADは、アラビア語の語彙と定義を紐付けた96,243組のペアを収録する、大規模でオープンな多領域統合型逆引き辞典データセットです。17の信頼できる出典から構築され、イスラム学、言語学、数学、物理学、工学などの13の専門領域を網羅し、OCRやGPT-4oを活用したハイブリッドなパイプラインによって高い精度と一貫性を確保しています。言葉が思い出せない「舌先現象」の解消や、意味検索、定義生成、埋め込み評価といったアラビア語の自然言語処理研究を促進し、学術的・技術的なコミュニケーションにおける用語の一貫性を支援することを目的としています。

6002 字

読む →

AI研究 2026-02-01

LMK > CLS：密な埋め込みのためのランドマークプーリング

従来の密な埋め込みで主流だった[CLS]トークンや平均プーリングには、長い文章において情報の偏りや重要な信号の希釈が生じるという構造的な弱点がありました。本研究が提案するランドマーク（LMK）プーリングは、文章を一定の間隔で区切り、その間に挿入した複数の特殊トークンの埋め込みのみを平均化することで、情報のボトルネックを解消します。検証の結果、この手法は短い文章での精度を維持しつつ、長い文章の検索タスクにおいて既存手法を大幅に上回る性能と高い外挿性を示し、実用的で拡張可能な代替案となることが証明されました。

5648 字

読む →

AI研究 2026-02-01

LMK > CLS: 高密度埋め込みのためのランドマークプーリング

従来のテキスト埋め込みにおける[CLS]プーリングは系列の先頭に情報が偏る傾向があり、平均プーリングは重要な局所信号を希釈してしまうという系統的な弱点があるが、本研究が提案するランドマーク（LMK）プーリングは系列をチャンクに分割して特殊トークンを挿入し、それらの埋め込みのみを平均化することで長文への対応力を劇的に高める。この手法は、入力テキストの各所に配置されたランドマークトークンがそれぞれの区間の情報を適応的に集約するため、単一のトークンに表現の負担を強いることなく、系列全体から重要な特徴を抽出して固定次元のベクトルに変換することが可能であり、特に長文コンテキストにおける情報の消失や偏りの問題を解決する。検証の結果、LMKプーリングは短文の検索タスクにおいて既存の標準的な手法と同等の高い性能を維持しつつ、長文タスクにおいては従来手法を大幅に上回る精度向上を達成しており、現代のテキストエンコーダにおける実用的かつ計算効率に優れた新しい標準的なプーリング手法としての有効性が示された。

5940 字

読む →

AI研究 2026-02-01

KAPSO: 知識に基づいた自律的なプログラム合成と最適化のためのフレームワーク

KAPSOは、自然言語の目標と評価方法を入力として、プログラムの着想、合成、実行、評価、学習のサイクルを自律的に繰り返すモジュール式のフレームワークであり、プログラム合成を単なるコード生成の終着点ではなく、測定可能な目標に向けた継続的な最適化プロセスとして再定義している。

6023 字

読む →

AI研究 2026-02-01

KAPSO：自律的なプログラム合成と最適化のための知識に基づいたフレームワーク

KAPSOは、自然言語の目標と評価方法を入力として、アイデア生成、コード合成、実行、評価、学習を繰り返すことで、測定可能な目標に向けて成果物を自律的に改善し続けるモジュール型フレームワークである。

6590 字

読む →

AI研究 2026-02-01

inversedMixup: 混合埋め込みの反転によるデータ拡張

inversedMixupは、Mixupが持つ「制御可能な補間」と大規模言語モデル（LLM）が持つ「解釈可能な文章生成」を統合した、新しいテキストデータ拡張フレームワークである。 3段階の学習プロセスを通じてタスク固有モデルの埋め込み空間とLLMの入力空間を精密に整列させることで、混合された潜在的な数値情報を人間が理解できる高品質な文章へと再構成することを可能にしている。さらに、テキストのMixupにおいて課題となっていた「マニホールド侵入」という現象を初めて実証的に特定し、LLMを活用してラベルを適切に修正することで、学習の堅牢性とモデルの汎用性を大幅に向上させている。

6348 字

読む →

AI研究 2026-02-01

inversedMixup: 混合埋め込みの反転によるデータ拡張

inversedMixupは、埋め込み空間での線形補間を行うMixupの精密な制御性と、大規模言語モデル（LLM）によるトークンレベル生成の解釈性を統合した、新しいデータ拡張フレームワークである。

5758 字

読む →

AI研究 2026-02-01

ShardMemo: Masked MoEルーティングを用いたエージェント向け分散メモリ管理

エージェント型LLMシステムにおいて、メモリ量の増大と並列アクセスの増加に伴う中央集権的なインデックスのボトルネックを解消するため、3層構造の予算制約付きメモリサービスであるShardMemoが提案されました。

6100 字

読む →

AI研究 2026-02-01

ShardMemo：シャード化されたエージェント的LLMメモリのためのマスクされたMoEルーティング

ShardMemoは、エージェント型LLMのために設計された階層型メモリサービスであり、作業状態（Tier A）、シャード化された証拠（Tier B）、スキルライブラリ（Tier C）の3層構造によって、大規模なメモリへの効率的なアクセスを実現します。

6605 字

読む →

AI研究 2026-02-01

ASTRA：エージェント的軌跡と強化学習アリーナの自動合成

ASTRAは、ツールを利用する言語モデルエージェントの訓練を完全に自動化するエンドツーエンドのフレームワークであり、大規模なデータ合成とルール検証可能な強化学習を統合することで、人間の介入を排除した効率的な学習を実現しました。

6593 字

読む →

生成AI研究を、要点から追う。

最新の記事

MURAD：大規模マルチドメイン統合アラビア語逆引き辞典データセット

LMK > CLS：密な埋め込みのためのランドマークプーリング

LMK > CLS: 高密度埋め込みのためのランドマークプーリング

KAPSO: 知識に基づいた自律的なプログラム合成と最適化のためのフレームワーク

KAPSO：自律的なプログラム合成と最適化のための知識に基づいたフレームワーク

inversedMixup: 混合埋め込みの反転によるデータ拡張

inversedMixup: 混合埋め込みの反転によるデータ拡張

ShardMemo: Masked MoEルーティングを用いたエージェント向け分散メモリ管理

ShardMemo：シャード化されたエージェント的LLMメモリのためのマスクされたMoEルーティング

ASTRA：エージェント的軌跡と強化学習アリーナの自動合成