継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

MURAD:大規模マルチドメイン統合アラビア語逆引き辞典データセット

MURADは、アラビア語の語彙と定義を紐付けた96,243組のペアを収録する、大規模でオープンな多領域統合型逆引き辞典データセットです。17の信頼できる出典から構築され、イスラム学、言語学、数学、物理学、工学などの13の専門領域を網羅し、OCRやGPT-4oを活用したハイブリッドなパイプラインによって高い精度と一貫性を確保しています。言葉が思い出せない「舌先現象」の解消や、意味検索、定義生成、埋め込み評価といったアラビア語の自然言語処理研究を促進し、学術的・技術的なコミュニケーションにおける用語の一貫性を支援することを目的としています。

6002 字
読む →

LMK > CLS:密な埋め込みのためのランドマークプーリング

従来の密な埋め込みで主流だった[CLS]トークンや平均プーリングには、長い文章において情報の偏りや重要な信号の希釈が生じるという構造的な弱点がありました。本研究が提案するランドマーク(LMK)プーリングは、文章を一定の間隔で区切り、その間に挿入した複数の特殊トークンの埋め込みのみを平均化することで、情報のボトルネックを解消します。検証の結果、この手法は短い文章での精度を維持しつつ、長い文章の検索タスクにおいて既存手法を大幅に上回る性能と高い外挿性を示し、実用的で拡張可能な代替案となることが証明されました。

5648 字
読む →

LMK > CLS: 高密度埋め込みのためのランドマークプーリング

従来のテキスト埋め込みにおける[CLS]プーリングは系列の先頭に情報が偏る傾向があり、平均プーリングは重要な局所信号を希釈してしまうという系統的な弱点があるが、本研究が提案するランドマーク(LMK)プーリングは系列をチャンクに分割して特殊トークンを挿入し、それらの埋め込みのみを平均化することで長文への対応力を劇的に高める。 この手法は、入力テキストの各所に配置されたランドマークトークンがそれぞれの区間の情報を適応的に集約するため、単一のトークンに表現の負担を強いることなく、系列全体から重要な特徴を抽出して固定次元のベクトルに変換することが可能であり、特に長文コンテキストにおける情報の消失や偏りの問題を解決する。 検証の結果、LMKプーリングは短文の検索タスクにおいて既存の標準的な手法と同等の高い性能を維持しつつ、長文タスクにおいては従来手法を大幅に上回る精度向上を達成しており、現代のテキストエンコーダにおける実用的かつ計算効率に優れた新しい標準的なプーリング手法としての有効性が示された。

5940 字
読む →

EC検索の関連性向上のための多角的思考と潜在的推論蒸留

ECサイトの検索における検索語と商品の関連性判定を劇的に改善するため、大規模言語モデル(LLM)に「ユーザー意図」「構造的分析」「ビジネスルール」という3つの異なる視点から思考の連鎖(CoT)を行わせる「MPCoT」フレームワークを開発しました。

5950 字
読む →

広く考え、速く動く:Eコマースの関連性に向けた多角的思考の連鎖からの潜在的推論蒸留

電子商取引(EC)における検索の関連性評価を劇的に向上させるため、大規模言語モデル(LLM)の高度な思考プロセスを軽量モデルに継承させる新しい学習フレームワークが提案されました。この手法では、単一の視点に頼る従来の思考の連鎖(CoT)の限界を克服するため、ユーザーの意図、商品の構造的分析、プラットフォーム固有のビジネスルールという三つの異なる視点から推論を行う「多角的思考の連鎖(MPCoT)」を導入しています。これにより、複雑なクエリや曖昧な検索ワードに対しても、人間のような深い理解に基づいた正確な判断が可能になりました。さらに、この高度な推論能力を「潜在推論知識蒸留(LRKD)」という技術を用いて、BERTなどの小型モデルに「潜在的な推論ベクトル」として移植することで、推論時の計算コストを抑えつつLLMに匹敵する精度を実現しています。実際のオンラインA/Bテストでは、数千万人のユーザーを抱える広告プラットフォームにおいて、収益指標であるRPMが1.42%向上し、クリック率やユーザー満足度も有意に改善するなど、実用性と商業的価値の両面で極めて高い成果が実証されました。

6540 字
読む →

オントロジー誘導型マルチエージェント推論を通じた文化的に整合したLLMに向けて

大規模言語モデル(LLM)が欧米中心のデータに偏り、多様な文化圏の価値観を正確に反映できない問題を解決するため、世界価値観調査(WVS)のデータと構造化された知識表現であるオントロジーを組み合わせた新しい推論フレームワーク「OG-MAR」が提案されました。

6059 字
読む →

テキスト検索モデルのドメイン適応における影響度ガイド付きサンプリング

検索モデルの学習において、膨大で多様なデータセットから最適な訓練データを抽出する戦略は極めて重要ですが、従来の均等サンプリングや専門家の手動設定、あるいは勾配ベースの動的手法には、計算コストの増大や学習の不安定さという課題がありました。

6079 字
読む →

信頼できる知的な教育:進展、課題、および将来の方向性に関する体系的な視点

インテリジェント教育は、未成年者や脆弱なグループを含む機密性の高いデータを扱い、学習者の将来に直結する重要な意思決定を行うため、システムの「信頼性」の確保が不可欠な課題となっています。 本論文は、学習者能力評価や学習リソース推奨などの5つの主要タスクと、安全性・プライバシー、堅牢性、公平性、説明責任、持続可能性という5つの信頼性の観点を組み合わせた体系的なレビューを提供します。 既存研究の断片化を解消するための包括的な参照フレームワークを提示し、マルチモーダルな信頼性や大規模言語モデルを活用した教育支援など、将来の研究に向けた具体的なロードマップを明らかにしました。

5786 字
読む →

LEMUR: 学習ベースのマルチベクトル検索フレームワーク

情報検索において高い精度を誇るColBERTなどのマルチベクトルモデルは、MaxSim計算の複雑さゆえに検索遅延が非常に大きいという課題を抱えていました。本研究で提案されたLEMURは、このマルチベクトル検索を教師あり学習による回帰問題として再定義し、最終的に潜在空間上の単一ベクトルによる近似近傍探索へと変換することで、既存の高速な検索ライブラリの活用を可能にしました。 検証の結果、LEMURは従来のマルチベクトル検索手法と比較して1桁(約10倍)以上の高速化を達成しており、最新のテキスト検索モデルや視覚的な文書検索モデルにおいても、高い再現率を維持しながら劇的なパフォーマンス向上を実現することが確認されました。 このフレームワークは、軽量なニューラルネットワークを用いてトークン単位の埋め込みを潜在空間上の単一ベクトルへと集約し、ドキュメントの重み行列との内積計算によって類似度を推定する仕組みを採用しており、大規模なコーパスに対しても効率的なインデックス作成と高速な検索を両立させています。

5893 字
読む →

ProRAG: 検索拡張生成のためのプロセス監視型強化学習

従来の検索拡張生成(RAG)における強化学習は、最終回答の正誤のみを報酬とするため、途中の論理が誤っていても正解に辿り着けば評価される「プロセスの幻覚」という課題を抱えていましたが、本研究が提案するProRAGは、モンテカルロ木探索(MCTS)を用いて構築したプロセス報酬モデル(PRM)を活用し、推論の各ステップに対して詳細なフィードバックを与える「プロセス監視型強化学習」の枠組みを導入しました。 この手法は、ステップ単位のプロセス報酬と最終的な結果報酬を組み合わせる「二重の粒度を持つアドバンテージメカニズム」により、複雑な多段階推論タスクにおいて従来のモデルを凌駕する高い性能、論理的正確性、および推論効率を実現しており、モデルは単に答えを当てるだけでなく、正しい思考プロセスそのものを内面化することが可能になります。 5つのマルチホップ推論ベンチマークを用いた広範な実験の結果、ProRAGは結果ベースの強化学習や既存のプロセス認識手法よりも優れた性能を示し、特に長い推論過程を必要とする困難なタスクにおいて、きめ細やかなプロセス監視が疎な結果報酬よりも効果的な最適化信号を提供することを実証しました。

6431 字
読む →