DIETA:イタリア語-英語機械翻訳のためのデコーダのみを用いたTransformerベースモデル
DIETAは、イタリア語と英語の双方向翻訳に特化して設計された、5億パラメータという比較的小規模なデコーダ専用Transformerモデルであり、大規模な精選コーパスと逆翻訳データを活用して構築されました。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
DIETAは、イタリア語と英語の双方向翻訳に特化して設計された、5億パラメータという比較的小規模なデコーダ専用Transformerモデルであり、大規模な精選コーパスと逆翻訳データを活用して構築されました。
医薬品業界における規制更新の頻繁化と複雑化に伴い、手動でのコンプライアンス確認作業は多大なコストと誤りのリスクを抱えているが、本研究ではこれを自動化するAIアシスタント「RegGuard」を開発した。
関数呼び出しエージェントの学習には多様なデータが不可欠ですが、既存手法は関数の種類や呼び出しパターンに偏り、ユーザーの言い回しの多様性(言語的多様性)や引数の値の網羅性(引数の多様性)が不足しているという課題がありました。
MergeMixは、大規模言語モデル(LLM)の中間学習における最適なデータ混合比を、モデルマージの重みを代理指標(プロキシ)として活用することで効率的に特定する新しい手法である。 従来のデータ混合比の最適化は、膨大な計算コストを伴う試行錯誤やスケーリング則の推定に依存していたが、本手法は少量のトークンで学習したドメイン専門家モデルを線形補間することで、実トレーニングなしに下流タスクの性能を予測する。 実験では8Bおよび16Bのモデルにおいて、手動による網羅的な調整と同等以上の性能を達成しつつ、探索コストを100倍以上削減することに成功しており、高いランク相関とスケールを跨いだ転移性も確認されている。
本研究は、人工知能(AI)が国際保健規則(IHR 2005)やWHOタバコ規制枠組条約(FCTC)の実施をいかに強化するかを、インド、EU、米国、および低中所得国(LMICs)の比較を通じて分析したものである。
長文の深掘り調査において、従来のエージェントが抱えていた文脈の線形な蓄積による情報の希釈や、逐次実行による処理の停滞という課題を解決するため、非同期かつ並列な実行を可能にする新しいアーキテクチャ「Self-Manager」が提案されました。
現代の科学や産業分野で急増している高次元データは、距離尺度が意味をなさなくなる「次元の呪い」により、従来の自動クラスタリング手法では正確な分類が困難であるという深刻な課題を抱えています。 本研究が提案するIPBC(Interactive Projection-Based Clustering)は、非線形投影手法であるUMAPに人間によるフィードバックループを統合し、ユーザーが「must-link」や「cannot-link」といった制約を直接投影モデルに与えることで、データの構造を動的に洗練させる革新的なフレームワークです。 MNISTや単一細胞RNA解析データを用いた検証の結果、わずか数回の対話的な修正ステップでクラスタリングの質(ARIやNMI)が大幅に向上し、さらに決定木を用いた説明可能性コンポーネントによって、各クラスタを特徴づける元の変数を特定できることが示されました。
長期記憶を持つパーソナライズされたAIエージェントにおいて、良質な個人記憶が有害な要求を文脈的に正当化してしまう「意図の正当化(intent legitimation)」という新たな安全性の脆弱性が特定されました。
人工知能(AI)の急速な普及に伴い、インド、米国、英国、欧州連合における知的財産権(IPR)の現状を比較分析し、インドの既存法制度におけるAI特有の規定の欠如や、特許法第3条(k)がAI生成発明の特許化を阻害している現状、営業秘密保護の脆弱性などの法的な不整合を明らかにしている。
UniCogは、大規模言語モデル(LLM)の内部活性化を「潜在的な精神空間」としてモデル化し、推論時にどの認知能力がどのように関与しているかを解明する新しい統合フレームワークである。 分析の結果、LLMの認知構造は共通の推論コアと特定の能力に対応する少数の次元からなるパレートの法則に従っており、困難な課題に直面した際には潜在的な活性化強度が1.1倍から2.0倍に増幅する「認知増幅効果」が明らかになった。 この知見に基づき、潜在空間の情報を用いて適切な推論経路を選択する戦略を導入したところ、DeepSeek-V3.2やGPT-4oを含む主要なモデルにおいて、数学的推論などの性能を最大で7.5%向上させることに成功した。