安いチェックをいつ信じるか:推論における弱い検証と強い検証
推論を含む大規模言語モデルの運用では、速くて安いが不完全な弱い検証と、信頼を確立しやすい一方で資源を要する強い検証の使い分けがボトルネックになりやすく、本論文はその緊張関係を「いつ強い検証に委ねるか」という意思決定として整理しています。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
推論を含む大規模言語モデルの運用では、速くて安いが不完全な弱い検証と、信頼を確立しやすい一方で資源を要する強い検証の使い分けがボトルネックになりやすく、本論文はその緊張関係を「いつ強い検証に委ねるか」という意思決定として整理しています。
表形式データでは、モデルが比較的単純でも性能を詰めにくく、その主因になりがちな特徴量設計を、人手の直感や領域知識に頼らず進める仕組みが求められています。 / ReActの枠組みを用いたエージェントが、データを観察しながら特徴量を提案し、コード実行で妥当性を確認し、検証用データでの指標変化を見て失敗を修正し、良かった特徴量だけを段階的に蓄積していきます。 / 多数の公開データセットでの実験では、分類で最先端水準に近い性能、回帰で最先端水準の性能が報告されており、反復の履歴を文脈に残すことが創造的な特徴量の発見に効いている可能性が示されています。
破砕後の電子廃棄物は金属・プラスチック・基板などが混ざり、既存の分離法だけでは細かな見分けが難しいため、回収できる資源が取りこぼされやすい状況があります。 / A.R.I.S.は、RGBカメラで搬送中の破砕片を撮影してYOLOxで3分類し、その推論結果をPLCに渡して空圧パドルを所定タイミングで動かし、実際のライン上で弾き分けまで行う統合システムです。 / 実験評価では全体の適合率90%、平均適合率82.2%、選別純度84%が示され、深層学習を既存の選別の考え方と接続することで高度なリサイクル導入の障壁を下げ得ることが示唆されています。
転送型ブラックボックス攻撃で強力だったM-Attackは、局所クロップ同士の一致という設計の裏側で、反復ごとに勾配が高分散になりほぼ直交して最適化が不安定になる問題があり、M-Attack-V2はこの不安定さを「勾配のデノイジング」として正面から抑える改良です。
合成コーパスで学習した言語モデルは、差分項標示における「意味的に典型ではない項ほど明示的に標示されやすい」という標示性の方向について、言語横断的に報告されてきた傾向に沿う学習上の好みを安定して示します。
EC検索の候補生成では、完全一致だけでなく代替品や補完品も許容されるため、関連度を段階で扱い、段階ごとに類似度スコアの境界が分かれるように学習しておくと、ハイブリッド混合やしきい値設定が安定しやすくなります。
人手の選好データに強く依存する報酬モデリングでは、どの比較が「判断しにくいか」を無視して一様に増やしても、モデルの弱点に学習が届かない可能性があるため、推定が難しい領域を狙って鍛える発想が重要です。
拡散言語モデル(DLMs)では、生成の反復的なデノイジング過程を通じて注意の集中先(attention sink)の位置が大きく動きやすく、自己回帰(AR)モデルで広まった「sinkは安定した錨なので残すべき」という前提がそのまま当てはまりにくいと示されています。
高資源言語ではほぼ解けたと見なされがちな言語識別でも、低資源言語や近縁言語・方言の区別では脆さが残るため、トークナイズの確率的な枠組みそのものを手掛かりにして堅牢性と効率を両立させます。 / 共通のトークナイザ語彙の上で言語ごとのユニグラム分布を学習しつつ、文字列の分割は言語に依存して変わり得る潜在変数として扱い、各言語で最も起こりやすい分割の確率を比べてベイズ則で言語を選びます。 / 標準ベンチマークで既存手法と競争的な性能を保ちながら、各言語5件のラベル付き例でも正解率が70%を超え、方言識別でもマクロF1が0.53から0.72へ伸びるなど、少量データや細粒度設定での改善が示されています。
多様なSLOが混在する同時リクエスト環境では、計算集約的なプリフィルで長い入力がGPUを占有し、短く高優先度の要求まで詰まらせてTTFTのSLO違反を連鎖させやすいため、プリフィル起因のHoLブロッキング対策がサービス品質を左右します。