cs.CL」カテゴリーアーカイブ

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

要約 大規模な言語モデル(LLM)は微調整を通じて新しい知識を獲得できますが、こ … 続きを読む

カテゴリー: cs.CL, cs.LG | Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers はコメントを受け付けていません

Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning

要約 オートフォーマル化は、自然言語声明の正式な言語への自動翻訳を可能にすること … 続きを読む

カテゴリー: cs.CL | Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning はコメントを受け付けていません

Magistral

要約 Mistralの最初の推論モデル、および独自のスケーラブルな強化学習(RL … 続きを読む

カテゴリー: cs.CL | Magistral はコメントを受け付けていません

Efficiently Identifying Watermarked Segments in Mixed-Source Texts

要約 大規模な言語モデル(LLM)のテキスト透かしは、合成テキストを検出するため … 続きを読む

カテゴリー: cs.CL | Efficiently Identifying Watermarked Segments in Mixed-Source Texts はコメントを受け付けていません

Weak-to-Strong Jailbreaking on Large Language Models

要約 大規模な言語モデル(LLM)は、脱獄攻撃に対して脆弱であり、有害、非倫理的 … 続きを読む

カテゴリー: cs.CL | Weak-to-Strong Jailbreaking on Large Language Models はコメントを受け付けていません

Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization

要約 機械的解釈可能性の中心的な目標は、その出力を因果的に説明する大規模な言語モ … 続きを読む

カテゴリー: cs.CL, cs.LG | Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization はコメントを受け付けていません

Improving LLM Safety Alignment with Dual-Objective Optimization

要約 大規模な言語モデル(LLM)の既存のトレーニング時間安全アライメント手法は … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | Improving LLM Safety Alignment with Dual-Objective Optimization はコメントを受け付けていません

Dynamic Epistemic Friction in Dialogue

要約 大規模な言語モデル(LLM)を人間の好みに合わせて最近の開発により、人間と … 続きを読む

カテゴリー: cs.CL | Dynamic Epistemic Friction in Dialogue はコメントを受け付けていません

Build the web for agents, not agents for the web

要約 大規模な言語モデル(LLMS)とマルチモーダルのカウンターパートの最近の進 … 続きを読む

カテゴリー: cs.CL, cs.LG | Build the web for agents, not agents for the web はコメントを受け付けていません

How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?

要約 最近の推論モデルは、彼らの推論を反映し、バックトラックし、自己検証する能力 … 続きを読む

カテゴリー: cs.CL | How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts? はコメントを受け付けていません