cs.CL」カテゴリーアーカイブ

The Lessons of Developing Process Reward Models in Mathematical Reasoning

要約 プロセス報酬モデル(PRM)は、推論プロセスで中間エラーを特定して軽減する … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | The Lessons of Developing Process Reward Models in Mathematical Reasoning はコメントを受け付けていません

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training

要約 シーケンスモデリングは現在、SoftMaxの自己触媒を使用する因果変圧器ア … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | MesaNet: Sequence Modeling by Locally Optimal Test-Time Training はコメントを受け付けていません

From Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors

要約 現在の研究は、脱獄攻撃によって有害なコンテンツを生成する大規模な言語モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR | From Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors はコメントを受け付けていません

Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

要約 検索された生成(RAG)システムは、一般に知識の対立に苦しみます。 質問応 … 続きを読む

カテゴリー: cs.AI, cs.CL | Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning はコメントを受け付けていません

ProRefine: Inference-time Prompt Refinement with Textual Feedback

要約 複数のAIエージェントが協力して推論や計画などの複雑なタスクを達成するエー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | ProRefine: Inference-time Prompt Refinement with Textual Feedback はコメントを受け付けていません

Time to Talk: LLM Agents for Asynchronous Group Communication in Mafia Games

要約 LLMは、主に同期通信で使用され、人間のユーザーとモデルが交互ターンで通信 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MA | Time to Talk: LLM Agents for Asynchronous Group Communication in Mafia Games はコメントを受け付けていません

Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models

要約 現実世界の設定で展開された大規模な言語モデル(LLM)は、繊細、時代遅れ、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models はコメントを受け付けていません

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

要約 強化学習(RL)は、特に推論能力を高めるために、大規模な言語モデル(LLM … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay はコメントを受け付けていません

AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

要約 推論のための大規模な強化学習(RL)の最近の進歩にもかかわらず、高性能の推 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning はコメントを受け付けていません

DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models

要約 マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統 … 続きを読む

カテゴリー: cs.CL, cs.CV | DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models はコメントを受け付けていません