「cs.CL」カテゴリーアーカイブ

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

投稿日: 2025年5月20日作成者: jarxiv

要約エキスパートのまばらな混合物（SMOE）は、ネットワークの深さまたは幅を増 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

R3: Robust Rubric-Agnostic Reward Models

投稿日: 2025年5月20日作成者: jarxiv

要約報酬モデルは、言語モデルの出力を人間の好みに合わせるために不可欠ですが、既 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

投稿日: 2025年5月20日作成者: jarxiv

要約この記事では、Ig Parserの概要を説明します。これは、正式な（例：法 … 続きを読む →

カテゴリー: 68T30, 68T50, cs.AI, cs.CL, cs.MA, E.2 | コメントを受け付けていません

CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process

投稿日: 2025年5月20日作成者: jarxiv

要約最近の大きな推論モデルは、推論を学ぶことにより、大規模な言語モデルの推論能 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

AdaptThink: Reasoning Models Can Learn When to Think

投稿日: 2025年5月20日作成者: jarxiv

要約最近、大規模な推論モデルは、人間のような深い思考を採用することにより、さま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

投稿日: 2025年5月20日作成者: jarxiv

要約スケーリングテスト時間計算は、大規模な言語モデル（LLM）の推論機能を強化 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Option-ID Based Elimination For Multiple Choice Questions

投稿日: 2025年5月20日作成者: jarxiv

要約複数選択の質問（MCQ）は、大規模な言語モデル（LLM）を評価するための一 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

投稿日: 2025年5月20日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、複雑な推論に大きな約束を示しており、検証 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

CIE: Controlling Language Model Text Generations Using Continuous Signals

投稿日: 2025年5月20日作成者: jarxiv

要約ユーザーの意図で言語モデルを調整することは、ユーザーエクスペリエンスを向上 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

投稿日: 2025年5月20日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）の接地、グラフィカルユーザー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

R3: Robust Rubric-Agnostic Reward Models

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process

AdaptThink: Reasoning Models Can Learn When to Think

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Option-ID Based Elimination For Multiple Choice Questions

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

CIE: Controlling Language Model Text Generations Using Continuous Signals

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー