月別アーカイブ: 2025年5月

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

要約 自動化された解釈可能性パイプラインは、植物や文の最初の単語など、大規模な言 … 続きを読む

カテゴリー: cs.CL | コメントする

Understanding Refusal in Language Models with Sparse Autoencoders

要約 拒否は、整合した言語モデルの重要な安全行動ですが、拒否を促進する内部メカニ … 続きを読む

カテゴリー: cs.CL | コメントする

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

要約 テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然 … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | コメントする

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

要約 強化学習(RL)を使用して効果的に大規模な言語モデルの推論能力を強化するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Evaluating AI capabilities in detecting conspiracy theories on YouTube

要約 膨大なグローバルな視聴者を持つ大手オンラインプラットフォームとして、You … 続きを読む

カテゴリー: cs.CL, cs.CY, cs.SI | コメントする

Multi-Domain Explainability of Preferences

要約 人間の好み、LLM-as-a-a-judge(laaj)、報酬モデルなどの … 続きを読む

カテゴリー: cs.CL | コメントする

On-Policy RL with Optimal Reward Baseline

要約 強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力 … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

要約 ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

要約 チューリングテストでは、AISが自然言語の会話で人間のような行動を示すかど … 続きを読む

カテゴリー: cs.AI, cs.CL | コメントする

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

要約 大規模な言語モデル(LLM)ベースのエージェントは、環境と動的に対話するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする