月別アーカイブ: 2025年5月

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

投稿日: 2025年5月30日作成者: jarxiv

要約自動化された解釈可能性パイプラインは、植物や文の最初の単語など、大規模な言 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Understanding Refusal in Language Models with Sparse Autoencoders

投稿日: 2025年5月30日作成者: jarxiv

要約拒否は、整合した言語モデルの重要な安全行動ですが、拒否を促進する内部メカニ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

投稿日: 2025年5月30日作成者: jarxiv

要約テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然 … 続きを読む →

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | コメントを受け付けていません

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習（RL）を使用して効果的に大規模な言語モデルの推論能力を強化するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Evaluating AI capabilities in detecting conspiracy theories on YouTube

投稿日: 2025年5月30日作成者: jarxiv

要約膨大なグローバルな視聴者を持つ大手オンラインプラットフォームとして、You … 続きを読む →

カテゴリー: cs.CL, cs.CY, cs.SI | コメントを受け付けていません

Multi-Domain Explainability of Preferences

投稿日: 2025年5月30日作成者: jarxiv

要約人間の好み、LLM-as-a-a-judge（laaj）、報酬モデルなどの … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

On-Policy RL with Optimal Reward Baseline

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

投稿日: 2025年5月30日作成者: jarxiv

要約ルールベースの強化学習（RL）をマルチモーダル大手言語モデル（MLLMS） … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

投稿日: 2025年5月30日作成者: jarxiv

要約チューリングテストでは、AISが自然言語の会話で人間のような行動を示すかど … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）ベースのエージェントは、環境と動的に対話するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

月別アーカイブ: 2025年5月

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Understanding Refusal in Language Models with Sparse Autoencoders

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Evaluating AI capabilities in detecting conspiracy theories on YouTube

Multi-Domain Explainability of Preferences

On-Policy RL with Optimal Reward Baseline

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー