投稿者「jarxiv」のアーカイブ

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

投稿日: 2025年5月30日作成者: jarxiv

要約トレーニング前の後、大規模な言語モデルは、ペアワイズ比較に基づいて人間の好 … 続きを読む →

カテゴリー: cs.GT, cs.LG | コメントを受け付けていません

Model Immunization from a Condition Number Perspective

投稿日: 2025年5月30日作成者: jarxiv

要約モデル予防接種の目的は、他の非耐性タスクで有用性を維持しながら、有害なタス … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

Fast Large Language Model Collaborative Decoding via Speculation

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）コラボレーションデコード手法は、各世代のステッ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Probability-Consistent Preference Optimization for Enhanced LLM Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約優先最適化の最近の進歩は、大規模な言語モデル（LLM）の数学的推論能力を改 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Translation in the Wild

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）は、とりわけ翻訳に優れており、ゼロおよび少数の … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

投稿日: 2025年5月30日作成者: jarxiv

要約自動化された解釈可能性パイプラインは、植物や文の最初の単語など、大規模な言 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Understanding Refusal in Language Models with Sparse Autoencoders

投稿日: 2025年5月30日作成者: jarxiv

要約拒否は、整合した言語モデルの重要な安全行動ですが、拒否を促進する内部メカニ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

投稿日: 2025年5月30日作成者: jarxiv

要約テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然 … 続きを読む →

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | コメントを受け付けていません

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習（RL）を使用して効果的に大規模な言語モデルの推論能力を強化するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Evaluating AI capabilities in detecting conspiracy theories on YouTube

投稿日: 2025年5月30日作成者: jarxiv

要約膨大なグローバルな視聴者を持つ大手オンラインプラットフォームとして、You … 続きを読む →

カテゴリー: cs.CL, cs.CY, cs.SI | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

Model Immunization from a Condition Number Perspective

Fast Large Language Model Collaborative Decoding via Speculation

Probability-Consistent Preference Optimization for Enhanced LLM Reasoning

Translation in the Wild

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Understanding Refusal in Language Models with Sparse Autoencoders

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Evaluating AI capabilities in detecting conspiracy theories on YouTube

最近の投稿

最近のコメント

アーカイブ

カテゴリー