投稿者「jarxiv」のアーカイブ

What is the Alignment Objective of GRPO?

投稿日: 2025年3月14日作成者: jarxiv

要約このメモでは、Group Policy Optimization（GRPO … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

GBSVR: Granular Ball Support Vector Regression

投稿日: 2025年3月14日作成者: jarxiv

要約サポートベクトル回帰（SVR）とそのバリアントは、回帰タスクの処理に広く使 … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG | コメントを受け付けていません

Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

投稿日: 2025年3月14日作成者: jarxiv

要約この作業は、グラフを検索する最小限の例であるパススタータスクに関するもので … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | コメントを受け付けていません

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

投稿日: 2025年3月14日作成者: jarxiv

要約大規模な言語モデル（LLMS）とビジョン言語モデル（VLMS）の急速な進歩 … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

投稿日: 2025年3月14日作成者: jarxiv

要約モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

投稿日: 2025年3月14日作成者: jarxiv

要約複雑な目的を正確に指定することは困難であるため、補強学習ポリシーは、真の目 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity

投稿日: 2025年3月14日作成者: jarxiv

要約重度の過剰適合を予測する古典的な統計理論にもかかわらず、最新の大規模な過剰 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

投稿日: 2025年3月14日作成者: jarxiv

要約チェーンオブシャーチ（COT）の推論は、最先端のAI機能を大幅に進めていま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models

投稿日: 2025年3月14日作成者: jarxiv

要約大規模な言語モデルを複数のタスクに適応させると、クロススキル干渉を引き起こ … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

投稿日: 2025年3月14日作成者: jarxiv

要約ツリー検索の観点から大規模な言語モデル（LLM）安全性の漸進的な侵食をモデ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

What is the Alignment Objective of GRPO?

GBSVR: Granular Ball Support Vector Regression

Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models

Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search

最近の投稿

最近のコメント

アーカイブ

カテゴリー