投稿者「jarxiv」のアーカイブ

Multi-Domain Explainability of Preferences

投稿日: 2025年5月30日作成者: jarxiv

要約人間の好み、LLM-as-a-a-judge（laaj）、報酬モデルなどの … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

On-Policy RL with Optimal Reward Baseline

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

投稿日: 2025年5月30日作成者: jarxiv

要約ルールベースの強化学習（RL）をマルチモーダル大手言語モデル（MLLMS） … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

投稿日: 2025年5月30日作成者: jarxiv

要約チューリングテストでは、AISが自然言語の会話で人間のような行動を示すかど … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）ベースのエージェントは、環境と動的に対話するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

投稿日: 2025年5月30日作成者: jarxiv

要約言語モデル（LMS）は、標準化されたコーディングベンチマークでうまく機能し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SE | コメントを受け付けていません

EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation

投稿日: 2025年5月30日作成者: jarxiv

要約 Exitを導入します。Exitは、質問回答（QA）で検索された生成（RAG … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR | コメントを受け付けていません

Table-R1: Inference-Time Scaling for Table Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約この作業では、テーブル推論タスクの推論時間スケーリングを調査する最初の研究 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Characterizing the Expressivity of Transformer Language Models

投稿日: 2025年5月30日作成者: jarxiv

要約トランスベースの言語モデル（LMS）は、広範な経験的成功を達成していますが … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約正式なロジックにより、コンピューターは象徴的な形式で文を表すことにより、コ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Multi-Domain Explainability of Preferences

On-Policy RL with Optimal Reward Baseline

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation

Table-R1: Inference-Time Scaling for Table Reasoning

Characterizing the Expressivity of Transformer Language Models

RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー