「cs.CL」カテゴリーアーカイブ

Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks

投稿日: 2025年5月26日作成者: jarxiv

要約この分野での顕著な進歩にもかかわらず、LLMは因果関係を相関と区別する上で … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Compositional Causal Reasoning Evaluation in Language Models

投稿日: 2025年5月26日作成者: jarxiv

要約因果的推論と構成の推論は、AIの2つの中核となる願望です。これらの動作の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、数学やコーディングなどの複雑な推論タスク … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な言語モデル（LLM）は通常、データの混合物でトレーニングされていま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な言語モデル（LLM）は、質問の回答や対話などのタスクで優れています … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

How Can I Publish My LLM Benchmark Without Giving the True Answers Away?

投稿日: 2025年5月26日作成者: jarxiv

要約インターネット上の大規模な言語モデル（LLM）ベンチマークを公開することは … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME | コメントを受け付けていません

ProgRM: Build Better GUI Agents with Progress Rewards

投稿日: 2025年5月26日作成者: jarxiv

要約 LLMベースの（大手言語モデル）GUI（グラフィカルユーザーインターフェイ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Reward Model Overoptimisation in Iterated RLHF

投稿日: 2025年5月26日作成者: jarxiv

要約人間のフィードバック（RLHF）からの強化学習は、大規模な言語モデルを人間 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

投稿日: 2025年5月26日作成者: jarxiv

要約ピアレビューは、公開された科学研究の完全性を確保するための重要なプロセスで … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Gaming Tool Preferences in Agentic LLMs

投稿日: 2025年5月26日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、モデルコンテキストプロトコル（MCP）の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks

Compositional Causal Reasoning Evaluation in Language Models

Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals

Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

How Can I Publish My LLM Benchmark Without Giving the True Answers Away?

ProgRM: Build Better GUI Agents with Progress Rewards

Reward Model Overoptimisation in Iterated RLHF

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

Gaming Tool Preferences in Agentic LLMs

最近の投稿

最近のコメント

アーカイブ

カテゴリー