「cs.CL」カテゴリーアーカイブ

START: Self-taught Reasoner with Tools

投稿日: 2025年3月7日作成者: jarxiv

要約 OpenAI-O1やDeepSeek-R1のような大きな推論モデル（LRM … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

投稿日: 2025年3月7日作成者: jarxiv

要約調査出版物の急速な成長を考えると、科学研究において調査論文は重要な役割を果 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

投稿日: 2025年3月7日作成者: jarxiv

要約 Expert Domainsで命令に従う情報検索（IR）を評価するために設 … 続きを読む →

カテゴリー: cs.CL, cs.IR | コメントを受け付けていません

Get my drift? Catching LLM Task Drift with Activation Deltas

投稿日: 2025年3月7日作成者: jarxiv

要約 LLMは、外部ソースからのデータに基づいてユーザー命令を実行するために、検 … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.CY | コメントを受け付けていません

Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization

投稿日: 2025年3月7日作成者: jarxiv

要約大規模な言語モデル（LLM）が、社会的価値を順守する応答だけであることを確 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

An Information-theoretic Multi-task Representation Learning Framework for Natural Language Understanding

投稿日: 2025年3月7日作成者: jarxiv

要約このペーパーでは、すべてのタスクに対してノイズ不変の表現を抽出するための新 … 続きを読む →

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT | コメントを受け付けていません

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

投稿日: 2025年3月7日作成者: jarxiv

要約ユーザー満足度の推定（使用）として知られる会話システムに対するユーザーの満 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module

投稿日: 2025年3月7日作成者: jarxiv

要約私たちは、小学校、数学の問題を提示する短いテキストのデータセットであるGS … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

投稿日: 2025年3月7日作成者: jarxiv

要約 Deepseek-R1やOpenai-O3などの最新の推論強化ラージモデル … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets

投稿日: 2025年3月7日作成者: jarxiv

要約大規模な言語モデル（LLM）は、大規模なデータセットでのトレーニング中に必 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

START: Self-taught Reasoner with Tools

SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval

Get my drift? Catching LLM Task Drift with Activation Deltas

Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization

An Information-theoretic Multi-task Representation Learning Framework for Natural Language Understanding

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases

UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets

最近の投稿

最近のコメント

アーカイブ

カテゴリー