「cs.CL」カテゴリーアーカイブ

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models

投稿日: 2025年5月21日作成者: jarxiv

要約生涯学習により、内部知識を継続的に更新することにより、大規模な言語モデル（ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Language Models use Lookbacks to Track Beliefs

投稿日: 2025年5月21日作成者: jarxiv

要約言語モデル（LMS）は、特にそれらの信念が現実と異なる場合がある場合、キャ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

投稿日: 2025年5月21日作成者: jarxiv

要約大規模な言語モデル（LLMS）の最近の進歩は、推論能力を正確に評価するため … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

投稿日: 2025年5月21日作成者: jarxiv

要約大規模な言語モデル（LLM）がコード関連のタスクに不可欠になると、中心的な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントを受け付けていません

Can LLMs be Good Graph Judge for Knowledge Graph Construction?

投稿日: 2025年5月21日作成者: jarxiv

要約実際のシナリオでは、情報検索（IR）システムから取得したデータのほとんどは … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Agent Context Protocols Enhance Collective Inference

投稿日: 2025年5月21日作成者: jarxiv

要約 AIエージェントは、コーディング、推論、マルチモーダルの理解などの複雑なタ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

投稿日: 2025年5月21日作成者: jarxiv

要約 \ textbf {c} ross-llingual \ textbf { … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

投稿日: 2025年5月21日作成者: jarxiv

要約大規模な言語モデル（LLM）は、バイオメディシンなどの科学分野、特に仮説生 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

投稿日: 2025年5月21日作成者: jarxiv

要約 S1-Benchを紹介します。S1-Benchは、審議システム2の推論では … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

投稿日: 2025年5月21日作成者: jarxiv

要約マシンテキスト検出器の開発においてかなりの進歩にもかかわらず、問題は本質的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models

Language Models use Lookbacks to Track Beliefs

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

Can LLMs be Good Graph Judge for Knowledge Graph Construction?

Agent Context Protocols Enhance Collective Inference

Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

最近の投稿

最近のコメント

アーカイブ

カテゴリー