cs.CL」カテゴリーアーカイブ

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models

要約 生涯学習により、内部知識を継続的に更新することにより、大規模な言語モデル( … 続きを読む

カテゴリー: cs.CL | UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models はコメントを受け付けていません

Language Models use Lookbacks to Track Beliefs

要約 言語モデル(LMS)は、特にそれらの信念が現実と異なる場合がある場合、キャ … 続きを読む

カテゴリー: cs.CL | Language Models use Lookbacks to Track Beliefs はコメントを受け付けていません

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

要約 大規模な言語モデル(LLMS)の最近の進歩は、推論能力を正確に評価するため … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation はコメントを受け付けていません

EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking

要約 大規模な言語モデル(LLM)がコード関連のタスクに不可欠になると、中心的な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | EquiBench: Benchmarking Large Language Models’ Understanding of Program Semantics via Equivalence Checking はコメントを受け付けていません

Can LLMs be Good Graph Judge for Knowledge Graph Construction?

要約 実際のシナリオでは、情報検索(IR)システムから取得したデータのほとんどは … 続きを読む

カテゴリー: cs.AI, cs.CL | Can LLMs be Good Graph Judge for Knowledge Graph Construction? はコメントを受け付けていません

Agent Context Protocols Enhance Collective Inference

要約 AIエージェントは、コーディング、推論、マルチモーダルの理解などの複雑なタ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Agent Context Protocols Enhance Collective Inference はコメントを受け付けていません

Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

要約 \ textbf {c} ross-llingual \ textbf { … 続きを読む

カテゴリー: cs.AI, cs.CL | Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs はコメントを受け付けていません

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

要約 大規模な言語モデル(LLM)は、バイオメディシンなどの科学分野、特に仮説生 … 続きを読む

カテゴリー: cs.AI, cs.CL | Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models はコメントを受け付けていません

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

要約 S1-Benchを紹介します。S1-Benchは、審議システム2の推論では … 続きを読む

カテゴリー: cs.AI, cs.CL | S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models はコメントを受け付けていません

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

要約 マシンテキスト検出器の開発においてかなりの進歩にもかかわらず、問題は本質的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It) はコメントを受け付けていません