投稿者「jarxiv」のアーカイブ

Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

投稿日: 2025年5月21日作成者: jarxiv

要約 \ textbf {c} ross-llingual \ textbf { … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

投稿日: 2025年5月21日作成者: jarxiv

要約大規模な言語モデル（LLM）は、バイオメディシンなどの科学分野、特に仮説生 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Towards a Foundation Model for Communication Systems

投稿日: 2025年5月21日作成者: jarxiv

要約人工知能（AI）は、さまざまなドメインで前例のないパフォーマンスを実証して … 続きを読む →

カテゴリー: cs.AI, cs.LG, eess.SP | コメントを受け付けていません

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

投稿日: 2025年5月21日作成者: jarxiv

要約 S1-Benchを紹介します。S1-Benchは、審議システム2の推論では … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Let LLMs Break Free from Overthinking via Self-Braking Tuning

投稿日: 2025年5月21日作成者: jarxiv

要約 Openai O1やDeepseek-R1などの大きな推論モデル（LRMS … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

投稿日: 2025年5月21日作成者: jarxiv

要約マシンテキスト検出器の開発においてかなりの進歩にもかかわらず、問題は本質的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

SATBench: Benchmarking LLMs’ Logical Reasoning via Automated Puzzle Generation from SAT Formulas

投稿日: 2025年5月21日作成者: jarxiv

要約 Satbenchを紹介します。これは、ブールの満足度（SAT）の問題から派 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.LO | コメントを受け付けていません

TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time

投稿日: 2025年5月21日作成者: jarxiv

要約知識の状況が進化し、大規模な言語モデル（LLM）がますます広くなるにつれて … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

投稿日: 2025年5月21日作成者: jarxiv

要約 Rehnection Learning（RL）は、報酬信号でポリシーを最適 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Debating for Better Reasoning: An Unsupervised Multimodal Approach

投稿日: 2025年5月21日作成者: jarxiv

要約大規模な言語モデル（LLM）が多様なドメインとモダリティにわたって専門知識 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

Towards a Foundation Model for Communication Systems

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Let LLMs Break Free from Overthinking via Self-Braking Tuning

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

SATBench: Benchmarking LLMs’ Logical Reasoning via Automated Puzzle Generation from SAT Formulas

TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time

TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

Debating for Better Reasoning: An Unsupervised Multimodal Approach

最近の投稿

最近のコメント

アーカイブ

カテゴリー