投稿者「jarxiv」のアーカイブ

On Learning Verifiers for Chain-of-Thought Reasoning

投稿日: 2025年5月29日作成者: jarxiv

要約考え方の推論は、複雑な数学的および論理的な問題を解決するための強力なアプロ … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

投稿日: 2025年5月29日作成者: jarxiv

要約大規模な言語モデル（LLM）は、文献を統合し、研究の質問に答え、研究のアイ … 続きを読む →

カテゴリー: astro-ph.IM, cs.CL, cs.LG | コメントを受け付けていません

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning

投稿日: 2025年5月29日作成者: jarxiv

要約堅牢な評価は、信頼できる検索の高等世代（RAG）システムを展開するために重 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Gender-Neutral Large Language Models for Medical Applications: Reducing Bias in PubMed Abstracts

投稿日: 2025年5月29日作成者: jarxiv

要約このペーパーでは、性別の職業代名詞を中和することにより医学文献で使用される … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR | コメントを受け付けていません

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

投稿日: 2025年5月29日作成者: jarxiv

要約トレーニング後の段階でのマルチモーダル大手言語モデル（MLLMS）の改善は … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

ConKE: Conceptualization-Augmented Knowledge Editing in Large Language Models for Commonsense Reasoning

投稿日: 2025年5月29日作成者: jarxiv

要約知識編集（KE）は、大規模な言語モデル（LLM）内部表現とパラメーターを調 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

投稿日: 2025年5月29日作成者: jarxiv

要約反事実的な例は、モデルを改善するための貴重なデータとして、およびモデルの行 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

投稿日: 2025年5月29日作成者: jarxiv

要約世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Effective Context in Neural Speech Models

投稿日: 2025年5月29日作成者: jarxiv

要約現代のニューラル音声モデルは、より長いコンテキストを持つことから恩恵を受け … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AdvAgent: Controllable Blackbox Red-teaming on Web Agents

投稿日: 2025年5月29日作成者: jarxiv

要約基礎モデルベースのエージェントは、複雑なタスクの自動化にますます使用され、 … 続きを読む →

カテゴリー: cs.CL, cs.CR | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

On Learning Verifiers for Chain-of-Thought Reasoning

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning

Gender-Neutral Large Language Models for Medical Applications: Reducing Bias in PubMed Abstracts

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

ConKE: Conceptualization-Augmented Knowledge Editing in Large Language Models for Commonsense Reasoning

FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

Effective Context in Neural Speech Models

AdvAgent: Controllable Blackbox Red-teaming on Web Agents

最近の投稿

最近のコメント

アーカイブ

カテゴリー