「cs.CL」カテゴリーアーカイブ

High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

投稿日: 2025年6月5日作成者: jarxiv

要約現在、大規模な言語モデル（LLMS）は、すべてのプロンプトに応答しています … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

投稿日: 2025年6月5日作成者: jarxiv

要約言語モデル（LMS）の不確実性の定量化（UQ）は、安全性と信頼性を改善する … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

REAL: Response Embedding-based Alignment for LLMs

投稿日: 2025年6月5日作成者: jarxiv

要約大規模な言語モデル（LLM）を人間の好みに合わせることは、通常、監視された … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

投稿日: 2025年6月5日作成者: jarxiv

要約医学の大規模な言語モデル（LLM）を評価することは重要です。なぜなら、医療 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

EuroLLM-9B: Technical Report

投稿日: 2025年6月5日作成者: jarxiv

要約このレポートは、24の公式欧州連合言語すべてと11の追加言語をカバーするこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

投稿日: 2025年6月5日作成者: jarxiv

要約具体化されたエージェントの一部として、ユーザーからの自然言語の指示を考慮し … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | コメントを受け付けていません

TextAtari: 100K Frames Game Playing with Language Agents

投稿日: 2025年6月5日作成者: jarxiv

要約 TextAtariは、最大100,000のステップにまたがる非常に長期の意 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

CLAIM: An Intent-Driven Multi-Agent Framework for Analyzing Manipulation in Courtroom Dialogues

投稿日: 2025年6月5日作成者: jarxiv

要約法廷は、命が決定され、運命が封印される場所であるが、操作は不浸透ではない。 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

投稿日: 2025年6月5日作成者: jarxiv

要約最近、大規模な言語モデル（LLM）でのスケーリングテスト時間コンピューティ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

投稿日: 2025年6月5日作成者: jarxiv

要約推論モデルのテスト時間スケーリングの最近の傾向（例：Openai O1、D … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

REAL: Response Embedding-based Alignment for LLMs

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

EuroLLM-9B: Technical Report

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

TextAtari: 100K Frames Game Playing with Language Agents

CLAIM: An Intent-Driven Multi-Agent Framework for Analyzing Manipulation in Courtroom Dialogues

Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory

Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー