cs.CL」カテゴリーアーカイブ

Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs

要約 人間による評価はオープンドメイン対話評価のゴールドスタンダードであり続けて … 続きを読む

カテゴリー: cs.CL | Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs はコメントを受け付けていません

To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity

要約 大規模言語モデル(LLM)の顕著な性能に寄与する主要な側面の1つは、事前学 … 続きを読む

カテゴリー: cs.CL, cs.LG | To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity はコメントを受け付けていません

Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores

要約 大規模言語モデル(LLM)は確率的であり、固定ランダムシードで温度をゼロに … 続きを読む

カテゴリー: cs.CL | Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores はコメントを受け付けていません

KARL: Knowledge-Aware Retrieval and Representations aid Retention and Learning in Students

要約 フラッシュカードスケジューラは、1)生徒が知っているフラッシュカードを予測 … 続きを読む

カテゴリー: cs.CL | KARL: Knowledge-Aware Retrieval and Representations aid Retention and Learning in Students はコメントを受け付けていません

Jailbreaking as a Reward Misspecification Problem

要約 大規模言語モデル(LLM)の普及により、その安全性と信頼性、特に敵対的攻撃 … 続きを読む

カテゴリー: cs.CL, cs.LG | Jailbreaking as a Reward Misspecification Problem はコメントを受け付けていません

A SMART Mnemonic Sounds like ‘Glue Tonic’: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick

要約 キーワード・ニーモニックとは、新しい用語をより単純なキーワードに結びつける … 続きを読む

カテゴリー: cs.CL | A SMART Mnemonic Sounds like ‘Glue Tonic’: Mixing LLMs with Student Feedback to Make Mnemonic Learning Stick はコメントを受け付けていません

CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios

要約 様々な領域で大規模言語モデル(Large Language Models: … 続きを読む

カテゴリー: cs.CL | CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios はコメントを受け付けていません

‘Seeing the Big through the Small’: Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations?

要約 人間のラベルのばらつき(HLV)は、複数の人間のアノテーターが正当な理由で … 続きを読む

カテゴリー: cs.CL | ‘Seeing the Big through the Small’: Can LLMs Approximate Human Judgment Distributions on NLI from a Few Explanations? はコメントを受け付けていません

To Err Is Human, but Llamas Can Learn It Too

要約 本研究では、言語モデル(LM)を用いた人工的なエラー生成(AEG)により、 … 続きを読む

カテゴリー: cs.CL | To Err Is Human, but Llamas Can Learn It Too はコメントを受け付けていません

Steering Large Language Models between Code Execution and Textual Reasoning

要約 最近の多くの研究は、マルチエージェントフレームワークや推論チェーンを最適化 … 続きを読む

カテゴリー: cs.CL | Steering Large Language Models between Code Execution and Textual Reasoning はコメントを受け付けていません