cs.CL」カテゴリーアーカイブ

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

要約 大規模な言語モデル、特に多言語モデルは、さまざまな言語の母語話者に対応でき … 続きを読む

カテゴリー: cs.AI, cs.CL | Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? はコメントを受け付けていません

Uncertainty Estimation of Large Language Models in Medical Question Answering

要約 大規模言語モデル (LLM) は、医療分野での自然言語生成に有望ですが、事 … 続きを読む

カテゴリー: cs.AI, cs.CL | Uncertainty Estimation of Large Language Models in Medical Question Answering はコメントを受け付けていません

Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering

要約 韓国レストランのレビューに対するアスペクトベースの感情分析 (ABSA) … 続きを読む

カテゴリー: cs.AI, cs.CL | Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering はコメントを受け付けていません

GTA: A Benchmark for General Tool Agents

要約 汎用エージェントの開発では、大規模言語モデル (LLM) とさまざまなツー … 続きを読む

カテゴリー: cs.AI, cs.CL | GTA: A Benchmark for General Tool Agents はコメントを受け付けていません

Transformer Circuit Faithfulness Metrics are not Robust

要約 機械的解釈可能性の研究では、ニューラル ネットワーク内に存在する学習済みア … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Transformer Circuit Faithfulness Metrics are not Robust はコメントを受け付けていません

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

要約 大規模言語モデル (LLM) は、自然言語理解において大幅な進歩をもたらし … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding はコメントを受け付けていません

On Leakage of Code Generation Evaluation Datasets

要約 この論文では、特に最新の大規模言語モデルでの使用におけるコード生成テスト … 続きを読む

カテゴリー: cs.CL | On Leakage of Code Generation Evaluation Datasets はコメントを受け付けていません

Using Natural Language Explanations to Rescale Human Judgments

要約 大規模言語モデル (LLM) の台頭により、人間によるラベル付けされた高品 … 続きを読む

カテゴリー: cs.CL | Using Natural Language Explanations to Rescale Human Judgments はコメントを受け付けていません

An Improved Traditional Chinese Evaluation Suite for Foundation Model

要約 繁体字中国語の理解のために設計された新しいベンチマークである TMMLU+ … 続きを読む

カテゴリー: cs.CL | An Improved Traditional Chinese Evaluation Suite for Foundation Model はコメントを受け付けていません

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

要約 三目並べ、コネクトフォー、五目並べなどのグリッドベースのゲームを通じて、大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard はコメントを受け付けていません