「cs.CL」カテゴリーアーカイブ

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

投稿日: 2024年7月12日作成者: jarxiv

要約大規模な言語モデル、特に多言語モデルは、さまざまな言語の母語話者に対応でき … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Uncertainty Estimation of Large Language Models in Medical Question Answering

投稿日: 2024年7月12日作成者: jarxiv

要約大規模言語モデル (LLM) は、医療分野での自然言語生成に有望ですが、事 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering

投稿日: 2024年7月12日作成者: jarxiv

要約韓国レストランのレビューに対するアスペクトベースの感情分析 (ABSA) … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

GTA: A Benchmark for General Tool Agents

投稿日: 2024年7月12日作成者: jarxiv

要約汎用エージェントの開発では、大規模言語モデル (LLM) とさまざまなツー … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Transformer Circuit Faithfulness Metrics are not Robust

投稿日: 2024年7月12日作成者: jarxiv

要約機械的解釈可能性の研究では、ニューラルネットワーク内に存在する学習済みア … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

投稿日: 2024年7月12日作成者: jarxiv

要約大規模言語モデル (LLM) は、自然言語理解において大幅な進歩をもたらし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

On Leakage of Code Generation Evaluation Datasets

投稿日: 2024年7月12日作成者: jarxiv

要約この論文では、特に最新の大規模言語モデルでの使用におけるコード生成テスト … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Using Natural Language Explanations to Rescale Human Judgments

投稿日: 2024年7月12日作成者: jarxiv

要約大規模言語モデル (LLM) の台頭により、人間によるラベル付けされた高品 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

An Improved Traditional Chinese Evaluation Suite for Foundation Model

投稿日: 2024年7月12日作成者: jarxiv

要約繁体字中国語の理解のために設計された新しいベンチマークである TMMLU+ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

投稿日: 2024年7月12日作成者: jarxiv

要約三目並べ、コネクトフォー、五目並べなどのグリッドベースのゲームを通じて、大 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?

Uncertainty Estimation of Large Language Models in Medical Question Answering

Korean Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering

GTA: A Benchmark for General Tool Agents

Transformer Circuit Faithfulness Metrics are not Robust

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

On Leakage of Code Generation Evaluation Datasets

Using Natural Language Explanations to Rescale Human Judgments

An Improved Traditional Chinese Evaluation Suite for Foundation Model

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

最近の投稿

最近のコメント

アーカイブ

カテゴリー