「cs.CL」カテゴリーアーカイブ

Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages

投稿日: 2025年4月29日作成者: jarxiv

要約多言語の大規模な言語モデル（LLM）は、特に英語などの高リソース言語で、さ … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

AutoJudge: Judge Decoding Without Manual Annotation

投稿日: 2025年4月29日作成者: jarxiv

要約 Autojudgeを導入します。これは、タスク固有の損失の投機的デコードを … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

投稿日: 2025年4月29日作成者: jarxiv

要約生成AI（2020-2023）の「Act I」と呼ばれる可能性のある大規模 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation

投稿日: 2025年4月29日作成者: jarxiv

要約検索された生成（RAG）は、外部の知識ソースに出力を接地することにより、大 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR | コメントを受け付けていません

Evaluation Framework for AI Systems in ‘the Wild’

投稿日: 2025年4月29日作成者: jarxiv

要約生成AI（genai）モデルは業界全体で重要になりましたが、現在の評価方法 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CY | コメントを受け付けていません

NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models

投稿日: 2025年4月29日作成者: jarxiv

要約有毒なコンテンツを持つオンラインテキストは、特にソーシャルメディアのユーザ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | コメントを受け付けていません

TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons

投稿日: 2025年4月29日作成者: jarxiv

要約タスク指向のダイアログ（TOD）システムは、大規模な言語モデル（LLM）に … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

投稿日: 2025年4月29日作成者: jarxiv

要約このペーパーでは、実際の知識の中で、時間的文脈の変動に対する言語モデル（L … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Repurposing the scientific literature with vision-language models

投稿日: 2025年4月29日作成者: jarxiv

要約主要なビジョン言語モデル（VLM）は、一般的なインターネットコンテンツにつ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC | コメントを受け付けていません

Random-Set Large Language Models

投稿日: 2025年4月28日作成者: jarxiv

要約大規模な言語モデル（LLM）は、クエリに対する非常に高品質のテストと応答を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages

AutoJudge: Judge Decoding Without Manual Annotation

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation

Evaluation Framework for AI Systems in ‘the Wild’

NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models

TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

Repurposing the scientific literature with vision-language models

Random-Set Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー