「cs.CL」カテゴリーアーカイブ

GroundCap: A Visually Grounded Image Captioning Dataset

投稿日: 2025年3月25日作成者: jarxiv

要約現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む →

カテゴリー: cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings

投稿日: 2025年3月25日作成者: jarxiv

要約評価理論は、感情が評価と呼ばれるイベントの主観的評価から生じることを示唆し … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Toward a method for LLM-enabled Indoor Navigation

投稿日: 2025年3月25日作成者: jarxiv

要約屋内ナビゲーションは、複雑なレイアウト、GPSシグナルの欠如、アクセシビリ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications

投稿日: 2025年3月25日作成者: jarxiv

要約大規模な言語モデル（LLMS）は顕著な能力を実証していますが、実際のアプリ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

投稿日: 2025年3月24日作成者: jarxiv

要約言語の統合と3D認識は、物理的な世界を理解し、相互作用する具体化されたエー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers

投稿日: 2025年3月24日作成者: jarxiv

要約機械による科学論文を完全に理解することは、高レベルの人工的な一般情報を反映 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

投稿日: 2025年3月24日作成者: jarxiv

要約テキストニュースとタイムシリーズの進化の関係を理解することは、応用データサ … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

投稿日: 2025年3月24日作成者: jarxiv

要約非ファクトルの質問回答（NFQA）は、そのオープンエンドの性質、多様な意図 … 続きを読む →

カテゴリー: cs.CL, cs.IR | コメントを受け付けていません

Chameleon: Mixed-Modal Early-Fusion Foundation Models

投稿日: 2025年3月24日作成者: jarxiv

要約任意のシーケンスで画像とテキストを理解し、生成できる早期融合トークンベース … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

投稿日: 2025年3月24日作成者: jarxiv

要約視覚的な質問応答（VQA）は、ドキュメント画像から特定の情報を抽出するため … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

GroundCap: A Visually Grounded Image Captioning Dataset

Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings

Toward a method for LLM-enabled Indoor Navigation

A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

最近の投稿

最近のコメント

アーカイブ

カテゴリー