cs.CL」カテゴリーアーカイブ

GroundCap: A Visually Grounded Image Captioning Dataset

要約 現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクす … 続きを読む

カテゴリー: cs.CL, cs.CV, I.2.10 | GroundCap: A Visually Grounded Image Captioning Dataset はコメントを受け付けていません

Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings

要約 評価理論は、感情が評価と呼ばれるイベントの主観的評価から生じることを示唆し … 続きを読む

カテゴリー: cs.CL | Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings はコメントを受け付けていません

Toward a method for LLM-enabled Indoor Navigation

要約 屋内ナビゲーションは、複雑なレイアウト、GPSシグナルの欠如、アクセシビリ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Toward a method for LLM-enabled Indoor Navigation はコメントを受け付けていません

A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications

要約 大規模な言語モデル(LLMS)は顕著な能力を実証していますが、実際のアプリ … 続きを読む

カテゴリー: cs.CL | A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications はコメントを受け付けていません

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

要約 言語の統合と3D認識は、物理的な世界を理解し、相互作用する具体化されたエー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination はコメントを受け付けていません

MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers

要約 機械による科学論文を完全に理解することは、高レベルの人工的な一般情報を反映 … 続きを読む

カテゴリー: cs.CL | MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers はコメントを受け付けていません

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

要約 テキストニュースとタイムシリーズの進化の関係を理解することは、応用データサ … 続きを読む

カテゴリー: cs.AI, cs.CL | MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering はコメントを受け付けていません

Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

要約 非ファクトルの質問回答(NFQA)は、そのオープンエンドの性質、多様な意図 … 続きを読む

カテゴリー: cs.CL, cs.IR | Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering はコメントを受け付けていません

Chameleon: Mixed-Modal Early-Fusion Foundation Models

要約 任意のシーケンスで画像とテキストを理解し、生成できる早期融合トークンベース … 続きを読む

カテゴリー: cs.CL | Chameleon: Mixed-Modal Early-Fusion Foundation Models はコメントを受け付けていません

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

要約 視覚的な質問応答(VQA)は、ドキュメント画像から特定の情報を抽出するため … 続きを読む

カテゴリー: cs.CL, cs.CV | Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction はコメントを受け付けていません