cs.CL」カテゴリーアーカイブ

VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks

要約 大規模なオープンドメイン画像とテキストのペアを使用してトレーニングされた財 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks はコメントを受け付けていません

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

要約 視覚的な質問に答える既存のベンチマークには、特に空間推論スキルの評価におい … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts はコメントを受け付けていません

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

要約 大規模なビデオ言語モデル (VLM) の事前トレーニングは、さまざまなダウ … 続きを読む

カテゴリー: cs.CL, cs.CV | Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment はコメントを受け付けていません

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

要約 グラフィカル ユーザー インターフェイス (GUI) は、デジタル デバイ … 続きを読む

カテゴリー: cs.CL, cs.CV | Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding はコメントを受け付けていません

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

要約 Web スクリーンショットやポスターなどとして一般的に見られるマルチパネル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA はコメントを受け付けていません

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

要約 GPT-4V などのマルチモーダル大規模言語モデル (MLLM) の急速な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale はコメントを受け付けていません

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

要約 ビジュアル プログラムは、視覚的な推論の問題に対処するために大規模な言語モ … 続きを読む

カテゴリー: cs.CL, cs.CV | VDebugger: Harnessing Execution Feedback for Debugging Visual Programs はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 環境音や環境効果の生成は、データ不足とキャプションの品質が不十分なことが多 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification

要約 大規模マルチモーダル モデル (LMM) におけるマルチモーダル数学推論の … 続きを読む

カテゴリー: cs.CL | MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification はコメントを受け付けていません

ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

要約 ALFRED タスクでのモデルの一般化を強化するために、事前トレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | ET tu, CLIP? Addressing Common Object Errors for Unseen Environments はコメントを受け付けていません