「cs.CL」カテゴリーアーカイブ

VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks

投稿日: 2024年6月28日作成者: jarxiv

要約大規模なオープンドメイン画像とテキストのペアを使用してトレーニングされた財 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

投稿日: 2024年6月28日作成者: jarxiv

要約視覚的な質問に答える既存のベンチマークには、特に空間推論スキルの評価におい … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

投稿日: 2024年6月28日作成者: jarxiv

要約大規模なビデオ言語モデル (VLM) の事前トレーニングは、さまざまなダウ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

投稿日: 2024年6月28日作成者: jarxiv

要約グラフィカルユーザーインターフェイス (GUI) は、デジタルデバイ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

投稿日: 2024年6月28日作成者: jarxiv

要約 Web スクリーンショットやポスターなどとして一般的に見られるマルチパネル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

投稿日: 2024年6月28日作成者: jarxiv

要約 GPT-4V などのマルチモーダル大規模言語モデル (MLLM) の急速な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

投稿日: 2024年6月28日作成者: jarxiv

要約ビジュアルプログラムは、視覚的な推論の問題に対処するために大規模な言語モ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Taming Data and Transformers for Audio Generation

投稿日: 2024年6月28日作成者: jarxiv

要約環境音や環境効果の生成は、データ不足とキャプションの品質が不十分なことが多 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification

投稿日: 2024年6月28日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) におけるマルチモーダル数学推論の … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

投稿日: 2024年6月27日作成者: jarxiv

要約 ALFRED タスクでのモデルの一般化を強化するために、事前トレーニングさ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CL」カテゴリーアーカイブ

VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

Taming Data and Transformers for Audio Generation

MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification

ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

最近の投稿

最近のコメント

アーカイブ

カテゴリー