月別アーカイブ: 2024年4月

Text-Based Reasoning About Vector Graphics

要約 大規模なマルチモーダル モデルは、広範な視覚言語のベンチマークでは優れてい … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Text-Based Reasoning About Vector Graphics はコメントを受け付けていません

RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos

要約 リモート光電容積脈波計 (rPPG) は、顔のビデオから生理学的信号を検出 … 続きを読む

カテゴリー: cs.CV | RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos はコメントを受け付けていません

Influencer Backdoor Attack on Semantic Segmentation

要約 少数の汚染されたサンプルがディープ ニューラル ネットワークのトレーニング … 続きを読む

カテゴリー: cs.CV | Influencer Backdoor Attack on Semantic Segmentation はコメントを受け付けていません

Flying With Photons: Rendering Novel Views of Propagating Light

要約 我々は、斬新な移動カメラ視点からシーン内を伝播する光のビデオを合成すること … 続きを読む

カテゴリー: cs.CV, eess.IV | Flying With Photons: Rendering Novel Views of Propagating Light はコメントを受け付けていません

Multi-person 3D pose estimation from unlabelled data

要約 その多数のアプリケーションにより、複数人の 3D 姿勢推定が非常に影響力の … 続きを読む

カテゴリー: cs.AI, cs.CV | Multi-person 3D pose estimation from unlabelled data はコメントを受け付けていません

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

要約 ゼロショット参照表現の理解は、提供されたテキスト プロンプトに対応する画像 … 続きを読む

カテゴリー: cs.CV | Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions はコメントを受け付けていません

Reconstructing Hand-Held Objects in 3D

要約 手で操作されるオブジェクト (マニピュランダなど) は、実際の RGB 画 … 続きを読む

カテゴリー: cs.CV | Reconstructing Hand-Held Objects in 3D はコメントを受け付けていません

Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

要約 視覚言語モデル (VLM) におけるセマンティックグラウンディング能力の強 … 続きを読む

カテゴリー: cs.CV | Can Feedback Enhance Semantic Grounding in Large Vision-Language Models? はコメントを受け付けていません

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

要約 このペーパーでは、分解された多段階のモジュール推論フレームワークを介してビ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MoReVQA: Exploring Modular Reasoning Models for Video Question Answering はコメントを受け付けていません

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

要約 Large Vision-Language Model (LVLM) 分野 … 続きを読む

カテゴリー: cs.CL, cs.CV | InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD はコメントを受け付けていません