月別アーカイブ: 2024年4月

Text-Based Reasoning About Vector Graphics

投稿日: 2024年4月10日作成者: jarxiv

要約大規模なマルチモーダルモデルは、広範な視覚言語のベンチマークでは優れてい … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos

投稿日: 2024年4月10日作成者: jarxiv

要約リモート光電容積脈波計 (rPPG) は、顔のビデオから生理学的信号を検出 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Influencer Backdoor Attack on Semantic Segmentation

投稿日: 2024年4月10日作成者: jarxiv

要約少数の汚染されたサンプルがディープニューラルネットワークのトレーニング … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Flying With Photons: Rendering Novel Views of Propagating Light

投稿日: 2024年4月10日作成者: jarxiv

要約我々は、斬新な移動カメラ視点からシーン内を伝播する光のビデオを合成すること … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Multi-person 3D pose estimation from unlabelled data

投稿日: 2024年4月10日作成者: jarxiv

要約その多数のアプリケーションにより、複数人の 3D 姿勢推定が非常に影響力の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

投稿日: 2024年4月10日作成者: jarxiv

要約ゼロショット参照表現の理解は、提供されたテキストプロンプトに対応する画像 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reconstructing Hand-Held Objects in 3D

投稿日: 2024年4月10日作成者: jarxiv

要約手で操作されるオブジェクト (マニピュランダなど) は、実際の RGB 画 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

投稿日: 2024年4月10日作成者: jarxiv

要約視覚言語モデル (VLM) におけるセマンティックグラウンディング能力の強 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

投稿日: 2024年4月10日作成者: jarxiv

要約このペーパーでは、分解された多段階のモジュール推論フレームワークを介してビ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

投稿日: 2024年4月10日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) 分野 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

Text-Based Reasoning About Vector Graphics

RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos

Influencer Backdoor Attack on Semantic Segmentation

Flying With Photons: Rendering Novel Views of Propagating Light

Multi-person 3D pose estimation from unlabelled data

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

Reconstructing Hand-Held Objects in 3D

Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

最近の投稿

最近のコメント

アーカイブ

カテゴリー