cs.CV」カテゴリーアーカイブ

LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images

要約 視覚的位置特定には、クエリ画像の 6-DoF (自由度) カメラ ポーズの … 続きを読む

カテゴリー: cs.CV, cs.RO | LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images はコメントを受け付けていません

PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

要約 アフォーダンス理解、つまり 3D オブジェクト上の実行可能な領域を特定する … 続きを読む

カテゴリー: cs.CV, cs.RO | PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model はコメントを受け付けていません

DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment

要約 近年、ロボット操作の分野では模倣学習が進んでいます。 ただし、高次元の状態 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment はコメントを受け付けていません

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

要約 大規模で多様なコレクションから情報を効率的に取得して合成することが重要な課 … 続きを読む

カテゴリー: cs.CL, cs.CV | MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval はコメントを受け付けていません

Agent Planning with World Knowledge Model

要約 インタラクティブな計画タスクを実行するためのエージェント モデルとして大規 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | Agent Planning with World Knowledge Model はコメントを受け付けていません

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Embe … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI はコメントを受け付けていません

Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories

要約 概念の視覚的表現は、その意味とそれが発生する文脈に応じて大きく異なります。 … 続きを読む

カテゴリー: cs.CL, cs.CV | Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories はコメントを受け付けていません

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

要約 複雑な視覚情報を正確に理解することは、視覚言語モデル (VLM) にとって … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models はコメントを受け付けていません

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

要約 ビジョン言語モデル (VLM) は、さまざまなオープン語彙タスクで顕著な機 … 続きを読む

カテゴリー: cs.CV | LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension はコメントを受け付けていません

Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution

要約 最近、既存の RGB ガイド深度超解像度手法は、固定された既知の劣化 (バ … 続きを読む

カテゴリー: cs.CV | Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution はコメントを受け付けていません