「cs.CV」カテゴリーアーカイブ

LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images

投稿日: 2024年10月16日作成者: jarxiv

要約視覚的位置特定には、クエリ画像の 6-DoF (自由度) カメラポーズの … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

投稿日: 2024年10月16日作成者: jarxiv

要約アフォーダンス理解、つまり 3D オブジェクト上の実行可能な領域を特定する … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment

投稿日: 2024年10月16日作成者: jarxiv

要約近年、ロボット操作の分野では模倣学習が進んでいます。ただし、高次元の状態 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

投稿日: 2024年10月16日作成者: jarxiv

要約大規模で多様なコレクションから情報を効率的に取得して合成することが重要な課 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Agent Planning with World Knowledge Model

投稿日: 2024年10月16日作成者: jarxiv

要約インタラクティブな計画タスクを実行するためのエージェントモデルとして大規 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | コメントを受け付けていません

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

投稿日: 2024年10月16日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Embe … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories

投稿日: 2024年10月16日作成者: jarxiv

要約概念の視覚的表現は、その意味とそれが発生する文脈に応じて大きく異なります。 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

投稿日: 2024年10月16日作成者: jarxiv

要約複雑な視覚情報を正確に理解することは、視覚言語モデル (VLM) にとって … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

投稿日: 2024年10月16日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、さまざまなオープン語彙タスクで顕著な機 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution

投稿日: 2024年10月16日作成者: jarxiv

要約最近、既存の RGB ガイド深度超解像度手法は、固定された既知の劣化 (バ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

LoGS: Visual Localization via Gaussian Splatting with Fewer Training Images

PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model

DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Agent Planning with World Knowledge Model

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

Degradation Oriented and Regularized Network for Real-World Depth Super-Resolution

最近の投稿

最近のコメント

アーカイブ

カテゴリー