月別アーカイブ: 2024年4月

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

要約 人間と人工知能 (AI) の間の相互作用は、マルチモーダル大規模言語モデル … 続きを読む

カテゴリー: cs.CV | Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want はコメントを受け付けていません

CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data

要約 熱帯林は地球規模の炭素循環の重要な要素です。 林業を監視するバイオマスのよ … 続きを読む

カテゴリー: cs.CV | CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data はコメントを受け付けていません

Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

要約 触覚と視覚は密接に関係しており、世界を理解する私たちの能力を相互に高めます … 続きを読む

カテゴリー: cs.CV, cs.RO | Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces はコメントを受け付けていません

FlashAvatar: High-fidelity Head Avatar with Efficient Gaussian Embedding

要約 私たちは、斬新で軽量な 3D アニメ化可能なアバター表現である Flash … 続きを読む

カテゴリー: cs.CV, cs.GR | FlashAvatar: High-fidelity Head Avatar with Efficient Gaussian Embedding はコメントを受け付けていません

Rapid Motor Adaptation for Robotic Manipulator Arms

要約 一般化可能な操作スキルを開発することは、身体化された AI における中心的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Rapid Motor Adaptation for Robotic Manipulator Arms はコメントを受け付けていません

GlitchBench: Can large multimodal models detect video game glitches?

要約 大規模マルチモーダル モデル (LMM) は、視覚入力などの複数の入力モダ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | GlitchBench: Can large multimodal models detect video game glitches? はコメントを受け付けていません

Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices

要約 データ ドリフトに対処するための機械学習 (ML) モデルのパーソナライズ … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices はコメントを受け付けていません

VicTR: Video-conditioned Text Representations for Activity Recognition

要約 視覚言語モデル (VLM) は、膨大な事前トレーニング データ (つまり、 … 続きを読む

カテゴリー: cs.CV | VicTR: Video-conditioned Text Representations for Activity Recognition はコメントを受け付けていません

Benchmarking Counterfactual Image Generation

要約 反事実画像の生成は、変数の因果関係を理解する上で極めて重要であり、解釈可能 … 続きを読む

カテゴリー: cs.CV, cs.LG | Benchmarking Counterfactual Image Generation はコメントを受け付けていません

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

要約 新規ビュー合成 (NVS) は 3D コンピューター ビジョンで大幅な進歩 … 続きを読む

カテゴリー: cs.CV | InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds はコメントを受け付けていません