月別アーカイブ: 2024年4月

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

投稿日: 2024年4月1日作成者: jarxiv

要約人間と人工知能 (AI) の間の相互作用は、マルチモーダル大規模言語モデル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data

投稿日: 2024年4月1日作成者: jarxiv

要約熱帯林は地球規模の炭素循環の重要な要素です。林業を監視するバイオマスのよ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

投稿日: 2024年4月1日作成者: jarxiv

要約触覚と視覚は密接に関係しており、世界を理解する私たちの能力を相互に高めます … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

FlashAvatar: High-fidelity Head Avatar with Efficient Gaussian Embedding

投稿日: 2024年4月1日作成者: jarxiv

要約私たちは、斬新で軽量な 3D アニメ化可能なアバター表現である Flash … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Rapid Motor Adaptation for Robotic Manipulator Arms

投稿日: 2024年4月1日作成者: jarxiv

要約一般化可能な操作スキルを開発することは、身体化された AI における中心的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

GlitchBench: Can large multimodal models detect video game glitches?

投稿日: 2024年4月1日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、視覚入力などの複数の入力モダ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices

投稿日: 2024年4月1日作成者: jarxiv

要約データドリフトに対処するための機械学習 (ML) モデルのパーソナライズ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VicTR: Video-conditioned Text Representations for Activity Recognition

投稿日: 2024年4月1日作成者: jarxiv

要約視覚言語モデル (VLM) は、膨大な事前トレーニングデータ (つまり、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Benchmarking Counterfactual Image Generation

投稿日: 2024年4月1日作成者: jarxiv

要約反事実画像の生成は、変数の因果関係を理解する上で極めて重要であり、解釈可能 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

投稿日: 2024年4月1日作成者: jarxiv

要約新規ビュー合成 (NVS) は 3D コンピュータービジョンで大幅な進歩 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

CATSNet: a context-aware network for Height Estimation in a Forested Area based on Pol-TomoSAR data

Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

FlashAvatar: High-fidelity Head Avatar with Efficient Gaussian Embedding

Rapid Motor Adaptation for Robotic Manipulator Arms

GlitchBench: Can large multimodal models detect video game glitches?

Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices

VicTR: Video-conditioned Text Representations for Activity Recognition

Benchmarking Counterfactual Image Generation

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

最近の投稿

最近のコメント

アーカイブ

カテゴリー