「cs.CV」カテゴリーアーカイブ

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

投稿日: 2024年12月6日作成者: jarxiv

要約データ表現の選択は、幾何学的タスクにおける深層学習の成功の重要な要素です。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UnZipLoRA: Separating Content and Style from a Single Image

投稿日: 2024年12月6日作成者: jarxiv

要約このペーパーでは、画像をその構成要素である主題とスタイルに分解する手法であ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisionZip: Longer is Better but Not Necessary in Vision Language Models

投稿日: 2024年12月6日作成者: jarxiv

要約ビジョン言語モデルの最近の進歩により、ビジュアルトークンの長さがテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos

投稿日: 2024年12月6日作成者: jarxiv

要約オンラインの自由視点ビデオ (FVV) ストリーミングは、比較的研究が進ん … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

NVILA: Efficient Frontier Visual Language Models

投稿日: 2024年12月6日作成者: jarxiv

要約近年、視覚言語モデル (VLM) の精度が大幅に向上しました。しかし、そ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Turbo3D: Ultra-fast Text-to-3D Generation

投稿日: 2024年12月6日作成者: jarxiv

要約 Turbo3D は、1 秒未満で高品質のガウススプラッティングアセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PaintScene4D: Consistent 4D Scene Generation from Text Prompts

投稿日: 2024年12月6日作成者: jarxiv

要約拡散モデルの最近の進歩は 2D および 3D コンテンツの作成に革命をもた … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail

投稿日: 2024年12月6日作成者: jarxiv

要約 Stereo Anywhere は、幾何学的制約と単眼深度ビジョン基盤モデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Bidirectional Siamese Recurrent Neural Network for Accurate Gait Recognition Using Body Landmarks

投稿日: 2024年12月6日作成者: jarxiv

要約歩行認識は、特に他の生理学的生体認証が非実用的または無効であるシナリオにお … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks

投稿日: 2024年12月5日作成者: jarxiv

要約オープンワールド環境でタスクを実行するように自然言語で指示できる身体支援エ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction

UnZipLoRA: Separating Content and Style from a Single Image

VisionZip: Longer is Better but Not Necessary in Vision Language Models

QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos

NVILA: Efficient Frontier Visual Language Models

Turbo3D: Ultra-fast Text-to-3D Generation

PaintScene4D: Consistent 4D Scene Generation from Text Prompts

Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail

A Bidirectional Siamese Recurrent Neural Network for Accurate Gait Recognition Using Body Landmarks

Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks

最近の投稿

最近のコメント

アーカイブ

カテゴリー