「cs.CV」カテゴリーアーカイブ

ViSTa Dataset: Do vision-language models understand sequential tasks?

投稿日: 2024年11月21日作成者: jarxiv

要約強化学習の報酬モデルとしてビジョン言語モデル (VLM) を使用すると、コ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer

投稿日: 2024年11月21日作成者: jarxiv

要約現在の話し顔の生成方法は、主に音声と口の同期に焦点を当てています。しかし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Occlusion-Aware Seamless Segmentation

投稿日: 2024年11月21日作成者: jarxiv

要約パノラマ画像は視野 (FoV) を広げることができ、オクルージョンを意識し … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation

投稿日: 2024年11月21日作成者: jarxiv

要約オープンボキャブラリーの 3D セマンティックセグメンテーションにおける … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

BelHouse3D: A Benchmark Dataset for Assessing Occlusion Robustness in 3D Point Cloud Semantic Segmentation

投稿日: 2024年11月21日作成者: jarxiv

要約大規模な 2D データセットは、機械学習の進歩に貢献してきました。ただし … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

投稿日: 2024年11月21日作成者: jarxiv

要約このペーパーでは、ビジュアルエンコーディングと言語デコーディングを単一の … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes

投稿日: 2024年11月21日作成者: jarxiv

要約ノベルビュー合成 (NVS) アプローチは、広大なシーンの再構築において重 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Paying more attention to local contrast: improving infrared small target detection performance via prior knowledge

投稿日: 2024年11月21日作成者: jarxiv

要約赤外線小型目標検出 (IRSTD) のデータ駆動型手法は、有望な結果を達成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PDE-CNNs: Axiomatic Derivations and Applications

投稿日: 2024年11月21日作成者: jarxiv

要約 PDE ベースのグループ畳み込みニューラルネットワーク (PDE-G-C … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

HHAvatar: Gaussian Head Avatar with Dynamic Hairs

投稿日: 2024年11月21日作成者: jarxiv

要約高忠実度の 3D ヘッドアバターの作成は常に研究のホットスポットですが、 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

ViSTa Dataset: Do vision-language models understand sequential tasks?

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer

Occlusion-Aware Seamless Segmentation

XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation

BelHouse3D: A Benchmark Dataset for Assessing Occlusion Robustness in 3D Point Cloud Semantic Segmentation

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes

Paying more attention to local contrast: improving infrared small target detection performance via prior knowledge

PDE-CNNs: Axiomatic Derivations and Applications

HHAvatar: Gaussian Head Avatar with Dynamic Hairs

最近の投稿

最近のコメント

アーカイブ

カテゴリー