cs.CV」カテゴリーアーカイブ

ViSTa Dataset: Do vision-language models understand sequential tasks?

要約 強化学習の報酬モデルとしてビジョン言語モデル (VLM) を使用すると、コ … 続きを読む

カテゴリー: cs.CV, cs.LG | ViSTa Dataset: Do vision-language models understand sequential tasks? はコメントを受け付けていません

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer

要約 現在の話し顔の生成方法は、主に音声と口の同期に焦点を当てています。 しかし … 続きを読む

カテゴリー: cs.CV | VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer はコメントを受け付けていません

Occlusion-Aware Seamless Segmentation

要約 パノラマ画像は視野 (FoV) を広げることができ、オクルージョンを意識し … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | Occlusion-Aware Seamless Segmentation はコメントを受け付けていません

XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation

要約 オープンボキャブラリーの 3D セマンティック セグメンテーションにおける … 続きを読む

カテゴリー: cs.AI, cs.CV | XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation はコメントを受け付けていません

BelHouse3D: A Benchmark Dataset for Assessing Occlusion Robustness in 3D Point Cloud Semantic Segmentation

要約 大規模な 2D データセットは、機械学習の進歩に貢献してきました。 ただし … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | BelHouse3D: A Benchmark Dataset for Assessing Occlusion Robustness in 3D Point Cloud Semantic Segmentation はコメントを受け付けていません

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

要約 このペーパーでは、ビジュアル エンコーディングと言語デコーディングを単一の … 続きを読む

カテゴリー: cs.CL, cs.CV | Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training はコメントを受け付けていません

DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes

要約 ノベルビュー合成 (NVS) アプローチは、広大なシーンの再構築において重 … 続きを読む

カテゴリー: cs.CV | DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes はコメントを受け付けていません

Paying more attention to local contrast: improving infrared small target detection performance via prior knowledge

要約 赤外線小型目標検出 (IRSTD) のデータ駆動型手法は、有望な結果を達成 … 続きを読む

カテゴリー: cs.CV | Paying more attention to local contrast: improving infrared small target detection performance via prior knowledge はコメントを受け付けていません

PDE-CNNs: Axiomatic Derivations and Applications

要約 PDE ベースのグループ畳み込みニューラル ネットワーク (PDE-G-C … 続きを読む

カテゴリー: cs.CV, cs.LG | PDE-CNNs: Axiomatic Derivations and Applications はコメントを受け付けていません

HHAvatar: Gaussian Head Avatar with Dynamic Hairs

要約 高忠実度の 3D ヘッド アバターの作成は常に研究のホットスポットですが、 … 続きを読む

カテゴリー: cs.CV, cs.GR | HHAvatar: Gaussian Head Avatar with Dynamic Hairs はコメントを受け付けていません