cs.CV」カテゴリーアーカイブ

Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

要約 低品質または希少なデータは、実際にディープ ニューラル ネットワークをトレ … 続きを読む

カテゴリー: cs.AI, cs.CV | Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion はコメントを受け付けていません

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

要約 トーキング ヘッドの生成は、1 つのポートレートとスピーチ オーディオ ク … 続きを読む

カテゴリー: cs.AI, cs.CV | DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation はコメントを受け付けていません

Depth-supervised NeRF: Fewer Views and Faster Training for Free

要約 Neural Radiance Field (NeRF) でよく観察される … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Depth-supervised NeRF: Fewer Views and Faster Training for Free はコメントを受け付けていません

Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks

要約 シミュレーターは、スケーラブルなデータ生成、柔軟な設計、軌道の最適化を提供 … 続きを読む

カテゴリー: 68T40, 68U20, 93C85, cs.AI, cs.CV, cs.RO, I.2.6 | Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks はコメントを受け付けていません

Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation

要約 この論文では、セマンティック セグメンテーションとリスク評価にディープ ニ … 続きを読む

カテゴリー: cs.CV, cs.RO | Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation はコメントを受け付けていません

Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation

要約 この論文では、さまざまなフォームファクターを持つロボット間でクラスに依存し … 続きを読む

カテゴリー: cs.CV, cs.RO | Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation はコメントを受け付けていません

D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement

要約 シーンの表現は、ロボット操作システムにおける重要な設計上の選択です。 理想 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement はコメントを受け付けていません

t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving

要約 自動運転車 (AV) によるマルチモーダル センサー (カメラ、ライダー、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG, cs.RO | t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving はコメントを受け付けていません

H2OVL-Mississippi Vision Language Models Technical Report

要約 小型ビジョン言語モデル (VLM) は、企業の商業文書や画像を処理するため … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | H2OVL-Mississippi Vision Language Models Technical Report はコメントを受け付けていません

MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes

要約 4D ガウス スプラッティング (4DGS) は、複雑でダイナミックな 3 … 続きを読む

カテゴリー: cs.CV, cs.GR | MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes はコメントを受け付けていません