「cs.AI」カテゴリーアーカイブ

RADIO Amplified: Improved Baselines for Agglomerative Vision Foundation Models

投稿日: 2024年12月11日作成者: jarxiv

要約集約モデルは、CLIP、DINO、SAM などの既存のモデルから複数の教師 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SimVS: Simulating World Inconsistencies for Robust View Synthesis

投稿日: 2024年12月11日作成者: jarxiv

要約ノベルビュー合成技術は、静的シーンでは印象的な結果を達成しますが、照明の変 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

STIV: Scalable Text and Image Conditioned Video Generation

投稿日: 2024年12月11日作成者: jarxiv

要約ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

GASP: Gaussian Avatars with Synthetic Priors

投稿日: 2024年12月11日作成者: jarxiv

要約ガウススプラッティングは、リアルタイムの写真のようにリアルなレンダリング … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation

投稿日: 2024年12月11日作成者: jarxiv

要約オーディオ主導の話し顔の生成は、デジタルコミュニケーションにおける困難な … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

SAT: Spatial Aptitude Training for Multimodal Language Models

投稿日: 2024年12月11日作成者: jarxiv

要約空間認識は知能の基本的な要素です。多くの研究は、大規模なマルチモーダル言 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | コメントを受け付けていません

Video Motion Transfer with Diffusion Transformers

投稿日: 2024年12月11日作成者: jarxiv

要約私たちは、参照ビデオのモーションを新しく合成されたビデオに転送する方法であ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

XRZoo: A Large-Scale and Versatile Dataset of Extended Reality (XR) Applications

投稿日: 2024年12月11日作成者: jarxiv

要約拡張現実 (XR、AR、MR、VR を含む) と空間コンピューティングテ … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.HC, cs.SE | コメントを受け付けていません

ContRail: A Framework for Realistic Railway Image Synthesis using ControlNet

投稿日: 2024年12月11日作成者: jarxiv

要約ディープラーニングは、その並外れた有効性と多くの分野への適用性により、広く … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

[MASK] is All You Need

投稿日: 2024年12月11日作成者: jarxiv

要約生成モデルでは、次のセット予測ベースのマスク生成モデルと次のノイズ予測ベー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

RADIO Amplified: Improved Baselines for Agglomerative Vision Foundation Models

SimVS: Simulating World Inconsistencies for Robust View Synthesis

STIV: Scalable Text and Image Conditioned Video Generation

GASP: Gaussian Avatars with Synthetic Priors

PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation

SAT: Spatial Aptitude Training for Multimodal Language Models

Video Motion Transfer with Diffusion Transformers

XRZoo: A Large-Scale and Versatile Dataset of Extended Reality (XR) Applications

ContRail: A Framework for Realistic Railway Image Synthesis using ControlNet

[MASK] is All You Need

最近の投稿

最近のコメント

アーカイブ

カテゴリー