月別アーカイブ: 2024年5月

RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives

要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives はコメントを受け付けていません

Phased Consistency Model

要約 一貫性モデル (CM) は最近、拡散モデルの生成を加速する上で大きな進歩を … 続きを読む

カテゴリー: cs.CV, cs.LG | Phased Consistency Model はコメントを受け付けていません

Towards a Sampling Theory for Implicit Neural Representations

要約 暗黙的ニューラル表現 (INR) は、コンピューター ビジョンやコンピュー … 続きを読む

カテゴリー: cs.CV, eess.IV | Towards a Sampling Theory for Implicit Neural Representations はコメントを受け付けていません

DCT-Based Decorrelated Attention for Vision Transformers

要約 Transformer アーキテクチャの有効性の中心となるのは、セルフ ア … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.SP | DCT-Based Decorrelated Attention for Vision Transformers はコメントを受け付けていません

Why are Visually-Grounded Language Models Bad at Image Classification?

要約 画像分類は、マシン ビジョン インテリジェンスの最も基本的な機能の 1 つ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Why are Visually-Grounded Language Models Bad at Image Classification? はコメントを受け付けていません

3D StreetUnveiler with Semantic-Aware 2DGS

要約 自動運転には、車載カメラで捉えた混雑した観察結果から人のいない街路を明らか … 続きを読む

カテゴリー: cs.CV | 3D StreetUnveiler with Semantic-Aware 2DGS はコメントを受け付けていません

Hierarchical World Models as Visual Whole-Body Humanoid Controllers

要約 ヒューマノイドの全身制御は、問題の高次元な性質と、二足歩行の形態に固有の不 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Hierarchical World Models as Visual Whole-Body Humanoid Controllers はコメントを受け付けていません

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

要約 シーン画像の編集は、エンターテインメント、写真、広告デザインにとって重要で … 続きを読む

カテゴリー: cs.CV | 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting はコメントを受け付けていません

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

要約 最近、線形複雑性シーケンス モデリング ネットワークは、FLOP とメモリ … 続きを読む

カテゴリー: cs.AI, cs.CV | ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention はコメントを受け付けていません

GFlow: Recovering 4D World from Monocular Video

要約 ビデオ入力から 4D シーンを再構築することは、重要かつ困難な作業です。 … 続きを読む

カテゴリー: cs.AI, cs.CV | GFlow: Recovering 4D World from Monocular Video はコメントを受け付けていません