cs.AI」カテゴリーアーカイブ

Reasoning-Enhanced Object-Centric Learning for Videos

要約 オブジェクト中心学習は、複雑な視覚的シーンをより管理しやすいオブジェクト表 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Reasoning-Enhanced Object-Centric Learning for Videos はコメントを受け付けていません

Self-Supervised Backbone Framework for Diverse Agricultural Vision Tasks

要約 農業におけるコンピューター ビジョンは、農業をデータ駆動型で正確な持続可能 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Self-Supervised Backbone Framework for Diverse Agricultural Vision Tasks はコメントを受け付けていません

Spectral Motion Alignment for Video Motion Transfer using Diffusion Models

要約 拡散モデルの進化は、ビデオの生成と理解に大きな影響を与えました。 特に、テ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Spectral Motion Alignment for Video Motion Transfer using Diffusion Models はコメントを受け付けていません

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

要約 テキストからビジュアルコンポーネントへの進化により、テキストから画像やビデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.GR | VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding はコメントを受け付けていません

CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking

要約 自動運転車を実現するには、周囲の物体の正確な検出と追跡が不可欠です。 Li … 続きを読む

カテゴリー: cs.AI, cs.CV | CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking はコメントを受け付けていません

Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection

要約 高精度 3D 検出器をトレーニングするには、7 自由度の大量のラベル付き … 続きを読む

カテゴリー: cs.AI, cs.CV | Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection はコメントを受け付けていません

Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level

要約 近隣注目は、各トークンの注目範囲をその最も近い隣接トークンに制限することで … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level はコメントを受け付けていません

Fast ODE-based Sampling for Diffusion Models in Around 5 Steps

要約 拡散モデルからのサンプリングは、可能な限り少ない関数評価 (NFE) で正 … 続きを読む

カテゴリー: cs.AI, cs.CV | Fast ODE-based Sampling for Diffusion Models in Around 5 Steps はコメントを受け付けていません

VideoPoet: A Large Language Model for Zero-Shot Video Generation

要約 我々は、多種多様な調整信号から、高品質のビデオと一致するオーディオを合成で … 続きを読む

カテゴリー: cs.AI, cs.CV | VideoPoet: A Large Language Model for Zero-Shot Video Generation はコメントを受け付けていません

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis

要約 最近のテキストから 3D への生成アプローチでは、印象的な 3D 結果が生 … 続きを読む

カテゴリー: 68T45, cs.AI, cs.CV, cs.GR, cs.LG, I.2.6 | LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis はコメントを受け付けていません