cs.CV」カテゴリーアーカイブ

ZeroVO: Visual Odometry with Minimal Assumptions

要約 多様なカメラや環境でゼロショット一般化を達成する新しい視覚臭気(VO)アル … 続きを読む

カテゴリー: cs.CV | ZeroVO: Visual Odometry with Minimal Assumptions はコメントを受け付けていません

Dreamland: Controllable World Creation with Simulator and Generative Models

要約 大規模なビデオ生成モデルは、ダイナミックな世界創造のための多様で現実的な視 … 続きを読む

カテゴリー: cs.CV | Dreamland: Controllable World Creation with Simulator and Generative Models はコメントを受け付けていません

Hidden in plain sight: VLMs overlook their visual representations

要約 言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインター … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Hidden in plain sight: VLMs overlook their visual representations はコメントを受け付けていません

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

要約 自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムである自己強制を紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion はコメントを受け付けていません

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

要約 マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインター … 続きを読む

カテゴリー: cs.AI, cs.CV | GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior はコメントを受け付けていません

Play to Generalize: Learning to Reason Through Game Play

要約 マルチモーダル大手言語モデル(MLLM)における一般化可能な推論機能の開発 … 続きを読む

カテゴリー: cs.CL, cs.CV | Play to Generalize: Learning to Reason Through Game Play はコメントを受け付けていません

Vision Transformers Don’t Need Trained Registers

要約 視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。 … 続きを読む

カテゴリー: cs.AI, cs.CV | Vision Transformers Don’t Need Trained Registers はコメントを受け付けていません

4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos

要約 ダイナミックシーンの再構築のための4Dガウスベースのトランスモデルである4 … 続きを読む

カテゴリー: cs.CV | 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos はコメントを受け付けていません

StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets

要約 密な予測のためのマルチタスク学習は、すべてのタスクの広範な注釈の必要性によ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets はコメントを受け付けていません

Fine-grained Hierarchical Crop Type Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series: A Large-scale Dataset and Dual-stream Transformer Method

要約 細粒の作物タイプの分類は、大規模な作物マッピングの基本的な基礎として機能し … 続きを読む

カテゴリー: cs.CV, cs.LG | Fine-grained Hierarchical Crop Type Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series: A Large-scale Dataset and Dual-stream Transformer Method はコメントを受け付けていません