投稿者「jarxiv」のアーカイブ

Aligning Text, Images, and 3D Structure Token-by-Token

要約 3Dで世界を理解できるマシンの作成は、3次元空間内でナビゲートおよび相互作 … 続きを読む

カテゴリー: cs.CV | Aligning Text, Images, and 3D Structure Token-by-Token はコメントを受け付けていません

Audio-Sync Video Generation with Multi-Stream Temporal Control

要約 オーディオは本質的に一時的であり、視覚的な世界と密接に同期されているため、 … 続きを読む

カテゴリー: cs.AI, cs.CV | Audio-Sync Video Generation with Multi-Stream Temporal Control はコメントを受け付けていません

Dynamic View Synthesis as an Inverse Problem

要約 この作業では、トレーニングなしの設定での逆の問題として、単眼動画からの動的 … 続きを読む

カテゴリー: cs.AI, cs.CV | Dynamic View Synthesis as an Inverse Problem はコメントを受け付けていません

ZeroVO: Visual Odometry with Minimal Assumptions

要約 多様なカメラや環境でゼロショット一般化を達成する新しい視覚臭気(VO)アル … 続きを読む

カテゴリー: cs.CV | ZeroVO: Visual Odometry with Minimal Assumptions はコメントを受け付けていません

Dreamland: Controllable World Creation with Simulator and Generative Models

要約 大規模なビデオ生成モデルは、ダイナミックな世界創造のための多様で現実的な視 … 続きを読む

カテゴリー: cs.CV | Dreamland: Controllable World Creation with Simulator and Generative Models はコメントを受け付けていません

Hidden in plain sight: VLMs overlook their visual representations

要約 言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインター … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Hidden in plain sight: VLMs overlook their visual representations はコメントを受け付けていません

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

要約 自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムである自己強制を紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion はコメントを受け付けていません

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

要約 マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインター … 続きを読む

カテゴリー: cs.AI, cs.CV | GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior はコメントを受け付けていません

Play to Generalize: Learning to Reason Through Game Play

要約 マルチモーダル大手言語モデル(MLLM)における一般化可能な推論機能の開発 … 続きを読む

カテゴリー: cs.CL, cs.CV | Play to Generalize: Learning to Reason Through Game Play はコメントを受け付けていません

Vision Transformers Don’t Need Trained Registers

要約 視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。 … 続きを読む

カテゴリー: cs.AI, cs.CV | Vision Transformers Don’t Need Trained Registers はコメントを受け付けていません