cs.CV」カテゴリーアーカイブ

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

要約 自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(M … 続きを読む

カテゴリー: cs.CV | HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

要約 3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲 … 続きを読む

カテゴリー: cs.CV, cs.SY, eess.SY | VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution はコメントを受け付けていません

Diffusion Models without Classifier-free Guidance

要約 このホワイトペーパーでは、一般的に使用される分類器のないガイダンス(CFG … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Diffusion Models without Classifier-free Guidance はコメントを受け付けていません

3D Whole-body Grasp Synthesis with Directional Controllability

要約 オブジェクトを現実的に把握する3D全体の体を合成することは、アニメーション … 続きを読む

カテゴリー: cs.CV, cs.RO | 3D Whole-body Grasp Synthesis with Directional Controllability はコメントを受け付けていません

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

要約 30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備 … 続きを読む

カテゴリー: cs.CL, cs.CV | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model はコメントを受け付けていません

Compress image to patches for Vision Transformer

要約 ビジョントランス(VIT)は、コンピュータービジョンの分野で大きな進歩を遂 … 続きを読む

カテゴリー: cs.CV | Compress image to patches for Vision Transformer はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約 このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的 … 続きを読む

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

Vision-based Geo-Localization of Future Mars Rotorcraft in Challenging Illumination Conditions

要約 航空資産を使用した惑星探査は、火星に関する前例のない科学的発見の可能性があ … 続きを読む

カテゴリー: cs.CV, cs.RO | Vision-based Geo-Localization of Future Mars Rotorcraft in Challenging Illumination Conditions はコメントを受け付けていません

PUGS: Perceptual Uncertainty for Grasp Selection in Underwater Environments

要約 感覚情報が不完全で不完全な挑戦的な環境でナビゲートおよび相互作用する場合、 … 続きを読む

カテゴリー: cs.CV, cs.RO | PUGS: Perceptual Uncertainty for Grasp Selection in Underwater Environments はコメントを受け付けていません

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

要約 現在の自律運転車両は、主に個々のセンサーに依存して、周囲のシーンを理解し、 … 続きを読む

カテゴリー: cs.CV, cs.RO | V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models はコメントを受け付けていません