cs.AI」カテゴリーアーカイブ

WordVIS: A Color Worth A Thousand Words

要約 文書の分類は、自動化された文書処理システムにおける重要な要素と考えられてい … 続きを読む

カテゴリー: cs.AI, cs.CV | WordVIS: A Color Worth A Thousand Words はコメントを受け付けていません

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

要約 人と新しい衣服の入力ビデオが与えられた場合、この論文の目的は、時空間の一貫 … 続きを読む

カテゴリー: cs.AI, cs.CV | SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models はコメントを受け付けていません

Multi-Head Encoding for Extreme Label Classification

要約 現実世界のインスタンスのカテゴリの数は通常膨大であり、各インスタンスには複 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Multi-Head Encoding for Extreme Label Classification はコメントを受け付けていません

GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion

要約 私たちは、スマートフォンなどの汎用デバイスでキャプチャされた単眼ビデオから … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion はコメントを受け付けていません

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

要約 ここでは、大規模な専門家混合 (MoE) ビジョン言語モデルの高度なシリー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding はコメントを受け付けていません

BrushEdit: All-In-One Image Inpainting and Editing

要約 画像編集は、反転ベースの方法と命令ベースの方法の両方を使用した拡散モデルの … 続きを読む

カテゴリー: cs.AI, cs.CV | BrushEdit: All-In-One Image Inpainting and Editing はコメントを受け付けていません

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

要約 Web ページ、ソフトウェア アプリケーション、オペレーティング システム … 続きを読む

カテゴリー: cs.AI, cs.CV | Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining はコメントを受け付けていません

A dual contrastive framework

要約 現在のマルチモーダル タスクでは、モデルは通常、領域キャプションなどのタス … 続きを読む

カテゴリー: cs.AI, cs.CV | A dual contrastive framework はコメントを受け付けていません

Apollo: An Exploration of Video Understanding in Large Multimodal Models

要約 ビデオ認識機能は大規模マルチモーダル モデル (LMM) に急速に統合され … 続きを読む

カテゴリー: cs.AI, cs.CV | Apollo: An Exploration of Video Understanding in Large Multimodal Models はコメントを受け付けていません

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

要約 ビジョンベースの自動運転は、その満足のいく性能と低コストにより、大きな可能 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | GaussianAD: Gaussian-Centric End-to-End Autonomous Driving はコメントを受け付けていません