cs.CV」カテゴリーアーカイブ

TADACap: Time-series Adaptive Domain-Aware Captioning

要約 画像キャプションは大きな注目を集めていますが、金融やヘルスケアなどの分野で … 続きを読む

カテゴリー: cs.CL, cs.CV | TADACap: Time-series Adaptive Domain-Aware Captioning はコメントを受け付けていません

Reference-Based 3D-Aware Image Editing with Triplanes

要約 生成的敵対ネットワーク(GAN)は、潜在スペースを操作することにより、高品 … 続きを読む

カテゴリー: cs.CV | Reference-Based 3D-Aware Image Editing with Triplanes はコメントを受け付けていません

Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion

要約 3D LIDARシーンの完了における拡散モデルの適用は、拡散のサンプリング … 続きを読む

カテゴリー: cs.CV | Diffusion Distillation With Direct Preference Optimization For Efficient 3D LiDAR Scene Completion はコメントを受け付けていません

PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond

要約 Partfieldを提案します。これは、定義済みのテンプレートやテキストベ … 続きを読む

カテゴリー: cs.CV | PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond はコメントを受け付けていません

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

要約 この作業は、複雑なアーキテクチャの変更なしに、バニラの自己回帰視覚生成フレ … 続きを読む

カテゴリー: cs.CV | SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL はコメントを受け付けていません

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

要約 画像生成の成功に伴い、ピクセル生成が統一された知覚インターフェイスを提供す … 続きを読む

カテゴリー: cs.CV | Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception はコメントを受け付けていません

LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis

要約 低光光シーンでの新規ビュー合成(NVS)は、重度のノイズ、低ダイナミックレ … 続きを読む

カテゴリー: cs.CV | LL-Gaussian: Low-Light Scene Reconstruction and Enhancement via Gaussian Splatting for Novel View Synthesis はコメントを受け付けていません

GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約 グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約 Native Multimodal Pre-Trainingパラダイムを備 … 続きを読む

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

要約 ハードウェア、コンピューターグラフィックス、AIの最近の開発により、AR/ … 続きを読む

カテゴリー: cs.CV | Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study はコメントを受け付けていません