月別アーカイブ: 2024年6月

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

要約 スマートフォン ユーザーは、ソーシャル メディア プラットフォーム間でのコ … 続きを読む

カテゴリー: cs.CV | GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices はコメントを受け付けていません

ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery

要約 既存のきめの細かいハッシュ手法は、グローバル機能とローカル機能の両方を使用 … 続きを読む

カテゴリー: cs.CV | ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery はコメントを受け付けていません

Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement

要約 視覚的ローカライゼーション技術は、ローカライゼーションを行うための基礎とな … 続きを読む

カテゴリー: cs.CV | Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement はコメントを受け付けていません

Real2Code: Reconstruct Articulated Objects via Code Generation

要約 コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである R … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Real2Code: Reconstruct Articulated Objects via Code Generation はコメントを受け付けていません

Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models

要約 単一の RGB 画像からリアルなアバターを作成することは、魅力的ですが困難 … 続きを読む

カテゴリー: cs.CV | Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models はコメントを受け付けていません

RMem: Restricted Memory Banks Improve Video Object Segmentation

要約 最近のビデオ オブジェクト セグメンテーション (VOS) ベンチマークが … 続きを読む

カテゴリー: cs.AI, cs.CV | RMem: Restricted Memory Banks Improve Video Object Segmentation はコメントを受け付けていません

What If We Recaption Billions of Web Images with LLaMA-3?

要約 Web クロールされた画像とテキストのペアは本質的にノイズが多くなります。 … 続きを読む

カテゴリー: cs.CL, cs.CV | What If We Recaption Billions of Web Images with LLaMA-3? はコメントを受け付けていません

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

要約 シングルビューの大規模再構成モデ​​ル (LRM) をトレーニングするため … 続きを読む

カテゴリー: cs.CV | Real3D: Scaling Up Large Reconstruction Models with Real-World Images はコメントを受け付けていません

Enhancing End-to-End Autonomous Driving with Latent World Model

要約 エンドツーエンドの自動運転は幅広い注目を集めています。 現在のエンドツーエ … 続きを読む

カテゴリー: cs.CV | Enhancing End-to-End Autonomous Driving with Latent World Model はコメントを受け付けていません

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation

要約 拡散モデルはテキストから画像への生成における最先端技術ですが、その知覚の変 … 続きを読む

カテゴリー: cs.CL, cs.CV | Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation はコメントを受け付けていません