月別アーカイブ: 2024年6月

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

投稿日: 2024年6月13日作成者: jarxiv

要約スマートフォンユーザーは、ソーシャルメディアプラットフォーム間でのコ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery

投稿日: 2024年6月13日作成者: jarxiv

要約既存のきめの細かいハッシュ手法は、グローバル機能とローカル機能の両方を使用 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement

投稿日: 2024年6月13日作成者: jarxiv

要約視覚的ローカライゼーション技術は、ローカライゼーションを行うための基礎とな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Real2Code: Reconstruct Articulated Objects via Code Generation

投稿日: 2024年6月13日作成者: jarxiv

要約コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである R … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models

投稿日: 2024年6月13日作成者: jarxiv

要約単一の RGB 画像からリアルなアバターを作成することは、魅力的ですが困難 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RMem: Restricted Memory Banks Improve Video Object Segmentation

投稿日: 2024年6月13日作成者: jarxiv

要約最近のビデオオブジェクトセグメンテーション (VOS) ベンチマークが … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

What If We Recaption Billions of Web Images with LLaMA-3?

投稿日: 2024年6月13日作成者: jarxiv

要約 Web クロールされた画像とテキストのペアは本質的にノイズが多くなります。 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

投稿日: 2024年6月13日作成者: jarxiv

要約シングルビューの大規模再構成モデル (LRM) をトレーニングするため … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enhancing End-to-End Autonomous Driving with Latent World Model

投稿日: 2024年6月13日作成者: jarxiv

要約エンドツーエンドの自動運転は幅広い注目を集めています。現在のエンドツーエ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation

投稿日: 2024年6月13日作成者: jarxiv

要約拡散モデルはテキストから画像への生成における最先端技術ですが、その知覚の変 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery

Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement

Real2Code: Reconstruct Articulated Objects via Code Generation

Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models

RMem: Restricted Memory Banks Improve Video Object Segmentation

What If We Recaption Billions of Web Images with LLaMA-3?

Real3D: Scaling Up Large Reconstruction Models with Real-World Images

Enhancing End-to-End Autonomous Driving with Latent World Model

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー