月別アーカイブ: 2024年4月

Label Propagation for Zero-shot Classification with Vision-Language Models

投稿日: 2024年4月8日作成者: jarxiv

要約視覚言語モデル (VLM) は、ゼロショット分類、つまりクラス名のリストの … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Contextual Encoder-Decoder Network for Visual Saliency Prediction

投稿日: 2024年4月8日作成者: jarxiv

要約自然画像内の顕著な領域を予測するには、シーン内に存在するオブジェクトを検出 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Dynamic Prompt Optimizing for Text-to-Image Generation

投稿日: 2024年4月8日作成者: jarxiv

要約テキストから画像への生成モデル、特に Imagen や Stable Di … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It

投稿日: 2024年4月8日作成者: jarxiv

要約オンラインマッピングのタスクは、現在のセンサー観測値を使用してローカル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Neural Sign Actors: A diffusion model for 3D sign language production from text

投稿日: 2024年4月8日作成者: jarxiv

要約手話 (SL) は、聴覚障害者コミュニティの主要なコミュニケーション手段と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D Facial Expressions through Analysis-by-Neural-Synthesis

投稿日: 2024年4月8日作成者: jarxiv

要約自然界の画像から 3D 顔を再構成する既存の方法は、顔全体の形状を復元する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DualRefine: Self-Supervised Depth and Pose Estimation Through Iterative Epipolar Sampling and Refinement Toward Equilibrium

投稿日: 2024年4月8日作成者: jarxiv

要約自己監視型マルチフレーム深度推定は、隣接するフレーム間のピクセル対応のマッ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The Missing U for Efficient Diffusion Models

投稿日: 2024年4月8日作成者: jarxiv

要約拡散確率モデルは生成モデリングにおける重要なツールとして機能し、複雑なデー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Improving Detection in Aerial Images by Capturing Inter-Object Relationships

投稿日: 2024年4月8日作成者: jarxiv

要約多くの画像領域では、シーン内のオブジェクトの空間分布は、それらの意味関係に … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Open-vocabulary object 6D pose estimation

投稿日: 2024年4月8日作成者: jarxiv

要約オープンボキャブラリーオブジェクト 6D 姿勢推定の新しい設定を導入します … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

Label Propagation for Zero-shot Classification with Vision-Language Models

Contextual Encoder-Decoder Network for Visual Saliency Prediction

Dynamic Prompt Optimizing for Text-to-Image Generation

Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It

Neural Sign Actors: A diffusion model for 3D sign language production from text

3D Facial Expressions through Analysis-by-Neural-Synthesis

DualRefine: Self-Supervised Depth and Pose Estimation Through Iterative Epipolar Sampling and Refinement Toward Equilibrium

The Missing U for Efficient Diffusion Models

Improving Detection in Aerial Images by Capturing Inter-Object Relationships

Open-vocabulary object 6D pose estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー