月別アーカイブ: 2023年5月

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning

投稿日: 2023年5月26日作成者: jarxiv

要約事前トレーニングされたモデルを使用して画像をエンコードする方法の研究により … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos

投稿日: 2023年5月26日作成者: jarxiv

要約ロボットタスクのための自己中心的なビデオの分析と使用は、手によるオクルージ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder

投稿日: 2023年5月26日作成者: jarxiv

要約合成画像の検索は、参照画像とテキストのペアで構成される特定のマルチモーダル … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.LG | コメントを受け付けていません

Imitating Task and Motion Planning with Visuomotor Transformers

投稿日: 2023年5月26日作成者: jarxiv

要約模倣学習はロボットの操作ポリシーをトレーニングするための強力なツールであり … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Securing Deep Generative Models with Universal Adversarial Signature

投稿日: 2023年5月26日作成者: jarxiv

要約深層生成モデルの最近の進歩により、高品質でリアルな画像を合成できる手法が開 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UMat: Uncertainty-Aware Single Image High Resolution Material Capture

投稿日: 2023年5月26日作成者: jarxiv

要約私たちは、マイクロジオメトリの外観を主な手がかりとして使用して、マテリアル … 続きを読む →

カテゴリー: 68T07, 68U05, 68U10, cs.AI, cs.CV, cs.GR, cs.LG, I.2.6 | コメントを受け付けていません

Break-A-Scene: Extracting Multiple Concepts from a Single Image

投稿日: 2023年5月26日作成者: jarxiv

要約テキストから画像へのモデルのパーソナライゼーションは、ユーザーが提供したコ … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG | コメントを受け付けていません

Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance

投稿日: 2023年5月26日作成者: jarxiv

要約等分散性は、本質的に堅牢な一般化を保証する望ましいネットワーク特性として強 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

NAP: Neural 3D Articulation Prior

投稿日: 2023年5月26日作成者: jarxiv

要約我々は、3D 多関節オブジェクトモデルを合成する最初の 3D 深層生成モ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Making Vision Transformers Truly Shift-Equivariant

投稿日: 2023年5月26日作成者: jarxiv

要約コンピュータービジョンタスクでは、Vision Transformer … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2023年5月

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning

Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder

Imitating Task and Motion Planning with Visuomotor Transformers

Securing Deep Generative Models with Universal Adversarial Signature

UMat: Uncertainty-Aware Single Image High Resolution Material Capture

Break-A-Scene: Extracting Multiple Concepts from a Single Image

Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance

NAP: Neural 3D Articulation Prior

Making Vision Transformers Truly Shift-Equivariant

最近の投稿

最近のコメント

アーカイブ

カテゴリー