月別アーカイブ: 2023年5月

HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning

要約 事前トレーニングされたモデルを使用して画像をエンコードする方法の研究により … 続きを読む

カテゴリー: cs.AI, cs.CV | HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning はコメントを受け付けていません

Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos

要約 ロボットタスクのための自己中心的なビデオの分析と使用は、手によるオクルージ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos はコメントを受け付けていません

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder

要約 合成画像の検索は、参照画像とテキストのペアで構成される特定のマルチモーダル … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.LG | Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder はコメントを受け付けていません

Imitating Task and Motion Planning with Visuomotor Transformers

要約 模倣学習はロボットの操作ポリシーをトレーニングするための強力なツールであり … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Imitating Task and Motion Planning with Visuomotor Transformers はコメントを受け付けていません

Securing Deep Generative Models with Universal Adversarial Signature

要約 深層生成モデルの最近の進歩により、高品質でリアルな画像を合成できる手法が開 … 続きを読む

カテゴリー: cs.CV | Securing Deep Generative Models with Universal Adversarial Signature はコメントを受け付けていません

UMat: Uncertainty-Aware Single Image High Resolution Material Capture

要約 私たちは、マイクロジオメトリの外観を主な手がかりとして使用して、マテリアル … 続きを読む

カテゴリー: 68T07, 68U05, 68U10, cs.AI, cs.CV, cs.GR, cs.LG, I.2.6 | UMat: Uncertainty-Aware Single Image High Resolution Material Capture はコメントを受け付けていません

Break-A-Scene: Extracting Multiple Concepts from a Single Image

要約 テキストから画像へのモデルのパーソナライゼーションは、ユーザーが提供したコ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Break-A-Scene: Extracting Multiple Concepts from a Single Image はコメントを受け付けていません

Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance

要約 等分散性は、本質的に堅牢な一般化を保証する望ましいネットワーク特性として強 … 続きを読む

カテゴリー: cs.CV | Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance はコメントを受け付けていません

NAP: Neural 3D Articulation Prior

要約 我々は、3D 多関節オブジェクト モデルを合成する最初の 3D 深層生成モ … 続きを読む

カテゴリー: cs.CV | NAP: Neural 3D Articulation Prior はコメントを受け付けていません

Making Vision Transformers Truly Shift-Equivariant

要約 コンピューター ビジョン タスクでは、Vision Transformer … 続きを読む

カテゴリー: cs.CV | Making Vision Transformers Truly Shift-Equivariant はコメントを受け付けていません