月別アーカイブ: 2024年7月

Extracting Training Data from Document-Based VQA Models

投稿日: 2024年7月12日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、ドキュメントベースの視覚的な質問応答 … 続きを読む →

カテゴリー: cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects

投稿日: 2024年7月12日作成者: jarxiv

要約私たちは、3D 正規化オブジェクト座標空間 (NOCS) マップ、オブジェ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics

投稿日: 2024年7月12日作成者: jarxiv

要約欠陥検査は閉ループ製造システム内で最も重要です。ただし、欠陥検査用の既存 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization

投稿日: 2024年7月12日作成者: jarxiv

要約 3D ガウススプラッティング (3DGS) は、シーンを表す 3D ガウ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics

投稿日: 2024年7月12日作成者: jarxiv

要約口唇ベースの生体認証 (LBBA) は、過去 10 年間に多くの研究者を魅 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Unifying 3D Representation and Control of Diverse Robots with a Single Camera

投稿日: 2024年7月12日作成者: jarxiv

要約自然生物の複雑な構造と多様な機能を反映することは、ロボット工学における長年 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces

投稿日: 2024年7月12日作成者: jarxiv

要約街並みや広場などの公共の都市空間は、住民にサービスを提供し、あらゆる活気に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data

投稿日: 2024年7月12日作成者: jarxiv

要約トップダウンの鳥瞰図 (BEV) マップは、下流タスクの豊富さと柔軟性によ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond Aesthetics: Cultural Competence in Text-to-Image Models

投稿日: 2024年7月12日作成者: jarxiv

要約 Text-to-Image (T2I) モデルは、独自の文化を視覚的に表現 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration

投稿日: 2024年7月12日作成者: jarxiv

要約この論文の目的は、\textit{global} 点群登録 (PCR) の … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年7月

Extracting Training Data from Document-Based VQA Models

OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics

CoR-GS: Sparse-View 3D Gaussian Splatting via Co-Regularization

WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics

Unifying 3D Representation and Control of Diverse Robots with a Single Camera

MetaUrban: A Simulation Platform for Embodied AI in Urban Spaces

Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data

Beyond Aesthetics: Cultural Competence in Text-to-Image Models

BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration

最近の投稿

最近のコメント

アーカイブ

カテゴリー