投稿者「jarxiv」のアーカイブ

ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability

要約 統一されたマルチモーダルの理解と世代は最近、ビジョンと言語の分野で多くの注 … 続きを読む

カテゴリー: cs.AI, cs.CV | ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability はコメントを受け付けていません

A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series

要約 精密な農業と食料安全保障の監視には、細粒の作物分類が重要です。 フェノロジ … 続きを読む

カテゴリー: cs.CV, cs.LG | A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series はコメントを受け付けていません

In Search of Forgotten Domain Generalization

要約 ドメイン外(OOD)一般化は、1つ以上のドメインで訓練されたモデルの能力が … 続きを読む

カテゴリー: cs.CV | In Search of Forgotten Domain Generalization はコメントを受け付けていません

Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge

要約 このレポートでは、産業の自動化や教育などのドメインで不可欠なオンラインミス … 続きを読む

カテゴリー: cs.CV | Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge はコメントを受け付けていません

SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery

要約 マルチスペクトルのリモートセンシング画像から物理的に解釈可能な表現を直接導 … 続きを読む

カテゴリー: cs.CV | SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery はコメントを受け付けていません

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling

要約 Masked Image Modeling(MIM)は、視覚表現学習のため … 続きを読む

カテゴリー: cs.CV | From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling はコメントを受け付けていません

SemiOccam: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels

要約 Semioccamは、非常に効率的な方法で半学習学習を活用する画像認識ネッ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | SemiOccam: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels はコメントを受け付けていません

3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

要約 操作は長い間ロボットにとって挑戦的な作業でしたが、人間はマグカップラックに … 続きを読む

カテゴリー: cs.CV, cs.RO | 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model はコメントを受け付けていません

Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning

要約 完全に注釈されたデータセットをキュレートすることが高価であり、きめの分類な … 続きを読む

カテゴリー: cs.CV, cs.LG | Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning はコメントを受け付けていません

PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

要約 Puzzlehuntsは、明確に定義された問題の定義を欠いている複雑でマル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts はコメントを受け付けていません