Balancing Beyond Discrete Categories: Continuous Demographic Labels for Fair Face Recognition

要約

バイアスは、顔認識モデルで一定のものでした。
長年にわたり、研究者はモデルとデータの両方の観点からそれを調べてきました。
しかし、データバイアスの緩和に対する彼らのアプローチは限られており、問題の本当の性質に関する洞察が欠けていました。
ここでは、この文書では、アイデンティティごとの個別の値ではなく、連続変数としての民族ラベルの使用を修正することを提案します。
実験的にも理論的にも定式化を検証し、1つの民族性からのすべてのアイデンティティがデータセットのバランスに等しく貢献しているわけではないことを示します。
したがって、民族ごとに同じ数のアイデンティティを持つことは、バランスの取れたデータセットを表しません。
さらに、データセットでトレーニングされたモデルは、連続空間でバランスが取れているモデルは、離散空間でバランスの取れたデータでトレーニングされたモデルを一貫してアウトパフォームすることを示しています。
65以上の異なるモデルをトレーニングし、元のデータセットの20を超えるサブセットを作成しました。

要約(オリジナル)

Bias has been a constant in face recognition models. Over the years, researchers have looked at it from both the model and the data point of view. However, their approach to mitigation of data bias was limited and lacked insight on the real nature of the problem. Here, in this document, we propose to revise our use of ethnicity labels as a continuous variable instead of a discrete value per identity. We validate our formulation both experimentally and theoretically, showcasing that not all identities from one ethnicity contribute equally to the balance of the dataset; thus, having the same number of identities per ethnicity does not represent a balanced dataset. We further show that models trained on datasets balanced in the continuous space consistently outperform models trained on data balanced in the discrete space. We trained more than 65 different models, and created more than 20 subsets of the original datasets.

arxiv情報

著者 Pedro C. Neto,Naser Damer,Jaime S. Cardoso,Ana F. Sequeira
発行日 2025-06-06 14:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval

要約

オンラインビデオWebコンテンツは豊富にマルチモーダルです。単一のビデオは、ビジョン、スピーチ、アンビエントオーディオ、および画面上のテキストをブレンドします。
検索システムは通常、これらのモダリティを独立した検索ソースとして扱い、騒々しい検索につながる可能性があります。
マルチモーダルビデオコンテンツの検索を検討します。ここでは、特定のモダリティから、または複数のモダリティを同時に共同で採点できます。
したがって、効果的なレトリバーは、どのモダリティ(またはモダリティのセット)がクエリに最適に対処するかを動的に選択する必要があります。
ビデオフレーム、転写されたスピーチ、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルの後期インタラクションレトリバーであるClamrを紹介します。
CLAMRは、コンテキストを改善するためにすべてのモダリティを統一されたマルチモーダルバックボーンと共同でエンコードし、2つの重要なイノベーションを介して動的モダリティ選択を強化するように訓練されています。
まず、マルチモーダル検索のトレーニングデータが不足していることを考えると、Multivent 2.0(クエリと組み合わせたさまざまな言語のイベント中心のビデオ)に構築された大規模な合成トレーニングデータセットであるMultivent 2.0 ++をモダリティターゲティングクエリと紹介します。
次に、正しいモダリティ使用量を学習するための目標とともに、標準的な対照的な目的に従って共同で訓練するモダリティを意識する損失を提案します。
Multivent 2.0 ++およびMSRVTTのテストセットでは、ベースラインレトリバーの平均類似性などの従来の集約戦略は、無関係なモダリティからノイズを導入することによりパフォーマンスを低下させます。
対照的に、CLAMRは既存のレトリバーを一貫して上回ります。Multivent2.0++では、CLAMRは最高のシングルモダリティレトリバーでNDCG@10 x 25.6を改善し、最高のマルチモダリティレトリバーで35.4を改善します。
CLAMRの長いビデオQAでの下流のユーティリティを示し、関連するフレームを取得し、LongideObenchでの密なサンプリングよりもVideo-MMEでのLanguageBindを3.50%増加させ、1.42%を獲得します。

要約(オリジナル)

Online video web content is richly multimodal: a single video blends vision, speech, ambient audio, and on-screen text. Retrieval systems typically treat these modalities as independent retrieval sources, which can lead to noisy and subpar retrieval. We explore multimodal video content retrieval, where relevance can be scored from one particular modality or jointly across multiple modalities simultaneously. Consequently, an effective retriever must dynamically choose which modality (or set of modalities) best addresses the query. We introduce CLaMR, a multimodal, late-interaction retriever that jointly indexes 4 modalities: video frames, transcribed speech, on-screen text, and metadata. CLaMR jointly encodes all modalities with a unified multimodal backbone for improved contextualization and is trained to enhance dynamic modality selection via two key innovations. First, given the lack of training data for multimodal retrieval, we introduce MultiVENT 2.0++, a large-scale synthetic training dataset built on MultiVENT 2.0 (event-centric videos in various languages paired with queries) with modality-targeted queries. Next, we propose a modality-aware loss that jointly trains according to a standard contrastive objective alongside an objective for learning correct modality usage. On the test sets of MultiVENT 2.0++ and MSRVTT, conventional aggregation strategies, such as averaging similarities for baseline retrievers, degrade performance by introducing noise from irrelevant modalities. In contrast, CLaMR consistently outperforms existing retrievers: on MultiVENT 2.0++, CLaMR improves nDCG@10 by 25.6 over the best single-modality retriever and by 35.4 over the best multi-modality retriever. We illustrate CLaMR’s downstream utility on long-video QA, retrieving relevant frames and obtaining a 3.50% boost over LanguageBind on Video-MME and 1.42% over dense sampling on LongVideoBench.

arxiv情報

著者 David Wan,Han Wang,Elias Stengel-Eskin,Jaemin Cho,Mohit Bansal
発行日 2025-06-06 15:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR | コメントする

ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability

要約

統一されたマルチモーダルの理解と世代は最近、ビジョンと言語の分野で多くの注目を集めています。
既存のUNIMは、マルチモーダルの理解と生成能力の両方を同時に学習し、実質的な計算リソースを要求し、多くの場合、インターリーブテキストイメージの生成に苦労するように設計されています。
既存のマルチモーダル大手言語モデル(MLLMS)を微調整することにより、理解と生成の両方を達成するリソース効率の良い純粋な自己回帰フレームワークであるアーマーを提示します。
具体的には、Armorは既存のMLLMを3つの観点から拡張します。(1)モデルアーキテクチャの場合、前方切り替えメカニズムを備えた非対称エンコーダーデコーダーアーキテクチャが、最小計算のある自然なテキストインターリード生成を可能にするためのテキストと視覚的モダリティを統合する埋め込みスペースを統合するために導入されます。
(2)トレーニングデータのために、細心の注意を払った高品質のインターリーブデータセットが微調整されたMLLMのために収集されます。
(3)トレーニングアルゴリズムについては、収集されたデータセットに基づいた3つのプログレッシブトレーニング段階を通じて、マルチモーダル理解機能を維持しながら、既存のMLLMをマルチモーダル生成機能にエンスするために「何またはどのように生成するか」を提案します。
実験結果は、ARMORが限られたトレーニングリソースを使用して、有望な画像生成機能を備えたUNIMに既存のMLLMをアップグレードすることを示しています。
私たちのコードは、https://github.com/finyorko/armorでまもなくリリースされます。

要約(オリジナル)

Unified multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a “what or how to generate” algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://github.com/finyorko/armor.

arxiv情報

著者 Jianwen Sun,Yukang Feng,Chuanhao Li,Fanrui Zhang,Zizhen Li,Jiaxin Ai,Sizhuo Zhou,Yu Dai,Shenglin Zhang,Kaipeng Zhang
発行日 2025-06-06 15:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series

要約

精密な農業と食料安全保障の監視には、細粒の作物分類が重要です。
フェノロジーダイナミクス(Sentinel-2などの多様な衛星データから得られた)と微妙なスペクトル変動(ハイパースペクトル画像からナノメートルスケールスペクトル解像度を要求する)の両方の同時キャプチャが必要です。
これら2つのモダリティを組み合わせた研究は、ハイパースペクトルデータの収集と作物タイプの注釈コストの課題により、現在依然として不足しています。
これらの問題に対処するために、30m解像度のエンマップハイパースペクトルデータとSentinel-2時系列を統合することにより、階層型延期作物データセット(H2CROP)を構築します。
4層の作物分類法で組織された100万枚以上の注釈付きフィールド小包により、H2CROPは、きめ細かい農業作物分類とハイパースペクトル画像処理のための重要なベンチマークを確立します。
これらのモダリティを相乗的に処理するデュアルストリームトランスアーキテクチャを提案します。
2つの特殊な経路を調整します。スペクトル空間変圧器は、ハイパースペクトルエンマップデータから細粒のシグネチャを抽出し、一方、スウィントランスはセンチネル2時系列から作物の成長パターンを抽出します。
設計された階層分類ヘッド階層融合ヘッドは、同時にすべての分類層にマルチレベルの分類を提供します。
実験では、ハイパースペクトルエンマップデータをSentinel-2時系列に追加すると、平均F1スコアが4.2%改善されることが示されています(6.3%でピークに達します)。
また、さまざまな時間窓と作物の変化シナリオにわたるハイパースペクトルデータの一貫した利点と、作物タイプの分類のための既存の深い学習アプローチに対する方法のより高い精度を確認します。
コードとデータセットはhttps://github.com/flyakon/h2cropおよびwww.glass.hku.hkキーワードで入手できます。

要約(オリジナル)

Fine-grained crop classification is crucial for precision agriculture and food security monitoring. It requires simultaneous capture of both phenological dynamics (obtained from multi-temporal satellite data like Sentinel-2) and subtle spectral variations (demanding nanometer-scale spectral resolution from hyperspectral imagery). Research combining these two modalities remains scarce currently due to challenges in hyperspectral data acquisition and crop types annotation costs. To address these issues, we construct a hierarchical hyperspectral crop dataset (H2Crop) by integrating 30m-resolution EnMAP hyperspectral data with Sentinel-2 time series. With over one million annotated field parcels organized in a four-tier crop taxonomy, H2Crop establishes a vital benchmark for fine-grained agricultural crop classification and hyperspectral image processing. We propose a dual-stream Transformer architecture that synergistically processes these modalities. It coordinates two specialized pathways: a spectral-spatial Transformer extracts fine-grained signatures from hyperspectral EnMAP data, while a temporal Swin Transformer extracts crop growth patterns from Sentinel-2 time series. The designed hierarchy classification heads with hierarchical fusion then simultaneously delivers multi-level classification across all taxonomic tiers. Experiments demonstrate that adding hyperspectral EnMAP data to Sentinel-2 time series yields a 4.2% average F1-scores improvement (peaking at 6.3%). Extensive comparisons also confirming our method’s higher accuracy over existing deep learning approaches for crop type classification and the consistent benefits of hyperspectral data across varying temporal windows and crop change scenarios. Codes and dataset will be available at https://github.com/flyakon/H2Crop and www.glass.hku.hk Keywords: Crop type classification, precision agriculture, remote sensing, deep learning, hyperspectral data, Sentinel-2 time series, fine-grained crops

arxiv情報

著者 Wenyuan Li,Shunlin Liang,Yuxiang Zhang,Liqin Liu,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Zhenwei Shi
発行日 2025-06-06 15:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

In Search of Forgotten Domain Generalization

要約

ドメイン外(OOD)一般化は、1つ以上のドメインで訓練されたモデルの能力が、目に見えないドメインに一般化する能力です。
コンピュータービジョンのイメージネット時代では、モデルのoodパフォーマンスを測定するための評価セットが、スタイルに関して厳密にoodになるように設計されています。
ただし、データセットが幅広いドメインとリスクテストドメイン汚染をカバーするため、ファンデーションモデルと広大なWebスケールデータセットの出現により、この評価プロセスが難読化されています。
忘れられたドメインの一般化を求めて、Laion(Laion-Natural and Laionレンディション)からサブサンプリングされた大規模なデータセットを作成します。
これらのデータセットでクリップモデルをトレーニングすると、パフォーマンスのかなりの部分がドメイン内の例で説明されていることがわかります。
これは、Imagenet時代からのOOD一般化の課題が依然として普及しており、WebスケールのデータでのトレーニングがOOD一般化の幻想を生み出すだけであることを示しています。
さらに、さまざまな割合で自然データセットとレンディションデータセットを組み合わせることを体系的に調査することにより、これらのドメイン全体でモデル一般化の最適な混合比を特定します。
私たちのデータセットと結果は、大規模なOODの堅牢性の意味のある評価を再度に繰り返します – モデルの堅牢性を改善するための重要な前提条件です。

要約(オリジナル)

Out-of-Domain (OOD) generalization is the ability of a model trained on one or more domains to generalize to unseen domains. In the ImageNet era of computer vision, evaluation sets for measuring a model’s OOD performance were designed to be strictly OOD with respect to style. However, the emergence of foundation models and expansive web-scale datasets has obfuscated this evaluation process, as datasets cover a broad range of domains and risk test domain contamination. In search of the forgotten domain generalization, we create large-scale datasets subsampled from LAION — LAION-Natural and LAION-Rendition — that are strictly OOD to corresponding ImageNet and DomainNet test sets in terms of style. Training CLIP models on these datasets reveals that a significant portion of their performance is explained by in-domain examples. This indicates that the OOD generalization challenges from the ImageNet era still prevail and that training on web-scale data merely creates the illusion of OOD generalization. Furthermore, through a systematic exploration of combining natural and rendition datasets in varying proportions, we identify optimal mixing ratios for model generalization across these domains. Our datasets and results re-enable meaningful assessment of OOD robustness at scale — a crucial prerequisite for improving model robustness.

arxiv情報

著者 Prasanna Mayilvahanan,Roland S. Zimmermann,Thaddäus Wiedemer,Evgenia Rusak,Attila Juhos,Matthias Bethge,Wieland Brendel
発行日 2025-06-06 15:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge

要約

このレポートでは、産業の自動化や教育などのドメインで不可欠なオンラインミス検知のタスクに対処します。リアルタイムビデオ分析により、人間のオペレーターが発生したときにエラーを修正できます。
以前の作業はアクションオーダーを含む手続き上のエラーに焦点を当てていますが、実際の使用のためにより広いエラータイプに対処する必要があります。
手続き誤差と実行エラー(モータースリップやツールの誤用など)の両方を処理するオンラインミス検知フレームワークを導入します。
エラーを検出すると、大規模な言語モデル(LLM)を使用して説明フィードバックを生成します。
Holoassist Benchmarkの実験では、アプローチの有効性を確認します。このアプローチは、間違い検出タスクで2番目に配置されます。

要約(オリジナル)

In this report, we address the task of online mistake detection, which is vital in domains like industrial automation and education, where real-time video analysis allows human operators to correct errors as they occur. While previous work focuses on procedural errors involving action order, broader error types must be addressed for real-world use. We introduce an online mistake detection framework that handles both procedural and execution errors (e.g., motor slips or tool misuse). Upon detecting an error, we use a large language model (LLM) to generate explanatory feedback. Experiments on the HoloAssist benchmark confirm the effectiveness of our approach, where our approach is placed second on the mistake detection task.

arxiv情報

著者 Constantin Patsch,Marsil Zakour,Yuankai Wu,Eckehard Steinbach
発行日 2025-06-06 15:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery

要約

マルチスペクトルのリモートセンシング画像から物理的に解釈可能な表現を直接導き出す新しい象徴的な回帰フレームワークである衛星形式を提案します。
従来の経験的インデックスやブラックボックス学習モデルとは異なり、衛星は、一貫性と解釈可能性を確保するために、物理学誘導制約と空間スペクトル特徴抽出のためのビジョン変圧器ベースのエンコーダを組み合わせます。
既存のシンボリック回帰法は、マルチスペクトルデータの高次元の複雑さと闘っています。
私たちの方法は、トランスの表現を精度と物理的妥当性のバランスをとるシンボリックオプティマイザーに統合することにより、これに対処します。
ベンチマークデータセットとリモートセンシングタスクに関する広範な実験は、最先端のベースラインと比較して優れたパフォーマンス、安定性、および一般化を示しています。
衛星形成は、複雑な環境変数の解釈可能なモデリングを可能にし、データ駆動型の学習と身体的理解の間のギャップを埋めることができます。

要約(オリジナル)

We propose SatelliteFormula, a novel symbolic regression framework that derives physically interpretable expressions directly from multi-spectral remote sensing imagery. Unlike traditional empirical indices or black-box learning models, SatelliteFormula combines a Vision Transformer-based encoder for spatial-spectral feature extraction with physics-guided constraints to ensure consistency and interpretability. Existing symbolic regression methods struggle with the high-dimensional complexity of multi-spectral data; our method addresses this by integrating transformer representations into a symbolic optimizer that balances accuracy and physical plausibility. Extensive experiments on benchmark datasets and remote sensing tasks demonstrate superior performance, stability, and generalization compared to state-of-the-art baselines. SatelliteFormula enables interpretable modeling of complex environmental variables, bridging the gap between data-driven learning and physical understanding.

arxiv情報

著者 Zhenyu Yu,Mohd. Yamani Idna Idris,Pei Wang,Yuelong Xia,Fei Ma,Rizwan Qureshi
発行日 2025-06-06 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling

要約

Masked Image Modeling(MIM)は、視覚表現学習のための強力な自己監視学習パラダイムとして浮上しており、可視領域からの画像のマスクされた部分を予測することにより、モデルが豊富な視覚表現を取得できるようにします。
このアプローチは有望な結果を示していますが、基本的な視覚処理機能を開発する前に、モデルが部分的な観測から複雑な画像分布を学習することが期待される初期のトレーニング段階では、その有効性が最適化の課題によって制限される可能性があると仮定します。
この制限に対処するために、プロトタイプ駆動型のカリキュラム継承フレームワークを提案します。これは、プロトタイプの例からデータセットのより複雑なバリエーションまで進歩するための学習プロセスを構成します。
私たちのアプローチは、トレーニング分布を徐々に拡張し、より安定した効率的な学習軌跡を可能にする温度ベースのアニーリングスキームを導入します。
Imagenet-1Kに関する広範な実験を通じて、カリキュラム学習戦略により、トレーニング効率と表現の質の両方が大幅に向上し、標準のマスクされた自動エンコードと比較してトレーニングエポックが大幅に少ないことを実証します。
私たちの調査結果は、トレーニングの順序を慎重に制御することが、自己監視された視覚学習において重要な役割を果たし、MIMの初期段階の最適化の課題に対する実用的な解決策を提供することを示唆しています。

要約(オリジナル)

Masked Image Modeling (MIM) has emerged as a powerful self-supervised learning paradigm for visual representation learning, enabling models to acquire rich visual representations by predicting masked portions of images from their visible regions. While this approach has shown promising results, we hypothesize that its effectiveness may be limited by optimization challenges during early training stages, where models are expected to learn complex image distributions from partial observations before developing basic visual processing capabilities. To address this limitation, we propose a prototype-driven curriculum leagrning framework that structures the learning process to progress from prototypical examples to more complex variations in the dataset. Our approach introduces a temperature-based annealing scheme that gradually expands the training distribution, enabling more stable and efficient learning trajectories. Through extensive experiments on ImageNet-1K, we demonstrate that our curriculum learning strategy significantly improves both training efficiency and representation quality while requiring substantially fewer training epochs compared to standard Masked Auto-Encoding. Our findings suggest that carefully controlling the order of training examples plays a crucial role in self-supervised visual learning, providing a practical solution to the early-stage optimization challenges in MIM.

arxiv情報

著者 Jinhong Lin,Cheng-En Wu,Huanran Li,Jifan Zhang,Yu Hen Hu,Pedro Morgado
発行日 2025-06-06 15:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SemiOccam: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels

要約

Semioccamは、非常に効率的な方法で半学習学習を活用する画像認識ネットワークです。
既存の作業は、多くの場合、複雑なトレーニング技術とアーキテクチャに依存しており、トレーニングに数百時間のGPU時間が必要になりますが、非常に限られたラベルデータを扱う際の一般化能力はまだ改善されていません。
これらの制限に対処するために、特徴表現とターゲットクラスの間の相互情報を最適化し、重要な識別コンポーネントを保持しながら冗長な情報を圧縮することにより、階層混合密度分類決定メカニズムを構築します。
実験結果は、無視できるラベル付きサンプルを使用するときに、さまざまなデータセットで最先端のパフォーマンスを達成することを示しており、そのシンプルなアーキテクチャにより、トレーニング時間が微細なレベルまで維持されています。
特に、このペーパーでは、半監視学習タスクのSTL-10データセットに長く見られるデータリークの問題が明らかになり、複製を削除して実験結果の信頼性を確保します。
また、将来の半監視学習における公正で信頼できる研究を促進するために、重複排除されたCleanstl-10データセットをリリースします。
https://github.com/shu1l0n9/semioccamで入手可能なコード。

要約(オリジナル)

We present SemiOccam, an image recognition network that leverages semi-supervised learning in a highly efficient manner. Existing works often rely on complex training techniques and architectures, requiring hundreds of GPU hours for training, while their generalization ability when dealing with extremely limited labeled data remains to be improved. To address these limitations, we construct a hierarchical mixture density classification decision mechanism by optimizing mutual information between feature representations and target classes, compressing redundant information while retaining crucial discriminative components. Experimental results demonstrate that our method achieves state-of-the-art performance on various datasets when using negligible labeled samples, and its simple architecture keeps training time to minute-level. Notably, this paper reveals a long-overlooked data leakage issue in the STL-10 dataset for semi-supervised learning tasks and removes duplicates to ensure the reliability of experimental results. We also release the deduplicated CleanSTL-10 dataset to facilitate fair and reliable research in future semi-supervised learning. Code available at https://github.com/Shu1L0n9/SemiOccam.

arxiv情報

著者 Rui Yann,Xianglei Xing
発行日 2025-06-06 15:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

要約

操作は長い間ロボットにとって挑戦的な作業でしたが、人間はマグカップラックにカップを掛けるなど、オブジェクトとの複雑な相互作用を簡単に実行できます。
主な理由は、ロボットの操作スキルを教えるための大規模で均一なデータセットがないことです。
現在のロボットデータセットは、多くの場合、単純なシーン内のさまざまなアクションスペースでロボットアクションを記録します。
これにより、ロボットが妨げられ、さまざまなシーン内のさまざまなロボットの統一された堅牢なアクション表現が学習されます。
人間が操作タスクをどのように理解しているかを観察すると、オブジェクトが3D空間でどのように移動するかを理解することが、アクションを導くための重要な手がかりであることがわかります。
この手がかりは具体化に依存しており、人間と異なるロボットの両方に適しています。
これにより動機付けられているため、人間とロボットの操作データの両方から3Dフローワールドモデルを学ぶことを目指しています。
このモデルは、3D空間での相互作用するオブジェクトの将来の動きを予測し、操作のためのアクション計画を導きます。
具体的には、移動オブジェクトの自動検出パイプラインを介して、マニフロー-10Kという名前の大規模な3D光フローデータセットを合成します。
ビデオ拡散ベースのワールドモデルは、これらのデータから操作物理学を学習し、言語の指示に条件付けられた3D光フロー軌跡を生成します。
生成された3Dオブジェクト光フローを使用すると、フロー誘導レンダリングメカニズムを提案します。これにより、予測された最終状態をレンダリングし、GPT-4Oをレバレッジして、予測フローがタスクの説明と整合するかどうかを評価します。
これにより、ロボットに閉ループ計画能力が装備されます。
最後に、操作のためのロボットアクションの塊を決定するための最適化ポリシーの制約として、予測される3D光フローを考慮します。
広範な実験は、多様なロボット操作タスク全体にわたって強力な一般化と、ハードウェア固有のトレーニングなしの信頼できる交差体拡大適応を実証しています。

要約(オリジナル)

Manipulation has long been a challenging task for robots, while humans can effortlessly perform complex interactions with objects, such as hanging a cup on the mug rack. A key reason is the lack of a large and uniform dataset for teaching robots manipulation skills. Current robot datasets often record robot action in different action spaces within a simple scene. This hinders the robot to learn a unified and robust action representation for different robots within diverse scenes. Observing how humans understand a manipulation task, we find that understanding how the objects should move in the 3D space is a critical clue for guiding actions. This clue is embodiment-agnostic and suitable for both humans and different robots. Motivated by this, we aim to learn a 3D flow world model from both human and robot manipulation data. This model predicts the future movement of the interacting objects in 3D space, guiding action planning for manipulation. Specifically, we synthesize a large-scale 3D optical flow dataset, named ManiFlow-110k, through a moving object auto-detect pipeline. A video diffusion-based world model then learns manipulation physics from these data, generating 3D optical flow trajectories conditioned on language instructions. With the generated 3D object optical flow, we propose a flow-guided rendering mechanism, which renders the predicted final state and leverages GPT-4o to assess whether the predicted flow aligns with the task description. This equips the robot with a closed-loop planning ability. Finally, we consider the predicted 3D optical flow as constraints for an optimization policy to determine a chunk of robot actions for manipulation. Extensive experiments demonstrate strong generalization across diverse robotic manipulation tasks and reliable cross-embodiment adaptation without hardware-specific training.

arxiv情報

著者 Hongyan Zhi,Peihao Chen,Siyuan Zhou,Yubo Dong,Quanxi Wu,Lei Han,Mingkui Tan
発行日 2025-06-06 16:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする