ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability

要約

統一されたマルチモーダルの理解と世代は最近、ビジョンと言語の分野で多くの注目を集めています。
既存のUNIMは、マルチモーダルの理解と生成能力の両方を同時に学習し、実質的な計算リソースを要求し、多くの場合、インターリーブテキストイメージの生成に苦労するように設計されています。
既存のマルチモーダル大手言語モデル(MLLMS)を微調整することにより、理解と生成の両方を達成するリソース効率の良い純粋な自己回帰フレームワークであるアーマーを提示します。
具体的には、Armorは既存のMLLMを3つの観点から拡張します。(1)モデルアーキテクチャの場合、前方切り替えメカニズムを備えた非対称エンコーダーデコーダーアーキテクチャが、最小計算のある自然なテキストインターリード生成を可能にするためのテキストと視覚的モダリティを統合する埋め込みスペースを統合するために導入されます。
(2)トレーニングデータのために、細心の注意を払った高品質のインターリーブデータセットが微調整されたMLLMのために収集されます。
(3)トレーニングアルゴリズムについては、収集されたデータセットに基づいた3つのプログレッシブトレーニング段階を通じて、マルチモーダル理解機能を維持しながら、既存のMLLMをマルチモーダル生成機能にエンスするために「何またはどのように生成するか」を提案します。
実験結果は、ARMORが限られたトレーニングリソースを使用して、有望な画像生成機能を備えたUNIMに既存のMLLMをアップグレードすることを示しています。
私たちのコードは、https://github.com/finyorko/armorでまもなくリリースされます。

要約(オリジナル)

Unified multimodal understanding and generation have recently received much attention in the area of vision and language. Existing UniMs are designed to simultaneously learn both multimodal understanding and generation capabilities, demanding substantial computational resources, and often struggle to generate interleaved text-image. We present ARMOR, a resource-efficient and pure autoregressive framework that achieves both understanding and generation by fine-tuning existing multimodal large language models (MLLMs). Specifically, ARMOR extends existing MLLMs from three perspectives: (1) For model architecture, an asymmetric encoder-decoder architecture with a forward-switching mechanism is introduced to unify embedding space integrating textual and visual modalities for enabling natural text-image interleaved generation with minimal computational overhead. (2) For training data, a meticulously curated, high-quality interleaved dataset is collected for fine-tuning MLLMs. (3) For the training algorithm, we propose a “what or how to generate” algorithm to empower existing MLLMs with multimodal generation capabilities while preserving their multimodal understanding capabilities, through three progressive training stages based on the collected dataset. Experimental results demonstrate that ARMOR upgrades existing MLLMs to UniMs with promising image generation capabilities, using limited training resources. Our code will be released soon at https://github.com/finyorko/armor.

arxiv情報

著者 Jianwen Sun,Yukang Feng,Chuanhao Li,Fanrui Zhang,Zizhen Li,Jiaxin Ai,Sizhuo Zhou,Yu Dai,Shenglin Zhang,Kaipeng Zhang
発行日 2025-06-06 15:03:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability はコメントを受け付けていません

A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series

要約

精密な農業と食料安全保障の監視には、細粒の作物分類が重要です。
フェノロジーダイナミクス(Sentinel-2などの多様な衛星データから得られた)と微妙なスペクトル変動(ハイパースペクトル画像からナノメートルスケールスペクトル解像度を要求する)の両方の同時キャプチャが必要です。
これら2つのモダリティを組み合わせた研究は、ハイパースペクトルデータの収集と作物タイプの注釈コストの課題により、現在依然として不足しています。
これらの問題に対処するために、30m解像度のエンマップハイパースペクトルデータとSentinel-2時系列を統合することにより、階層型延期作物データセット(H2CROP)を構築します。
4層の作物分類法で組織された100万枚以上の注釈付きフィールド小包により、H2CROPは、きめ細かい農業作物分類とハイパースペクトル画像処理のための重要なベンチマークを確立します。
これらのモダリティを相乗的に処理するデュアルストリームトランスアーキテクチャを提案します。
2つの特殊な経路を調整します。スペクトル空間変圧器は、ハイパースペクトルエンマップデータから細粒のシグネチャを抽出し、一方、スウィントランスはセンチネル2時系列から作物の成長パターンを抽出します。
設計された階層分類ヘッド階層融合ヘッドは、同時にすべての分類層にマルチレベルの分類を提供します。
実験では、ハイパースペクトルエンマップデータをSentinel-2時系列に追加すると、平均F1スコアが4.2%改善されることが示されています(6.3%でピークに達します)。
また、さまざまな時間窓と作物の変化シナリオにわたるハイパースペクトルデータの一貫した利点と、作物タイプの分類のための既存の深い学習アプローチに対する方法のより高い精度を確認します。
コードとデータセットはhttps://github.com/flyakon/h2cropおよびwww.glass.hku.hkキーワードで入手できます。

要約(オリジナル)

Fine-grained crop classification is crucial for precision agriculture and food security monitoring. It requires simultaneous capture of both phenological dynamics (obtained from multi-temporal satellite data like Sentinel-2) and subtle spectral variations (demanding nanometer-scale spectral resolution from hyperspectral imagery). Research combining these two modalities remains scarce currently due to challenges in hyperspectral data acquisition and crop types annotation costs. To address these issues, we construct a hierarchical hyperspectral crop dataset (H2Crop) by integrating 30m-resolution EnMAP hyperspectral data with Sentinel-2 time series. With over one million annotated field parcels organized in a four-tier crop taxonomy, H2Crop establishes a vital benchmark for fine-grained agricultural crop classification and hyperspectral image processing. We propose a dual-stream Transformer architecture that synergistically processes these modalities. It coordinates two specialized pathways: a spectral-spatial Transformer extracts fine-grained signatures from hyperspectral EnMAP data, while a temporal Swin Transformer extracts crop growth patterns from Sentinel-2 time series. The designed hierarchy classification heads with hierarchical fusion then simultaneously delivers multi-level classification across all taxonomic tiers. Experiments demonstrate that adding hyperspectral EnMAP data to Sentinel-2 time series yields a 4.2% average F1-scores improvement (peaking at 6.3%). Extensive comparisons also confirming our method’s higher accuracy over existing deep learning approaches for crop type classification and the consistent benefits of hyperspectral data across varying temporal windows and crop change scenarios. Codes and dataset will be available at https://github.com/flyakon/H2Crop and www.glass.hku.hk Keywords: Crop type classification, precision agriculture, remote sensing, deep learning, hyperspectral data, Sentinel-2 time series, fine-grained crops

arxiv情報

著者 Wenyuan Li,Shunlin Liang,Yuxiang Zhang,Liqin Liu,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Zhenwei Shi
発行日 2025-06-06 15:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Novel Large-scale Crop Dataset and Dual-stream Transformer Method for Fine-grained Hierarchical Crop Classification from Integrated Hyperspectral EnMAP Data and Multispectral Sentinel-2 Time Series はコメントを受け付けていません

In Search of Forgotten Domain Generalization

要約

ドメイン外(OOD)一般化は、1つ以上のドメインで訓練されたモデルの能力が、目に見えないドメインに一般化する能力です。
コンピュータービジョンのイメージネット時代では、モデルのoodパフォーマンスを測定するための評価セットが、スタイルに関して厳密にoodになるように設計されています。
ただし、データセットが幅広いドメインとリスクテストドメイン汚染をカバーするため、ファンデーションモデルと広大なWebスケールデータセットの出現により、この評価プロセスが難読化されています。
忘れられたドメインの一般化を求めて、Laion(Laion-Natural and Laionレンディション)からサブサンプリングされた大規模なデータセットを作成します。
これらのデータセットでクリップモデルをトレーニングすると、パフォーマンスのかなりの部分がドメイン内の例で説明されていることがわかります。
これは、Imagenet時代からのOOD一般化の課題が依然として普及しており、WebスケールのデータでのトレーニングがOOD一般化の幻想を生み出すだけであることを示しています。
さらに、さまざまな割合で自然データセットとレンディションデータセットを組み合わせることを体系的に調査することにより、これらのドメイン全体でモデル一般化の最適な混合比を特定します。
私たちのデータセットと結果は、大規模なOODの堅牢性の意味のある評価を再度に繰り返します – モデルの堅牢性を改善するための重要な前提条件です。

要約(オリジナル)

Out-of-Domain (OOD) generalization is the ability of a model trained on one or more domains to generalize to unseen domains. In the ImageNet era of computer vision, evaluation sets for measuring a model’s OOD performance were designed to be strictly OOD with respect to style. However, the emergence of foundation models and expansive web-scale datasets has obfuscated this evaluation process, as datasets cover a broad range of domains and risk test domain contamination. In search of the forgotten domain generalization, we create large-scale datasets subsampled from LAION — LAION-Natural and LAION-Rendition — that are strictly OOD to corresponding ImageNet and DomainNet test sets in terms of style. Training CLIP models on these datasets reveals that a significant portion of their performance is explained by in-domain examples. This indicates that the OOD generalization challenges from the ImageNet era still prevail and that training on web-scale data merely creates the illusion of OOD generalization. Furthermore, through a systematic exploration of combining natural and rendition datasets in varying proportions, we identify optimal mixing ratios for model generalization across these domains. Our datasets and results re-enable meaningful assessment of OOD robustness at scale — a crucial prerequisite for improving model robustness.

arxiv情報

著者 Prasanna Mayilvahanan,Roland S. Zimmermann,Thaddäus Wiedemer,Evgenia Rusak,Attila Juhos,Matthias Bethge,Wieland Brendel
発行日 2025-06-06 15:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | In Search of Forgotten Domain Generalization はコメントを受け付けていません

Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge

要約

このレポートでは、産業の自動化や教育などのドメインで不可欠なオンラインミス検知のタスクに対処します。リアルタイムビデオ分析により、人間のオペレーターが発生したときにエラーを修正できます。
以前の作業はアクションオーダーを含む手続き上のエラーに焦点を当てていますが、実際の使用のためにより広いエラータイプに対処する必要があります。
手続き誤差と実行エラー(モータースリップやツールの誤用など)の両方を処理するオンラインミス検知フレームワークを導入します。
エラーを検出すると、大規模な言語モデル(LLM)を使用して説明フィードバックを生成します。
Holoassist Benchmarkの実験では、アプローチの有効性を確認します。このアプローチは、間違い検出タスクで2番目に配置されます。

要約(オリジナル)

In this report, we address the task of online mistake detection, which is vital in domains like industrial automation and education, where real-time video analysis allows human operators to correct errors as they occur. While previous work focuses on procedural errors involving action order, broader error types must be addressed for real-world use. We introduce an online mistake detection framework that handles both procedural and execution errors (e.g., motor slips or tool misuse). Upon detecting an error, we use a large language model (LLM) to generate explanatory feedback. Experiments on the HoloAssist benchmark confirm the effectiveness of our approach, where our approach is placed second on the mistake detection task.

arxiv情報

著者 Constantin Patsch,Marsil Zakour,Yuankai Wu,Eckehard Steinbach
発行日 2025-06-06 15:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Technical Report for Egocentric Mistake Detection for the HoloAssist Challenge はコメントを受け付けていません

SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery

要約

マルチスペクトルのリモートセンシング画像から物理的に解釈可能な表現を直接導き出す新しい象徴的な回帰フレームワークである衛星形式を提案します。
従来の経験的インデックスやブラックボックス学習モデルとは異なり、衛星は、一貫性と解釈可能性を確保するために、物理学誘導制約と空間スペクトル特徴抽出のためのビジョン変圧器ベースのエンコーダを組み合わせます。
既存のシンボリック回帰法は、マルチスペクトルデータの高次元の複雑さと闘っています。
私たちの方法は、トランスの表現を精度と物理的妥当性のバランスをとるシンボリックオプティマイザーに統合することにより、これに対処します。
ベンチマークデータセットとリモートセンシングタスクに関する広範な実験は、最先端のベースラインと比較して優れたパフォーマンス、安定性、および一般化を示しています。
衛星形成は、複雑な環境変数の解釈可能なモデリングを可能にし、データ駆動型の学習と身体的理解の間のギャップを埋めることができます。

要約(オリジナル)

We propose SatelliteFormula, a novel symbolic regression framework that derives physically interpretable expressions directly from multi-spectral remote sensing imagery. Unlike traditional empirical indices or black-box learning models, SatelliteFormula combines a Vision Transformer-based encoder for spatial-spectral feature extraction with physics-guided constraints to ensure consistency and interpretability. Existing symbolic regression methods struggle with the high-dimensional complexity of multi-spectral data; our method addresses this by integrating transformer representations into a symbolic optimizer that balances accuracy and physical plausibility. Extensive experiments on benchmark datasets and remote sensing tasks demonstrate superior performance, stability, and generalization compared to state-of-the-art baselines. SatelliteFormula enables interpretable modeling of complex environmental variables, bridging the gap between data-driven learning and physical understanding.

arxiv情報

著者 Zhenyu Yu,Mohd. Yamani Idna Idris,Pei Wang,Yuelong Xia,Fei Ma,Rizwan Qureshi
発行日 2025-06-06 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SatelliteFormula: Multi-Modal Symbolic Regression from Remote Sensing Imagery for Physics Discovery はコメントを受け付けていません

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling

要約

Masked Image Modeling(MIM)は、視覚表現学習のための強力な自己監視学習パラダイムとして浮上しており、可視領域からの画像のマスクされた部分を予測することにより、モデルが豊富な視覚表現を取得できるようにします。
このアプローチは有望な結果を示していますが、基本的な視覚処理機能を開発する前に、モデルが部分的な観測から複雑な画像分布を学習することが期待される初期のトレーニング段階では、その有効性が最適化の課題によって制限される可能性があると仮定します。
この制限に対処するために、プロトタイプ駆動型のカリキュラム継承フレームワークを提案します。これは、プロトタイプの例からデータセットのより複雑なバリエーションまで進歩するための学習プロセスを構成します。
私たちのアプローチは、トレーニング分布を徐々に拡張し、より安定した効率的な学習軌跡を可能にする温度ベースのアニーリングスキームを導入します。
Imagenet-1Kに関する広範な実験を通じて、カリキュラム学習戦略により、トレーニング効率と表現の質の両方が大幅に向上し、標準のマスクされた自動エンコードと比較してトレーニングエポックが大幅に少ないことを実証します。
私たちの調査結果は、トレーニングの順序を慎重に制御することが、自己監視された視覚学習において重要な役割を果たし、MIMの初期段階の最適化の課題に対する実用的な解決策を提供することを示唆しています。

要約(オリジナル)

Masked Image Modeling (MIM) has emerged as a powerful self-supervised learning paradigm for visual representation learning, enabling models to acquire rich visual representations by predicting masked portions of images from their visible regions. While this approach has shown promising results, we hypothesize that its effectiveness may be limited by optimization challenges during early training stages, where models are expected to learn complex image distributions from partial observations before developing basic visual processing capabilities. To address this limitation, we propose a prototype-driven curriculum leagrning framework that structures the learning process to progress from prototypical examples to more complex variations in the dataset. Our approach introduces a temperature-based annealing scheme that gradually expands the training distribution, enabling more stable and efficient learning trajectories. Through extensive experiments on ImageNet-1K, we demonstrate that our curriculum learning strategy significantly improves both training efficiency and representation quality while requiring substantially fewer training epochs compared to standard Masked Auto-Encoding. Our findings suggest that carefully controlling the order of training examples plays a crucial role in self-supervised visual learning, providing a practical solution to the early-stage optimization challenges in MIM.

arxiv情報

著者 Jinhong Lin,Cheng-En Wu,Huanran Li,Jifan Zhang,Yu Hen Hu,Pedro Morgado
発行日 2025-06-06 15:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling はコメントを受け付けていません

SemiOccam: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels

要約

Semioccamは、非常に効率的な方法で半学習学習を活用する画像認識ネットワークです。
既存の作業は、多くの場合、複雑なトレーニング技術とアーキテクチャに依存しており、トレーニングに数百時間のGPU時間が必要になりますが、非常に限られたラベルデータを扱う際の一般化能力はまだ改善されていません。
これらの制限に対処するために、特徴表現とターゲットクラスの間の相互情報を最適化し、重要な識別コンポーネントを保持しながら冗長な情報を圧縮することにより、階層混合密度分類決定メカニズムを構築します。
実験結果は、無視できるラベル付きサンプルを使用するときに、さまざまなデータセットで最先端のパフォーマンスを達成することを示しており、そのシンプルなアーキテクチャにより、トレーニング時間が微細なレベルまで維持されています。
特に、このペーパーでは、半監視学習タスクのSTL-10データセットに長く見られるデータリークの問題が明らかになり、複製を削除して実験結果の信頼性を確保します。
また、将来の半監視学習における公正で信頼できる研究を促進するために、重複排除されたCleanstl-10データセットをリリースします。
https://github.com/shu1l0n9/semioccamで入手可能なコード。

要約(オリジナル)

We present SemiOccam, an image recognition network that leverages semi-supervised learning in a highly efficient manner. Existing works often rely on complex training techniques and architectures, requiring hundreds of GPU hours for training, while their generalization ability when dealing with extremely limited labeled data remains to be improved. To address these limitations, we construct a hierarchical mixture density classification decision mechanism by optimizing mutual information between feature representations and target classes, compressing redundant information while retaining crucial discriminative components. Experimental results demonstrate that our method achieves state-of-the-art performance on various datasets when using negligible labeled samples, and its simple architecture keeps training time to minute-level. Notably, this paper reveals a long-overlooked data leakage issue in the STL-10 dataset for semi-supervised learning tasks and removes duplicates to ensure the reliability of experimental results. We also release the deduplicated CleanSTL-10 dataset to facilitate fair and reliable research in future semi-supervised learning. Code available at https://github.com/Shu1L0n9/SemiOccam.

arxiv情報

著者 Rui Yann,Xianglei Xing
発行日 2025-06-06 15:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SemiOccam: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels はコメントを受け付けていません

3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

要約

操作は長い間ロボットにとって挑戦的な作業でしたが、人間はマグカップラックにカップを掛けるなど、オブジェクトとの複雑な相互作用を簡単に実行できます。
主な理由は、ロボットの操作スキルを教えるための大規模で均一なデータセットがないことです。
現在のロボットデータセットは、多くの場合、単純なシーン内のさまざまなアクションスペースでロボットアクションを記録します。
これにより、ロボットが妨げられ、さまざまなシーン内のさまざまなロボットの統一された堅牢なアクション表現が学習されます。
人間が操作タスクをどのように理解しているかを観察すると、オブジェクトが3D空間でどのように移動するかを理解することが、アクションを導くための重要な手がかりであることがわかります。
この手がかりは具体化に依存しており、人間と異なるロボットの両方に適しています。
これにより動機付けられているため、人間とロボットの操作データの両方から3Dフローワールドモデルを学ぶことを目指しています。
このモデルは、3D空間での相互作用するオブジェクトの将来の動きを予測し、操作のためのアクション計画を導きます。
具体的には、移動オブジェクトの自動検出パイプラインを介して、マニフロー-10Kという名前の大規模な3D光フローデータセットを合成します。
ビデオ拡散ベースのワールドモデルは、これらのデータから操作物理学を学習し、言語の指示に条件付けられた3D光フロー軌跡を生成します。
生成された3Dオブジェクト光フローを使用すると、フロー誘導レンダリングメカニズムを提案します。これにより、予測された最終状態をレンダリングし、GPT-4Oをレバレッジして、予測フローがタスクの説明と整合するかどうかを評価します。
これにより、ロボットに閉ループ計画能力が装備されます。
最後に、操作のためのロボットアクションの塊を決定するための最適化ポリシーの制約として、予測される3D光フローを考慮します。
広範な実験は、多様なロボット操作タスク全体にわたって強力な一般化と、ハードウェア固有のトレーニングなしの信頼できる交差体拡大適応を実証しています。

要約(オリジナル)

Manipulation has long been a challenging task for robots, while humans can effortlessly perform complex interactions with objects, such as hanging a cup on the mug rack. A key reason is the lack of a large and uniform dataset for teaching robots manipulation skills. Current robot datasets often record robot action in different action spaces within a simple scene. This hinders the robot to learn a unified and robust action representation for different robots within diverse scenes. Observing how humans understand a manipulation task, we find that understanding how the objects should move in the 3D space is a critical clue for guiding actions. This clue is embodiment-agnostic and suitable for both humans and different robots. Motivated by this, we aim to learn a 3D flow world model from both human and robot manipulation data. This model predicts the future movement of the interacting objects in 3D space, guiding action planning for manipulation. Specifically, we synthesize a large-scale 3D optical flow dataset, named ManiFlow-110k, through a moving object auto-detect pipeline. A video diffusion-based world model then learns manipulation physics from these data, generating 3D optical flow trajectories conditioned on language instructions. With the generated 3D object optical flow, we propose a flow-guided rendering mechanism, which renders the predicted final state and leverages GPT-4o to assess whether the predicted flow aligns with the task description. This equips the robot with a closed-loop planning ability. Finally, we consider the predicted 3D optical flow as constraints for an optimization policy to determine a chunk of robot actions for manipulation. Extensive experiments demonstrate strong generalization across diverse robotic manipulation tasks and reliable cross-embodiment adaptation without hardware-specific training.

arxiv情報

著者 Hongyan Zhi,Peihao Chen,Siyuan Zhou,Yubo Dong,Quanxi Wu,Lei Han,Mingkui Tan
発行日 2025-06-06 16:00:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model はコメントを受け付けていません

Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning

要約

完全に注釈されたデータセットをキュレートすることが高価であり、きめの分類などのドメインの専門知識が必要になる場合がある問題の効果的な学習パラダイムとして、弱い監視された学習を動機付けます。
部分的なラベル学習(PLL)に焦点を当てています。これは、各トレーニングインスタンスが一連の候補ラベル(部分ラベル)と組み合わされている弱く監視されている学習パラダイムであり、そのうちの1つは真のラベルです。
Noisy PLL(NPLL)は、一部の部分ラベルが真のラベルを封じ込めず、問題の実用性を高めることにより、この制約を緩和します。
私たちの作業は、NPLLに焦点を当て、最初に擬似ラベルを画像に割り当てるフレームワークを提示します。
これらの擬似ラベルと画像ペアを使用して、ラベルのスムージングで深いニューラルネットワーク分類器を訓練します。
その後、分類器の機能と予測が採用され、擬似ラベルの精度を改良および強化します。
7つのデータセットで徹底的な実験を実行し、9つのNPLLおよびPLLメソッドと比較します。
私たちは、以前の文献からのすべての研究された設定で最先端の結果を達成し、シミュレートされた細粒のベンチマークでかなりの利益を得ています。
さらに、フレームワークの有望な一般化能力を、現実的できめの細かい群衆に囲まれたデータセットで示します。

要約(オリジナル)

We motivate weakly supervised learning as an effective learning paradigm for problems where curating perfectly annotated datasets is expensive and may require domain expertise such as fine-grained classification. We focus on Partial Label Learning (PLL), a weakly-supervised learning paradigm where each training instance is paired with a set of candidate labels (partial label), one of which is the true label. Noisy PLL (NPLL) relaxes this constraint by allowing some partial labels to not contain the true label, enhancing the practicality of the problem. Our work centres on NPLL and presents a framework that initially assigns pseudo-labels to images by exploiting the noisy partial labels through a weighted nearest neighbour algorithm. These pseudo-label and image pairs are then used to train a deep neural network classifier with label smoothing. The classifier’s features and predictions are subsequently employed to refine and enhance the accuracy of pseudo-labels. We perform thorough experiments on seven datasets and compare against nine NPLL and PLL methods. We achieve state-of-the-art results in all studied settings from the prior literature, obtaining substantial gains in the simulated fine-grained benchmarks. Further, we show the promising generalisation capability of our framework in realistic, fine-grained, crowd-sourced datasets.

arxiv情報

著者 Darshana Saravanan,Naresh Manwani,Vineet Gandhi
発行日 2025-06-06 16:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning はコメントを受け付けていません

PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

要約

Puzzlehuntsは、明確に定義された問題の定義を欠いている複雑でマルチステップのパズルのジャンルです。
明確な指示を持つタスクで構成される従来の推論ベンチマークとは対照的に、パズルハントは、科学的発見、探索的データ分析、調査問題解決などの現実世界ドメインを反映した、マルチモーダルの証拠と反復的な推論からの根本的な問題構造を発見するためのモデルを必要とします。
基礎モデルの最近の進歩にもかかわらず、このようなオープンエンドの設定でのパフォーマンスはほとんどテストされていません。
このペーパーでは、段階的、オープンエンド、そして創造的なマルチモーダル推論を評価するために設計された667パズルハントスタイルの問題の大規模なベンチマークであるPuzzleWorldを紹介します。
各パズルには、最終的なソリューション、詳細な推論トレース、および認知スキルラベルが注釈が付けられ、全体的なベンチマークと細かい診断分析を可能にします。
最先端のほとんどのモデルは、最終回答の精度が1〜2%しか達成されておらず、最高のモデルはパズルの14%のみを解き、40%の段階的精度に達します。
推論の注釈の価値を示すために、推論トレースに関する小さなモデルを微調整すると、4%から11%に段階的な推論が改善され、最終回答だけでのトレーニングがパフォーマンスをほぼゼロに分解することを示します。
私たちのエラー分析により、現在のモデルは近視の推論を示し、言語ベースの推論の制限によってボトルネックされており、視覚的および空間的推論に不可欠なスケッチ能力が欠けていることが明らかになりました。
https://github.com/mit-mi/puzzleworldでPuzzleworldをリリースして、より一般的な、オープンエンド、そして創造的な推論システムの構築に関する将来の作業をサポートしています。

要約(オリジナル)

Puzzlehunts are a genre of complex, multi-step puzzles lacking well-defined problem definitions. In contrast to conventional reasoning benchmarks consisting of tasks with clear instructions, puzzlehunts require models to discover the underlying problem structure from multimodal evidence and iterative reasoning, mirroring real-world domains such as scientific discovery, exploratory data analysis, or investigative problem-solving. Despite recent progress in foundation models, their performance on such open-ended settings remains largely untested. In this paper, we introduce PuzzleWorld, a large-scale benchmark of 667 puzzlehunt-style problems designed to assess step-by-step, open-ended, and creative multimodal reasoning. Each puzzle is annotated with the final solution, detailed reasoning traces, and cognitive skill labels, enabling holistic benchmarking and fine-grained diagnostic analysis. Most state-of-the-art models achieve only 1-2% final answer accuracy, with the best model solving only 14% of puzzles and reaching 40% stepwise accuracy. To demonstrate the value of our reasoning annotations, we show that fine-tuning a small model on reasoning traces improves stepwise reasoning from 4% to 11%, while training on final answers alone degrades performance to near zero. Our error analysis reveals that current models exhibit myopic reasoning, are bottlenecked by the limitations of language-based inference, and lack sketching capabilities crucial for visual and spatial reasoning. We release PuzzleWorld at https://github.com/MIT-MI/PuzzleWorld to support future work on building more general, open-ended, and creative reasoning systems.

arxiv情報

著者 Hengzhi Li,Brendon Jiang,Alexander Naehu,Regan Song,Justin Zhang,Megan Tjandrasuwita,Chanakya Ekbote,Steven-Shine Chen,Adithya Balachandran,Wei Dai,Rebecca Chang,Paul Pu Liang
発行日 2025-06-06 16:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts はコメントを受け付けていません