Process-based Self-Rewarding Language Models

要約

大規模な言語モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを実証しており、複数のシナリオで広く適用されています。
人間が解決した選好データは、人間のパフォーマンスの上限によって制約されるLLMSのパフォーマンスをさらに向上させるためにトレーニングに使用されます。
したがって、LLMSが独自の出力に報いることによりトレーニングデータを生成する自己報酬方法が提案されています。
ただし、既存の自己報酬のパラダイムは、数学的推論シナリオでは効果的ではなく、パフォーマンスの低下につながる可能性さえあります。
この作業では、言語モデル向けのプロセスベースの自己報酬パイプラインを提案します。これは、自己報酬パラダイム内で、長期にわたる推論、段階的なLLM-As-a-a-a-a-a-a-a-a-a-a-a-a-a-judge、および段階的な選好最適化を導入します。
私たちの新しいパラダイムは、複数の数学的推論ベンチマークでのLLMSのパフォーマンスを正常に強化し、反復プロセスベースの自己報酬を介して、人間の能力を上回るLLM推論を達成するための自己報酬の計り知れない可能性を示しています。

要約(オリジナル)

Large Language Models have demonstrated outstanding performance across various downstream tasks and have been widely applied in multiple scenarios. Human-annotated preference data is used for training to further improve LLMs’ performance, which is constrained by the upper limit of human performance. Therefore, Self-Rewarding method has been proposed, where LLMs generate training data by rewarding their own outputs. However, the existing self-rewarding paradigm is not effective in mathematical reasoning scenarios and may even lead to a decline in performance. In this work, we propose the Process-based Self-Rewarding pipeline for language models, which introduces long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference optimization within the self-rewarding paradigm. Our new paradigm successfully enhances the performance of LLMs on multiple mathematical reasoning benchmarks through iterative Process-based Self-Rewarding, demonstrating the immense potential of self-rewarding to achieve LLM reasoning that may surpass human capabilities.

arxiv情報

著者 Shimao Zhang,Xiao Liu,Xin Zhang,Junxiao Liu,Zheheng Luo,Shujian Huang,Yeyun Gong
発行日 2025-03-05 18:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Process-based Self-Rewarding Language Models はコメントを受け付けていません

The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems

要約

大規模な言語モデル(LLM)がより有能でエージェントになるにつれて、出力に対する信頼の要件は大幅に増加しますが、同時に、モデルが目標を追求することを学ぶことを学ぶことができるという懸念が高まっています。
これらの懸念に対処するために、欺cept的な行動を緩和することを目的とした介入とともに、LLMSの「誠実さ」の概念を中心に一連の仕事が現れています。
ただし、誠実さの評価は現在非常に限られており、すべてのモデルへの大規模と適用性を組み合わせたベンチマークはありません。
さらに、誠実さを測定すると主張する多くのベンチマークは、実際には単に精度、つまりモデルの信念の正しさ – 変装を測定します。
この作業では、誠実さを直接測定するための大規模な人間収集データセットを導入し、正直さから初めて正確さを解くことができます。
LLMの多様なセットでは、より大きなモデルがベンチマークでより高い精度を得るが、より正直になることはないことがわかります。
驚くべきことに、ほとんどのフロンティアLLMは真実性のベンチマークで高いスコアを取得しますが、フロンティアLLMがそうするようにプレッシャーをかけたときに嘘をつく可能性が高いことを発見し、ベンチマークで誠実なスコアが低くなります。
表現工学の介入などの簡単な方法が誠実さを改善できることがわかります。
これらの結果は、LLMが信頼できることを保証するための堅牢な評価と効果的な介入の必要性の高まりを強調しています。

要約(オリジナル)

As large language models (LLMs) become more capable and agentic, the requirement for trust in their outputs grows significantly, yet at the same time concerns have been mounting that models may learn to lie in pursuit of their goals. To address these concerns, a body of work has emerged around the notion of ‘honesty’ in LLMs, along with interventions aimed at mitigating deceptive behaviors. However, evaluations of honesty are currently highly limited, with no benchmark combining large scale and applicability to all models. Moreover, many benchmarks claiming to measure honesty in fact simply measure accuracy–the correctness of a model’s beliefs–in disguise. In this work, we introduce a large-scale human-collected dataset for measuring honesty directly, allowing us to disentangle accuracy from honesty for the first time. Across a diverse set of LLMs, we find that while larger models obtain higher accuracy on our benchmark, they do not become more honest. Surprisingly, while most frontier LLMs obtain high scores on truthfulness benchmarks, we find a substantial propensity in frontier LLMs to lie when pressured to do so, resulting in low honesty scores on our benchmark. We find that simple methods, such as representation engineering interventions, can improve honesty. These results underscore the growing need for robust evaluations and effective interventions to ensure LLMs remain trustworthy.

arxiv情報

著者 Richard Ren,Arunim Agarwal,Mantas Mazeika,Cristina Menghini,Robert Vacareanu,Brad Kenstler,Mick Yang,Isabelle Barrass,Alice Gatti,Xuwang Yin,Eduardo Trevino,Matias Geralnik,Adam Khoja,Dean Lee,Summer Yue,Dan Hendrycks
発行日 2025-03-05 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems はコメントを受け付けていません

LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models

要約

AIGCの時代には、拡散モデルの低予算またはデバイス上のアプリケーションの需要が現れました。
安定した拡散モデル(SDMS)を圧縮するという点では、いくつかのアプローチが提案されており、それらのほとんどは、より小さなUネットを取得するために手作りの層除去方法を活用し、ネットワークパフォーマンスを回復するための知識の蒸留とともに。
ただし、このような手作りの層除去方法は非効率的であり、スケーラビリティと一般化が欠けており、再訓練フェーズで採用されている特徴の蒸留は、いくつかの数値的に有意な特徴損失項が再訓練プロセス全体を通して他の人よりも支配的な不均衡の問題に直面しています。
この目的のために、拡散モデルを圧縮するための層の剪定と正規化された蒸留を提案しました(ラップトップディフ)。
1)SDMのu-netを自動的に圧縮するレイヤープルーニング法を導入し、その優れた添加剤のプロパティによって1ショットのパフォーマンスが保証され、他のレイヤー剪定と手作りの層除去方法を上回る効果的なワンショット剪定基準を提案しました。
提案されたラップトップディフを使用して、SDXLとSDM-V1.5のUネットを最先端のパフォーマンスで圧縮し、50%の剪定比でピックスコアの最小4.0%の低下を達成し、比較方法の最小ピックスコアの減少は8.2%です。

要約(オリジナル)

In the era of AIGC, the demand for low-budget or even on-device applications of diffusion models emerged. In terms of compressing the Stable Diffusion models (SDMs), several approaches have been proposed, and most of them leveraged the handcrafted layer removal methods to obtain smaller U-Nets, along with knowledge distillation to recover the network performance. However, such a handcrafting manner of layer removal is inefficient and lacks scalability and generalization, and the feature distillation employed in the retraining phase faces an imbalance issue that a few numerically significant feature loss terms dominate over others throughout the retraining process. To this end, we proposed the layer pruning and normalized distillation for compressing diffusion models (LAPTOP-Diff). We, 1) introduced the layer pruning method to compress SDM’s U-Net automatically and proposed an effective one-shot pruning criterion whose one-shot performance is guaranteed by its good additivity property, surpassing other layer pruning and handcrafted layer removal methods, 2) proposed the normalized feature distillation for retraining, alleviated the imbalance issue. Using the proposed LAPTOP-Diff, we compressed the U-Nets of SDXL and SDM-v1.5 for the most advanced performance, achieving a minimal 4.0% decline in PickScore at a pruning ratio of 50% while the comparative methods’ minimal PickScore decline is 8.2%.

arxiv情報

著者 Dingkun Zhang,Sijia Li,Chen Chen,Qingsong Xie,Haonan Lu
発行日 2025-03-05 13:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models はコメントを受け付けていません

Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation

要約

参照ビデオオブジェクトセグメンテーションは、自然言語プロンプトを使用してビデオ内のターゲットオブジェクトをセグメント化および追跡することを目的としています。
既存の方法は通常、視覚的およびテキストの特徴を非常に絡み合った方法で融合し、マルチモーダル情報を一緒に処理して、フレームごとのマスクを生成します。
ただし、このアプローチは、特に複数の同様のオブジェクトを持つシーンでは、曖昧なターゲット識別に苦労していることが多く、フレーム全体で一貫したマスク伝播を確保できません。
これらの制限に対処するために、ターゲットの識別をマスク伝播から分離する新しい分離フレームワークであるFindTrackを紹介します。
FindTrackは、最初にセグメンテーションの信頼性とビジョンテキストアラインメントのバランスをとることにより、キーフレームを適応的に選択し、ターゲットオブジェクトの堅牢な参照を確立します。
この参照は、専用の伝播モジュールによって使用され、ビデオ全体でオブジェクトを追跡およびセグメント化します。
これらのプロセスを切り離すことにより、FindTrackはターゲット関連の曖昧さを効果的に減らし、セグメンテーションの一貫性を高めます。
FindTrackがパブリックベンチマーク上の既存の方法を上回ることを実証します。

要約(オリジナル)

Referring video object segmentation aims to segment and track a target object in a video using a natural language prompt. Existing methods typically fuse visual and textual features in a highly entangled manner, processing multi-modal information together to generate per-frame masks. However, this approach often struggles with ambiguous target identification, particularly in scenes with multiple similar objects, and fails to ensure consistent mask propagation across frames. To address these limitations, we introduce FindTrack, a novel decoupled framework that separates target identification from mask propagation. FindTrack first adaptively selects a key frame by balancing segmentation confidence and vision-text alignment, establishing a robust reference for the target object. This reference is then utilized by a dedicated propagation module to track and segment the object across the entire video. By decoupling these processes, FindTrack effectively reduces ambiguities in target association and enhances segmentation consistency. We demonstrate that FindTrack outperforms existing methods on public benchmarks.

arxiv情報

著者 Suhwan Cho,Seunghoon Lee,Minhyeok Lee,Jungho Lee,Sangyoun Lee
発行日 2025-03-05 13:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation はコメントを受け付けていません

ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

要約

最近、多くの汎用性の高いマルチモーダル大手言語モデル(MLLM)が継続的に登場しています。
ただし、視覚チャートに描かれ、照会されたコンテンツに基づいて推論に従事する情報をクエリする能力は、未調査のままです。
この論文では、チャートドメイン内の既製のMLLMの能力を包括的かつ厳密にベンチマークするために、18のチャートタイプ、7つのチャートタスク、22の懲戒トピック、および高品質のチャートデータをカバーするマルチモーダル評価セットであるChartxを構築します。
その上、ChartVLMを開発して、チャートの分野や幾何学的画像の推論タスクなど、解釈可能なパターンに強く依存するマルチモーダルタスクの処理に関する新しい視点を提供します。
提案されたChartx評価セットで、主流のMLLMとchartVLMのチャート関連能力を評価します。
広範な実験は、ChartVLMが汎用性とチャート関連の大型モデルの両方を上回り、GPT-4Vに匹敵する結果を達成することを示しています。
私たちの研究は、より包括的なチャート評価セットを作成し、より解釈可能なマルチモーダルモデルを開発する際のさらなる調査への道を開くことができると考えています。
Chartxとchartvlmの両方が、https://github.com/alpha-innovator/chartvlmで入手できます

要約(オリジナル)

Recently, many versatile Multi-modal Large Language Models (MLLMs) have emerged continuously. However, their capacity to query information depicted in visual charts and engage in reasoning based on the queried contents remains under-explored. In this paper, to comprehensively and rigorously benchmark the ability of the off-the-shelf MLLMs in the chart domain, we construct ChartX, a multi-modal evaluation set covering 18 chart types, 7 chart tasks, 22 disciplinary topics, and high-quality chart data. Besides, we develop ChartVLM to offer a new perspective on handling multi-modal tasks that strongly depend on interpretable patterns, such as reasoning tasks in the field of charts or geometric images. We evaluate the chart-related ability of mainstream MLLMs and our ChartVLM on the proposed ChartX evaluation set. Extensive experiments demonstrate that ChartVLM surpasses both versatile and chart-related large models, achieving results comparable to GPT-4V. We believe that our study can pave the way for further exploration in creating a more comprehensive chart evaluation set and developing more interpretable multi-modal models. Both ChartX and ChartVLM are available at: https://github.com/Alpha-Innovator/ChartVLM

arxiv情報

著者 Renqiu Xia,Bo Zhang,Hancheng Ye,Xiangchao Yan,Qi Liu,Hongbin Zhou,Zijun Chen,Peng Ye,Min Dou,Botian Shi,Junchi Yan,Yu Qiao
発行日 2025-03-05 13:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning はコメントを受け付けていません

MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition

要約

最近の少ないショットアクション認識(FSAR)メソッドは、通常、学習した識別機能のセマンティックマッチングを実行して、有望なパフォーマンスを実現します。
ただし、ほとんどのFSARメソッドは、シングルスケール(例:フレームレベル、セグメントレベルなど)に焦点を当てています。これは、同じセマンティックで人間の行動が異なる速度で表示される可能性があることを無視します。
この目的のために、マルチ速度レベルでセマンティック関連のアクション機能を徐々に学習および整列させるために、新しいマルチ速度プログレッシブアライメント(MVPショット)フレームワークを開発します。
具体的には、マルチ速度機能アラインメント(MVFA)モジュールは、さまざまな速度スケールを持つサポートビデオとクエリビデオからの機能の類似性を測定し、すべての類似性スコアを残留ファッションでマージするように設計されています。
基礎となるモーションセマンティックから逸​​脱している複数の速度機能を回避するために、提案されたプログレッシブセマンティックテイロードインタラクション(PSTI)モジュールは、さまざまな速度でのチャネルおよび時間ドメインの機能相互作用を介して速度依存テキスト情報をビデオ機能に注入します。
上記の2つのモジュールは、互いを補償して、少数のショット設定の下でより正確なクエリサンプル予測を行います。
実験結果は、私たちの方法が、複数の標準の少数のベンチマーク(つまり、HMDB51、UCF101、速度論、およびSSV2-Small)の現在の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Recent few-shot action recognition (FSAR) methods typically perform semantic matching on learned discriminative features to achieve promising performance. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to make more accurate query sample predictions under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small).

arxiv情報

著者 Hongyu Qu,Rui Yan,Xiangbo Shu,Hailiang Gao,Peng Huang,Guo-Sen Xie
発行日 2025-03-05 13:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition はコメントを受け付けていません

CarGait: Cross-Attention based Re-ranking for Gait recognition

要約

歩行認識は、歩行パターンに基づいて個人を識別するコンピュータービジョンタスクです。
歩行認識パフォーマンスは、候補者のギャラリーをランク付けし、上位$ $ k $で精度を測定することにより、一般的に評価されます。
既存のモデルは通常、シングルステージにあります。つまり、単一のグローバルな機能表現を使用して、ギャラリーでプローブの最近隣人を検索します。
これらのモデルは通常、$ $ k $の予測内で正しいアイデンティティを取得することに優れていますが、トップの短リストにハードネガティブが現れ、最高ランクでのパフォーマンスが比較的低い(ランク1など)、苦労します。
このホワイトペーパーでは、歩行認識のための交差アテナテンションの再ランク方法であるCargaitを紹介します。これには、歩行ストリップ間の交差測定による歩行シーケンスのペア間の細かい相関関係をレバレッジする最高$ k $リストを並べ替えます。
この再ランクスキームは、既存のシングルステージモデルに適応して、最終結果を強化できます。
3つの一般的な歩行データセット、GAIT3D、GREW、およびOU-MVLP、および7つの異なる歩行モデルでの広範な実験により、Cargaitの機能を実証し、ランク1,5の精度、既存の再ランクメソッドよりも優れた結果、および強力なベースラインの一貫した改善を示します。

要約(オリジナル)

Gait recognition is a computer vision task that identifies individuals based on their walking patterns. Gait recognition performance is commonly evaluated by ranking a gallery of candidates and measuring the accuracy at the top Rank-$K$. Existing models are typically single-staged, i.e. searching for the probe’s nearest neighbors in a gallery using a single global feature representation. Although these models typically excel at retrieving the correct identity within the top-$K$ predictions, they struggle when hard negatives appear in the top short-list, leading to relatively low performance at the highest ranks (e.g., Rank-1). In this paper, we introduce CarGait, a Cross-Attention Re-ranking method for gait recognition, that involves re-ordering the top-$K$ list leveraging the fine-grained correlations between pairs of gait sequences through cross-attention between gait strips. This re-ranking scheme can be adapted to existing single-stage models to enhance their final results. We demonstrate the capabilities of CarGait by extensive experiments on three common gait datasets, Gait3D, GREW, and OU-MVLP, and seven different gait models, showing consistent improvements in Rank-1,5 accuracy, superior results over existing re-ranking methods, and strong baselines.

arxiv情報

著者 Gavriel Habib,Noa Barzilay,Or Shimshi,Rami Ben-Ari,Nir Darshan
発行日 2025-03-05 13:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CarGait: Cross-Attention based Re-ranking for Gait recognition はコメントを受け付けていません

Mineral segmentation using electron microscope images and spectral sampling through multimodal graph neural networks

要約

マルチモーダルスキャン電子顕微鏡(SEM)画像のデータ融合に基づいて、セグメンテーションのための新しいグラフニューラルネットワークベースの方法を提案します。
ほとんどの場合、SEMを使用して取得した後方散乱電子(BSE)画像には、鉱物セグメンテーションに十分な情報が含まれていません。
したがって、イメージングは​​、多くの場合、化学組成に関する非常に正確な情報を提供するが、獲得に時間がかかるように、ポイントワイズエネルギー分散型X線分光法(EDS)スペクトル測定で補完されます。
これにより、ミネラルセグメンテーションのためにBSE画像と組み合わせて、スパーススペクトルデータの使用が動機付けられます。
スペクトルデータの構造化されていない性質により、ほとんどの従来の画像融合技術は、BSE-EDS融合に適していません。
グラフニューラルネットワークを使用して2つのモダリティを融合し、鉱物相を同時にセグメント化することを提案します。
我々の結果は、わずか1%のBSEピクセルのEDSデータを提供すると正確なセグメンテーションを生成し、ミネラルサンプルの迅速な分析を可能にすることを示しています。
提案されたデータ融合パイプラインは多用途であり、画像データとポイントごとの測定を含む他のドメインに適合させることができます。

要約(オリジナル)

We propose a novel Graph Neural Network-based method for segmentation based on data fusion of multimodal Scanning Electron Microscope (SEM) images. In most cases, Backscattered Electron (BSE) images obtained using SEM do not contain sufficient information for mineral segmentation. Therefore, imaging is often complemented with point-wise Energy-Dispersive X-ray Spectroscopy (EDS) spectral measurements that provide highly accurate information about the chemical composition but that are time-consuming to acquire. This motivates the use of sparse spectral data in conjunction with BSE images for mineral segmentation. The unstructured nature of the spectral data makes most traditional image fusion techniques unsuitable for BSE-EDS fusion. We propose using graph neural networks to fuse the two modalities and segment the mineral phases simultaneously. Our results demonstrate that providing EDS data for as few as 1% of BSE pixels produces accurate segmentation, enabling rapid analysis of mineral samples. The proposed data fusion pipeline is versatile and can be adapted to other domains that involve image data and point-wise measurements.

arxiv情報

著者 Samuel Repka,Bořek Reich,Fedor Zolotarev,Tuomas Eerola,Pavel Zemčík
発行日 2025-03-05 13:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mineral segmentation using electron microscope images and spectral sampling through multimodal graph neural networks はコメントを受け付けていません

Multimodal Action Quality Assessment

要約

アクション品質評価(AQA)は、アクションがどれだけうまく実行されるかを評価することです。
以前の作品は、オーディオ情報を無視して、視覚情報の使用のみによってモデリングを実行します。
AQAは視覚情報に大きく依存していますが、オーディオは、特にフィギュアスケートやリズミカルな体操などのバックグラウンドミュージックを備えたスポーツの場合、スコア回帰精度を改善するための有用な補完的な情報であると主張します。
AQA、つまりRGB、光フロー、オーディオ情報のマルチモーダル情報を活用するために、モダリティ固有の情報と混合モダリティ情報を個別にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(PAMFN)を提案します。
私たちのモデルは、モダリティ固有の情報を独立して探求する3つのモダリティ固有のブランチと、モダリティ固有の分岐からモダリティ固有の情報を徐々に集約する混合モダリティブランチで構成されています。
モダリティ固有のブランチと混合モダリティブランチの間の橋渡しを構築するために、3つの新しいモジュールが提案されています。
まず、モダリティ固有の機能デコーダーモジュールは、モダリティ固有の情報を混合モダリティブランチに選択的に転送するように設計されています。
第二に、モダリティ固有の情報間の相互作用を調査するとき、不変のマルチモーダル融合ポリシーを使用すると、アクションのさまざまな部分の潜在的な多様性を考慮に入れるために、最適ではない結果につながる可能性があると主張します。
したがって、アクションのさまざまな部分で適応型マルチモーダル融合ポリシーを学習するための適応融合モジュールが提案されています。
このモジュールは、さまざまなマルチモーダル融合戦略を探索するためのいくつかのフュージョンネットと、どのフュージョンネットが有効になっているかを決定するためのポリシネットで構成されています。
第三に、Cross-Modal機能デコーダーと呼ばれるモジュールは、適応融合モジュールによって生成されたクロスモーダル機能を混合モダリティブランチに転送するように設計されています。

要約(オリジナル)

Action quality assessment (AQA) is to assess how well an action is performed. Previous works perform modelling by only the use of visual information, ignoring audio information. We argue that although AQA is highly dependent on visual information, the audio is useful complementary information for improving the score regression accuracy, especially for sports with background music, such as figure skating and rhythmic gymnastics. To leverage multimodal information for AQA, i.e., RGB, optical flow and audio information, we propose a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models modality-specific information and mixed-modality information. Our model consists of with three modality-specific branches that independently explore modality-specific information and a mixed-modality branch that progressively aggregates the modality-specific information from the modality-specific branches. To build the bridge between modality-specific branches and the mixed-modality branch, three novel modules are proposed. First, a Modality-specific Feature Decoder module is designed to selectively transfer modality-specific information to the mixed-modality branch. Second, when exploring the interaction between modality-specific information, we argue that using an invariant multimodal fusion policy may lead to suboptimal results, so as to take the potential diversity in different parts of an action into consideration. Therefore, an Adaptive Fusion Module is proposed to learn adaptive multimodal fusion policies in different parts of an action. This module consists of several FusionNets for exploring different multimodal fusion strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a module called Cross-modal Feature Decoder is designed to transfer cross-modal features generated by Adaptive Fusion Module to the mixed-modality branch.

arxiv情報

著者 Ling-An Zeng,Wei-Shi Zheng
発行日 2025-03-05 14:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.SP, I.2.10 | Multimodal Action Quality Assessment はコメントを受け付けていません

Do ImageNet-trained models learn shortcuts? The impact of frequency shortcuts on generalization

要約

周波数のショートカットは、正しい分類のために大きく依存している特定の周波数パターンを指します。
以前の研究では、小さな画像データセットでトレーニングされたモデルがそのようなショートカットを悪用し、一般化パフォーマンスを損なう可能性があることが示されています。
ただし、周波数ショートカットを識別する既存の方法には、高価な計算が必要であり、大きなデータセットでトレーニングされたモデルを分析するために非現実的になります。
この作業では、より大規模に周波数ショートカットをより効率的に分析する最初のアプローチを提案します。
CNNモデルとトランスモデルの両方が、Imagenetで周波数ショートカットを学習することを示します。
また、周波数のショートカットソリューションは、テクスチャ情報を大部分保持する外部分布(OOD)テストセットで優れたパフォーマンスをもたらす可能性があることを公開します。
ただし、これらのショートカットは、主にテクスチャパターンと整合しており、レンディションベースのOODテストセットのモデルの一般化を妨げます。
これらの観察結果は、現在のOOD評価がモデルの一般化に対する周波数ショートカットの影響をしばしば見落としていることを示唆しています。
したがって、将来のベンチマークは、これらのショートカットを明示的に評価し、会計処理して、より広い範囲のOODシナリオに一般化するモデルを構築することから恩恵を受ける可能性があります。

要約(オリジナル)

Frequency shortcuts refer to specific frequency patterns that models heavily rely on for correct classification. Previous studies have shown that models trained on small image datasets often exploit such shortcuts, potentially impairing their generalization performance. However, existing methods for identifying frequency shortcuts require expensive computations and become impractical for analyzing models trained on large datasets. In this work, we propose the first approach to more efficiently analyze frequency shortcuts at a larger scale. We show that both CNN and transformer models learn frequency shortcuts on ImageNet. We also expose that frequency shortcut solutions can yield good performance on out-of-distribution (OOD) test sets which largely retain texture information. However, these shortcuts, mostly aligned with texture patterns, hinder model generalization on rendition-based OOD test sets. These observations suggest that current OOD evaluations often overlook the impact of frequency shortcuts on model generalization. Future benchmarks could thus benefit from explicitly assessing and accounting for these shortcuts to build models that generalize across a broader range of OOD scenarios.

arxiv情報

著者 Shunxin Wang,Raymond Veldhuis,Nicola Strisciuglio
発行日 2025-03-05 14:03:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do ImageNet-trained models learn shortcuts? The impact of frequency shortcuts on generalization はコメントを受け付けていません