ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

要約

外科スキルの評価では、技術スキルの客観的構造評価 (OSATS スコア) とグローバル評価スケール (GRS) が、トレーニング中の外科医のパフォーマンスを評価するための確立されたツールです。
これらの指標とパフォーマンスに関するフィードバックを組み合わせることで、外科医は診療水準を向上させ、達成することができます。
GRS ラベルと OSATS ラベルの両方を含むオープンソース データセット JIGSAW に関する最近の研究は、運動信号、ビデオ データ、またはその両方の組み合わせから GRS スコアを回帰することに焦点を当てています。
この論文では、単位のない値である GRS スコアを回帰すること自体は制限が多すぎ、外科試験全体にわたる変動は重大な臨床的意味を持たないと主張します。
このギャップに対処するために、モデルの隠れ状態を運動信号から得られる 5 つの OSATS スコアに関連付けることにより、トレーニング セッション全体を通じて外科医のパフォーマンスを出力するリカレント トランスフォーマー モデルを開発しました。
これらのスコアは平均化および集計されて GRS 予測が生成され、最先端 (SOTA) に対するモデルのパフォーマンスの評価が可能になります。
我々はスピアマンの相関係数(SCC)を報告し、我々のモデルが、Leave-One-Subject-Out(LOSO)スキーム(SCC 0.68-0.89)での縫合を除くすべてのタスクでSOTAモデルよりも優れていることを示し、一方で縫合と縫合では同等のパフォーマンスを達成しています。
Leave-one-user-out (LOUO) スキーム (SCC 0.45-0.68) に基づくタスク全体で、ニードル パッシング (0.69) で SOTA を上回っています。
私たちは、最終的な OSATS スコアを外科医の手術全体の短いインスタンスに関連付けることは、単一の GRS スコアよりも臨床的に意味があると主張します。
このアプローチにより、定量的な予測を定性的なフィードバックに変換することもできます。これは、自動手術スキル評価パイプラインにとって重要です。
上級外科医は私たちのモデルの動作を検証し、77 \% (p = 0.006) の確率で半教師あり予測に同意しました。

要約(オリジナル)

In surgical skill assessment, Objective Structured Assessments of Technical Skills (OSATS scores) and the Global Rating Scale (GRS) are established tools for evaluating the performance of surgeons during training. These metrics, coupled with feedback on their performance, enable surgeons to improve and achieve standards of practice. Recent studies on the open-source dataset JIGSAW, which contains both GRS and OSATS labels, have focused on regressing GRS scores from kinematic signals, video data, or a combination of both. In this paper, we argue that regressing the GRS score, a unitless value, by itself is too restrictive, and variations throughout the surgical trial do not hold significant clinical meaning. To address this gap, we developed a recurrent transformer model that outputs the surgeon’s performance throughout their training session by relating the model’s hidden states to five OSATS scores derived from kinematic signals. These scores are averaged and aggregated to produce a GRS prediction, enabling assessment of the model’s performance against the state-of-the-art (SOTA). We report Spearman’s Correlation Coefficient (SCC), demonstrating that our model outperforms SOTA models for all tasks, except for Suturing under the leave-one-subject-out (LOSO) scheme (SCC 0.68-0.89), while achieving comparable performance for suturing and across tasks under the leave-one-user-out (LOUO) scheme (SCC 0.45-0.68) and beating SOTA for Needle Passing (0.69). We argue that relating final OSATS scores to short instances throughout a surgeon’s procedure is more clinically meaningful than a single GRS score. This approach also allows us to translate quantitative predictions into qualitative feedback, which is crucial for any automated surgical skill assessment pipeline. A senior surgeon validated our model’s behaviour and agreed with the semi-supervised predictions 77 \% (p = 0.006) of the time.

arxiv情報

著者 Julien Quarez,Matthew Elliot,Oscar Maccormac,Marc Modat,Sebastien Ourselin,Jonathan Shapey,Alejandro Granados
発行日 2024-10-22 14:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment はコメントを受け付けていません

A Survey on Deep Learning-based Gaze Direction Regression: Searching for the State-of-the-art

要約

この論文では、頭と目の画像から視線方向ベクトルを回帰するための深層学習ベースの方法の調査を紹介します。
入力データ、モデルのアーキテクチャ、モデルの監視に使用される損失関数に焦点を当てて、多数の公開された手法を詳細に説明します。
さらに、視線方向回帰法のトレーニングと評価に使用できるデータセットのリストを示します。
さらに、文献で報告されている結果は、使用される検証やテストサブセットの違いにより、しばしば相互に比較できないことに気づきました。
この問題に対処するために、同じ検証設定を使用して、一般的に使用されている実際の G​​aze360 データセットに対するいくつかの方法を再評価しました。
実験結果は、最新の方法が最先端の結果を主張しているにもかかわらず、一部の古い方法と比較してパフォーマンスが大幅に劣っていることを示しています。
最後に、静的テスト条件下では時間モデルが静的モデルよりも優れたパフォーマンスを示すことを示します。

要約(オリジナル)

In this paper, we present a survey of deep learning-based methods for the regression of gaze direction vector from head and eye images. We describe in detail numerous published methods with a focus on the input data, architecture of the model, and loss function used to supervise the model. Additionally, we present a list of datasets that can be used to train and evaluate gaze direction regression methods. Furthermore, we noticed that the results reported in the literature are often not comparable one to another due to differences in the validation or even test subsets used. To address this problem, we re-evaluated several methods on the commonly used in-the-wild Gaze360 dataset using the same validation setup. The experimental results show that the latest methods, although claiming state-of-the-art results, significantly underperform compared with some older methods. Finally, we show that the temporal models outperform the static models under static test conditions.

arxiv情報

著者 Franko Šikić,Donik Vršnak,Sven Lončarić
発行日 2024-10-22 15:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey on Deep Learning-based Gaze Direction Regression: Searching for the State-of-the-art はコメントを受け付けていません

Masked Differential Privacy

要約

プライバシーを保護するコンピューター ビジョンは、機械学習と人工知能において新たに生じた重要な問題です。
この問題に取り組む一般的な方法では、差分プライバシーまたは匿名化および難読化技術を使用して個人のプライバシーを保護しています。
どちらの場合も、トレーニングされたモデルの有用性はこのプロセスで大きく犠牲になります。
この研究では、マスク差分プライバシー (MaskDP) と呼ばれる効果的なアプローチを提案します。これにより、入力全体に DP を適用するのとは対照的に、差分プライバシーが適用される機密領域の制御が可能になります。
私たちの方法はデータに対して選択的に動作し、DP を適用せずに非機密時空間領域を定義したり、データサンプル内で差分プライバシーと他のプライバシー技術を組み合わせたりすることができます。
4 つの困難な行動認識データセットの実験により、私たちが提案する手法は、特に要求の厳しい $\epsilon<1$ 体制における標準的な差分プライベート トレーニングと比較して、ユーティリティとプライバシーのトレードオフが向上することが実証されました。

要約(オリジナル)

Privacy-preserving computer vision is an important emerging problem in machine learning and artificial intelligence. The prevalent methods tackling this problem use differential privacy or anonymization and obfuscation techniques to protect the privacy of individuals. In both cases, the utility of the trained model is sacrificed heavily in this process. In this work, we propose an effective approach called masked differential privacy (MaskDP), which allows for controlling sensitive regions where differential privacy is applied, in contrast to applying DP on the entire input. Our method operates selectively on the data and allows for defining non-sensitive spatio-temporal regions without DP application or combining differential privacy with other privacy techniques within data samples. Experiments on four challenging action recognition datasets demonstrate that our proposed techniques result in better utility-privacy trade-offs compared to standard differentially private training in the especially demanding $\epsilon<1$ regime.

arxiv情報

著者 David Schneider,Sina Sajadmanesh,Vikash Sehwag,Saquib Sarfraz,Rainer Stiefelhagen,Lingjuan Lyu,Vivek Sharma
発行日 2024-10-22 15:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, I.4.m | Masked Differential Privacy はコメントを受け付けていません

CLAP: Concave Linear APproximation for Quadratic Graph Matching

要約

ビジュアル データの点ごとの特徴の対応を解決することは、コンピューター ビジョンの基本的な問題です。
この課題に対処する強力なモデルは、グラフ マッチングとして定式化することです。これには、ノード単位およびエッジ単位の制約を持つ二次割り当て問題 (QAP) を解く必要があります。
ただし、このような QAP を解決するには、多数の局所的な極点があるため、費用がかかり、困難になる可能性があります。
この研究では、グラフ マッチングの計算を高速化するために設計された新しい線形モデルとソルバーを紹介します。
具体的には、正の半定値行列近似を使用して構造属性制約を確立します。次に、元の QAP を、最大化のために凹型の線形モデルに変換します。
このモデルは、その後、既存のアプローチと比較して効率と数値安定性が向上したことで知られる Sinkhorn 最適輸送アルゴリズムを使用して解くことができます。
広く使用されているベンチマーク PascalVOC の実験結果は、当社のアルゴリズムが大幅に改善された効率で最先端のパフォーマンスを達成していることを示しています。
ソースコード: https://github.com/xmlyqing00/clap

要約(オリジナル)

Solving point-wise feature correspondence in visual data is a fundamental problem in computer vision. A powerful model that addresses this challenge is to formulate it as graph matching, which entails solving a Quadratic Assignment Problem (QAP) with node-wise and edge-wise constraints. However, solving such a QAP can be both expensive and difficult due to numerous local extreme points. In this work, we introduce a novel linear model and solver designed to accelerate the computation of graph matching. Specifically, we employ a positive semi-definite matrix approximation to establish the structural attribute constraint.We then transform the original QAP into a linear model that is concave for maximization. This model can subsequently be solved using the Sinkhorn optimal transport algorithm, known for its enhanced efficiency and numerical stability compared to existing approaches. Experimental results on the widely used benchmark PascalVOC showcase that our algorithm achieves state-of-the-art performance with significantly improved efficiency. Source code: https://github.com/xmlyqing00/clap

arxiv情報

著者 Yongqing Liang,Huijun Han,Xin Li
発行日 2024-10-22 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLAP: Concave Linear APproximation for Quadratic Graph Matching はコメントを受け付けていません

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

要約

視覚言語モデル (VLM) は、複雑な視覚言語推論を評価する最近の視覚質問応答 (VQA) ベンチマークにおいて大幅な進歩を遂げました。
しかし、これらのモデルは本当に効果があるのでしょうか?
この研究では、VLM が依然として自然の画像や人間が簡単に答えられる質問 (自然敵対的サンプルと呼ぶ) に苦戦していることを示します。
また、CLIP や ChatGPT などの既製のモデルを使用して、自然な画像テキスト コーパスからこれらの VQA サンプルを生成するのが驚くほど簡単であることもわかりました。
私たちは、人間が検証した 10,000 個の VQA サンプルを使用して VLM を確実に評価するための、新しいベンチマークである NaturalBench を収集する半自動アプローチを提案します。
重要なのは、各質問を異なる回答をもたらす 2 つの画像と組み合わせることで、$\textbf{ビジョン中心}$ 設計を採用し、画像を使用せずに盲目的な解決策が回答されるのを防ぐことです。
このため、NaturalBench は、常識的な事前分布で解決できる以前のベンチマークよりも困難になります。
NaturalBench で 53 の最先端の VLM を評価したところ、LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL、さらには GPT-4o などのモデルが 50% ~ 70% 遅れていることがわかりました。
人間のパフォーマンス (90% 以上)。
NaturalBench が難しい理由を 2 つの角度から分析します。 (1) 構成性: NaturalBench を解決するには、属性バインディング、オブジェクトの関係、ロジックやカウントなどの高度な推論の理解など、多様な視覚言語スキルが必要です。
この目的を達成するために、サンプルごとに 1 つのタグを使用する以前の研究とは異なり、きめ細かい評価を行うために、各 NaturalBench サンプルに 1 ~ 8 個のスキル タグを付けます。
(2) バイアス: モデルは画像に関係なく同じ答えを選択することが多いため、NaturalBench は VLM の深刻なバイアスを明らかにします。
最後に、ベンチマーク キュレーション手法を、長いキャプション (100 単語以上) や中国語やヒンディー語などの英語以外の言語を含む多様なデータ ソースに適用し、VLM の動的な評価の可能性を強調します。

要約(オリジナル)

Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a $\textbf{vision-centric}$ design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.

arxiv情報

著者 Baiqi Li,Zhiqiu Lin,Wenxuan Peng,Jean de Dieu Nyandwi,Daniel Jiang,Zixian Ma,Simran Khanuja,Ranjay Krishna,Graham Neubig,Deva Ramanan
発行日 2024-10-22 16:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples はコメントを受け付けていません

AlphaChimp: Tracking and Behavior Recognition of Chimpanzees

要約

ヒト以外の霊長類の行動を理解することは、動物福祉を改善し、社会的行動をモデル化し、人間特有の行動と共通の行動の両方について洞察を得るために非常に重要です。
コンピュータービジョンの最近の進歩にもかかわらず、霊長類の行動の自動分析は、霊長類の社会的相互作用の複雑さと特殊なアルゴリズムの欠如により依然として困難です。
既存の手法は、霊長類の社会力学に特徴的な微妙な行動や頻繁なオクルージョンに苦戦することがよくあります。
この研究は、ビデオ映像内のチンパンジーの行動を自動検出、追跡、認識するための効果的な方法を開発することを目的としています。
今回我々は、ビデオからチンパンジーの位置検出と行動カテゴリの推定を同時に行うエンドツーエンドのアプローチである我々の提案手法である AlphaChimp が、行動認識において既存の手法を大幅に上回る性能を示すことを示す。
AlphaChimp は、最先端の手法と比較して約 10% 高い追跡精度と 20% 高い行動認識の向上を実現しており、特に社会的行動の認識に優れています。
この優れたパフォーマンスは、時間的特徴の融合とトランスフォーマーベースの自己注意メカニズムを統合する AlphaChimp の革新的なアーキテクチャに由来しており、チンパンジー間の複雑な社会的相互作用のより効果的な捕捉と解釈を可能にします。
私たちのアプローチはコンピュータービジョンと霊長類学の間のギャップを埋め、技術的能力を強化し、霊長類のコミュニケーションと社会性についての理解を深めます。
私たちはコードとモデルを公開し、これが動物の社会動態における将来の研究を促進することを願っています。
この研究は動物行動学、認知科学、人工知能に貢献し、社会的知性に関する新たな視点を提供します。

要約(オリジナル)

Understanding non-human primate behavior is crucial for improving animal welfare, modeling social behavior, and gaining insights into both distinctly human and shared behaviors. Despite recent advances in computer vision, automated analysis of primate behavior remains challenging due to the complexity of their social interactions and the lack of specialized algorithms. Existing methods often struggle with the nuanced behaviors and frequent occlusions characteristic of primate social dynamics. This study aims to develop an effective method for automated detection, tracking, and recognition of chimpanzee behaviors in video footage. Here we show that our proposed method, AlphaChimp, an end-to-end approach that simultaneously detects chimpanzee positions and estimates behavior categories from videos, significantly outperforms existing methods in behavior recognition. AlphaChimp achieves approximately 10% higher tracking accuracy and a 20% improvement in behavior recognition compared to state-of-the-art methods, particularly excelling in the recognition of social behaviors. This superior performance stems from AlphaChimp’s innovative architecture, which integrates temporal feature fusion with a Transformer-based self-attention mechanism, enabling more effective capture and interpretation of complex social interactions among chimpanzees. Our approach bridges the gap between computer vision and primatology, enhancing technical capabilities and deepening our understanding of primate communication and sociality. We release our code and models and hope this will facilitate future research in animal social dynamics. This work contributes to ethology, cognitive science, and artificial intelligence, offering new perspectives on social intelligence.

arxiv情報

著者 Xiaoxuan Ma,Yutang Lin,Yuan Xu,Stephan P. Kaufhold,Jack Terwilliger,Andres Meza,Yixin Zhu,Federico Rossano,Yizhou Wang
発行日 2024-10-22 16:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AlphaChimp: Tracking and Behavior Recognition of Chimpanzees はコメントを受け付けていません

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

要約

ビジュアル データは、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオに至るまで、さまざまな形式で提供されます。
既存のマルチモーダル LLM は通常、これらの多様なビジュアル入力をビジュアル エンコーダの固定解像度に標準化し、LLM に対して同様の数のトークンを生成します。
このアプローチは、マルチモーダルな理解には最適ではなく、長短のビジュアル コンテンツを含む入力を処理するには非効率的です。
この問題を解決するために、画像、ビデオ、およびマルチビュー 3D シーンの時空間理解のための統合マルチモーダル アーキテクチャである Oryx を提案します。
Oryx は、次の 2 つの核となるイノベーションを通じて、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンド ソリューションを提供します。1) 任意の解像度の画像を LLM に適した視覚表現にエンコードできる事前トレーニング済みの OryxViT モデル。
2) リクエストに応じてビジュアル トークンの 1 倍から 16 倍の圧縮をサポートする動的圧縮モジュール。
これらの設計機能により、Oryx は、ビデオなどの非常に長い視覚コンテキストを低解像度かつ高圧縮で対応しながら、ネイティブ解像度および非圧縮による文書理解などのタスクで高い認識精度を維持できます。
アーキテクチャの改善を超えて、強化されたデータキュレーションと、長いコンテキストの検索と空間認識データに関する専門的なトレーニングにより、Oryx は画像、ビデオ、および 3D マルチモーダル理解における強力な機能を同時に達成することができます。
私たちの作品は https://github.com/Oryx-mllm/Oryx でオープンソース化されています。

要約(オリジナル)

Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.

arxiv情報

著者 Zuyan Liu,Yuhao Dong,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao
発行日 2024-10-22 16:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution はコメントを受け付けていません

YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion

要約

自動運転と先進運転支援システム (ADAS) の両方における安全性の確保は、交通標識認識テクノロジーの効率的な展開に大きく依存しています。
現在の方法は有効性を示していますが、速度と精度の間で妥協することがよくあります。
この問題に対処するために、新しいリアルタイムで効率的な道路標識検出ネットワーク YOLO-TS を紹介します。
このネットワークは、マルチスケール フィーチャ マップの受容野を最適化して、さまざまなデータセット内の交通標識のサイズ分布とより厳密に一致させることで、パフォーマンスを大幅に向上させます。
さらに、アンカーフリー手法の柔軟性を活用した革新的な特徴融合戦略により、コンテキスト情報が豊富な高解像度の特徴マップ上でマルチスケールの物体検出が可能になり、精度と速度の両方で大幅な向上を実現します。
より小さいオブジェクトの検出における拡張畳み込みによって引き起こされるグリッド パターンの悪影響を軽減するために、このグリッド効果を軽減するだけでなく、広範な空間コンテキスト情報を包含するように受容野を広げる独自のモジュールを考案しました。
情報利用の効率を高めます。
挑戦的な公開データセットである TT100K および CCTSDB2021 の評価では、YOLO-TS が精度と速度の両方の点で既存の最先端の手法を上回っていることが実証されています。
私たちのメソッドのコードが利用可能になります。

要約(オリジナル)

Ensuring safety in both autonomous driving and advanced driver-assistance systems (ADAS) depends critically on the efficient deployment of traffic sign recognition technology. While current methods show effectiveness, they often compromise between speed and accuracy. To address this issue, we present a novel real-time and efficient road sign detection network, YOLO-TS. This network significantly improves performance by optimizing the receptive fields of multi-scale feature maps to align more closely with the size distribution of traffic signs in various datasets. Moreover, our innovative feature-fusion strategy, leveraging the flexibility of Anchor-Free methods, allows for multi-scale object detection on a high-resolution feature map abundant in contextual information, achieving remarkable enhancements in both accuracy and speed. To mitigate the adverse effects of the grid pattern caused by dilated convolutions on the detection of smaller objects, we have devised a unique module that not only mitigates this grid effect but also widens the receptive field to encompass an extensive range of spatial contextual information, thus boosting the efficiency of information usage. Evaluation on challenging public datasets, TT100K and CCTSDB2021, demonstrates that YOLO-TS surpasses existing state-of-the-art methods in terms of both accuracy and speed. The code for our method will be available.

arxiv情報

著者 Junzhou Chen,Heqiang Huang,Ronghui Zhang,Nengchao Lyu,Yanyong Guo,Hong-Ning Dai,Hong Yan
発行日 2024-10-22 16:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO-TS: Real-Time Traffic Sign Detection with Enhanced Accuracy Using Optimized Receptive Fields and Anchor-Free Fusion はコメントを受け付けていません

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging

要約

大規模な事前トレーニング済みモデルは、さまざまなタスクにわたって優れたゼロショット パフォーマンスを示しますが、微調整は多くの場合壊滅的な忘却につながり、ターゲット ドメインの改善によって他のタスクの一般化が低下します。
この課題に対処するために、微調整されたタスクのパフォーマンスを向上させながら、事前トレーニングされた一般化を維持するように設計されたトレーニング後の編集手法である LiNeS (Layer-increeasing Network Scaling) を導入します。
LiNeS は、ネットワーク内の層の深さに基づいてパラメータの更新を線形にスケーリングし、浅い層を事前トレーニングされた値に近づけて一般的な特徴を維持しながら、より深い層がタスク固有の表現を保持できるようにします。
このアプローチをマルチタスク モデルのマージ シナリオにさらに拡張し、マージされたパラメーターのレイヤーごとのスケーリングによってマイナスのタスク干渉が軽減されます。
LiNeS は、ビジョンおよび自然言語処理のさまざまなベンチマークにわたって、シングルタスク設定とマルチタスク設定の両方で大幅な改善を示しています。
忘却を軽減し、分布外の一般化を強化し、ベースラインをマージする既存のマルチタスク モデルとシームレスに統合して、ベンチマークやモデル サイズ全体でパフォーマンスを向上させます。また、RLHF を介してさまざまな報酬に合わせた LLM ポリシーをマージするときに一般化を促進できます。
重要なのは、私たちの方法は実装が簡単で、多くの既存の技術を補完するものです。

要約(オリジナル)

Large pre-trained models exhibit impressive zero-shot performance across diverse tasks, but fine-tuning often leads to catastrophic forgetting, where improvements on a target domain degrade generalization on other tasks. To address this challenge, we introduce LiNeS, Layer-increasing Network Scaling, a post-training editing technique designed to preserve pre-trained generalization while enhancing fine-tuned task performance. LiNeS scales parameter updates linearly based on their layer depth within the network, maintaining shallow layers close to their pre-trained values to preserve general features while allowing deeper layers to retain task-specific representations. We further extend this approach to multi-task model merging scenarios, where layer-wise scaling of merged parameters reduces negative task interference. LiNeS demonstrates significant improvements in both single-task and multi-task settings across various benchmarks in vision and natural language processing. It mitigates forgetting, enhances out-of-distribution generalization, integrates seamlessly with existing multi-task model merging baselines improving their performance across benchmarks and model sizes, and can boost generalization when merging LLM policies aligned with different rewards via RLHF. Importantly, our method is simple to implement and complementary to many existing techniques.

arxiv情報

著者 Ke Wang,Nikolaos Dimitriadis,Alessandro Favero,Guillermo Ortiz-Jimenez,Francois Fleuret,Pascal Frossard
発行日 2024-10-22 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging はコメントを受け付けていません

Are Visual-Language Models Effective in Action Recognition? A Comparative Study

要約

CLIP などの現在のビジョン言語基盤モデルは、最近、さまざまな下流タスクにわたってパフォーマンスが大幅に向上していることが示されています。
ただし、そのような基礎モデルが、より複雑で詳細な動作認識タスクを大幅に改善するかどうかは、まだ未解決の問題です。
この質問に答え、野外での人間の行動分析に関する将来の研究の方向性をより良く知るために、この論文は、現在の最先端の視覚基盤モデルの大規模な研究と洞察を提供します。
ゼロショットおよびフレームごとのアクション認識タスク。
アクションの分類とセグメンテーションを含む、最新のきめ細かい人間中心のアクション認識データセット (Toyota Smarthome、Penn Action、UAV-Human、TSU、Charade など) に対して広範な実験が行われています。

要約(オリジナル)

Current vision-language foundation models, such as CLIP, have recently shown significant improvement in performance across various downstream tasks. However, whether such foundation models significantly improve more complex fine-grained action recognition tasks is still an open question. To answer this question and better find out the future research direction on human behavior analysis in-the-wild, this paper provides a large-scale study and insight on current state-of-the-art vision foundation models by comparing their transfer ability onto zero-shot and frame-wise action recognition tasks. Extensive experiments are conducted on recent fine-grained, human-centric action recognition datasets (e.g., Toyota Smarthome, Penn Action, UAV-Human, TSU, Charades) including action classification and segmentation.

arxiv情報

著者 Mahmoud Ali,Di Yang,François Brémond
発行日 2024-10-22 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Are Visual-Language Models Effective in Action Recognition? A Comparative Study はコメントを受け付けていません