Audio-Visual Class-Incremental Learning for Fish Feeding intensity Assessment in Aquaculture

要約

魚の摂食強度評価(FFIA)は、産業用養殖管理において重要です。
最近のマルチモーダルアプローチは、FFIAの堅牢性と効率を改善することに有望であることを示しています。
ただし、これらの方法は、壊滅的な忘却と適切なデータセットの欠如のために、新しい魚種や環境に適応する際に大きな課題に直面しています。
これらの制限に対処するために、最初に、実際の水産養殖環境で6つの異なる魚種にわたって摂食強度をキャプチャする81,932のラベルのあるオーディオビジュアルクリップを含む新しいデータセットであるAV-CIL-FFIAを導入します。
次に、FFIAのオーディオビジュアルクラス増分学習(CIL)の先駆者であり、AV-CIL-FFIAのベンチマークを通じてシングルモダリティメソッドを大幅に上回ることを実証します。
既存のCILメソッドは、履歴データに大きく依存しています。
模範ベースのアプローチは生のサンプルを保存し、ストレージの課題を作成しますが、模範を含まない方法はデータストレージを避けますが、異なる魚種で微妙な摂食強度の変動を区別するのに苦労しています。
これらの制限を克服するために、コンパクトな特徴表現を通じて本質的な知識を維持しながら模範的な効率を達成するプロトタイプベースのアプローチでこのギャップを橋渡しする新しい音声視聴覚クラスと領域の学習フレームワークであるHail-Ffiaを紹介します。
具体的には、Hail-Ffiaは、一般的な強度の知識を魚固有の特性と分離するデュアルパス知識保存メカニズムで階層表現学習を採用しています。
さらに、摂食行動段階に基づいて、オーディオと視覚情報の重要性を適応的に調整する動的モダリティバランスシステムを備えています。
実験結果は、Hail-FfiaがAV-CIL-FFIAのSOTAメソッドよりも優れており、より低いストレージニーズでより高い精度を達成しながら、漸進的な魚種の学習における壊滅的な忘却を効果的に緩和することを示しています。

要約(オリジナル)

Fish Feeding Intensity Assessment (FFIA) is crucial in industrial aquaculture management. Recent multi-modal approaches have shown promise in improving FFIA robustness and efficiency. However, these methods face significant challenges when adapting to new fish species or environments due to catastrophic forgetting and the lack of suitable datasets. To address these limitations, we first introduce AV-CIL-FFIA, a new dataset comprising 81,932 labelled audio-visual clips capturing feeding intensities across six different fish species in real aquaculture environments. Then, we pioneer audio-visual class incremental learning (CIL) for FFIA and demonstrate through benchmarking on AV-CIL-FFIA that it significantly outperforms single-modality methods. Existing CIL methods rely heavily on historical data. Exemplar-based approaches store raw samples, creating storage challenges, while exemplar-free methods avoid data storage but struggle to distinguish subtle feeding intensity variations across different fish species. To overcome these limitations, we introduce HAIL-FFIA, a novel audio-visual class-incremental learning framework that bridges this gap with a prototype-based approach that achieves exemplar-free efficiency while preserving essential knowledge through compact feature representations. Specifically, HAIL-FFIA employs hierarchical representation learning with a dual-path knowledge preservation mechanism that separates general intensity knowledge from fish-specific characteristics. Additionally, it features a dynamic modality balancing system that adaptively adjusts the importance of audio versus visual information based on feeding behaviour stages. Experimental results show that HAIL-FFIA is superior to SOTA methods on AV-CIL-FFIA, achieving higher accuracy with lower storage needs while effectively mitigating catastrophic forgetting in incremental fish species learning.

arxiv情報

著者 Meng Cui,Xianghu Yue,Xinyuan Qian,Jinzheng Zhao,Haohe Liu,Xubo Liu,Daoliang Li,Wenwu Wang
発行日 2025-04-21 15:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク