要約
事前に訓練された大規模な物体検出器の成功は、下流の多様なタスクへの適応性にかかっている。ファインチューニングは標準的な適応方法であるが、これらのモデルを難易度の高い細粒度領域に特化させるためには、特徴粒度を注意深く考慮する必要がある。そこで重要な疑問が残る。それは、元の一般的な能力を壊滅的に忘れることなく、特化されたタスクに最適化するために、事前に訓練されたバックボーンをどの程度深くファインチューニングすべきか、ということである。そこで、微調整の深さの影響を評価する体系的な実証研究を行う。標準的なYOLOv8nモデルを、バックボーン層の凍結を徐々に解除し(22層、15層、10層の凍結点)、トレーニングすることで、カスタムのきめ細かい果物検出データセットに適応させた。性能は、ターゲットフルーツデータセットと、デュアルヘッド評価アーキテクチャを使用したオリジナルのCOCO検証セットの両方で厳密に評価された。その結果、より深いファインチューニング(レイヤー10まで凍結解除)により、ヘッドトレーニングのみと比較して、きめの細かい果物タスクで大幅な性能向上(例えば、絶対mAP50で+10%)が得られることが明確に示された。驚くべきことに、この大幅な適応と特殊化により、テストしたすべての凍結レベルにおいて、COCOベンチマークの性能低下はごくわずか(絶対mAP差0.1%未満)であった。我々は、バックボーンの中盤から後半にかけての特徴を適応させることが、きめの細かい特殊化に非常に有効であると結論付けた。特に、複雑なドメインをターゲットとする場合や、特化した性能を最大化することが最重要である場合、より深い微調整戦略を探求するための説得力のある事例を提示している。
要約(オリジナル)
The success of large pre-trained object detectors hinges on their adaptability to diverse downstream tasks. While fine-tuning is the standard adaptation method, specializing these models for challenging fine-grained domains necessitates careful consideration of feature granularity. The critical question remains: how deeply should the pre-trained backbone be fine-tuned to optimize for the specialized task without incurring catastrophic forgetting of the original general capabilities? Addressing this, we present a systematic empirical study evaluating the impact of fine-tuning depth. We adapt a standard YOLOv8n model to a custom, fine-grained fruit detection dataset by progressively unfreezing backbone layers (freeze points at layers 22, 15, and 10) and training. Performance was rigorously evaluated on both the target fruit dataset and, using a dual-head evaluation architecture, on the original COCO validation set. Our results demonstrate unequivocally that deeper fine-tuning (unfreezing down to layer 10) yields substantial performance gains (e.g., +10\% absolute mAP50) on the fine-grained fruit task compared to only training the head. Strikingly, this significant adaptation and specialization resulted in negligible performance degradation (<0.1\% absolute mAP difference) on the COCO benchmark across all tested freeze levels. We conclude that adapting mid-to-late backbone features is highly effective for fine-grained specialization. Critically, our results demonstrate this adaptation can be achieved without the commonly expected penalty of catastrophic forgetting, presenting a compelling case for exploring deeper fine-tuning strategies, particularly when targeting complex domains or when maximizing specialized performance is paramount.
arxiv情報
| 著者 | Vishal Gandhi,Sagar Gandhi |
| 発行日 | 2025-05-02 05:27:14+00:00 |
| arxivサイト | arxiv_id(pdf) |