Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback

要約

放射線科医は、医療画像を医療レポートに変換するという重要な役割を果たします。
しかし、現場は人材不足と業務量の増加に直面しています。
ビジョン言語モデル (VLM) を使用した自動化アプローチはアシスタントとして有望ですが、非常に高い精度が必要です。
放射線医学における現在の VLM のほとんどは、教師あり微調整 (SFT) のみに依存しています。
一方、一般的な領域では、追加の設定の微調整が標準的な手法となっています。
放射線医学における課題は、放射線科医のフィードバックを得るのに法外なコストがかかることにあります。
私たちは、胸部 X 線 (CXR) レポートの生成に焦点を当て、放射線医学における VLM のためのスケーラブルな自動プリファレンス調整技術を提案します。
私たちの方法では、LLM-as-a-Judge メカニズムを備えた公的に利用可能なデータセットを活用しており、追加の専門放射線科医のフィードバックの必要性を排除しています。
私たちは 5 つのダイレクト アライメント アルゴリズム (DAA) を評価し、ベンチマークを行います。
その結果、SFT ベースラインと比較して、CXR レポートを評価するための LLM ベースの指標である平均 GREEN スコアが最大 57.4% 向上し、6 つの指標 (ドメイン固有および一般) の平均が 9.2% 向上したことがわかりました。
私たちは長さの悪用による報酬の過剰最適化を研究しており、レポートは最大 3.2 倍も長くなっています。
潜在的な調整税を評価するために、追加の 6 つの多様なタスクをベンチマークしましたが、重大な低下は見つかりませんでした。
4 人の認定放射線科医が参加した読者調査では、勝率が SFT ベースラインを最大 0.62 上回る一方で、冗長性が著しく不利になることが示されています。
私たちの分析は、放射線医学のような一か八かの分野における VLM の開発に実用的な洞察を提供します。

要約(オリジナル)

Radiologists play a crucial role by translating medical images into medical reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning (SFT). Meanwhile, in the general domain, additional preference fine-tuning has become standard practice. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback. We propose a scalable automated preference alignment technique for VLMs in radiology, focusing on chest X-ray (CXR) report generation. Our method leverages publicly available datasets with an LLM-as-a-Judge mechanism, eliminating the need for additional expert radiologist feedback. We evaluate and benchmark five direct alignment algorithms (DAAs). Our results show up to a 57.4% improvement in average GREEN scores, a LLM-based metric for evaluating CXR reports, and a 9.2% increase in an average across six metrics (domain specific and general), compared to the SFT baseline. We study reward overoptimization via length exploitation, with reports lengthening by up to 3.2x. To assess a potential alignment tax, we benchmark on six additional diverse tasks, finding no significant degradations. A reader study involving four board-certified radiologists indicates win rates of up to 0.62 over the SFT baseline, while significantly penalizing verbosity. Our analysis provides actionable insights for the development of VLMs in high-stakes fields like radiology.

arxiv情報

著者 Dennis Hein,Zhihong Chen,Sophie Ostmeier,Justin Xu,Maya Varma,Eduardo Pontes Reis,Arne Edward Michalson,Christian Bluethgen,Hyun Joo Shin,Curtis Langlotz,Akshay S Chaudhari
発行日 2024-10-09 16:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

要約

拡散モデル (DM) は、テキストから画像への生成において目覚ましい成功を収めていますが、有害なコンテンツや著作権侵害の生成の可能性など、安全上のリスクももたらします。
概念消去としても知られる機械のアンラーニングの手法は、これらのリスクに対処するために開発されました。
ただし、これらの技術は依然として敵対的プロンプト攻撃に対して脆弱であり、DM が学習後に消去されるはずの概念 (ヌードなど) を含む望ましくない画像を再生成する可能性があります。
この研究は、敵対的トレーニング (AT) の原理を機械の非学習に統合することで概念消去の堅牢性を強化することを目的としており、その結果、AdvUnlearn と呼ばれる堅牢な非学習フレームワークが実現します。
ただし、これを効果的かつ効率的に達成することは非常に困難です。
まず、AT を単純に実装すると、DM の学習後の画像生成品質が損なわれることがわかりました。
これに対処するために、追加の保持セットに対するユーティリティ保持正則化を開発し、AdvUnlearn での概念消去の堅牢性とモデルのユーティリティの間のトレードオフを最適化します。
さらに、UNet と比較してテキスト エンコーダが堅牢化に適したモジュールであると特定し、非学習の有効性を確保します。
そして、取得されたテキスト エンコーダーは、さまざまな DM タイプに対するプラグ アンド プレイの堅牢なアンラーナーとして機能できます。
経験的に、私たちは、ヌード、オブジェクト、スタイル概念の消去など、さまざまな DM 学習解除シナリオにわたって AdvUnlearn の堅牢性の利点を実証するために広範な実験を実行しました。
堅牢性に加えて、AdvUnlearn はモデルの実用性とのバランスの取れたトレードオフも実現します。
私たちの知る限り、これは AT を介してロバストな DM のアンラーニングを体系的に調査した最初の研究であり、概念消去におけるロバスト性を無視する既存の方法とは一線を画しています。
コードはhttps://github.com/OPTML-Group/AdvUnlearnから入手できます。

要約(オリジナル)

Diffusion models (DMs) have achieved remarkable success in text-to-image generation, but they also pose safety risks, such as the potential generation of harmful content and copyright violations. The techniques of machine unlearning, also known as concept erasing, have been developed to address these risks. However, these techniques remain vulnerable to adversarial prompt attacks, which can prompt DMs post-unlearning to regenerate undesired images containing concepts (such as nudity) meant to be erased. This work aims to enhance the robustness of concept erasing by integrating the principle of adversarial training (AT) into machine unlearning, resulting in the robust unlearning framework referred to as AdvUnlearn. However, achieving this effectively and efficiently is highly nontrivial. First, we find that a straightforward implementation of AT compromises DMs’ image generation quality post-unlearning. To address this, we develop a utility-retaining regularization on an additional retain set, optimizing the trade-off between concept erasure robustness and model utility in AdvUnlearn. Moreover, we identify the text encoder as a more suitable module for robustification compared to UNet, ensuring unlearning effectiveness. And the acquired text encoder can serve as a plug-and-play robust unlearner for various DM types. Empirically, we perform extensive experiments to demonstrate the robustness advantage of AdvUnlearn across various DM unlearning scenarios, including the erasure of nudity, objects, and style concepts. In addition to robustness, AdvUnlearn also achieves a balanced tradeoff with model utility. To our knowledge, this is the first work to systematically explore robust DM unlearning through AT, setting it apart from existing methods that overlook robustness in concept erasing. Codes are available at: https://github.com/OPTML-Group/AdvUnlearn

arxiv情報

著者 Yimeng Zhang,Xin Chen,Jinghan Jia,Yihua Zhang,Chongyu Fan,Jiancheng Liu,Mingyi Hong,Ke Ding,Sijia Liu
発行日 2024-10-09 16:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | コメントする

Clean Evaluations on Contaminated Visual Language Models

要約

大規模言語モデル (LLM) をクリーンに評価する方法は、汚染されている可能性のある LLM のパフォーマンスを純粋に報告するための重要な研究時代として確立されています。
しかし、視覚言語モデル (VLM) を適切に評価する方法は十分に研究されていない問題です。
我々は、視覚入力情報のデータ拡張手法を通じてそのような目標を達成するための新しいアプローチを提案します。
次に、数千のデータ インスタンスを使用して、新しい視覚的にクリーンな評価ベンチマークを作成します。
広範な実験を通じて、従来の視覚データ拡張手法は有用であるものの、回避策としてトレーニング データの一部として使用される危険性があることがわかりました。
さらに、BGR 拡張を使用して視覚情報のカラー チャネルを切り替えることを提案します。
これは、データ汚染の影響を軽減するためのシンプルかつ効果的な方法であることがわかりましたが、幸いなことに、トレーニング中にデータ拡張方法として使用すると有害でもあります。
これは、このようなデータ拡張を悪意のあるトレーナーによるトレーニングに組み込むのは難しく、視覚的な LLM をクリーンに評価するための有望な手法である可能性があることを意味します。
コード、データ、およびモデルの重みは、出版時に公開されます。

要約(オリジナル)

How to evaluate large language models (LLMs) cleanly has been established as an important research era to genuinely report the performance of possibly contaminated LLMs. Yet, how to cleanly evaluate the visual language models (VLMs) is an under-studied problem. We propose a novel approach to achieve such goals through data augmentation methods on the visual input information. We then craft a new visual clean evaluation benchmark with thousands of data instances. Through extensive experiments, we found that the traditional visual data augmentation methods are useful, but they are at risk of being used as a part of the training data as a workaround. We further propose using BGR augmentation to switch the colour channel of the visual information. We found that it is a simple yet effective method for reducing the effect of data contamination and fortunately, it is also harmful to be used as a data augmentation method during training. It means that it is hard to integrate such data augmentation into training by malicious trainers and it could be a promising technique to cleanly evaluate visual LLMs. Our code, data, and model weights will be released upon publication.

arxiv情報

著者 Hongyuan Lu,Shujie Miao,Wai Lam
発行日 2024-10-09 16:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Z-upscaling: Optical Flow Guided Frame Interpolation for Isotropic Reconstruction of 3D EM Volumes

要約

我々は、異方性 3D EM ボリュームの軸解像度を向上させて等方性 3D 再構成を実現する、新しいオプティカル フロー ベースのアプローチを提案します。
適切に位置合わせされた EM ボリューム内の 3D 生物学的構造の空間的連続性を仮定すると、ビデオの時間解像度の向上によく適用されるオプティカル フロー推定技術を利用できると考えられます。
ピクセル レベルの動きは、空間勾配フロー推定を使用して補間して新しい 2D スライスを生成し、等方性ボクセルを生成することにより、z に沿った隣接する 2D スライス間で推定されます。
私たちは、ビデオ フレーム補間および転移学習技術のための最新の学習方法を活用し、公的に入手可能な超微細構造 EM ボリュームに対するアプローチの成功を実証します。

要約(オリジナル)

We propose a novel optical flow based approach to enhance the axial resolution of anisotropic 3D EM volumes to achieve isotropic 3D reconstruction. Assuming spatial continuity of 3D biological structures in well aligned EM volumes, we reasoned that optical flow estimation techniques, often applied for temporal resolution enhancement in videos, can be utilized. Pixel level motion is estimated between neighboring 2D slices along z, using spatial gradient flow estimates to interpolate and generate new 2D slices resulting in isotropic voxels. We leverage recent state-of-the-art learning methods for video frame interpolation and transfer learning techniques, and demonstrate the success of our approach on publicly available ultrastructure EM volumes.

arxiv情報

著者 Fisseha A. Ferede,Ali Khalighifar,Jaison John,Krishnan Venkataraman,Khaled Khairy
発行日 2024-10-09 16:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

S2HPruner: Soft-to-Hard Distillation Bridges the Discretization Gap in Pruning

要約

最近、微分可能なマスク枝刈り手法により、優れたサブアーキテクチャ検索のために枝刈りされた離散ネットワーク (ハード ネットワーク) のプロキシとして連続緩和アーキテクチャ (ソフト ネットワーク) が最適化されています。
ただし、離散化プロセスの不可知論的な影響により、ハード ネットワークはソフト ネットワークと同等の表現能力、つまり離散化ギャップに苦戦し、枝刈りのパフォーマンスを大幅に損ないます。
この論文では、まず離散化ギャップを調査し、1 段階で離散化ギャップを埋めるための S2HPruner と呼ばれる新しい構造微分可能なマスク プルーニング フレームワークを提案します。
トレーニング手順では、SH2Pruner はソフト ネットワークとそれに対応するハード ネットワークの両方を転送し、ソフト ネットワークの監視下でハード ネットワークを抽出します。
マスクを最適化し、パフォーマンスの低下を防ぐために、分離された双方向の知識の蒸留を提案します。
マスクに対応する勾配を維持しながら、ハード ネットワークからソフト ネットワークへの重み更新をブロックします。
既存のプルーニング技術と比較して、S2HPruner は、CIFAR-100、Tiny ImageNet、さまざまなネットワーク アーキテクチャを備えた ImageNet などの包括的なベンチマークで微調整することなく、優れたプルーニング パフォーマンスを達成します。
さらに、調査と分析実験により、S2HPruner の有効性が説明されます。
コードは近日公開予定です。

要約(オリジナル)

Recently, differentiable mask pruning methods optimize the continuous relaxation architecture (soft network) as the proxy of the pruned discrete network (hard network) for superior sub-architecture search. However, due to the agnostic impact of the discretization process, the hard network struggles with the equivalent representational capacity as the soft network, namely discretization gap, which severely spoils the pruning performance. In this paper, we first investigate the discretization gap and propose a novel structural differentiable mask pruning framework named S2HPruner to bridge the discretization gap in a one-stage manner. In the training procedure, SH2Pruner forwards both the soft network and its corresponding hard network, then distills the hard network under the supervision of the soft network. To optimize the mask and prevent performance degradation, we propose a decoupled bidirectional knowledge distillation. It blocks the weight updating from the hard to the soft network while maintaining the gradient corresponding to the mask. Compared with existing pruning arts, S2HPruner achieves surpassing pruning performance without fine-tuning on comprehensive benchmarks, including CIFAR-100, Tiny ImageNet, and ImageNet with a variety of network architectures. Besides, investigation and analysis experiments explain the effectiveness of S2HPruner. Codes will be released soon.

arxiv情報

著者 Weihao Lin,Shengji Tang,Chong Yu,Peng Ye,Tao Chen
発行日 2024-10-09 16:36:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling

要約

ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデルを紹介します。
視覚と聴覚の同期を改善するために、共同対照トレーニング損失を提案します。
提案したモデルの有効性を評価するために、2 つのデータセットでの実験を紹介します。
発電品質と調整パフォーマンスの評価は、客観的指標と主観的指標の両方を含むさまざまな角度から実行されます。
私たちの調査結果は、新しいクロスモーダル easy fusion アーキテクチャ ブロックの導入により、提案されたモデルが品質と生成速度の点でベースラインを上回っていることを示しています。
さらに、コントラスト損失を組み込むことにより、特に高相関のビデオからオーディオへの生成タスクにおいて、オーディオとビジュアルの調整が改善されます。

要約(オリジナル)

We introduce a multi-modal diffusion model tailored for the bi-directional conditional generation of video and audio. We propose a joint contrastive training loss to improve the synchronization between visual and auditory occurrences. We present experiments on two datasets to evaluate the efficacy of our proposed model. The assessment of generation quality and alignment performance is carried out from various angles, encompassing both objective and subjective metrics. Our findings demonstrate that the proposed model outperforms the baseline in terms of quality and generation speed through introduction of our novel cross-modal easy fusion architectural block. Furthermore, the incorporation of the contrastive loss results in improvements in audio-visual alignment, particularly in the high-correlation video-to-audio generation task.

arxiv情報

著者 Ruihan Yang,Hannes Gamper,Sebastian Braun
発行日 2024-10-09 16:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントする

TinyEmo: Scaling down Emotional Reasoning via Metric Projection

要約

この論文では、感情的な推論と分類のための小規模なマルチモーダル言語モデルのファミリーである TinyEmo を紹介します。
私たちのアプローチの特徴: (1) 事前トレーニング段階と微調整段階の両方のための合成感情指示データセット、(2) より効率的なトレーニングと推論を可能にする言語モデルからの分類を委任するメトリック プロジェクター、(3) マルチ
感情的推論のためのモーダル大規模言語モデル (MM-LLM)、および (4) バイアス検出のための半自動フレームワーク。
TinyEmo は、同等のモデルよりも大幅に少ないパラメータを使用しながら、感情分類と感情推論を実行できます。
この効率性により、より多様な感情データセットを自由に組み込むことが可能になり、最小モデル (7 億パラメータ) が 70 億を超えるパラメータを持つ汎用 MM-LLM に基づく大規模な最先端モデルを上回る、分類タスクで優れたパフォーマンスを実現します。
さらに、メトリック プロジェクターを使用すると、追加のトレーニングなしで大規模モデルの解釈可能性と間接的なバイアス検出が可能になり、AI システムを理解して改善するためのアプローチが提供されます。
https://github.com/ggcr/TinyEmo でコード、モデル、データセットをリリースします。

要約(オリジナル)

This paper introduces TinyEmo, a family of small multi-modal language models for emotional reasoning and classification. Our approach features: (1) a synthetic emotional instruct dataset for both pre-training and fine-tuning stages, (2) a Metric Projector that delegates classification from the language model allowing for more efficient training and inference, (3) a multi-modal large language model (MM-LLM) for emotional reasoning, and (4) a semi-automated framework for bias detection. TinyEmo is able to perform emotion classification and emotional reasoning, all while using substantially fewer parameters than comparable models. This efficiency allows us to freely incorporate more diverse emotional datasets, enabling strong performance on classification tasks, with our smallest model (700M parameters) outperforming larger state-of-the-art models based on general-purpose MM-LLMs with over 7B parameters. Additionally, the Metric Projector allows for interpretability and indirect bias detection in large models without additional training, offering an approach to understand and improve AI systems. We release code, models, and dataset at https://github.com/ggcr/TinyEmo

arxiv情報

著者 Cristian Gutierrez
発行日 2024-10-09 17:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Pixtral 12B

要約

120 億パラメータのマルチモーダル言語モデルである Pixtral-12B を紹介します。
Pixtral-12B は、自然画像とドキュメントの両方を理解できるようにトレーニングされており、さまざまなマルチモーダル ベンチマークで優れたパフォーマンスを達成し、多くの大型モデルを上回っています。
多くのオープンソース モデルとは異なり、Pixtral はそのサイズに比べて最先端のテキスト モデルでもあり、マルチモーダル タスクで優れた性能を発揮するために自然言語のパフォーマンスに妥協しません。
Pixtral は、ゼロからトレーニングされた新しいビジョン エンコーダーを使用しており、自然な解像度とアスペクト比で画像を取り込むことができます。
これにより、ユーザーは画像の処理に使用するトークンの数を柔軟に設定できるようになります。
Pixtral は、128K トークンの長いコンテキスト ウィンドウ内で任意の数の画像を処理することもできます。
Pixtral 12B は、同様のサイズの他のオープン モデル (Llama-3.2 11B & Qwen-2-VL 7B) よりも大幅に優れています。
また、7 分の 1 の小型ながら、Llama-3.2 90B のようなはるかに大型のオープン モデルよりも優れたパフォーマンスを発揮します。
さらに、実用的なシナリオでビジョン言語モデルを評価するためのオープンソース ベンチマーク MM-MT-Bench に貢献し、マルチモーダル LLM の標準化された評価プロトコルの詳細な分析とコードを提供します。
Pixtral-12B は、Apache 2.0 ライセンスに基づいてリリースされています。

要約(オリジナル)

We introduce Pixtral-12B, a 12–billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

arxiv情報

著者 Pravesh Agrawal,Szymon Antoniak,Emma Bou Hanna,Devendra Chaplot,Jessica Chudnovsky,Saurabh Garg,Theophile Gervet,Soham Ghosh,Amélie Héliou,Paul Jacob,Albert Q. Jiang,Timothée Lacroix,Guillaume Lample,Diego Las Casas,Thibaut Lavril,Teven Le Scao,Andy Lo,William Marshall,Louis Martin,Arthur Mensch,Pavankumar Muddireddy,Valera Nemychnikova,Marie Pellat,Patrick Von Platen,Nikhil Raghuraman,Baptiste Rozière,Alexandre Sablayrolles,Lucile Saulnier,Romain Sauvestre,Wendy Shang,Roman Soletskyi,Lawrence Stewart,Pierre Stock,Joachim Studnia,Sandeep Subramanian,Sagar Vaze,Thomas Wang
発行日 2024-10-09 17:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

JPEG Inspired Deep Learning

要約

従来、JPEG 圧縮などの非可逆画像圧縮はディープ ニューラル ネットワーク (DNN) のパフォーマンスに悪影響を与えると考えられてきましたが、最近の研究では、巧妙に作成された JPEG 圧縮によって実際にディープ ラーニングのパフォーマンスが向上することが示されています。
(DL)。
これに触発されて、私たちは、基礎となる DNN アーキテクチャの前にトレーニング可能な JPEG 圧縮層を付加する新しい DL フレームワークである JPEG-DL を提案します。
JPEG 圧縮の量子化操作をトレーニング可能にするために、新しい微分可能なソフト量子化器が JPEG 層で採用され、量子化操作と基礎となる DNN が共同でトレーニングされます。
広範な実験により、標準 DL と比較して、JPEG-DL はさまざまなデータセットおよびモデル アーキテクチャにわたって精度が大幅に向上し、同時に敵対的攻撃に対する堅牢性が向上することが示されています。
特に、一部のきめの細かい画像分類データセットでは、JPEG-DL は予測精度を 20.9% も向上させることができます。
私たちのコードは https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git で入手できます。

要約(オリジナル)

Although it is traditionally believed that lossy image compression, such as JPEG compression, has a negative impact on the performance of deep neural networks (DNNs), it is shown by recent works that well-crafted JPEG compression can actually improve the performance of deep learning (DL). Inspired by this, we propose JPEG-DL, a novel DL framework that prepends any underlying DNN architecture with a trainable JPEG compression layer. To make the quantization operation in JPEG compression trainable, a new differentiable soft quantizer is employed at the JPEG layer, and then the quantization operation and underlying DNN are jointly trained. Extensive experiments show that in comparison with the standard DL, JPEG-DL delivers significant accuracy improvements across various datasets and model architectures while enhancing robustness against adversarial attacks. Particularly, on some fine-grained image classification datasets, JPEG-DL can increase prediction accuracy by as much as 20.9%. Our code is available on https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git.

arxiv情報

著者 Ahmed H. Salamah,Kaixiang Zheng,Yiwen Liu,En-Hui Yang
発行日 2024-10-09 17:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments

要約

この研究では、商業果樹園における緑色の果物の検出のために、YOLOv8、YOLOv9、YOLOv10、YOLO11 のすべての構成 (合計 22) で You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価しました。
この研究では、Scifresh、Scilate、Honeycrisp、Cosmic Crisp の 4 つのリンゴ品種について、iPhone とマシン ビジョン センサーを使用した圃場での子実数の計数も検証されました。
評価された 22 の構成の中で、YOLO11s と YOLOv9 ジェランベースは、それぞれ 0.933 と 0.935 の mAP@50 スコアで他の構成を上回りました。
リコールに関しては、YOLOv9 ジェランベースが 0.899 で YOLOv9 構成の中で最も高い値を達成し、YOLO11m は 0.897 で YOLO11 バリアントを上回りました。
YOLO11n は最速のモデルとして登場し、わずか 2.4 ミリ秒の最速推論速度を達成し、主要な構成である YOLOv10n、YOLOv9 gelan-s、YOLOv8n の速度 (それぞれ 5.5、11.5、および 4.1 ミリ秒) を大幅に上回りました。
この比較評価は、YOLO11、YOLOv9、および YOLOv10 の強みを強調し、商業果樹園における子実の検出と可能な自動化に最適なモデルを選択するための重要な洞察を研究者に提供します。
関連するデータセットでのリアルタイム自動化関連の作業には、検出速度と画像処理速度が高い YOLO11n を使用することをお勧めします。
キーワード: YOLO11、YOLO11 オブジェクト検出、YOLOv10、YOLOv9、YOLOv8、You Only Look Once、小果実検出、緑の果物検出、青リンゴ検出、農業オートメーション、人工知能、深層学習、機械学習、ゼロショット検出

要約(オリジナル)

This study extensively evaluated You Only Look Once (YOLO) object detection algorithms across all configurations (total 22) of YOLOv8, YOLOv9, YOLOv10, and YOLO11 for green fruit detection in commercial orchards. The research also validated in-field fruitlet counting using an iPhone and machine vision sensors across four apple varieties: Scifresh, Scilate, Honeycrisp and Cosmic Crisp. Among the 22 configurations evaluated, YOLO11s and YOLOv9 gelan-base outperformed others with mAP@50 scores of 0.933 and 0.935 respectively. In terms of recall, YOLOv9 gelan-base achieved the highest value among YOLOv9 configurations at 0.899, while YOLO11m led YOLO11 variants with 0.897. YOLO11n emerged as the fastest model, achieving fastest inference speed of only 2.4 ms, significantly outpacing the leading configurations of YOLOv10n, YOLOv9 gelan-s, and YOLOv8n, with speeds of 5.5, 11.5, and 4.1 ms, respectively. This comparative evaluation highlights the strengths of YOLO11, YOLOv9, and YOLOv10, offering researchers essential insights to choose the best-suited model for fruitlet detection and possible automation in commercial orchards. For real-time automation related work in relevant datasets, we recommend using YOLO11n due to its high detection and image processing speed. Keywords: YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, Artificial Intelligence, Deep Learning, Machine Learning, Zero-shot Detection

arxiv情報

著者 Ranjan Sapkota,Zhichao Meng,Martin Churuvija,Xiaoqiang Du,Zenghong Ma,Manoj Karkee
発行日 2024-10-09 17:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする