Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items

要約

この論文では、データセットに微分ぼかしを適用することで眼振の学習現象をシミュレートすることを目的とした新しい方法論を提案します。
眼振は、特に幼児期から成人期にかけて頭の揺れが減少することによって、生涯を通じて人間の視覚に影響を与える生物学的現象です。
この概念を活用して、私たちは差し迫った世界的懸案である廃棄物分類の問題に取り組みます。
提案されたフレームワークは 2 つのモジュールで構成されており、2 番目のモジュールは、分類タスクにおける最先端のモデルであるオリジナルの Vision Transformer によく似ています。
私たちのアプローチの背後にある主な動機は、人間の視覚系が経験する現実世界の条件を反映して、モデルの精度と適応性を向上させることです。
この新しい方法論は、廃棄物分類タスクにおいて標準的な Vision Transformer モデルを上回り、2% の改善を示しています。
この改善は、人間の視覚認識からインスピレーションを得てモデルの精度を向上させるという私たちの方法論の可能性を強調しています。
提案された方法論をさらに研究すると、より優れたパフォーマンス結果が得られる可能性があり、他の地球規模の問題に推定できる可能性があります。

要約(オリジナル)

In this paper, we propose an novel methodology aimed at simulating the learning phenomenon of nystagmus through the application of differential blurring on datasets. Nystagmus is a biological phenomenon that influences human vision throughout life, notably by diminishing head shake from infancy to adulthood. Leveraging this concept, we address the issue of waste classification, a pressing global concern. The proposed framework comprises two modules, with the second module closely resembling the original Vision Transformer, a state-of-the-art model model in classification tasks. The primary motivation behind our approach is to enhance the model’s precision and adaptability, mirroring the real-world conditions that the human visual system undergoes. This novel methodology surpasses the standard Vision Transformer model in waste classification tasks, exhibiting an improvement with a margin of 2%. This improvement underscores the potential of our methodology in improving model precision by drawing inspiration from human vision perception. Further research in the proposed methodology could yield greater performance results, and can be extrapolated to other global issues.

arxiv情報

著者 Akshat Kishore Shrivastava,Tapan Kumar Gandhi
発行日 2023-12-20 18:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, eess.IV, I.2 パーマリンク