要約
動物の行動の分析と検出に使用できる技術の開発は、ストレスと動物福祉を監視でき、農場での意思決定に貢献できるため、畜産部門にとって重要な活動です。
したがって、アプリケーションの開発は、動物の行動が人間によって分析されると、生産パフォーマンスを向上させ、コストを削減するための意思決定をブリーダーが行うのに役立ち、これによりエラーが発生しやすくなり、時間の浪費が発生する可能性があります。
ブタの攻撃性は、動物の分類と識別を通じてその影響を軽減するために研究されている行動の一例です。
ただし、このプロセスは手間がかかり、エラーが発生しやすいため、制御された環境で撮影されたビデオを視覚的に分類することで自動化することでエラーを減らすことができます。
キャプチャされたビデオはトレーニングに使用でき、その結果、ニューラル ネットワーク技術を使用したコンピューター ビジョンと人工知能による分類に使用できます。
この研究で使用される主な技術は、STAM、TimeSformer、ViViT などのトランスフォーマーの変種と、ResNet3D2、Resnet(2+1)D、CnnLstm などの畳み込みを使用する技術です。
これらの技術は、攻撃的な行動と非攻撃的な行動を識別することを目的として、ブタのビデオ分類に使用されました。
この研究では、ビデオ分類における畳み込み技術の有効性に加えて、トランスフォーマーの使用の寄与を分析するためにさまざまな技術が比較されました。
パフォーマンスは、精度、精度、再現率を使用して評価されました。
TimerSformer 手法はビデオ分類において最高の結果を示し、精度中央値は 0.729 でした。
要約(オリジナル)
The development of techniques that can be used to analyze and detect animal behavior is a crucial activity for the livestock sector, as it is possible to monitor the stress and animal welfare and contributes to decision making in the farm. Thus, the development of applications can assist breeders in making decisions to improve production performance and reduce costs, once the animal behavior is analyzed by humans and this can lead to susceptible errors and time consumption. Aggressiveness in pigs is an example of behavior that is studied to reduce its impact through animal classification and identification. However, this process is laborious and susceptible to errors, which can be reduced through automation by visually classifying videos captured in controlled environment. The captured videos can be used for training and, as a result, for classification through computer vision and artificial intelligence, employing neural network techniques. The main techniques utilized in this study are variants of transformers: STAM, TimeSformer, and ViViT, as well as techniques using convolutions, such as ResNet3D2, Resnet(2+1)D, and CnnLstm. These techniques were employed for pig video classification with the objective of identifying aggressive and non-aggressive behaviors. In this work, various techniques were compared to analyze the contribution of using transformers, in addition to the effectiveness of the convolution technique in video classification. The performance was evaluated using accuracy, precision, and recall. The TimerSformer technique showed the best results in video classification, with median accuracy of 0.729.
arxiv情報
著者 | Junior Silva Souza,Eduardo Bedin,Gabriel Toshio Hirokawa Higa,Newton Loebens,Hemerson Pistori |
発行日 | 2024-03-13 13:38:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google