FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework


最先端のビュー合成手法を活用して、あらゆる種類の果物を 3D で直接カウントする、統合された新しい果物計数フレームワークである FruitNeRF を紹介します。
私たちのシステムを果物の種類に依存しないようにするために、あらゆる果物に対してバイナリ セグメンテーション マスクを生成する基礎モデルを採用します。
RGB とセマンティックの両方のモダリティを利用して、セマンティック ニューラル放射輝度フィールドをトレーニングします。
暗黙的なフルーツ フィールドの均一なボリューム サンプリングを通じて、フルーツのみの点群を取得します。
抽出された点群にカスケード クラスタリングを適用することで、私たちのアプローチは正確な果物の個数を実現します。ニューラル放射フィールドの使用は、個数のカウント自体が 3D に引き上げられるため、オブジェクト トラッキングやオプティカル フローなどの従来の方法に比べて大きな利点をもたらします。
現実世界のデータセットは、手動でカウントされたグラウンド トゥルースを含む 3 本のリンゴの木、1 行とグラウンド トゥルースの果物の位置を含むベンチマーク リンゴ データセットで構成されます。一方、合成データセットは、リンゴ、プラム、レモン、ナシ、モモ、マンゴーなどのさまざまな種類の果物で構成されます。
さらに、基礎モデルを使用して果実計数のパフォーマンスを U-Net と比較して評価します。


We introduce FruitNeRF, a unified novel fruit counting framework that leverages state-of-the-art view synthesis methods to count any fruit type directly in 3D. Our framework takes an unordered set of posed images captured by a monocular camera and segments fruit in each image. To make our system independent of the fruit type, we employ a foundation model that generates binary segmentation masks for any fruit. Utilizing both modalities, RGB and semantic, we train a semantic neural radiance field. Through uniform volume sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By applying cascaded clustering on the extracted point cloud, our approach achieves precise fruit count.The use of neural radiance fields provides significant advantages over conventional methods such as object tracking or optical flow, as the counting itself is lifted into 3D. Our method prevents double counting fruit and avoids counting irrelevant fruit.We evaluate our methodology using both real-world and synthetic datasets. The real-world dataset consists of three apple trees with manually counted ground truths, a benchmark apple dataset with one row and ground truth fruit location, while the synthetic dataset comprises various fruit types including apple, plum, lemon, pear, peach, and mango.Additionally, we assess the performance of fruit counting using the foundation model compared to a U-Net.


著者 Lukas Meyer,Andreas Gilson,Ute Schmidt,Marc Stamminger
発行日 2024-08-12 14:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク