要約
動的条件下でのロボットによる把持のためのオブジェクト セグメンテーションは、オクルージョン、低照度条件、モーション ブラー、オブジェクト サイズの変動などの課題に直面することがよくあります。
これらの課題に対処するために、イベントベースのデータと RGB フレーム データの 2 種類の視覚信号を融合するディープ ラーニング ネットワークを提案します。
提案された Bimodal SegNet ネットワークには、信号入力ごとに 1 つと、アトラス畳み込みによる空間ピラミッド型プーリングの 2 つの異なるエンコーダーがあります。
エンコーダーは、連結された特徴をさまざまな解像度でプールすることによって豊富なコンテキスト情報をキャプチャし、デコーダーは明確なオブジェクト境界を取得します。
提案された方法の評価では、イベントベースのセグメンテーション (ESD) データセットで、オクルージョン、ぼかし、明るさ、軌跡、およびスケール分散を含む 5 つの独自の画像劣化の課題に取り組みます。
評価結果は、和集合の平均交差とピクセル精度に関して、最先端の方法よりも 6 ~ 10\% のセグメンテーション精度の向上を示しています。
モデル コードは、https://github.com/sanket0707/Bimodal-SegNet.git で入手できます。
要約(オリジナル)
Object segmentation for robotic grasping under dynamic conditions often faces challenges such as occlusion, low light conditions, motion blur and object size variance. To address these challenges, we propose a Deep Learning network that fuses two types of visual signals, event-based data and RGB frame data. The proposed Bimodal SegNet network has two distinct encoders, one for each signal input and a spatial pyramidal pooling with atrous convolutions. Encoders capture rich contextual information by pooling the concatenated features at different resolutions while the decoder obtains sharp object boundaries. The evaluation of the proposed method undertakes five unique image degradation challenges including occlusion, blur, brightness, trajectory and scale variance on the Event-based Segmentation (ESD) Dataset. The evaluation results show a 6-10\% segmentation accuracy improvement over state-of-the-art methods in terms of mean intersection over the union and pixel accuracy. The model code is available at https://github.com/sanket0707/Bimodal-SegNet.git
arxiv情報
著者 | Sanket Kachole,Xiaoqian Huang,Fariborz Baghaei Naeini,Rajkumar Muthusamy,Dimitrios Makris,Yahya Zweiri |
発行日 | 2023-03-20 16:09:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google