Reinforcement Learning for SAR View Angle Inversion with Differentiable SAR Renderer

要約

電磁逆問題は、長い間研究のホットスポットでした。
この研究は、ターゲットモデルを与えられた合成開口レーダー (SAR) 画像のレーダー視野角を逆転することを目的としています。
それにもかかわらず、SAR データの不足と、複雑な背景干渉および画像化メカニズムが相まって、既存の学習ベースのアプローチの適用は制限されています。
これらの課題に対処するために、私たちはインタラクティブな深層強化学習 (DRL) フレームワークを提案します。このフレームワークには、微分可能 SAR レンダー (DSR) という名前の電磁シミュレータが組み込まれており、エージェントと環境の間の相互作用を促進し、人間のような角度予測のプロセスをシミュレートします。

具体的には、DSR は任意の視野角で SAR 画像をリアルタイムで生成します。
また、視野角に対応する画像間の連続的および意味的側面の違いを利用して、DRL で状態空間を構築します。これにより、複雑な背景干渉が効果的に抑制され、時間的変化に対する感度が向上し、きめの細かい情報を取得する能力が向上します。

さらに、私たちの方法の安定性と収束を維持するために、メモリ差分、平滑化、境界ペナルティなどの一連の報酬メカニズムを利用して、最終的な報酬関数を形成します。
シミュレートされたデータセットと実際のデータセットの両方で実行された広範な実験により、提案された方法の有効性と堅牢性が実証されています。
クロスドメイン領域で利用された場合、提案された方法は、シミュレートされたドメインと実際のドメイン間の不一致を大幅に軽減し、参照方法を大幅に上回ります。

要約(オリジナル)

The electromagnetic inverse problem has long been a research hotspot. This study aims to reverse radar view angles in synthetic aperture radar (SAR) images given a target model. Nonetheless, the scarcity of SAR data, combined with the intricate background interference and imaging mechanisms, limit the applications of existing learning-based approaches. To address these challenges, we propose an interactive deep reinforcement learning (DRL) framework, where an electromagnetic simulator named differentiable SAR render (DSR) is embedded to facilitate the interaction between the agent and the environment, simulating a human-like process of angle prediction. Specifically, DSR generates SAR images at arbitrary view angles in real-time. And the differences in sequential and semantic aspects between the view angle-corresponding images are leveraged to construct the state space in DRL, which effectively suppress the complex background interference, enhance the sensitivity to temporal variations, and improve the capability to capture fine-grained information. Additionally, in order to maintain the stability and convergence of our method, a series of reward mechanisms, such as memory difference, smoothing and boundary penalty, are utilized to form the final reward function. Extensive experiments performed on both simulated and real datasets demonstrate the effectiveness and robustness of our proposed method. When utilized in the cross-domain area, the proposed method greatly mitigates inconsistency between simulated and real domains, outperforming reference methods significantly.

arxiv情報

著者 Yanni Wang,Hecheng Jia,Shilei Fu,Huiping Lin,Feng Xu
発行日 2024-01-02 11:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク