要約
アフォーダンスとは、エージェントが環境から認識し、利用する機能特性を指し、ロボットがアクションを実行するために必要な重要な知覚情報です。
この情報は、本質的に豊かでマルチモーダルです。
既存のマルチモーダルアフォーダンス方法は、主に単純な構造設計、基本的な融合方法、および大規模なモデルパラメーターのために、有用な情報の抽出において制限に直面しているため、実用的な展開のパフォーマンス要件を満たすことが困難です。
これらの問題に対処するために、このホワイトペーパーでは、ビットアライグ画像デプテキストアフォーダンスマッピングフレームワークを提案します。
フレームワークには、バイパスプロンプトモジュール(BPM)とテキスト機能ガイダンス(TFG)の注意選択メカニズムが含まれます。
BPMは、補助モダリティの深さ画像を、プライマリモダリティRGB画像へのプロンプトとして直接統合し、追加のエンコーダーを導入せずにプライマリモダリティエンコーダーに埋め込みます。
これにより、モデルのパラメーターカウントが削減され、機能的な領域のローカリゼーションの精度が効果的に向上します。
TFGメカニズムは、テキスト機能を使用して画像エンコーダ内の注意ヘッドの選択と強化を導き、アフォーダンス特性の理解を改善します。
実験結果は、提案された方法がパブリックAGD20KおよびHICO-IIFデータセットで大幅なパフォーマンスの改善を達成することを示しています。
AGD20Kデータセットでは、現在の最先端の方法と比較して、KLDメトリックで6.0%の改善を達成し、モデルパラメーターを88.8%削減し、実用的なアプリケーション値を実証します。
ソースコードは、https://github.com/dawdse/bit-alignで公開されます。
要約(オリジナル)
Affordance refers to the functional properties that an agent perceives and utilizes from its environment, and is key perceptual information required for robots to perform actions. This information is rich and multimodal in nature. Existing multimodal affordance methods face limitations in extracting useful information, mainly due to simple structural designs, basic fusion methods, and large model parameters, making it difficult to meet the performance requirements for practical deployment. To address these issues, this paper proposes the BiT-Align image-depth-text affordance mapping framework. The framework includes a Bypass Prompt Module (BPM) and a Text Feature Guidance (TFG) attention selection mechanism. BPM integrates the auxiliary modality depth image directly as a prompt to the primary modality RGB image, embedding it into the primary modality encoder without introducing additional encoders. This reduces the model’s parameter count and effectively improves functional region localization accuracy. The TFG mechanism guides the selection and enhancement of attention heads in the image encoder using textual features, improving the understanding of affordance characteristics. Experimental results demonstrate that the proposed method achieves significant performance improvements on public AGD20K and HICO-IIF datasets. On the AGD20K dataset, compared with the current state-of-the-art method, we achieve a 6.0% improvement in the KLD metric, while reducing model parameters by 88.8%, demonstrating practical application values. The source code will be made publicly available at https://github.com/DAWDSE/BiT-Align.
arxiv情報
著者 | Yizhou Huang,Fan Yang,Guoliang Zhu,Gen Li,Hao Shi,Yukun Zuo,Wenrui Chen,Zhiyong Li,Kailun Yang |
発行日 | 2025-03-04 13:20:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google