Perceptual Quality Assessment for Embodied AI

要約

具体化されたAIは近年急速に発達していますが、それでも主に研究所に展開されており、実際の歪みはそのアプリケーションを制限しています。
伝統的に、歪んだ画像の人間の好みを予測するために、画質評価(IQA)メソッドが適用されています。
ただし、具体化されたタスクでの画像の使いやすさ、つまりロボットの知覚品質を評価するIQAメソッドはありません。
将来の具体化されたシナリオに正確で信頼できる品質指標を提供するために、最初にトピックを提案します:具体化されたAIのIQA。
具体的には、Mertonianシステムとメタ認知理論に基づいて、知覚認知決定パイプラインを構築し、包括的な主観スコア収集プロセスを定義しました。
(2)36K以上の参照/歪んだ画像ペアを含む具体化されたIQAデータベースを確立し、ビジョン言語モデル/ビジョン言語アクションモデル/現実世界ロボットによって提供される5mを超えるファイングレインアノテーション。
(3)具体化されたIQAの主流IQAメソッドのパフォーマンスを訓練および検証し、具体化されたAIのより正確な品質指標を開発する必要性を実証しました。
評価を通じて、現実世界の複雑な歪みの下で具体化されたAIの適用を促進できることを心から願っています。
プロジェクトページ:https://github.com/lcysyzxdxc/embodiediqa

要約(オリジナル)

Embodied AI has developed rapidly in recent years, but it is still mainly deployed in laboratories, with various distortions in the Real-world limiting its application. Traditionally, Image Quality Assessment (IQA) methods are applied to predict human preferences for distorted images; however, there is no IQA method to assess the usability of an image in embodied tasks, namely, the perceptual quality for robots. To provide accurate and reliable quality indicators for future embodied scenarios, we first propose the topic: IQA for Embodied AI. Specifically, we (1) based on the Mertonian system and meta-cognitive theory, constructed a perception-cognition-decision-execution pipeline and defined a comprehensive subjective score collection process; (2) established the Embodied-IQA database, containing over 36k reference/distorted image pairs, with more than 5m fine-grained annotations provided by Vision Language Models/Vision Language Action-models/Real-world robots; (3) trained and validated the performance of mainstream IQA methods on Embodied-IQA, demonstrating the need to develop more accurate quality indicators for Embodied AI. We sincerely hope that through evaluation, we can promote the application of Embodied AI under complex distortions in the Real-world. Project page: https://github.com/lcysyzxdxc/EmbodiedIQA

arxiv情報

著者 Chunyi Li,Jiaohao Xiao,Jianbo Zhang,Farong Wen,Zicheng Zhang,Yuan Tian,Xiangyang Zhu,Xiaohong Liu,Zhengxue Cheng,Weisi Lin,Guangtao Zhai
発行日 2025-05-22 15:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク