InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

要約

我々は、InternGPT(略してiGPT)と名付けられた対話型ビジュアルフレームワークを発表する。このフレームワークは、ChatGPTのような計画・推論機能を持つチャットボットと、ユーザーが画面上の画像や動画を直接操作できるポインティング動作のような非言語的指示を統合するものです。ポインティング(ジェスチャー、カーソルなどを含む)動作は、ビジュアルコンテンツのきめ細かな制御、編集、生成を必要とするビジョンセントリックなタスクの実行において、より柔軟で正確な操作を可能にします。InternGPTという名称は、⾳⾳インタラクション、⾳⾳オンバーバル、⾳チャットボットの略です。提案するiGPTは、純粋な言語に依存する既存の対話システムとは異なり、ポインティング指示を取り入れることで、ユーザーとチャットボットのコミュニケーション効率を大幅に向上させるとともに、視覚中心のタスク、特にオブジェクト数が2以上の複雑な視覚シナリオにおけるチャットボットの精度を向上させます。さらに、iGPTでは、LLMの制御能力を向上させるために補助制御機構を使用し、Huskyと呼ばれる大規模な視覚言語モデルを微調整して、高品質のマルチモーダル対話(ChatGPT-3.5-turboでGPT-4品質93.89%に感動させる)を実現しています。この研究が、将来の対話型視覚システムのための新しいアイデアと方向性を喚起することを期待しています。コードは https://github.com/OpenGVLab/InternGPT でご覧いただけます。

要約(オリジナル)

We present an interactive visual framework named InternGPT, or iGPT for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternGPT stands for \textbf{inter}action, \textbf{n}onverbal, and \textbf{chat}bots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iGPT significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iGPT, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89\% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternGPT.

arxiv情報

著者 Zhaoyang Liu,Yinan He,Wenhai Wang,Weiyun Wang,Yi Wang,Shoufa Chen,Qinglong Zhang,Zeqiang Lai,Yang Yang,Qingyun Li,Jiashuo Yu,Kunchang Li,Zhe Chen,Xue Yang,Xizhou Zhu,Yali Wang,Limin Wang,Ping Luo,Jifeng Dai,Yu Qiao
発行日 2023-06-02 16:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク