InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

要約

タイトル: 「InternChat:言語以外の要素を利用したチャットボットとのやりとりによるビジョン中心のタスクの解決」

要約:
– iChatと呼ばれるインタラクティブなビジュアルフレームワークを提案する。
– iChatフレームワークは、ChatGPTなどのプランニングや推論能力を持つチャットボットを、ポイントの動きなどの非言語的な指示と統合することで、直接画像や動画を編集および生成できるようにする。
– ポイント動作(ジェスチャー、カーソルなどを含む)は、微細な制御、編集、およびビジュアルコンテンツの生成が必要なビジョン中心のタスクをより柔軟かつ正確に実行できる。
– iChatは、純粋な言語に頼る既存のインタラクティブシステムとは異なり、ポイント指示を組み込むことで、ユーザーとチャットボットの間のコミュニケーション効率とチャットボットの精度を著しく改善する。
– iChatでは、LLMの制御能力を向上させるために補助的な制御機構が使用され、高品質のマルチモーダル対話のためにHuskyと呼ばれる大規模なビジョン言語モデルが微調整された。
– この研究が今後のインタラクティブビジュアルシステムに新しいアイデアや方向性を提供することを期待している。また、コードはhttps://github.com/OpenGVLab/InternChatで公開されている。

要約(オリジナル)

We present an interactive visual framework named InternChat, or iChat for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternChat stands for interaction, nonverbal, and chatbots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iChat significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iChat, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternChat.

arxiv情報

著者 Zhaoyang Liu,Yinan He,Wenhai Wang,Weiyun Wang,Yi Wang,Shoufa Chen,Qinglong Zhang,Yang Yang,Qingyun Li,Jiashuo Yu,Kunchang Li,Zhe Chen,Xue Yang,Xizhou Zhu,Yali Wang,Limin Wang,Ping Luo,Jifeng Dai,Yu Qiao
発行日 2023-05-10 17:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク