The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task

要約

この研究では、言語タスクをサブタスクと中間ステップに分割することで言語タスクを熟達させることで知られる思考連鎖アプローチが、高度な認識と推論を必要とする視覚言語タスクを改善する際の有効性を調査しています。
私たちは、人間が信号を処理する方法にヒントを得た「記述してから決定」戦略を提案します。
この戦略により、探索タスクのパフォーマンスが 50% 大幅に向上し、複雑な視覚言語タスクにおける推論パラダイムに関する将来の研究の基礎が確立されます。

要約(オリジナル)

The study explores the effectiveness of the Chain-of-Thought approach, known for its proficiency in language tasks by breaking them down into sub-tasks and intermediate steps, in improving vision-language tasks that demand sophisticated perception and reasoning. We present the ‘Description then Decision’ strategy, which is inspired by how humans process signals. This strategy significantly improves probing task performance by 50%, establishing the groundwork for future research on reasoning paradigms in complex vision-language tasks.

arxiv情報

著者 Yifan Wu,Pengchuan Zhang,Wenhan Xiong,Barlas Oguz,James C. Gee,Yixin Nie
発行日 2023-11-15 18:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク