Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals

要約

推論能力は基礎モデルの最も重要な能力の 1 つであり、複雑な推論タスクに対処する能力を示します。
思考連鎖 (CoT) 手法は、基礎モデルの推論能力を強化する効果的な手法の 1 つとして広く認識されており、大きな注目を集めています。
ただし、CoT の推論プロセスは個人的な論理的推論に似た直線的で段階的なものであり、一般的で少し複雑な問題を解決するのに適しています。
それに対して、専門家の思考パターンは、高次マルチホップ推論とマルチモーダル比較判断という、CoTでは適切に扱うことができない2つの顕著な特徴を持っています。
したがって、この論文の中心的な動機は、CoT を超越して、専門家のように考えることができる推論パラダイムを構築することです。
ハイパーグラフのハイパーエッジはさまざまな頂点を接続できるため、高次の関係をモデル化するのに自然に適しています。
これに触発されて、この論文はマルチモーダル Hypergraph-of-Thought (HoT) 推論パラダイムを革新的に提案します。これにより、基礎モデルが高次マルチホップ推論とマルチモーダル比較判断の専門家レベルの能力を持つことが可能になります。
具体的には、高次の関係をモデル化するための主要な思考としてトリプルを利用してテキストのハイパーグラフ思考が構築され、マルチホップ推論を達成するためにマルチホップ ウォーキング パスを通じてハイパーエッジ思考が生成されます。
さらに、マルチモーダル比較検証のためのクロスモーダルコ・アテンション・グラフ学習を介してテキストのハイパーグラフと相互作用する視覚的なハイパーグラフを考案します。
ScienceQA ベンチマークの実験では、提案された HoT ベースの T5 が CoT ベースの GPT3.5 および chatGPT を上回るパフォーマンスを示し、これはモデル サイズが小さい CoT ベースの GPT4 と同等です。

要約(オリジナル)

Reasoning ability is one of the most crucial capabilities of a foundation model, signifying its capacity to address complex reasoning tasks. Chain-of-Thought (CoT) technique is widely regarded as one of the effective methods for enhancing the reasoning ability of foundation models and has garnered significant attention. However, the reasoning process of CoT is linear, step-by-step, similar to personal logical reasoning, suitable for solving general and slightly complicated problems. On the contrary, the thinking pattern of an expert owns two prominent characteristics that cannot be handled appropriately in CoT, i.e., high-order multi-hop reasoning and multimodal comparative judgement. Therefore, the core motivation of this paper is transcending CoT to construct a reasoning paradigm that can think like an expert. The hyperedge of a hypergraph could connect various vertices, making it naturally suitable for modelling high-order relationships. Inspired by this, this paper innovatively proposes a multimodal Hypergraph-of-Thought (HoT) reasoning paradigm, which enables the foundation models to possess the expert-level ability of high-order multi-hop reasoning and multimodal comparative judgement. Specifically, a textual hypergraph-of-thought is constructed utilizing triple as the primary thought to model higher-order relationships, and a hyperedge-of-thought is generated through multi-hop walking paths to achieve multi-hop inference. Furthermore, we devise a visual hypergraph-of-thought to interact with the textual hypergraph-of-thought via Cross-modal Co-Attention Graph Learning for multimodal comparative verification. Experimentations on the ScienceQA benchmark demonstrate the proposed HoT-based T5 outperforms CoT-based GPT3.5 and chatGPT, which is on par with CoT-based GPT4 with a lower model size.

arxiv情報

著者 Fanglong Yao,Changyuan Tian,Jintao Liu,Zequn Zhang,Qing Liu,Li Jin,Shuchao Li,Xiaoyu Li,Xian Sun
発行日 2023-08-11 16:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク