Multimodal Structure-Aware Quantum Data Processing

要約

大規模言語モデル (LLM) は自然言語処理 (NLP) の分野を進歩させてきましたが、その「ブラック ボックス」の性質により、意思決定プロセスが曖昧になります。
これに対処するために、研究者は高次テンソルを使用した構造化アプローチを開発しました。
これらは言語関係をモデル化できますが、サイズが大きすぎるため、古典的なコンピューターでトレーニングすると停止します。
テンソルは量子システムに自然に存在するものであり、量子コンピューターでのトレーニングにより、テキストを変分量子回路に変換することで解決策が提供されます。
この論文では、マルチモーダルなテキスト + 画像データを使用した構造認識型データ処理のフレームワークである MultiQ-NLP を開発します。
ここでの「構造」とは、言語における構文的および文法的な関係、および画像における視覚要素の階層的構成を指します。
新しい型と型準同型性で翻訳を強化し、構造を表現するための新しいアーキテクチャを開発します。
主流の画像分類タスク (SVO プローブ) でテストしたところ、私たちの最良のモデルは最先端の古典的なモデルと同等のパフォーマンスを示しました。
さらに、最良のモデルは完全に構造化されていました。

要約(オリジナル)

While large language models (LLMs) have advanced the field of natural language processing (NLP), their ‘black box’ nature obscures their decision-making processes. To address this, researchers developed structured approaches using higher order tensors. These are able to model linguistic relations, but stall when training on classical computers due to their excessive size. Tensors are natural inhabitants of quantum systems and training on quantum computers provides a solution by translating text to variational quantum circuits. In this paper, we develop MultiQ-NLP: a framework for structure-aware data processing with multimodal text+image data. Here, ‘structure’ refers to syntactic and grammatical relationships in language, as well as the hierarchical organization of visual elements in images. We enrich the translation with new types and type homomorphisms and develop novel architectures to represent structure. When tested on a main stream image classification task (SVO Probes), our best model showed a par performance with the state of the art classical models; moreover the best model was fully structured.

arxiv情報

著者 Hala Hawashin,Mehrnoosh Sadrzadeh
発行日 2024-11-11 10:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q12, 68T45, 68T50, 68U10, 68U15, 81P45, 81P68, cs.LG, I.2.10 パーマリンク