Complex QA and language models hybrid architectures, Survey

要約

タイトル:複雑なQAおよび言語モデルのハイブリッドアーキテクチャー、サーベイ
要約:

– 論文は、複雑な質問応答(QA、CQA、CPS)のための言語モデルアーキテクチャと戦略の最新状況を調査する。
– 大規模言語モデル(LLM)は、標準的な問題について公共データを活用するのに優れているが、より特定の複雑な問題や問題(たとえば、異なる文化の間で個人の自由の概念がどのように異なるか、気候変動を減らすための最適な発電方法のミックスは何か)に対処するには、特定のアーキテクチャ、知識、スキル、方法、データの保護、説明可能性、人間の承認、多目的フィードバックが必要になる。
– ChatGPTやGALACTICAなどの最近のプロジェクトにより、LLMの複雑なQAにおける大きな可能性と同等に大きな制限を、専門家でなくても理解できるようになった。
– 論文では、必要なスキルと評価技術をレビューし、タスクの複雑性と正確さ(たとえば、公平性、堅牢性、毒性など)の厳密な評価について、オープンソースでベンチマーキングを実施するベンチマークプロジェクトBIG、BLOOM、HELMの研究論文での結果を取り入れた。
– ドメイン適応、分解および効率的な多段階QA、長いフォームおよびノンファクトイドQA、安全性およびマルチセンシティブデータ保護、マルチモーダル検索、幻覚、説明可能性および真実性、時間的推論など、複雑なQAに関連するいくつかの課題についても議論されている。
– 論文では、ハイブリッドLLMアーキテクチャパターン、トレーニングおよび促進戦略、AIによる能動的人間強化学習、神経記号論的および構造化された知識基盤、プログラム合成、反復分解などの要素を使用して、現在の解決策と有望な研究トレンドを分析している。

要約(オリジナル)

This paper reviews the state-of-the-art of language models architectures and strategies for ‘complex’ question-answering (QA, CQA, CPS) with a focus on hybridization. Large Language Models (LLM) are good at leveraging public data on standard problems but once you want to tackle more specific complex questions or problems (e.g. How does the concept of personal freedom vary between different cultures ? What is the best mix of power generation methods to reduce climate change ?) you may need specific architecture, knowledge, skills, methods, sensitive data protection, explainability, human approval and versatile feedback… Recent projects like ChatGPT and GALACTICA have allowed non-specialists to grasp the great potential as well as the equally strong limitations of LLM in complex QA. In this paper, we start by reviewing required skills and evaluation techniques. We integrate findings from the robust community edited research papers BIG, BLOOM and HELM which open source, benchmark and analyze limits and challenges of LLM in terms of tasks complexity and strict evaluation on accuracy (e.g. fairness, robustness, toxicity, …) as a baseline. We discuss some challenges associated with complex QA, including domain adaptation, decomposition and efficient multi-step QA, long form and non-factoid QA, safety and multi-sensitivity data protection, multimodal search, hallucinations, explainability and truthfulness, temporal reasoning. We analyze current solutions and promising research trends, using elements such as: hybrid LLM architectural patterns, training and prompting strategies, active human reinforcement learning supervised with AI, neuro-symbolic and structured knowledge grounding, program synthesis, iterated decomposition and others.

arxiv情報

著者 Xavier Daull,Patrice Bellot,Emmanuel Bruno,Vincent Martin,Elisabeth Murisasco
発行日 2023-04-07 16:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク