要約
マルチモーダル会話型 AI における未解決の課題には、マルチターン対話用のテキスト ソースおよび非テキスト ソースからの情報を使用して大規模な言語モデルを拡張する必要があります。
この問題に対処するために、このホワイト ペーパーでは、会話テーブル (cTBL) を紹介します。これは、表形式の情報を取得し、取得した情報に基づいて対話応答を生成するための 3 段階のエンコーダー/デコーダー アプローチです。
cTBL は、Dense Table Retrieval に Transformer エンコーダ埋め込みを使用し、HyrbiDialogue データセットでのスパース検索よりも上位 1 位と上位 3 位の精度を最大 5% 向上させます。
さらに、cTBL は、エンコーダー モデルとデコーダー モデルの両方を使用して表形式の知識検索を実行するため、ROUGE スコアが最大 46% 相対的に改善され、HyrbiDialogue での応答生成に対する人間による評価が向上します。
要約(オリジナル)
An open challenge in multimodal conversational AI requires augmenting large language models with information from textual and non-textual sources for multi-turn dialogue. To address this problem, this paper introduces Conversational Tables (cTBL), a three-step encoder-decoder approach to retrieve tabular information and generate dialogue responses grounded on the retrieved information. cTBL uses Transformer encoder embeddings for Dense Table Retrieval and obtains up to 5% relative improvement in Top-1 and Top-3 accuracy over sparse retrieval on the HyrbiDialogue dataset. Additionally, cTBL performs tabular knowledge retrieval using both encoder and decoder models, resulting in up to 46% relative improvement in ROUGE scores and better human evaluation for response generation on HyrbiDialogue.
arxiv情報
著者 | Anirudh S Sundar,Larry Heck |
発行日 | 2023-03-21 17:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google