Red Teaming Language Models for Contradictory Dialogues

要約

現在利用可能なほとんどの言語モデルは、対話中に自己矛盾が発生する傾向があります。
この問題を軽減するために、この研究では、会話内の矛盾した発言を検出して修正することを目的とした、新しい矛盾した対話処理タスクを検討します。
このタスクは、文脈の忠実性と対話理解に関する研究からインスピレーションを受けており、矛盾の検出と理解には詳細な説明が必要になることが多いことが実証されています。
私たちは、会話の一方の側がそれ自体と矛盾する、矛盾した対話で構成されるデータセットを開発します。
各対話には、矛盾の場所と詳細を強調する説明ラベルが付いています。
このデータセットを使用して、矛盾する対話処理のためのレッド チーミング フレームワークを提示します。
フレームワークは対話を検出して説明しようとし、その説明を使用して既存の矛盾したコンテンツを変更します。
私たちの実験では、このフレームワークが矛盾した対話を検出する能力を向上させ、有効な説明を提供することを示しています。
さらに、このようなダイアログを変更するための独自の機能も紹介します。
私たちの研究は、会話型 AI における論理的矛盾の問題の重要性を浮き彫りにしています。

要約(オリジナル)

Most language models currently available are prone to self-contradiction during dialogues. To mitigate this issue, this study explores a novel contradictory dialogue processing task that aims to detect and modify contradictory statements in a conversation. This task is inspired by research on context faithfulness and dialogue comprehension, which have demonstrated that the detection and understanding of contradictions often necessitate detailed explanations. We develop a dataset comprising contradictory dialogues, in which one side of the conversation contradicts itself. Each dialogue is accompanied by an explanatory label that highlights the location and details of the contradiction. With this dataset, we present a Red Teaming framework for contradictory dialogue processing. The framework detects and attempts to explain the dialogue, then modifies the existing contradictory content using the explanation. Our experiments demonstrate that the framework improves the ability to detect contradictory dialogues and provides valid explanations. Additionally, it showcases distinct capabilities for modifying such dialogues. Our study highlights the importance of the logical inconsistency problem in conversational AI.

arxiv情報

著者 Xiaofei Wen,Bangzheng Li,Tenghao Huang,Muhao Chen
発行日 2024-05-17 01:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク