LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback

要約

オンラインでの議論が礼儀正しく生産的であることを保証することは、ソーシャル メディア プラットフォームにとって大きな課題です。
このようなプラットフォームは通常、ユーザーと自動検出ツールの両方に依存して、他のユーザーの不適切な議論にフラグを立て、モデレーターがレビューします。
ただし、この種の事後モデレーションは費用と時間がかかり、モデレータはフラグが立てられたコンテンツの量と重大度に圧倒されることがよくあります。
代わりに、有望な代替案は、コンテンツ作成中の否定的な動作を防止することです。
この論文では、議論における不適切な言葉遣いを計算によってどのように軽減できるかを研究します。
私たちは、既存の分類器に基づいてコンテンツの保存と適切性のバランスをとる強化学習ベースの書き換えアプローチを提案し、最初のポリシーとして命令を微調整した大規模言語モデル (LLM) を促します。
関連するスタイル転送タスクとは異なり、不適切な引数を書き換えることにより、コンテンツを永久に削除および追加できます。
したがって、文レベルではなく文書レベルで取り組みます。
私たちは、人間の絶対評価研究と相対評価研究の両方で、報酬関数のさまざまな重み付けスキームを評価します。
非並列データに関する体系的な実験は、私たちのアプローチが議論の内容をほぼ維持しながら、議論の不適切さを軽減できるという証拠を提供します。
少数ショット学習、プロンプト、人間などの競合ベースラインを大幅に上回ります。

要約(オリジナル)

Ensuring that online discussions are civil and productive is a major challenge for social media platforms. Such platforms usually rely both on users and on automated detection tools to flag inappropriate arguments of other users, which moderators then review. However, this kind of post-hoc moderation is expensive and time-consuming, and moderators are often overwhelmed by the amount and severity of flagged content. Instead, a promising alternative is to prevent negative behavior during content creation. This paper studies how inappropriate language in arguments can be computationally mitigated. We propose a reinforcement learning-based rewriting approach that balances content preservation and appropriateness based on existing classifiers, prompting an instruction-finetuned large language model (LLM) as our initial policy. Unlike related style transfer tasks, rewriting inappropriate arguments allows deleting and adding content permanently. It is therefore tackled on document level rather than sentence level. We evaluate different weighting schemes for the reward function in both absolute and relative human assessment studies. Systematic experiments on non-parallel data provide evidence that our approach can mitigate the inappropriateness of arguments while largely preserving their content. It significantly outperforms competitive baselines, including few-shot learning, prompting, and humans.

arxiv情報

著者 Timon Ziegenbein,Gabriella Skitalinskaya,Alireza Bayat Makou,Henning Wachsmuth
発行日 2024-06-05 15:18:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク