Who Are All The Stochastic Parrots Imitating? They Should Tell Us!

要約

スタンドアロン言語モデル (LM) と下流タスク システム内の LM の両方が、事実に反するステートメントを生成することが示されています。
この問題は、トレーニング データが不足しており、高リソース言語よりも品質が低い低リソース言語の場合に特に深刻です。
この意見記事では、現在の状態の LM は重要な状況では決して完全に信頼できるものではないと主張し、この問題に対処する可能性のある新しい戦略を提案します。つまり、出典を引用できるような LM を構築する、つまり、ユーザーにその部分を示すことができるようにするというものです。
出力をバックアップするトレーニング データ。
まず、現在の NLP タスクがそのようなモデルから恩恵を受けるか、あるいは恩恵を受けないかについて説明します。
次に、そのようなモデルがもたらす期待される利点、たとえばステートメントの迅速な検証可能性を強調します。
最後に、引用能力を備えた LM を開発する過程で解決する必要がある個々のタスクの概要を説明します。
私たちは、特に低リソース言語の LM を構築するためのこの分野の現在のアプローチと、モデル生成を説明する際のトレーニング データの役割について議論を開始したいと考えています。

要約(オリジナル)

Both standalone language models (LMs) as well as LMs within downstream-task systems have been shown to generate statements which are factually untrue. This problem is especially severe for low-resource languages, where training data is scarce and of worse quality than for high-resource languages. In this opinion piece, we argue that LMs in their current state will never be fully trustworthy in critical settings and suggest a possible novel strategy to handle this issue: by building LMs such that can cite their sources – i.e., point a user to the parts of their training data that back up their outputs. We first discuss which current NLP tasks would or would not benefit from such models. We then highlight the expected benefits such models would bring, e.g., quick verifiability of statements. We end by outlining the individual tasks that would need to be solved on the way to developing LMs with the ability to cite. We hope to start a discussion about the field’s current approach to building LMs, especially for low-resource languages, and the role of the training data in explaining model generations.

arxiv情報

著者 Sagi Shaier,Lawrence E. Hunter,Katharina von der Wense
発行日 2024-10-29 17:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク