要約
この論文では、さまざまな言語モデルを微調整して候補ソースを再ランク付けすることにより、テキストを書くために使用されるソースを見つけるための新しい方法を検討します。
ベースライン BM25 検索モデルを使用して候補ソースを取得した後、さまざまな再ランキング手法がテストされ、ソース帰属のタスクにおいてそれらの手法がどの程度効果的であるかを確認します。
私たちは、英語版ウィキペディアと中世アラビア語の歴史文書という 2 つのデータセットに対して実験を実施し、さまざまな検索および生成ベースの再ランキング モデルを採用しています。
特に、必要な監視の程度がさまざまな再ランキング モデルのパフォーマンスにどのような影響を与えるかを理解しようとしています。
半教師ありメソッドは、コストがかかる可能性があるターゲット文書とソース文書のスパンレベルのアノテーションを回避しながら、完全教師ありメソッドとほぼ同じくらい効果的であることがわかりました。
要約(オリジナル)
This paper explores new methods for locating the sources used to write a text, by fine-tuning a variety of language models to rerank candidate sources. After retrieving candidates sources using a baseline BM25 retrieval model, a variety of reranking methods are tested to see how effective they are at the task of source attribution. We conduct experiments on two datasets, English Wikipedia and medieval Arabic historical writing, and employ a variety of retrieval and generation based reranking models. In particular, we seek to understand how the degree of supervision required affects the performance of various reranking models. We find that semisupervised methods can be nearly as effective as fully supervised methods while avoiding potentially costly span-level annotation of the target and source documents.
arxiv情報
著者 | Ryan Muther,David Smith |
発行日 | 2023-06-29 22:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google