Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

要約

意味的テキストの類似性は、2 つのテキストの意味間の類似性を推定するタスクです。
このペーパーでは、モデルを部分的に調整してからエンドツーエンドで調整することにより、セマンティック テキスト類似性ベンチマークでセマンティック テキスト類似性のトランスフォーマー アーキテクチャを微調整します。
バイナリ分類タスクまたは回帰タスクとして問題にアプローチすることにより、BERT、RoBERTa、および DeBERTaV3 クロス エンコーダーを実験します。
トランス モデルの出力を結合し、ブースト アルゴリズムの入力として手作りの機能を使用します。
検証セットの改善に加えてテストセットの結果が悪化したため、この発生をさらに調査するために、さまざまなデータセットの分割を実験します。
予測範囲の端に焦点を当てた誤差分析も提供します。

要約(オリジナル)

Semantic textual similarity is the task of estimating the similarity between the meaning of two texts. In this paper, we fine-tune transformer architectures for semantic textual similarity on the Semantic Textual Similarity Benchmark by tuning the model partially and then end-to-end. We experiment with BERT, RoBERTa, and DeBERTaV3 cross-encoders by approaching the problem as a binary classification task or a regression task. We combine the outputs of the transformer models and use handmade features as inputs for boosting algorithms. Due to worse test set results coupled with improvements on the validation set, we experiment with different dataset splits to further investigate this occurrence. We also provide an error analysis, focused on the edges of the prediction range.

arxiv情報

著者 Ivan Rep,Vladimir Čeperić
発行日 2023-06-01 14:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク