要約
手動でアノテーションが付けられたデータセットである QueryNER と、電子商取引クエリ セグメンテーション用の付随モデルを紹介します。
電子商取引のためのシーケンスラベル付けのこれまでの取り組みは主に、商品タイトルの一部や、狭義の側面に対するクエリの抽出に焦点を当てた側面値抽出に取り組んできた。
私たちの取り組みは、クエリを広く適用可能な型を持つ意味のあるチャンクに分割するという目標に焦点を当てています。
ベースラインのタグ付け結果を報告し、null および低再現率クエリの回復のためのトークンとエンティティのドロップを比較する実験を実施します。
自動変換を使用して困難なテスト セットが作成され、シンプルなデータ拡張手法によってモデルがノイズに対してどのように堅牢になるかを示します。
QueryNER データセットを一般公開します。
要約(オリジナル)
We present QueryNER, a manually-annotated dataset and accompanying model for e-commerce query segmentation. Prior work in sequence labeling for e-commerce has largely addressed aspect-value extraction which focuses on extracting portions of a product title or query for narrowly defined aspects. Our work instead focuses on the goal of dividing a query into meaningful chunks with broadly applicable types. We report baseline tagging results and conduct experiments comparing token and entity dropping for null and low recall query recovery. Challenging test sets are created using automatic transformations and show how simple data augmentation techniques can make the models more robust to noise. We make the QueryNER dataset publicly available.
arxiv情報
著者 | Chester Palen-Michel,Lizzie Liang,Zhe Wu,Constantine Lignos |
発行日 | 2024-05-15 16:58:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google