要約
テキストベースの配送先住所には、物流システムのデータ基盤として、重要な位置情報が豊富に含まれています。
配送先住所を効果的にエンコードする方法は、物流システムの下流タスクのパフォーマンスを向上させるための中核的なタスクです。
自然言語処理 (NLP) 用に設計された事前トレーニング済みモデル (PTM) は、テキスト内の意味情報をエンコードするための主要なツールとして登場しました。
これらの NLP ベースの PTM は有望ではありますが、配送先住所の地理情報をエンコードするには不十分であり、Cainiao などの物流システムにおける配送関連タスクのパフォーマンスが大幅に低下します。
上記の問題に取り組むために、G2PTL という名前のドメイン固有の事前トレーニング モデル、つまり物流分野の配送先住所の地理グラフ事前トレーニング モデルを提案します。
G2PTL は、テキスト事前トレーニングのセマンティック学習機能と、グラフ モデリングの地理的関係エンコード機能を組み合わせます。
具体的には、まず現実世界の物流配送データを利用して、豊富な地理的知識と配送情報を含む配送先住所の大規模な異種グラフを構築します。
次に、G2PTL は、異種グラフからサンプリングされたサブグラフを使用して事前トレーニングされます。
現実世界のデータセット上の物流システムにおける 4 つの下流タスクを通じて、G2PTL の有効性を実証するための包括的な実験が行われます。
G2PTL は Cainiao の物流システムの実稼働環境に導入されており、配送関連タスクのパフォーマンスが大幅に向上しています。
G2PTL のコードは https://huggingface.co/Cainiao-AI/G2PTL で入手できます。
要約(オリジナル)
Text-based delivery addresses, as the data foundation for logistics systems, contain abundant and crucial location information. How to effectively encode the delivery address is a core task to boost the performance of downstream tasks in the logistics system. Pre-trained Models (PTMs) designed for Natural Language Process (NLP) have emerged as the dominant tools for encoding semantic information in text. Though promising, those NLP-based PTMs fall short of encoding geographic knowledge in the delivery address, which considerably trims down the performance of delivery-related tasks in logistic systems such as Cainiao. To tackle the above problem, we propose a domain-specific pre-trained model, named G2PTL, a Geography-Graph Pre-trained model for delivery address in Logistics field. G2PTL combines the semantic learning capabilities of text pre-training with the geographical-relationship encoding abilities of graph modeling. Specifically, we first utilize real-world logistics delivery data to construct a large-scale heterogeneous graph of delivery addresses, which contains abundant geographic knowledge and delivery information. Then, G2PTL is pre-trained with subgraphs sampled from the heterogeneous graph. Comprehensive experiments are conducted to demonstrate the effectiveness of G2PTL through four downstream tasks in logistics systems on real-world datasets. G2PTL has been deployed in production in Cainiao’s logistics system, which significantly improves the performance of delivery-related tasks. The code of G2PTL is available at https://huggingface.co/Cainiao-AI/G2PTL.
arxiv情報
著者 | Lixia Wu,Jianlin Liu,Junhong Lou,Haoyuan Hu,Jianbin Zheng,Haomin Wen,Chao Song,Shu He |
発行日 | 2023-08-31 11:14:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google