Exploring Italian sentence embeddings properties through multi-tasking

要約

マルチタスク設定において、既存の LLM がイタリア語の抽象言語情報をどの程度エンコードしているかを調査します。
私たちは、厳選された合成データ (イタリア語のいくつかの Blackbird Language Matrices (BLM) 問題) を大規模に活用し、事前トレーニングされた言語モデルを使用して構築された文表現が特定の構文情報と意味情報をどのようにエンコードするかを研究するために使用します。
2 レベルのアーキテクチャを使用して、タスクと BLM タスクに関連する情報を含む表現への文の埋め込みの圧縮を個別にモデル化します。
次に、いくつかの BLM タスクに関連する構文情報および意味情報をエンコードする圧縮文表現を取得できるかどうかを調査します。
フレーズ/チャンクのシーケンスという文の構造とチャンクのプロパティがタスク間で共有できると予想していましたが、パフォーマンスとエラーの分析では、さまざまなタスクのヒントが文の埋め込みにさまざまな方法でエンコードされていることがわかりました。
これは、構成要素や主題の役割などの抽象的な言語概念が、事前学習された文の埋め込みには存在しないように見えることを示唆しています。

要約(オリジナル)

We investigate to what degree existing LLMs encode abstract linguistic information in Italian in a multi-task setting. We exploit curated synthetic data on a large scale — several Blackbird Language Matrices (BLMs) problems in Italian — and use them to study how sentence representations built using pre-trained language models encode specific syntactic and semantic information. We use a two-level architecture to model separately a compression of the sentence embeddings into a representation that contains relevant information for a task, and a BLM task. We then investigate whether we can obtain compressed sentence representations that encode syntactic and semantic information relevant to several BLM tasks. While we expected that the sentence structure — in terms of sequence of phrases/chunks — and chunk properties could be shared across tasks, performance and error analysis show that the clues for the different tasks are encoded in different manners in the sentence embeddings, suggesting that abstract linguistic notions such as constituents or thematic roles does not seem to be present in the pretrained sentence embeddings.

arxiv情報

著者 Vivi Nastase,Giuseppe Samo,Chunyang Jiang,Paola Merlo
発行日 2024-09-10 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク