Rosetta Stone at the Arabic Reverse Dictionary Shared Task: A Hop From Language Modeling To Word–Definition Alignment

要約

逆引き辞書は、ユーザーが提供された定義、意味、説明に基づいて単語を発見できるツールです。
このようなテクニックは、さまざまなシナリオで価値があることが証明されており、単語の正体を知らずに単語の説明を知っている言語学習者を助け、正確な用語を求める作家に利益をもたらします。
これらのシナリオは、多くの場合、「舌先」 (TOT) 現象と呼ばれるものをカプセル化しています。
この作業では、アラビア語逆引き辞書の共有タスクに対する成功したソリューションを紹介します。
このタスクは、アラビア語の単語のベクトル表現を、それに付随する説明から導出することに焦点を当てています。
共有タスクには 2 つの異なるサブタスクが含まれます。1 つ目は入力としてアラビア語の定義を使用し、2 つ目は英語の定義を使用します。
最初のサブタスクでは、私たちのアプローチは微調整されたアラビア語 BERT ベースのモデルのアンサンブルに依存し、特定の定義に対する単語の埋め込みを予測します。
最終的な表現は、アンサンブル内の各モデルからの出力埋め込みを平均することによって取得されます。
対照的に、2 番目のサブタスクの最も効果的な解決策には、英語のテスト定義をアラビア語に翻訳し、それを最初のサブタスク用にトレーニングされた微調整モデルに適用することが含まれます。
この単純な方法では、両方のサブタスクにわたって最高のスコアが得られます。

要約(オリジナル)

A Reverse Dictionary is a tool enabling users to discover a word based on its provided definition, meaning, or description. Such a technique proves valuable in various scenarios, aiding language learners who possess a description of a word without its identity, and benefiting writers seeking precise terminology. These scenarios often encapsulate what is referred to as the ‘Tip-of-the-Tongue’ (TOT) phenomena. In this work, we present our winning solution for the Arabic Reverse Dictionary shared task. This task focuses on deriving a vector representation of an Arabic word from its accompanying description. The shared task encompasses two distinct subtasks: the first involves an Arabic definition as input, while the second employs an English definition. For the first subtask, our approach relies on an ensemble of finetuned Arabic BERT-based models, predicting the word embedding for a given definition. The final representation is obtained through averaging the output embeddings from each model within the ensemble. In contrast, the most effective solution for the second subtask involves translating the English test definitions into Arabic and applying them to the finetuned models originally trained for the first subtask. This straightforward method achieves the highest score across both subtasks.

arxiv情報

著者 Ahmed ElBakry,Mohamed Gabr,Muhammad ElNokrashy,Badr AlKhamissi
発行日 2023-11-10 13:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク