A Graph Diffusion Algorithm for Lexical Similarity Evaluation

要約

このホワイトペーパーでは、特定の言語といくつかの参照言語クラスター間の語彙的類似性を評価するためのアルゴリズムを提示します。
入力として、概念のリストと、考慮されたすべての言語で対応する翻訳があります。
さらに、各参照言語は、$ c $言語クラスターの1つに割り当てられます。
各概念について、アルゴリズムは各翻訳のペア間の距離を計算します。
これらの距離に基づいて、すべての頂点が言語を表す加重指向グラフを構築します。
その後、Dirichlet境界条件を持つグラフ拡散方程式を解きます。そこでは、不明は頂点から$ \ Mathbb {r}^c $に設定された頂点からのマップです。
結果の座標は、間隔$ [0,1] $の値であり、それらは各クラスターに属する確率として、または参照クラスターに関する語彙的類似性分布として解釈できます。
翻訳間の距離は、音声転写とダメラフヴェンシュテイン距離の修正を使用して計算されます。
このアルゴリズムは、多言語の地域で話されている言語間の関係を多くの相互の影響を与え、分析するのに役立ちます。
さまざまなヨーロッパの言語に関するケーススタディを提示することにより、これを実証します。

要約(オリジナル)

In this paper, we present an algorithm for evaluating lexical similarity between a given language and several reference language clusters. As an input, we have a list of concepts and the corresponding translations in all considered languages. Moreover, each reference language is assigned to one of $c$ language clusters. For each of the concepts, the algorithm computes the distance between each pair of translations. Based on these distances, it constructs a weighted directed graph, where every vertex represents a language. After, it solves a graph diffusion equation with a Dirichlet boundary condition, where the unknown is a map from the vertex set to $\mathbb{R}^c$. The resulting coordinates are values from the interval $[0,1]$ and they can be interpreted as probabilities of belonging to each of the clusters or as a lexical similarity distribution with respect to the reference clusters. The distances between translations are calculated using phonetic transcriptions and a modification of the Damerau-Levenshtein distance. The algorithm can be useful in analyzing relationships between languages spoken in multilingual territories with a lot of mutual influences. We demonstrate this by presenting a case study regarding various European languages.

arxiv情報

著者 Karol Mikula,Mariana Sarkociová Remešíková
発行日 2025-04-09 12:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 00A69, 05C90, 91F20, cs.CL パーマリンク