Stylomech: Unveiling Authorship via Computational Stylometry in English and Romanized Sinhala

要約

Web 2.0 の出現により、ソーシャル テクノロジーの発展とグローバル コミュニケーションが体系的に社会にプラスとマイナスの影響をもたらしました。
社会における適切な倫理の欠如により、コンテンツ違反が大幅に増加しているため、著作権の申し立てと作者の特定は重要であると考えられています。
英語とローマ字化されたシンハラ語の両方での著者の帰属は、過去数十年で主要な要件になりました。
特にローマ字化されたシンハラ語の文脈ではほとんど未踏の領域として、この研究は計算言語学の分野に大きく貢献します。
提案された著者帰属システムは、疑わしい著者と匿名のテキストという 2 つのテキスト セットのみの比較を可能にする独自のアプローチを提供しており、大規模なコーパスに依存することが多い従来の方法論とは異なります。
この研究は、同じ著者と異なる著者のさまざまなペアの数値表現を使用することに焦点を当てており、テキストではなくこれらの表現でモデルをトレーニングできるようにしています。これにより、疑わしい問題を考慮して、多数の著者とコンテキストに適用できるようになります。
著者のテキストと匿名のテキストは妥当な品質です。
著者の帰属の範囲を多様な言語的文脈を包含するように拡大することにより、この研究は、特にスリランカにおけるデジタルコミュニケーションにおける信頼と説明責任の促進に貢献します。
この研究は、英語とローマ字シンハラ語の両方で著者の帰属に対する先駆的なアプローチを提示し、デジタル時代におけるコンテンツ検証と知的財産権の執行の重要なニーズに対処します。

要約(オリジナル)

With the advent of Web 2.0, the development in social technology coupled with global communication systematically brought positive and negative impacts to society. Copyright claims and Author identification are deemed crucial as there has been a considerable amount of increase in content violation owing to the lack of proper ethics in society. The Author’s attribution in both English and Romanized Sinhala became a major requirement in the last few decades. As an area largely unexplored, particularly within the context of Romanized Sinhala, the research contributes significantly to the field of computational linguistics. The proposed author attribution system offers a unique approach, allowing for the comparison of only two sets of text: suspect author and anonymous text, a departure from traditional methodologies which often rely on larger corpora. This work focuses on using the numerical representation of various pairs of the same and different authors allowing for, the model to train on these representations as opposed to text, this allows for it to apply to a multitude of authors and contexts, given that the suspected author text, and the anonymous text are of reasonable quality. By expanding the scope of authorship attribution to encompass diverse linguistic contexts, the work contributes to fostering trust and accountability in digital communication, especially in Sri Lanka. This research presents a pioneering approach to author attribution in both English and Romanized Sinhala, addressing a critical need for content verification and intellectual property rights enforcement in the digital age.

arxiv情報

著者 Nabeelah Faumi,Adeepa Gunathilake,Benura Wickramanayake,Deelaka Dias,TGDK Sumanathilaka
発行日 2025-01-16 14:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク