AcrosticSleuth: Probabilistic Identification and Ranking of Acrostics in Multilingual Corpora

要約

何世紀にもわたって、作家は、連続する行や段落の頭文字が意味のある単語やフレーズを形成するアクロスティックとしてテキストの中にメッセージを隠してきました。
アクロスティクスを手動で検索する学者は、一度に数人の著者にしか焦点を当てることができず、意図的に議論する際には定性的な議論を好むことがよくあります。
私たちは、アクロスティックスを自動的に識別し、文字のシーケンスが偶然に発生しない(したがって、
意図的に挿入されています)。
アクロスティクスはまれであるため、極端なクラスの不均衡が存在する場合の二値分類タスクとして問題を形式化します。
AcrosticSleuth を評価するために、WikiSource オンライン データベースからの acrostics のコレクションである Acrostic Identification Dataset (AcrostID) を紹介します。
クラスの不均衡にもかかわらず、AcroticSleuth は、WikiSource のフランス語、英語、ロシア語のサブドメインでそれぞれ 0.39、0.59、0.66 の F1 スコアを達成しました。
さらに、AcrosticSleuth が、イタリアの人文学者アルベルティーノ ムサートによるアクロスティック スペル ARSPOETICA (「詩の芸術」) やイギリスの哲学者トーマス ホッブズの The Elements of の冒頭の段落の署名など​​、これまで知られていなかった言葉遊びの注目を集めた例を識別できることを示します。
法。

要約(オリジナル)

For centuries, writers have hidden messages in their texts as acrostics, where initial letters of consecutive lines or paragraphs form meaningful words or phrases. Scholars searching for acrostics manually can only focus on a few authors at a time and often favor qualitative arguments in discussing intentionally. We aim to put the study of acrostics on firmer statistical footing by presenting AcrosticSleuth, a first-of-its-kind tool that automatically identifies acrostics and ranks them by the probability that the sequence of characters does not occur by chance (and therefore may have been inserted intentionally). Acrostics are rare, so we formalize the problem as a binary classification task in the presence of extreme class imbalance. To evaluate AcrosticSleuth, we present the Acrostic Identification Dataset (AcrostID), a collection of acrostics from the WikiSource online database. Despite the class imbalance, AcrosticSleuth achieves F1 scores of 0.39, 0.59, and 0.66 on French, English, and Russian subdomains of WikiSource, respectively. We further demonstrate that AcrosticSleuth can identify previously unknown high-profile instances of wordplay, such as the acrostic spelling ARSPOETICA (“art of poetry’) by Italian Humanist Albertino Mussato and English philosopher Thomas Hobbes’ signature in the opening paragraphs of The Elements of Law.

arxiv情報

著者 Aleksandr Fedchin,Isabel Cooperman,Pramit Chaudhuri,Joseph P. Dexter
発行日 2024-08-08 12:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク