要約
NLP コミュニティは多言語使用に関連する課題への取り組みを強化しているため、多言語データセットを効率的に処理するには堅牢なアノテーション ツールが不可欠です。
このホワイトペーパーでは、コード混合テキストに注釈を付けるために特別に設計された、コード混合多言語テキスト注釈フレームワーク COMMENTATOR を紹介します。
このツールは、ヒングリッシュ テキストのトークン レベルおよび文レベルの言語注釈タスクでその有効性を実証します。
私たちは人間ベースの堅牢な定性的評価を実行して、COMMENTATOR が最良のベースラインよりも 5 倍高速なアノテーションをもたらしたことを紹介します。
私たちのコードは \url{https://github.com/lingo-iitgn/commentator} で公開されています。
デモビデオは \url{https://bit.ly/commentator_video} でご覧いただけます。
要約(オリジナル)
As the NLP community increasingly addresses challenges associated with multilingualism, robust annotation tools are essential to handle multilingual datasets efficiently. In this paper, we introduce a code-mixed multilingual text annotation framework, COMMENTATOR, specifically designed for annotating code-mixed text. The tool demonstrates its effectiveness in token-level and sentence-level language annotation tasks for Hinglish text. We perform robust qualitative human-based evaluations to showcase COMMENTATOR led to 5x faster annotations than the best baseline. Our code is publicly available at \url{https://github.com/lingo-iitgn/commentator}. The demonstration video is available at \url{https://bit.ly/commentator_video}.
arxiv情報
著者 | Rajvee Sheth,Shubh Nisar,Heenaben Prajapati,Himanshu Beniwal,Mayank Singh |
発行日 | 2024-08-06 11:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google