要約
マルチモーダルコンテンツの出現、特にソーシャルメディアでのテキストと画像は、自然言語処理における研究のますます重要な領域として、マルチモーダルという名前のエンティティ認識(MNER)を位置づけています。
英語などの高リソース言語の進歩にもかかわらず、Mnerはウルドゥー語のような低リソース言語では既知のままです。
主な課題には、注釈付きマルチモーダルデータセットの希少性と標準化されたベースラインの欠如が含まれます。
これらの課題に対処するために、U-Mnerフレームワークを紹介し、Urdu Mnerの先駆的なリソースであるTwitter2015-Urduデータセットをリリースします。
広く使用されているTwitter2015データセットから適合し、ウルドゥー固有の文法ルールが注釈が付けられています。
このデータセット上のテキストベースモデルとマルチモーダルモデルの両方を評価することにより、ベンチマークベースラインを確立し、ウルドゥーMNERの将来の研究をサポートするための比較分析を提供します。
U-Mnerフレームワークは、テキストの埋め込みにUrdu-Bertを使用してテキストと視覚のコンテキストを統合し、視覚的な特徴抽出に再ネットを統合します。
私たちのモデルは、Twitter2015-urduデータセットで最先端のパフォーマンスを実現し、低リソース言語でのさらなるMNER研究の基礎を築きます。
要約(オリジナル)
The emergence of multimodal content, particularly text and images on social media, has positioned Multimodal Named Entity Recognition (MNER) as an increasingly important area of research within Natural Language Processing. Despite progress in high-resource languages such as English, MNER remains underexplored for low-resource languages like Urdu. The primary challenges include the scarcity of annotated multimodal datasets and the lack of standardized baselines. To address these challenges, we introduce the U-MNER framework and release the Twitter2015-Urdu dataset, a pioneering resource for Urdu MNER. Adapted from the widely used Twitter2015 dataset, it is annotated with Urdu-specific grammar rules. We establish benchmark baselines by evaluating both text-based and multimodal models on this dataset, providing comparative analyses to support future research on Urdu MNER. The U-MNER framework integrates textual and visual context using Urdu-BERT for text embeddings and ResNet for visual feature extraction, with a Cross-Modal Fusion Module to align and fuse information. Our model achieves state-of-the-art performance on the Twitter2015-Urdu dataset, laying the groundwork for further MNER research in low-resource languages.
arxiv情報
著者 | Hussain Ahmad,Qingyang Zeng,Jing Wan |
発行日 | 2025-05-08 11:38:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google