要約
Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字スクリプトです。
その絵画的な表意文字の特徴には、豊かな文化的および文脈情報が含まれています。
ただし、関連するデータセットが不足しているため、Dongba Hieroglyphsの意味的理解に関する研究はゆっくりと進行しています。
この目的のために、\ textbf {dongbamie}を作成しました。これは、Dongba絵文字のマルチモーダル情報抽出に焦点を当てた最初のデータセットです。
データセットは、Dongba Hieroglyphic文字の画像と、中国語での対応するセマンティック注釈で構成されています。
23,530レベルと2,539の段落レベルの高品質のテキストイメージペアが含まれています。
注釈は、オブジェクト、アクション、関係、属性の4つのセマンティックディメンションをカバーしています。
主流のマルチモーダル大手言語モデルの体系的な評価は、モデルがゼロショットおよび少数の学習の下でドンバ象形文字の情報抽出を効率的に実行するのが困難であることを示しています。
監視された微調整はパフォーマンスを向上させることができますが、現在、複雑なセマンティクスの正確な抽出は依然として大きな挑戦です。
要約(オリジナル)
Dongba pictographic is the only pictographic script still in use in the world. Its pictorial ideographic features carry rich cultural and contextual information. However, due to the lack of relevant datasets, research on semantic understanding of Dongba hieroglyphs has progressed slowly. To this end, we constructed \textbf{DongbaMIE} – the first dataset focusing on multimodal information extraction of Dongba pictographs. The dataset consists of images of Dongba hieroglyphic characters and their corresponding semantic annotations in Chinese. It contains 23,530 sentence-level and 2,539 paragraph-level high-quality text-image pairs. The annotations cover four semantic dimensions: object, action, relation and attribute. Systematic evaluation of mainstream multimodal large language models shows that the models are difficult to perform information extraction of Dongba hieroglyphs efficiently under zero-shot and few-shot learning. Although supervised fine-tuning can improve the performance, accurate extraction of complex semantics is still a great challenge at present.
arxiv情報
著者 | Xiaojun Bi,Shuo Li,Junyao Xing,Ziyue Wang,Fuwen Luo,Weizheng Qiao,Lu Han,Ziwei Sun,Peng Li,Yang Liu |
発行日 | 2025-05-22 15:57:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google