The Impact of Visual Information in Chinese Characters: Evaluating Large Models’ Ability to Recognize and Utilize Radicals

要約

中国語の象形文字体系には、意味や発音に関するヒントを提供する部首など、情報豊富な視覚的特徴が各文字に組み込まれています。
しかし、現代の大規模言語モデル (LLM) と視覚言語モデル (VLM) がプロンプトを通じて中国語のこれらのサブ文字の特徴を利用できるかどうかについては調査されていません。
この研究では、部首、構成構造、画数、画数などの漢字の視覚要素に対する LLM と VLM の理解を評価するためのベンチマークを確立します。
私たちの結果は、驚くべきことに、キャラクターの画像が提供されているかどうかに関係なく、モデルは視覚情報についてある程度の、しかしまだ限られた知識を示していることを明らかにしました。
モデルが部首を使用できるようにするために、中国語理解タスクのプロンプトに部首を組み込む実験をさらに行いました。
部首に関する追加情報を提供する際の品詞タグ付けの一貫した改善が観察され、サブ文字情報を統合することで CLP を強化できる可能性が示唆されています。

要約(オリジナル)

The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs’ and VLMs’ understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models’ ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language understanding tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.

arxiv情報

著者 Xiaofeng Wu,Karl Stratos,Wei Xu
発行日 2024-10-11 17:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク