NeLLCom-X: A Comprehensive Neural-Agent Framework to Simulate Language Learning and Group Communication

要約

計算言語学の最近の進歩には、ランダムなシンボルのセットから開始して、相互作用するニューラル ネットワーク エージェントを使用して人間に似た言語の出現をシミュレートすることが含まれます。
最近導入された NeLLCom フレームワーク (Lian et al., 2023) では、特定の言語特性の出現を研究することを目的として、エージェントが最初に人工言語を学習し、次にそれを使用してコミュニケーションを行うことができます。
我々は、言語学習能力、コミュニケーションプレッシャー、グループサイズ効果の間の相互作用を調査するために、より現実的な役割交代エージェントとグループコミュニケーションを導入することで、このフレームワーク(NeLLCom-X)を拡張しました。
私たちは、語順と格マーキングのトレードオフの出現をシミュレートする先行研究からの重要な発見を再現することによって、NeLLCom-X を検証します。
次に、相互作用が言語の収束とトレードオフの出現にどのような影響を与えるかを調査します。
新しいフレームワークは、言語進化における相互作用とグループダイナミクスの重要性を強調し、多様な言語的側面の将来のシミュレーションを容易にします。

要約(オリジナル)

Recent advances in computational linguistics include simulating the emergence of human-like languages with interacting neural network agents, starting from sets of random symbols. The recently introduced NeLLCom framework (Lian et al., 2023) allows agents to first learn an artificial language and then use it to communicate, with the aim of studying the emergence of specific linguistics properties. We extend this framework (NeLLCom-X) by introducing more realistic role-alternating agents and group communication in order to investigate the interplay between language learnability, communication pressures, and group size effects. We validate NeLLCom-X by replicating key findings from prior research simulating the emergence of a word-order/case-marking trade-off. Next, we investigate how interaction affects linguistic convergence and emergence of the trade-off. The novel framework facilitates future simulations of diverse linguistic aspects, emphasizing the importance of interaction and group dynamics in language evolution.

arxiv情報

著者 Yuchen Lian,Tessa Verhoef,Arianna Bisazza
発行日 2024-10-11 16:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NeLLCom-X: A Comprehensive Neural-Agent Framework to Simulate Language Learning and Group Communication はコメントを受け付けていません

Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs

要約

LLM はテキストを単語に大まかに対応するトークンのシーケンスとして処理します。一般的ではない単語は複数のトークンで表されます。
ただし、個々のトークンは、それらが構成する単語や概念の意味とは意味的に無関係であることがよくあります。
たとえば、Llama-2-7b のトークナイザーは、単語「northeastern」をトークン [‘_n’、’ort’、’he’、’astern’] に分割しますが、いずれも ‘north’ や ‘ のような意味的に意味のある単位には対応しません。
東。’
同様に、「ニール・ヤング」のような名前付きエンティティや「足を骨折する」のような複数の単語の表現の全体的な意味は、それらを構成するトークンから直接推測することはできません。
機構的には、LLM はどのようにしてそのような任意のトークンのグループを有用な高レベルの表現に変換するのでしょうか?
この研究では、名前付きエンティティとマルチトークン単語の最後のトークン表現が顕著な「消去」効果を示し、以前と現在のトークンに関する情報が初期層で急速に忘れられることがわかりました。
この観察を利用して、層間のトークン表現の違いを調べることによって自己回帰 LLM の暗黙の語彙を「読み出す」方法を提案し、Llama-2-7b と Llama-3-8B に対するこの方法の結果を示します。
私たちの知る限り、これは LLM の暗黙の語彙を調査する最初の試みです。

要約(オリジナル)

LLMs process text as sequences of tokens that roughly correspond to words, where less common words are represented by multiple tokens. However, individual tokens are often semantically unrelated to the meanings of the words/concepts they comprise. For example, Llama-2-7b’s tokenizer splits the word ‘northeastern’ into the tokens [‘_n’, ‘ort’, ‘he’, ‘astern’], none of which correspond to semantically meaningful units like ‘north’ or ‘east.’ Similarly, the overall meanings of named entities like ‘Neil Young’ and multi-word expressions like ‘break a leg’ cannot be directly inferred from their constituent tokens. Mechanistically, how do LLMs convert such arbitrary groups of tokens into useful higher-level representations? In this work, we find that last token representations of named entities and multi-token words exhibit a pronounced ‘erasure’ effect, where information about previous and current tokens is rapidly forgotten in early layers. Using this observation, we propose a method to ‘read out’ the implicit vocabulary of an autoregressive LLM by examining differences in token representations across layers, and present results of this method for Llama-2-7b and Llama-3-8B. To our knowledge, this is the first attempt to probe the implicit vocabulary of an LLM.

arxiv情報

著者 Sheridan Feucht,David Atkinson,Byron Wallace,David Bau
発行日 2024-10-11 16:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.7 | Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs はコメントを受け付けていません

Extra Global Attention Designation Using Keyword Detection in Sparse Transformer Architectures

要約

この論文では、一般的なスパース トランスフォーマー アーキテクチャである Longformer Encoder-Decoder の拡張を提案します。
スパース トランスフォーマーに共通する課題の 1 つは、文書の最初と最後で説明されているトピック間の接続など、長距離のコンテキストのエンコードに苦労する可能性があることです。
グローバルな注目を選択的に高める方法が、いくつかのベンチマーク データ セットに対する抽象的な要約タスクに対して提案され、実証されています。
トランスクリプトに追加のキーワードを接頭辞として付け、これらのキーワードに対する世界的な注目をエンコードすることにより、一部のベンチマーク データ セットでゼロ ショット、少数ショット、および微調整されたケースの改善が実証されています。

要約(オリジナル)

In this paper, we propose an extension to Longformer Encoder-Decoder, a popular sparse transformer architecture. One common challenge with sparse transformers is that they can struggle with encoding of long range context, such as connections between topics discussed at a beginning and end of a document. A method to selectively increase global attention is proposed and demonstrated for abstractive summarization tasks on several benchmark data sets. By prefixing the transcript with additional keywords and encoding global attention on these keywords, improvement in zero-shot, few-shot, and fine-tuned cases is demonstrated for some benchmark data sets.

arxiv情報

著者 Evan Lucas,Dylan Kangas,Timothy C Havens
発行日 2024-10-11 16:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Extra Global Attention Designation Using Keyword Detection in Sparse Transformer Architectures はコメントを受け付けていません

UniGlyph: A Seven-Segment Script for Universal Language Representation

要約

UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユニバーサル音訳システムを作成するように設計された構築言語 (conlang) です。
UniGlyph の目標は、幅広い音声を表現できる柔軟で一貫性のあるスクリプトを提供することで、言語を超えたコミュニケーションを促進することです。
このペーパーでは、UniGlyph の設計を検討し、そのスクリプト構造、音声マッピング、および音訳ルールを詳しく説明します。
このシステムは、言語間で音声の多様性を表現するためのコンパクトで汎用性の高い方法を提供することで、国際音声アルファベット (IPA) と従来の文字セットの不完全性に対処します。
UniGlyph は、ピッチと長さのマーカーを使用して、小さな文字セットを維持しながら正確な音声表現を保証します。
UniGlyph のアプリケーションには、自然言語処理や多言語音声認識などの人工知能の統合が含まれており、異なる言語間でのコミュニケーションを強化します。
動物の音声の追加など、将来の拡張について議論されています。これには、さまざまな種に固有の文字が割り当てられ、UniGlyph の範囲が人間のコミュニケーションを超えて拡大されます。
この研究では、このような汎用文字の開発における課題と解決策を示し、言語を超えたコミュニケーション、教育音声学、AI 駆動型アプリケーションにおける言語ギャップを埋める UniGlyph の可能性を示しています。

要約(オリジナル)

UniGlyph is a constructed language (conlang) designed to create a universal transliteration system using a script derived from seven-segment characters. The goal of UniGlyph is to facilitate cross-language communication by offering a flexible and consistent script that can represent a wide range of phonetic sounds. This paper explores the design of UniGlyph, detailing its script structure, phonetic mapping, and transliteration rules. The system addresses imperfections in the International Phonetic Alphabet (IPA) and traditional character sets by providing a compact, versatile method to represent phonetic diversity across languages. With pitch and length markers, UniGlyph ensures accurate phonetic representation while maintaining a small character set. Applications of UniGlyph include artificial intelligence integrations, such as natural language processing and multilingual speech recognition, enhancing communication across different languages. Future expansions are discussed, including the addition of animal phonetic sounds, where unique scripts are assigned to different species, broadening the scope of UniGlyph beyond human communication. This study presents the challenges and solutions in developing such a universal script, demonstrating the potential of UniGlyph to bridge linguistic gaps in cross-language communication, educational phonetics, and AI-driven applications.

arxiv情報

著者 G. V. Bency Sherin,A. Abijesh Euphrine,A. Lenora Moreen,L. Arun Jose
発行日 2024-10-11 16:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T50, cs.CL, cs.HC, cs.SC, cs.SD, eess.AS, H.5.2 | UniGlyph: A Seven-Segment Script for Universal Language Representation はコメントを受け付けていません

Science is Exploration: Computational Frontiers for Conceptual Metaphor Theory

要約

比喩はどこにでもあります。
それらは、最も洗練された詩から一見無味乾燥な学術散文に至るまで、自然言語のあらゆる領域に広く現れます。
言語の認知科学における重要な研究は、概念的な比喩、つまり、ある経験領域を別の言語で体系的に構造化することの存在を主張しています。
概念的な比喩は単なる修辞的な誇張ではなく、人間の認識における類推の役割を示す重要な証拠です。
この論文では、大規模言語モデル (LLM) が自然言語データ内のそのような概念的メタファーの存在を正確に識別して説明できるかどうかを問います。
メタファー注釈ガイドラインに基づいた新しいプロンプト手法を使用して、LLM が概念的メタファーに関する大規模な計算研究に有望なツールであることを実証します。
さらに、LLM がヒューマン・アノテーター向けに設計された手順ガイドラインを適用でき、驚くほど深い言語知識を示していることを示します。

要約(オリジナル)

Metaphors are everywhere. They appear extensively across all domains of natural language, from the most sophisticated poetry to seemingly dry academic prose. A significant body of research in the cognitive science of language argues for the existence of conceptual metaphors, the systematic structuring of one domain of experience in the language of another. Conceptual metaphors are not simply rhetorical flourishes but are crucial evidence of the role of analogical reasoning in human cognition. In this paper, we ask whether Large Language Models (LLMs) can accurately identify and explain the presence of such conceptual metaphors in natural language data. Using a novel prompting technique based on metaphor annotation guidelines, we demonstrate that LLMs are a promising tool for large-scale computational research on conceptual metaphors. Further, we show that LLMs are able to apply procedural guidelines designed for human annotators, displaying a surprising depth of linguistic knowledge.

arxiv情報

著者 Rebecca M. M. Hicke,Ross Deans Kristensen-McLachlan
発行日 2024-10-11 17:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Science is Exploration: Computational Frontiers for Conceptual Metaphor Theory はコメントを受け付けていません

Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference

要約

自然言語推論 (NLI) 仮説を作成するためにクラウドソーシング ワーカーを LLM に置き換えても、同様にアノテーション アーティファクトが発生するかどうかをテストします。
GPT-4、Llama-2、Mistral 7b を使用してスタンフォード NLI コーパスの一部を再作成し、仮説のみの分類器をトレーニングして、LLM によって導き出された仮説にアノテーション アーティファクトが含まれているかどうかを判断します。
LLM によって導出された NLI データセットでは、BERT ベースの仮説のみの分類器は 86 ~ 96% の精度を達成しており、これらのデータセットには仮説のみのアーティファクトが含まれていることを示しています。
また、LLM によって生成された仮説には、頻繁に「ギブアウェイ」が見られます。
「プールで泳ぐ」というフレーズは、GPT-4 によって生成された 10,000 以上の矛盾の中に出現します。
私たちの分析は、NLI における十分に証明されたバイアスが LLM で生成されたデータに存続する可能性があるという経験的証拠を提供します。

要約(オリジナル)

We test whether replacing crowdsource workers with LLMs to write Natural Language Inference (NLI) hypotheses similarly results in annotation artifacts. We recreate a portion of the Stanford NLI corpus using GPT-4, Llama-2 and Mistral 7b, and train hypothesis-only classifiers to determine whether LLM-elicited hypotheses contain annotation artifacts. On our LLM-elicited NLI datasets, BERT-based hypothesis-only classifiers achieve between 86-96% accuracy, indicating these datasets contain hypothesis-only artifacts. We also find frequent ‘give-aways’ in LLM-generated hypotheses, e.g. the phrase ‘swimming in a pool’ appears in more than 10,000 contradictions generated by GPT-4. Our analysis provides empirical evidence that well-attested biases in NLI can persist in LLM-generated data.

arxiv情報

著者 Grace Proebsting,Adam Poliak
発行日 2024-10-11 17:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference はコメントを受け付けていません

LLM-Generated Black-box Explanations Can Be Adversarially Helpful

要約

大規模言語モデル (LLM) は、デジタル アシスタントとして機能することで、複雑な問題の解決と理解を助ける重要なツールになりつつあります。
LLM は、これらの問題の入力と出力のみが与えられた場合でも、つまり「ブラックボックス」アプローチであった場合でも、説得力のある説明を生成できます。
しかし、私たちの調査では、このアプローチに関連する隠れたリスク、つまり「敵対的有用性」と呼ばれるリスクが明らかになりました。
これは、LLM の説明によって間違った答えが正しいように見せかけ、人々が間違った答えを信頼するように誘導する場合に発生します。
この論文では、この問題が人間だけでなく LLM 評価者にも影響を及ぼすことを示します。
さらに深く掘り下げて、LLM が採用する主要な説得戦略を特定し、調査します。
私たちの調査結果は、これらのモデルが、質問を再構成し、高いレベルの信頼を表現し、誤解を招く答えを信頼できる観点から描くために証拠を厳選するなどの戦略を採用していることを明らかにしました。
LLM が敵対的に役立つ説明を生成するときに複雑な構造の知識をナビゲートできるかどうかを調べるために、グラフ内のナビゲートに基づいた特別なタスクを作成します。
ほとんどの LLM は、単純なグラフに沿って代替パスを見つけることができません。これは、誤解を招く説明が、複雑な知識を使用した論理的演繹だけによって生成されていないことを示しています。
これらの発見により、ブラックボックス説明設定の限界が明らかになり、LLM の安全な使用法についてのアドバイスを提供できるようになります。

要約(オリジナル)

Large Language Models (LLMs) are becoming vital tools that help us solve and understand complex problems by acting as digital assistants. LLMs can generate convincing explanations, even when only given the inputs and outputs of these problems, i.e., in a “black-box” approach. However, our research uncovers a hidden risk tied to this approach, which we call *adversarial helpfulness*. This happens when an LLM’s explanations make a wrong answer look right, potentially leading people to trust incorrect solutions. In this paper, we show that this issue affects not just humans, but also LLM evaluators. Digging deeper, we identify and examine key persuasive strategies employed by LLMs. Our findings reveal that these models employ strategies such as reframing the questions, expressing an elevated level of confidence, and cherry-picking evidence to paint misleading answers in a credible light. To examine if LLMs are able to navigate complex-structured knowledge when generating adversarially helpful explanations, we create a special task based on navigating through graphs. Most LLMs are not able to find alternative paths along simple graphs, indicating that their misleading explanations aren’t produced by only logical deductions using complex knowledge. These findings shed light on the limitations of the black-box explanation setting and allow us to provide advice on the safe usage of LLMs.

arxiv情報

著者 Rohan Ajwani,Shashidhar Reddy Javaji,Frank Rudzicz,Zining Zhu
発行日 2024-10-11 17:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-Generated Black-box Explanations Can Be Adversarially Helpful はコメントを受け付けていません

Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models

要約

柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (LLM) のいずれかの形式で、音声対応の基礎モデルの人気が高まっています。
これらのモデルの興味深い側面の 1 つは、適切なプロンプトを使用して自動音声認識 (ASR) 以外のタスクを実行できることです。
たとえば、OpenAI Whisper モデルは、音声の書き起こしと音声翻訳の両方を実行できます。
音声指示による LLM の開発により、さらに優れた制御オプションが可能になる可能性があります。
この研究では、この柔軟性の向上により、システムがモデル制御による敵対的攻撃の影響を受けやすくなる可能性があることを実証します。
モデル プロンプトにアクセスしなくても、オーディオ入力を適切に変更することでシステムの動作を変更できます。
このリスクを説明するために、短い普遍的な敵対的音響セグメントを任意の入力音声信号の前に追加して、ASR 基盤モデルのプロンプト設定をオーバーライドできることを示します。
具体的には、ユニバーサル敵対的音響セグメントを使用して、音声転写を実行するように設定されているにもかかわらず、常に音声翻訳を実行するように Whisper を制御することに成功しました。
全体として、この研究は、マルチタスク音声対応基盤モデルに対する新しい形式の敵対的攻撃を示しており、この形式のモデルを展開する前に検討する必要があります。

要約(オリジナル)

Speech enabled foundation models, either in the form of flexible speech recognition based systems or audio-prompted large language models (LLMs), are becoming increasingly popular. One of the interesting aspects of these models is their ability to perform tasks other than automatic speech recognition (ASR) using an appropriate prompt. For example, the OpenAI Whisper model can perform both speech transcription and speech translation. With the development of audio-prompted LLMs there is the potential for even greater control options. In this work we demonstrate that with this greater flexibility the systems can be susceptible to model-control adversarial attacks. Without any access to the model prompt it is possible to modify the behaviour of the system by appropriately changing the audio input. To illustrate this risk, we demonstrate that it is possible to prepend a short universal adversarial acoustic segment to any input speech signal to override the prompt setting of an ASR foundation model. Specifically, we successfully use a universal adversarial acoustic segment to control Whisper to always perform speech translation, despite being set to perform speech transcription. Overall, this work demonstrates a new form of adversarial attack on multi-tasking speech enabled foundation models that needs to be considered prior to the deployment of this form of model.

arxiv情報

著者 Vyas Raina,Mark Gales
発行日 2024-10-11 17:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models はコメントを受け付けていません

SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

要約

GPT-4、PaLM、LLaMA などの大規模言語モデル (LLM) は、さまざまな推論タスクにおいて大幅な改善を示しています。
ただし、Llama-3-8B や DeepSeekMath-Base などの小規模なモデルは、推論エラーを効果的に特定して修正できないため、依然として複雑な数学的推論に苦労しています。
最近のリフレクションベースの手法は、自己反省と自己修正を可能にすることでこれらの問題に対処することを目的としていますが、推論ステップでのエラーを独立して検出するという課題に依然として直面しています。
これらの制限を克服するために、我々は、大規模な教師モデルを使用して、小規模な生徒モデルの推論プロセスと反省プロセスの両方を監視および修正する新しい 2 段階のフレームワークである SuperCorrect を提案します。
最初の段階では、教師モデルから階層的な高レベルで詳細な思考テンプレートを抽出し、よりきめの細かい推論思考を引き出す際に生徒モデルをガイドします。
第 2 段階では、トレーニング中に教師の修正トレースを追跡することにより、学生モデルの自己修正能力を強化するために、モデル間の協調的直接選好最適化 (DPO) を導入します。
このクロスモデル DPO アプローチは、教師モデルからのエラー駆動型の洞察を使用して、生徒モデルに誤った考えを効果的に見つけて解決することを教え、思考のボトルネックを解消し、困難な問題に取り組むための新しいスキルと知識を獲得します。
広範な実験により、以前の方法に対する当社の優位性が一貫して実証されています。
特に、当社の SuperCorrect-7B モデルは、MATH/GSM8K ベンチマークで強力な DeepSeekMath-7B を 7.8%/5.3%、Qwen2.5-Math-7B を 15.1%/6.3% 上回り、すべての 7B モデルの中で新しい SOTA パフォーマンスを達成しています。
コード: https://github.com/YangLing0818/SuperCorrect-llm

要約(オリジナル)

Large language models (LLMs) like GPT-4, PaLM, and LLaMA have shown significant improvements in various reasoning tasks. However, smaller models such as Llama-3-8B and DeepSeekMath-Base still struggle with complex mathematical reasoning because they fail to effectively identify and correct reasoning errors. Recent reflection-based methods aim to address these issues by enabling self-reflection and self-correction, but they still face challenges in independently detecting errors in their reasoning steps. To overcome these limitations, we propose SuperCorrect, a novel two-stage framework that uses a large teacher model to supervise and correct both the reasoning and reflection processes of a smaller student model. In the first stage, we extract hierarchical high-level and detailed thought templates from the teacher model to guide the student model in eliciting more fine-grained reasoning thoughts. In the second stage, we introduce cross-model collaborative direct preference optimization (DPO) to enhance the self-correction abilities of the student model by following the teacher’s correction traces during training. This cross-model DPO approach teaches the student model to effectively locate and resolve erroneous thoughts with error-driven insights from the teacher model, breaking the bottleneck of its thoughts and acquiring new skills and knowledge to tackle challenging problems. Extensive experiments consistently demonstrate our superiority over previous methods. Notably, our SuperCorrect-7B model significantly surpasses powerful DeepSeekMath-7B by 7.8%/5.3% and Qwen2.5-Math-7B by 15.1%/6.3% on MATH/GSM8K benchmarks, achieving new SOTA performance among all 7B models. Code: https://github.com/YangLing0818/SuperCorrect-llm

arxiv情報

著者 Ling Yang,Zhaochen Yu,Tianjun Zhang,Minkai Xu,Joseph E. Gonzalez,Bin Cui,Shuicheng Yan
発行日 2024-10-11 17:25:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights はコメントを受け付けていません

The Impact of Visual Information in Chinese Characters: Evaluating Large Models’ Ability to Recognize and Utilize Radicals

要約

中国語の象形文字体系には、意味や発音に関するヒントを提供する部首など、情報豊富な視覚的特徴が各文字に組み込まれています。
しかし、現代の大規模言語モデル (LLM) と視覚言語モデル (VLM) がプロンプトを通じて中国語のこれらのサブ文字の特徴を利用できるかどうかについては調査されていません。
この研究では、部首、構成構造、画数、画数などの漢字の視覚要素に対する LLM と VLM の理解を評価するためのベンチマークを確立します。
私たちの結果は、驚くべきことに、キャラクターの画像が提供されているかどうかに関係なく、モデルは視覚情報についてある程度の、しかしまだ限られた知識を示していることを明らかにしました。
モデルが部首を使用できるようにするために、中国語理解タスクのプロンプトに部首を組み込む実験をさらに行いました。
部首に関する追加情報を提供する際の品詞タグ付けの一貫した改善が観察され、サブ文字情報を統合することで CLP を強化できる可能性が示唆されています。

要約(オリジナル)

The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs’ and VLMs’ understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models’ ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language understanding tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.

arxiv情報

著者 Xiaofeng Wu,Karl Stratos,Wei Xu
発行日 2024-10-11 17:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Impact of Visual Information in Chinese Characters: Evaluating Large Models’ Ability to Recognize and Utilize Radicals はコメントを受け付けていません