Coreference Resolution for Vietnamese Narrative Texts

要約

コアレファレンス解像度は、同じエンティティを参照するテキスト内の異なる式を特定してリンクすることを含む、自然言語処理(NLP)の重要なタスクです。
このタスクは、限られた注釈付きデータセットを備えた低リソース言語であるベトナム語にとって特に困難です。
これらの課題に対処するために、広く読まれているベトナムのオンラインニュースプラットフォームであるvNexpressの物語テキストを使用して、包括的な注釈付きデータセットを開発しました。
一貫性と精度を確保することに焦点を当て、エンティティに注釈を付けるための詳細なガイドラインを確立しました。
さらに、このデータセットで、大規模な言語モデル(LLMS)、特にGPT-3.5ターボとGPT-4のパフォーマンスを評価しました。
我々の結果は、GPT-4が精度と応答の両方の一貫性の両方の点でGPT-3.5ターボを大幅に上回り、ベトナムの共同解像度のためのより信頼性の高いツールになることを示しています。

要約(オリジナル)

Coreference resolution is a vital task in natural language processing (NLP) that involves identifying and linking different expressions in a text that refer to the same entity. This task is particularly challenging for Vietnamese, a low-resource language with limited annotated datasets. To address these challenges, we developed a comprehensive annotated dataset using narrative texts from VnExpress, a widely-read Vietnamese online news platform. We established detailed guidelines for annotating entities, focusing on ensuring consistency and accuracy. Additionally, we evaluated the performance of large language models (LLMs), specifically GPT-3.5-Turbo and GPT-4, on this dataset. Our results demonstrate that GPT-4 significantly outperforms GPT-3.5-Turbo in terms of both accuracy and response consistency, making it a more reliable tool for coreference resolution in Vietnamese.

arxiv情報

著者 Hieu-Dai Tran,Duc-Vu Nguyen,Ngan Luu-Thuy Nguyen
発行日 2025-04-28 09:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Coreference Resolution for Vietnamese Narrative Texts はコメントを受け付けていません

VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning

要約

大きなビジョン言語モデル(LVLMS)は、強力なビジョン言語の推論能力のために、具体化されたインテリジェンスのような現実世界のAIタスクにとって極めて重要です。
ただし、現在のLVLMSはトークンレベルで画像全体を処理します。これは、情報を分析し、概念レベルでコンテンツを生成する人間と比較して非効率的であり、関連する視覚概念を最小限の労力で抽出します。
視覚的概念モデルの欠如に起因するこの非効率性は、実際のアプリケーションでのLVLMSの使いやすさを制限します。
これに対処するために、エンドツーエンドの自己監視視覚概念モデリングフレームワークであるVCMを提案します。
VCMは、複数のサンプリングされたインスタンスとビジョン言語の微調整にわたって暗黙のコントラスト学習を活用して、コストのかかる概念レベルの注釈を必要とせずに視覚概念モデルを構築します。
我々の結果は、VCMが計算コストを大幅に削減することを示しています(例:LLAVA-1.5-7Bのフロップが85%少ない)一方で、多様な画像理解タスク全体で強力なパフォーマンスを維持しています。
さらに、VCMは、古典的な視覚概念知覚タスクで視覚エンコーダの機能を強化します。
広範な定量的および定性的実験は、VCMの有効性と効率を検証します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) are pivotal for real-world AI tasks like embodied intelligence due to their strong vision-language reasoning abilities. However, current LVLMs process entire images at the token level, which is inefficient compared to humans who analyze information and generate content at the conceptual level, extracting relevant visual concepts with minimal effort. This inefficiency, stemming from the lack of a visual concept model, limits LVLMs’ usability in real-world applications. To address this, we propose VCM, an end-to-end self-supervised visual concept modeling framework. VCM leverages implicit contrastive learning across multiple sampled instances and vision-language fine-tuning to construct a visual concept model without requiring costly concept-level annotations. Our results show that VCM significantly reduces computational costs (e.g., 85\% fewer FLOPs for LLaVA-1.5-7B) while maintaining strong performance across diverse image understanding tasks. Moreover, VCM enhances visual encoders’ capabilities in classic visual concept perception tasks. Extensive quantitative and qualitative experiments validate the effectiveness and efficiency of VCM.

arxiv情報

著者 Run Luo,Renke Shan,Longze Chen,Ziqiang Liu,Lu Wang,Min Yang,Xiaobo Xia
発行日 2025-04-28 09:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning はコメントを受け付けていません

A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks

要約

– 自然言語処理の分野(NLP)は、過去10年以内に劇的に拡大しました。
多くのヒューマンビーイングアプリケーションは、機械の翻訳、音声認識、テキスト生成と推奨事項、一部のスピーチタグ付け(POS)、および指定されたエンティティ認識(NER)から、NLPタスクを介して毎日実施されています。
ただし、中央クルド語(CKL)などの低資源の低い言語は、主に開発をサポートするために必要なリソースが不足しているため未検証のままです。
POSタグタスクは、他のNLPタスクのベースです。
たとえば、POSタグセットは、文の間の単語間の関係を提供するために標準化された言語に使用され、その後に機械の翻訳とテキストの推奨が続きます。
具体的には、CKLの場合、使用または提供されたPOSタグセットのほとんどは標準化されておらず、包括的ではありません。
この目的のために、この研究は、CKLの正確で包括的なPOSタグセットを提示し、クルド人のNLPタスクのパフォーマンスを向上させました。
この記事では、さまざまな研究からのPOSタグのほとんどを収集し、クルド語の言語専門家から標準化されたスピーチの一部のタグまで収集しました。
提案されたPOSタグセットは、大きなCKLコーパスに注釈を付け、クルドのNLPタスクをサポートするように設計されています。
標準言語のユニバーサル依存関係フレームワークとの比較を介したこの研究の最初の調査は、提案されたPOSタグセットがクルドのNLPタスクに対してより正確に通知または修正できることを示しています。

要約(オリジナル)

– The field of natural language processing (NLP) has dramatically expanded within the last decade. Many human-being applications are conducted daily via NLP tasks, starting from machine translation, speech recognition, text generation and recommendations, Part-of-Speech tagging (POS), and Named-Entity Recognition (NER). However, low-resourced languages, such as the Central-Kurdish language (CKL), mainly remain unexamined due to shortage of necessary resources to support their development. The POS tagging task is the base of other NLP tasks; for example, the POS tag set has been used to standardized languages to provide the relationship between words among the sentences, followed by machine translation and text recommendation. Specifically, for the CKL, most of the utilized or provided POS tagsets are neither standardized nor comprehensive. To this end, this study presented an accurate and comprehensive POS tagset for the CKL to provide better performance of the Kurdish NLP tasks. The article also collected most of the POS tags from different studies as well as from Kurdish linguistic experts to standardized part-of-speech tags. The proposed POS tagset is designed to annotate a large CKL corpus and support Kurdish NLP tasks. The initial investigations of this study via comparison with the Universal Dependencies framework for standard languages, show that the proposed POS tagset can streamline or correct sentences more accurately for Kurdish NLP tasks.

arxiv情報

著者 Shadan Shukr Sabr,Nazira Sabr Mustafa,Talar Sabah Omar,Salah Hwayyiz Rasool,Nawzad Anwer Omer,Darya Sabir Hamad,Hemin Abdulhameed Shams,Omer Mahmood Kareem,Rozhan Noori Abdullah,Khabat Atar Abdullah,Mahabad Azad Mohammad,Haneen Al-Raghefy,Safar M. Asaad,Sara Jamal Mohammed,Twana Saeed Ali,Fazil Shawrow,Halgurd S. Maghdid
発行日 2025-04-28 10:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, J.7 | A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks はコメントを受け付けていません

Multimodal Conditioned Diffusive Time Series Forecasting

要約

拡散モデルは、画像とテキストの処理において顕著な成功を収め、時系列予測(TSF)などの特別なドメインに拡張されています。
TSF向けの既存の拡散ベースのアプローチは、主にシングルモダリティ数値シーケンスのモデリングに焦点を当てており、時系列データで豊富なマルチモーダル情報を見落としています。
このような情報を予測のために効果的に活用するために、TSFのマルチモーダル条件付き拡散モデル、つまりMCD-TSFを提案して、タイムスタンプとテキストを時系列モデリングの追加ガイダンスとして、特に予測のための追加のガイダンスとして共同で利用します。
具体的には、タイムスタンプは時系列と組み合わされて、時間的次元に沿って情報を集約する際に、異なるデータポイント間の時間的および意味的相関を確立します。
テキストは、時系列の歴史の補足的な説明として機能し、データポイントと適応的に整合し、分類器を含まない方法で動的に制御されます。
8つのドメインにわたる実際のベンチマークデータセットに関する広範な実験は、提案されているMCD-TSFモデルが最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Diffusion models achieve remarkable success in processing images and text, and have been extended to special domains such as time series forecasting (TSF). Existing diffusion-based approaches for TSF primarily focus on modeling single-modality numerical sequences, overlooking the rich multimodal information in time series data. To effectively leverage such information for prediction, we propose a multimodal conditioned diffusion model for TSF, namely, MCD-TSF, to jointly utilize timestamps and texts as extra guidance for time series modeling, especially for forecasting. Specifically, Timestamps are combined with time series to establish temporal and semantic correlations among different data points when aggregating information along the temporal dimension. Texts serve as supplementary descriptions of time series’ history, and adaptively aligned with data points as well as dynamically controlled in a classifier-free manner. Extensive experiments on real-world benchmark datasets across eight domains demonstrate that the proposed MCD-TSF model achieves state-of-the-art performance.

arxiv情報

著者 Chen Su,Yuanhe Tian,Yan Song
発行日 2025-04-28 10:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multimodal Conditioned Diffusive Time Series Forecasting はコメントを受け付けていません

Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs

要約

このホワイトペーパーでは、大規模な言語モデル(LLMS)を使用したサブジェクトインデックスに焦点を当てたSemeval-2025タスク5(LLMS4Subjects)のAnnifシステムを紹介します。
このタスクでは、GNDサブジェクトの語彙を使用して、バイリンガルTibkatデータベースから書誌記録のサブジェクト予測を作成する必要がありました。
私たちのアプローチは、Annif Toolkitに実装された従来の自然言語処理と機械学習技術と、翻訳および合成データ生成のための革新的なLLMベースの方法、および単一言語モデルからの予測の融合を組み合わせています。
システムは、全被験者カテゴリで1位、定量評価ではTIBコアサブジェクトカテゴリで2番目、定性評価で4位にランクされました。
これらの調査結果は、従来のXMTCアルゴリズムと最新のLLM技術を組み合わせて、多言語コンテキストでの主題インデックスの精度と効率を改善する可能性を示しています。

要約(オリジナル)

This paper presents the Annif system in SemEval-2025 Task 5 (LLMs4Subjects), which focussed on subject indexing using large language models (LLMs). The task required creating subject predictions for bibliographic records from the bilingual TIBKAT database using the GND subject vocabulary. Our approach combines traditional natural language processing and machine learning techniques implemented in the Annif toolkit with innovative LLM-based methods for translation and synthetic data generation, and merging predictions from monolingual models. The system ranked first in the all-subjects category and second in the tib-core-subjects category in the quantitative evaluation, and fourth in qualitative evaluations. These findings demonstrate the potential of combining traditional XMTC algorithms with modern LLM techniques to improve the accuracy and efficiency of subject indexing in multilingual contexts.

arxiv情報

著者 Osma Suominen,Juho Inkinen,Mona Lehtinen
発行日 2025-04-28 11:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, cs.IR, cs.LG, I.2.7 | Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs はコメントを受け付けていません

The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation

要約

大規模な言語モデル(LLMS)の急速な進歩は、機械翻訳の景観を再構築しましたが、詩的な意図、文化遺産、中国英語翻訳の特殊な用語の取り扱いを維持することに課題が続いています。
この研究は、中国の科学用語、歴史的翻訳のパラドックス、および文学的な比phorを含む多様なコーパスを構築します。
バック翻訳とフリードマンのテストベースの評価システム(BT-FRIDE)を利用して、6つの主要なLLM(GPT-4.5、Deepseek V3など)と3つの従来の翻訳ツールにわたってBLEU、CHRF、TER、およびセマンティック類似性メトリックを評価します。
主要な調査結果には次のものが含まれます。(1)科学的要約はしばしば逆翻訳の恩恵を受けますが、従来のツールは言語的に異なるテキストでLLMを上回ります。
(2)LLMSは文化的および文学的な維持に苦労し、「詩的な意図のパラドックス」を例示しています。
(3)一部のモデルは、「逐語的な逆翻訳」を示し、緊急の記憶行動を反映しています。
(4)JiebaセグメンテーションとN-Gramの重み付けを使用した新しいBleuバリアントが提案されています。
この研究は、中国のNLPパフォーマンスの経験的評価に貢献し、AIを介した翻訳における文化的忠実度の理解を進めています。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has reshaped the landscape of machine translation, yet challenges persist in preserving poetic intent, cultural heritage, and handling specialized terminology in Chinese-English translation. This study constructs a diverse corpus encompassing Chinese scientific terminology, historical translation paradoxes, and literary metaphors. Utilizing a back-translation and Friedman test-based evaluation system (BT-Fried), we evaluate BLEU, CHRF, TER, and semantic similarity metrics across six major LLMs (e.g., GPT-4.5, DeepSeek V3) and three traditional translation tools. Key findings include: (1) Scientific abstracts often benefit from back-translation, while traditional tools outperform LLMs in linguistically distinct texts; (2) LLMs struggle with cultural and literary retention, exemplifying the ‘paradox of poetic intent’; (3) Some models exhibit ‘verbatim back-translation’, reflecting emergent memory behavior; (4) A novel BLEU variant using Jieba segmentation and n-gram weighting is proposed. The study contributes to the empirical evaluation of Chinese NLP performance and advances understanding of cultural fidelity in AI-mediated translation.

arxiv情報

著者 Li Weigang,Pedro Carvalho Brom
発行日 2025-04-28 11:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 | The Paradox of Poetic Intent in Back-Translation: Evaluating the Quality of Large Language Models in Chinese Translation はコメントを受け付けていません

Taming the Titans: A Survey of Efficient LLM Inference Serving

要約

生成AIの大規模な言語モデル(LLM)は、さまざまなドメインやアプリケーションで広く採用されている洗練された多用途のツールに進化し、驚くべき進歩を達成しています。
ただし、注意メカニズムの高い計算要求と組み合わせた膨大な数のパラメーターによって引き起こされる実質的なメモリオーバーヘッドは、LLM推論サービスの低レイテンシと高いスループットを達成する上で重要な課題をもたらします。
画期的な研究によって推進された最近の進歩は、この分野の進歩を大幅に加速しています。
このペーパーでは、これらの方法の包括的な調査を提供し、基本的なインスタンスレベルのアプローチ、詳細なクラスターレベルの戦略、新たなシナリオの方向性、およびその他の雑多なが重要な領域をカバーしています。
インスタンスレベルで、モデルの配置、リクエストのスケジューリング、長さの予測の解読、ストレージ管理、および分解パラダイムを確認します。
クラスターレベルでは、GPUクラスターの展開、マルチインスタンスロードバランシング、クラウドサービスソリューションを探索します。
新たなシナリオについては、特定のタスク、モジュール、および補助方法に関する議論を整理します。
全体的な概要を確保するために、いくつかのニッチでありながら重要な領域も強調しています。
最後に、LLM推論の分野をさらに前進させるための潜在的な研究方向の概要を説明します。

要約(オリジナル)

Large Language Models (LLMs) for Generative AI have achieved remarkable progress, evolving into sophisticated and versatile tools widely adopted across various domains and applications. However, the substantial memory overhead caused by their vast number of parameters, combined with the high computational demands of the attention mechanism, poses significant challenges in achieving low latency and high throughput for LLM inference services. Recent advancements, driven by groundbreaking research, have significantly accelerated progress in this field. This paper provides a comprehensive survey of these methods, covering fundamental instance-level approaches, in-depth cluster-level strategies, emerging scenario directions, and other miscellaneous but important areas. At the instance level, we review model placement, request scheduling, decoding length prediction, storage management, and the disaggregation paradigm. At the cluster level, we explore GPU cluster deployment, multi-instance load balancing, and cloud service solutions. For emerging scenarios, we organize the discussion around specific tasks, modules, and auxiliary methods. To ensure a holistic overview, we also highlight several niche yet critical areas. Finally, we outline potential research directions to further advance the field of LLM inference serving.

arxiv情報

著者 Ranran Zhen,Juntao Li,Yixin Ji,Zhenlin Yang,Tong Liu,Qingrong Xia,Xinyu Duan,Zhefeng Wang,Baoxing Huai,Min Zhang
発行日 2025-04-28 12:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG | Taming the Titans: A Survey of Efficient LLM Inference Serving はコメントを受け付けていません

Evaluate-and-Purify: Fortifying Code Language Models Against Adversarial Attacks Using LLM-as-a-Judge

要約

ソフトウェアエンジニアリングタスクにおけるコード言語モデルの広範な採用により、敵対的な攻撃、特に識別子置換攻撃に対する脆弱性が明らかになりました。
既存の識別子代替攻撃者は高い成功率を示していますが、しばしば不自然なコードパターンを備えた敵対的な例を作成します。
この論文では、LLM-as-a-judgeを使用して敵対例の質を体系的に評価します。
私たちの分析は、最先端の識別子置換攻撃者(例えば、アラート)によって生成された敵対例の80%以上が実際に検出可能であることを明らかにしています。
この洞察に基づいて、自然性の推論を介して識別子置換攻撃を評価および精製するための統一されたフレームワークであるEp-Shieldを提案します。
具体的には、最初にコードの自然性を評価し、摂動した敵対コードを特定し、それを浄化して、被害者モデルが正しい予測を復元できるようにします。
広範な実験は、GPT-4レベルのパフォーマンスを備えた敵対的な微調整(最大83.36%の改善)およびその軽量設計7Bパラメーター)よりもEPシールドの優位性を示しています。

要約(オリジナル)

The widespread adoption of code language models in software engineering tasks has exposed vulnerabilities to adversarial attacks, especially the identifier substitution attacks. Although existing identifier substitution attackers demonstrate high success rates, they often produce adversarial examples with unnatural code patterns. In this paper, we systematically assess the quality of adversarial examples using LLM-as-a-Judge. Our analysis reveals that over 80% of adversarial examples generated by state-of-the-art identifier substitution attackers (e.g., ALERT) are actually detectable. Based on this insight, we propose EP-Shield, a unified framework for evaluating and purifying identifier substitution attacks via naturalness-aware reasoning. Specifically, we first evaluate the naturalness of code and identify the perturbed adversarial code, then purify it so that the victim model can restore correct prediction. Extensive experiments demonstrate the superiority of EP-Shield over adversarial fine-tuning (up to 83.36% improvement) and its lightweight design 7B parameters) with GPT-4-level performance.

arxiv情報

著者 Wenhan Mu,Ling Xu,Shuren Pei,Le Mi,Huichi Zhou
発行日 2025-04-28 12:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Evaluate-and-Purify: Fortifying Code Language Models Against Adversarial Attacks Using LLM-as-a-Judge はコメントを受け付けていません

LLM-Assisted Automated Deductive Coding of Dialogue Data: Leveraging Dialogue-Specific Characteristics to Enhance Contextual Understanding

要約

対話データは、学習プロセスを理解するための重要なソースであり、学生が共同で議論する方法と、これらの相互作用が知識構築をどのように形成するかについての重要な洞察を提供します。
大規模な言語モデル(LLMS)の出現により、特に対話データの自動コーディングにおいて、定性的研究を進めるための有望な機会が導入されました。
ただし、対話の固有のコンテキストの複雑さは、特に複雑なコンテキスト情報の理解と解釈において、これらのモデルに独自の課題を提示します。
この研究では、対話データのための新しいLLM支援自動コーディングアプローチを開発することにより、これらの課題に対処します。
提案されたフレームワークの斬新さは3つあります。1)対話固有の特性(コミュニケーション行為とコミュニケーションイベント)に基づいて発話のコードを予測します – ロールプロンプトとチェーンオブサボテンの方法に従って個別のプロンプトを使用します。
2)GPT-4-Turbo、GPT-4O、DeepSeekを含む複数のLLMを共同コード予測に従事させました。
3)GPT-4Oを使用して一貫性チェックを実装するために、イベントと行為の間の相互関係を活用しました。
特に、私たちのコンテキストの一貫性チェックは、実質的な精度の向上をもたらしました。
また、ACT予測の精度は、イベント予測の精度よりも一貫して高いことがわかりました。
この研究では、対話データの自動コーディングの精度を強化するための新しい方法論的フレームワークと、ダイアログ分析に固有のコンテキスト課題に対処するためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Dialogue data has been a key source for understanding learning processes, offering critical insights into how students engage in collaborative discussions and how these interactions shape their knowledge construction. The advent of Large Language Models (LLMs) has introduced promising opportunities for advancing qualitative research, particularly in the automated coding of dialogue data. However, the inherent contextual complexity of dialogue presents unique challenges for these models, especially in understanding and interpreting complex contextual information. This study addresses these challenges by developing a novel LLM-assisted automated coding approach for dialogue data. The novelty of our proposed framework is threefold: 1) We predict the code for an utterance based on dialogue-specific characteristics — communicative acts and communicative events — using separate prompts following the role prompts and chain-of-thoughts methods; 2) We engaged multiple LLMs including GPT-4-turbo, GPT-4o, DeepSeek in collaborative code prediction; 3) We leveraged the interrelation between events and acts to implement consistency checking using GPT-4o. In particular, our contextual consistency checking provided a substantial accuracy improvement. We also found the accuracy of act predictions was consistently higher than that of event predictions. This study contributes a new methodological framework for enhancing the precision of automated coding of dialogue data as well as offers a scalable solution for addressing the contextual challenges inherent in dialogue analysis.

arxiv情報

著者 Ying Na,Shihui Feng
発行日 2025-04-28 12:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | LLM-Assisted Automated Deductive Coding of Dialogue Data: Leveraging Dialogue-Specific Characteristics to Enhance Contextual Understanding はコメントを受け付けていません

Moral Reasoning Across Languages: The Critical Role of Low-Resource Languages in LLMs

要約

この論文では、多言語の道徳的推論ベンチマーク(MMRB)を紹介して、5つの類型的に多様な言語と3つのレベルの文脈的複雑さの大規模な言語モデル(LLM)の道徳的推論能力を評価します:文、段落、および文書。
私たちの結果は、特にベトナムなどの低リソース言語では、道徳的推論のパフォーマンスがコンテキストの複雑さを高めることで分解されます。
さらに、キュレーションされた単一言語データを使用してアラインメントと中毒を使用して、オープンソースのLlama-3-8Bモデルを微調整します。
驚くべきことに、低リソース言語は、高リソースの言語よりも多言語の推論に強い影響を与え、多言語NLPにおける重要な役割を強調しています。

要約(オリジナル)

In this paper, we introduce the Multilingual Moral Reasoning Benchmark (MMRB) to evaluate the moral reasoning abilities of large language models (LLMs) across five typologically diverse languages and three levels of contextual complexity: sentence, paragraph, and document. Our results show moral reasoning performance degrades with increasing context complexity, particularly for low-resource languages such as Vietnamese. We further fine-tune the open-source LLaMA-3-8B model using curated monolingual data for alignment and poisoning. Surprisingly, low-resource languages have a stronger impact on multilingual reasoning than high-resource ones, highlighting their critical role in multilingual NLP.

arxiv情報

著者 Huichi Zhou,Zehao Xu,Munan Zhao,Kaihong Li,Yiqiang Li,Hongtao Wang
発行日 2025-04-28 12:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Moral Reasoning Across Languages: The Critical Role of Low-Resource Languages in LLMs はコメントを受け付けていません