No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks

要約

大規模言語モデル (LLM) の進歩により財務分析が著しく推進される一方で、その適用は主に単一言語の領域に限定されており、中国語と英語のバイリンガル能力の可能性が未開発のまま残されています。
この溝を埋めるために、バイリンガル財務分析用の ICE-INTENT モデルと ICE-FLARE ベンチマークをシームレスに統合する ICE-PIXIU を導入します。
ICE-PIXIU は、翻訳されたオリジナルの英語データセットとともに、さまざまな中国語タスクを独自に統合し、バイリンガル財務モデリングの幅と深さを強化します。
これは、多様なモデル バリアントへの無制限のアクセス、さまざまな言語間およびマルチモーダルな指導データの実質的な編集、専門家の注釈を備えた評価ベンチマークを提供します。これは、10 個の NLP タスク、20 個のバイリンガル固有のタスク、合計 95,000 個のデータセットで構成されます。
私たちの徹底した評価では、これらのバイリンガル データセットを組み込む利点、特に翻訳作業やオリジナルの英語データの利用により、言語の柔軟性と財務状況における分析の鋭敏性の両方が向上することが強調されています。
特に、ICE-INTENT は、バイリンガル環境における従来の LLM および既存の金融 LLM に対する大幅な機能強化を示すことで際立っており、堅牢なバイリンガル データが金融 NLP の精度と有効性に大きな影響を与えることを強調しています。

要約(オリジナル)

While the progression of Large Language Models (LLMs) has notably propelled financial analysis, their application has largely been confined to singular language realms, leaving untapped the potential of bilingual Chinese-English capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis. ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated and original English datasets, enriching the breadth and depth of bilingual financial modeling. It provides unrestricted access to diverse model variants, a substantial compilation of diverse cross-lingual and multi-modal instruction data, and an evaluation benchmark with expert annotations, comprising 10 NLP tasks, 20 bilingual specific tasks, totaling 95k datasets. Our thorough evaluation emphasizes the advantages of incorporating these bilingual datasets, especially in translation tasks and utilizing original English data, enhancing both linguistic flexibility and analytical acuity in financial contexts. Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements over conventional LLMs and existing financial LLMs in bilingual milieus, underscoring the profound impact of robust bilingual data on the accuracy and efficacy of financial NLP.

arxiv情報

著者 Gang Hu,Ke Qin,Chenhan Yuan,Min Peng,Alejandro Lopez-Lira,Benyou Wang,Sophia Ananiadou,Jimin Huang,Qianqian Xie
発行日 2024-08-16 12:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL パーマリンク