Mitigating the Risk of Health Inequity Exacerbated by Large Language Models

要約

大規模言語モデルの最近の進歩は、多くの医療アプリケーション、特にトランスレーショナルリサーチのための臨床試験マッチングの自動化や、臨床意思決定支援のための医療質問応答の強化において、その可能性を実証しています。
しかし、私たちの研究は、人種、性別、収入レベル、LGBT+のステータス、ホームレス、文盲、障害、失業などの決定的ではない社会人口学的要因をLLMのインプットに組み込むと、これらの集団にとって不正確で有害なアウトプットにつながる可能性があることを示しています。
LLM が医療分野で広く採用された場合、これらの矛盾は既存の健康格差を悪化させるリスクがあります。
この問題に対処するために、LLM ベースの医療アプリケーションにおける健康不平等のリスクを検出して軽減するように設計された新しいフレームワークである EquityGuard を紹介します。
私たちの評価は、多様な集団間で公平な結果を促進する上でその有効性を実証しています。

要約(オリジナル)

Recent advancements in large language models have demonstrated their potential in numerous medical applications, particularly in automating clinical trial matching for translational research and enhancing medical question answering for clinical decision support. However, our study shows that incorporating non decisive sociodemographic factors such as race, sex, income level, LGBT+ status, homelessness, illiteracy, disability, and unemployment into the input of LLMs can lead to incorrect and harmful outputs for these populations. These discrepancies risk exacerbating existing health disparities if LLMs are widely adopted in healthcare. To address this issue, we introduce EquityGuard, a novel framework designed to detect and mitigate the risk of health inequities in LLM based medical applications. Our evaluation demonstrates its efficacy in promoting equitable outcomes across diverse populations.

arxiv情報

著者 Yuelyu Ji,Wenhe Ma,Sonish Sivarajkumar,Hang Zhang,Eugene Mathew Sadhu,Zhuochun Li,Xizhi Wu,Shyam Visweswaran,Yanshan Wang
発行日 2024-10-14 14:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Mitigating the Risk of Health Inequity Exacerbated by Large Language Models はコメントを受け付けていません

SLaNC: Static LayerNorm Calibration

要約

数千億のパラメータを超えて大規模言語モデル (LLM) のサイズが増大し続けることで、専用ハードウェア アクセラレータのメーカーに多大なプレッシャーが生じ、後者の革新的な設計は AI 業界で最も急速に拡大する分野の 1 つとなっています。
計算およびストレージの制限を考慮して、利用可能なアクセラレータ上で LLM を効率的かつ正確に処理できるようにするためのさまざまなアプローチが検討されてきました。
その中でも、コンピューティング、通信、ストレージの要件を軽減する手段として、さまざまな量子化技術がコミュニティの主な焦点となっています。
精度の低い形式に量子化すると、利用可能な値表現の範囲が限られているため、当然のことながら多くの課題が生じます。
一般的な Transformer モデルをハードウェアで処理する場合、主な問題の 1 つは LayerNorm の計算になります。分散の累積には、ハードウェアで実現できるよりもはるかに広いダイナミック レンジが必要になるからです。
この記事では、この問題に取り組み、推論中に Transformer モデルに簡単に適用できる、計算効率の高いスケーリング手法を提案します。
私たちの方法は、直前の線形層の静的な重みに基づいて LayerNorm 入力をスケーリングする簡単な方法を提案します。
スケーリング係数は線形層の重みのみに基づいてオフラインで計算されるため、推論中に遅延や計算オーバーヘッドが追加されることはありません。
最も重要なのは、私たちの技術により、計算中にオーバーフローやアンダーフローなどの数値的な問題が発生しないことが保証されます。
このアプローチは、さまざまなハードウェア アーキテクチャにわたって、スムーズで正確かつリソース効率の高い推論を提供します。
この記事では、数値シミュレーションをサポートするだけでなく、理論的な根拠も提供します。

要約(オリジナル)

The ever increasing sizes of Large Language Models (LLMs) beyond hundreds of billions of parameters have generated enormous pressure on the manufacturers of dedicated hardware accelerators and made the innovative design of the latter one of the most rapidly expanding fields of the AI industry. Various approaches have been explored to enable efficient and accurate processing of LLMs on the available accelerators given their computational and storage limitations. Among these, various quantization techniques have become the main focus of the community as a means of reducing the compute, communication and storage requirements. Quantization to lower precision formats naturally poses a number of challenges caused by the limited range of the available value representations. When it comes to processing the popular Transformer models on hardware, one of the main issues becomes calculation of the LayerNorm simply because accumulation of the variance requires a much wider dynamic range than the hardware enables. In this article, we address this matter and propose a computationally-efficient scaling technique that can be easily applied to Transformer models during inference. Our method suggests a straightforward way of scaling the LayerNorm inputs based on the static weights of the immediately preceding linear layers. The scaling factors are computed offline, based solely on the linear layer weights, hence no latency or computational overhead is added during inference. Most importantly, our technique ensures that no numerical issues such as overflow or underflow could happen during the compute. This approach offers smooth, accurate and resource-effective inference across a wide range of hardware architectures. The article provides theoretical justification as well as supporting numerical simulations.

arxiv情報

著者 Mahsa Salmani,Nikita Trukhanov,Ilya Soloveychik
発行日 2024-10-14 14:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SLaNC: Static LayerNorm Calibration はコメントを受け付けていません

Is Structure Dependence Shaped for Efficient Communication?: A Case Study on Coordination

要約

自然言語はさまざまな普遍的な性質を示します。
しかし、なぜこのような普遍的なものが存在するのでしょうか?
1つの説明は、それらは効率的なコミュニケーションを達成するための機能的圧力から生じるというものであり、これは言語を越えた特性が領域全体の認知能力に起因するという見方である。
この仮説は、構成性やグリーンバーグ語順の普遍性など、いくつかの構文上の普遍的特性にうまく対処しました。
しかし、より抽象的な構文上の普遍性は、効率的なコミュニケーションの観点からは検討されていません。
このような普遍性の中で最も注目すべきものは構造依存性、つまり階層表現に決定的に依存する文法内部操作の存在です。
この特性は伝統的に、自然言語の中心であり、コミュニケーション効率に還元できない領域固有の知識に関係すると考えられてきました。
本論文では、座標構造に焦点を当て、構造依存性が効率的なコミュニケーションを実現するかどうかを検討することで、従来の考え方に挑戦します。
私たちは 3 種類の人工言語を設計します。(i) 自然言語に似た構造依存のリダクション演算を行うもの、(ii) リダクション演算を行わないもの、(iii) (構造依存ではなく) 線形演算を行うもの
) 削減操作。
これらの言語のコミュニケーション効率を定量化します。
この結果は、構造に依存したリダクション操作を行う言語が反事実言語よりも通信効率が大幅に高いことを示しています。
これは、構造依存特性の存在が効率的なコミュニケーションの観点から説明できることを示唆しています。

要約(オリジナル)

Natural language exhibits various universal properties. But why do these universals exist? One explanation is that they arise from functional pressures to achieve efficient communication, a view which attributes cross-linguistic properties to domain-general cognitive abilities. This hypothesis has successfully addressed some syntactic universal properties such as compositionality and Greenbergian word order universals. However, more abstract syntactic universals have not been explored from the perspective of efficient communication. Among such universals, the most notable one is structure dependence, that is, the existence of grammar-internal operations that crucially depend on hierarchical representations. This property has traditionally been taken to be central to natural language and to involve domain-specific knowledge irreducible to communicative efficiency. In this paper, we challenge the conventional view by investigating whether structure dependence realizes efficient communication, focusing on coordinate structures. We design three types of artificial languages: (i) one with a structure-dependent reduction operation, which is similar to natural language, (ii) one without any reduction operations, and (iii) one with a linear (rather than structure-dependent) reduction operation. We quantify the communicative efficiency of these languages. The results demonstrate that the language with the structure-dependent reduction operation is significantly more communicatively efficient than the counterfactual languages. This suggests that the existence of structure-dependent properties can be explained from the perspective of efficient communication.

arxiv情報

著者 Kohei Kajikawa,Yusuke Kubota,Yohei Oseki
発行日 2024-10-14 14:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is Structure Dependence Shaped for Efficient Communication?: A Case Study on Coordination はコメントを受け付けていません

Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios?

要約

POS タグ付けは、多くのアプリケーションで基本的な役割を果たします。
POS タガーは、リソースが十分にある環境では非常に正確ですが、トレーニング データが限られている場合やトレーニング データが不足している場合には遅れが生じます。
このペーパーでは、データが限られている言語の POS タグ付けに焦点を当てます。
私たちは、ターゲット言語からのラベル付きトレーニング データを使用せずに、POS タグ付けモデルのトレーニングに適したデータセットの特性を特定することを目指しています。
これはゼロショットアプローチです。
ターゲット言語に関連する 1 つ以上の言語で微調整された多言語大規模言語モデル (mBERT) の精度を比較します。
さらに、これらの結果をターゲット言語自体で直接トレーニングされたモデルと比較します。
これを 3 つのターゲットの低リソース言語に対して行います。
私たちの調査では、効果的なゼロショット POS タグ付けには正確なデータセット選択の重要性が強調されています。
特に、強力な言語関係と高品質のデータセットにより、最適な結果が保証されます。
リソースが非常に少ない言語の場合、ゼロショット モデルが実行可能なオプションであることがわかります。

要約(オリジナル)

POS tagging plays a fundamental role in numerous applications. While POS taggers are highly accurate in well-resourced settings, they lag behind in cases of limited or missing training data. This paper focuses on POS tagging for languages with limited data. We seek to identify the characteristics of datasets that make them favourable for training POS tagging models without using any labelled training data from the target language. This is a zero-shot approach. We compare the accuracies of a multilingual large language model (mBERT) fine-tuned on one or more languages related to the target language. Additionally, we compare these results with models trained directly on the target language itself. We do this for three target low-resource languages. Our research highlights the importance of accurate dataset selection for effective zero-shot POS tagging. Particularly, a strong linguistic relationship and high-quality datasets ensure optimal results. For extremely low-resource languages, zero-shot models prove to be a viable option.

arxiv情報

著者 Zeno Vandenbulcke,Lukas Vermeire,Miryam de Lhoneux
発行日 2024-10-14 14:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios? はコメントを受け付けていません

Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences

要約

コードミキシング、つまり発話の中で 2 つ以上の言語を交互に使用する行為は、多言語コミュニティでは一般的な現象です。
コード混合の口語的な性質により、英語の文をコード混合文に翻訳する唯一の正しい方法はありません。
このため、BLEU スコアなどの標準的な n-gram ベースの MT 評価指標は、コード混合評価には適していません。
これを実証するために、コード混合テキスト生成のための新しい方法である制御生成を提案します。これは、コード混合度 (CMD) をパラメータ化し、与えられた英語の文から意味的に同等の複数のコード混合文を生成できるようにします。
堅牢な新しい評価指標「GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences」を導入します。
GAME は言語に依存せず、ゴールドスタンダードにも依存しません。つまり、他の指標とは異なり、GAME は評価にゴールドスタンダードのコードが混在した文を必要としないため、コードが混在した評価プロセスにおいて人間のアノテーターが必要なくなります。
意味的に同等のコードが混在した文を評価するために使用すると、GAME スコアの標準偏差が BLEU スコアよりも低いことがわかります。
さらに、コード混合に関する計算による研究をさらに促進するために、英語 – {ヒンディー語、ベンガル語、フランス語、スペイン語} の 4 つの言語ペアにわたるゴールドスタンダードのコード混合文を含むデータセットを作成してリリースします。

要約(オリジナル)

Code-mixing, the practice of alternating between two or more languages in an utterance, is a common phenomenon in multilingual communities. Due to the colloquial nature of code-mixing, there is no singular correct way to translate an English sentence into a code-mixed sentence. For this reason, standard n-gram-based MT evaluation metrics such as the BLEU score are not appropriate for code-mixed evaluation. To demonstrate this, we propose a novel method for code-mixed text generation: Controlled Generation, which parameterizes the code-mixing degree (CMD) and enables the generation of multiple semantically equivalent code-mixed sentences from a given English sentence. We introduce a robust new evaluation metric: GAME: A Gold-Standard Agnostic Measure for Evaluation of Code-Mixed Sentences. GAME is both language-agnostic and gold-standard-agnostic, i.e. unlike other metrics, GAME does not require gold-standard code-mixed sentences for evaluation, thus eliminating the need for human annotators in the code-mixed evaluation process. When used to evaluate semantically equivalent code-mixed sentences, we find that GAME scores have a lower standard deviation than BLEU scores. Further, we create and release a dataset containing gold-standard code-mixed sentences across 4 language pairs: English-{Hindi, Bengali, French, Spanish} to encourage more computational research on code-mixing.

arxiv情報

著者 Ayushman Gupta,Akhil Bhogal,Kripabandhu Ghosh
発行日 2024-10-14 14:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Multilingual Controlled Generation And Gold-Standard-Agnostic Evaluation of Code-Mixed Sentences はコメントを受け付けていません

Tübingen-CL at SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation

要約

この論文では、文ペアの関連性を予測することを目的とした、SemEval-2024 タスク 1 用のシステムを紹介します。
意味的関連性は単なる文の類似性を超えたより広い概念であるという仮説に基づいて、私たちのアプローチは関連性の推定に役立つ特徴を特定しようとします。
当社では、統計的なテキスト特徴や関連性スコアを予測するための深層学習モデルの出力など、さまざまなシステムを統合するアンサンブル アプローチを採用しています。
この調査結果は、意味的関連性がさまざまなソースから推測できること、およびアンサンブル モデルが意味的関連性の推定において多くの個別システムよりも優れていることを示唆しています。

要約(オリジナル)

The paper introduces our system for SemEval-2024 Task 1, which aims to predict the relatedness of sentence pairs. Operating under the hypothesis that semantic relatedness is a broader concept that extends beyond mere similarity of sentences, our approach seeks to identify useful features for relatedness estimation. We employ an ensemble approach integrating various systems, including statistical textual features and outputs of deep learning models to predict relatedness scores. The findings suggest that semantic relatedness can be inferred from various sources and ensemble models outperform many individual systems in estimating semantic relatedness.

arxiv情報

著者 Leixin Zhang,Çağrı Çöltekin
発行日 2024-10-14 14:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Tübingen-CL at SemEval-2024 Task 1:Ensemble Learning for Semantic Relatedness Estimation はコメントを受け付けていません

SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

要約

この取り組みでは、大規模言語モデル (LLM) が人間活動認識 (HAR) などの時系列タスクを理解できるようにすることで、ウェアラブル センサー テクノロジーとパーソナライズされた AI アシスタントの間のギャップを埋めます。
LLM には強力な推論機能と一般化機能があるにもかかわらず、センサー データ タスクに LLM を活用することはほとんど解明されていません。
このギャップは、時系列データにおけるセマンティック コンテキストの欠如、計算上の制限、LLM による数値入力の処理の難しさなどの課題に起因しています。
これらの問題に対処するために、センサー データ タスクに対する LLM の可能性を引き出す 2 段階のフレームワークである SensorLLM を導入します。
センサー言語調整ステージでは、センサー チャネルごとに特別なトークンを導入し、傾向を説明するテキストを自動的に生成してセンサー データをテキスト入力と調整します。これにより、SensorLLM が数値の変化、チャネル固有の情報、およびさまざまな長さのセンサー データをキャプチャできるようになります。
既存の LLM が通常苦労している機能を、すべて人間によるアノテーションを必要とせずに実行できます。
次に、タスク認識チューニング ステージで、凍結された LLM とアライメント モジュールを使用して HAR 分類用のモデルを改良し、最先端のモデルと同等またはそれを超えるパフォーマンスを達成します。
さらに、SensorLLM がセンサー言語アライメントを通じて効果的なセンサー学習者、推論者、分類子に進化し、HAR タスクのさまざまなデータセットにわたって一般化できることを示します。
私たちは、私たちの研究が将来の時系列研究とテキスト配列研究の足石となり、センサー データの基礎モデルへの道を提供すると強く信じています。

要約(オリジナル)

In this work, we bridge the gap between wearable sensor technology and personalized AI assistants by enabling Large Language Models (LLMs) to understand time-series tasks like human activity recognition (HAR). Despite the strong reasoning and generalization capabilities of LLMs, leveraging them for sensor data tasks remains largely unexplored. This gap stems from challenges like the lack of semantic context in time-series data, computational limitations, and LLMs’ difficulty processing numerical inputs. To address these issues, we introduce SensorLLM, a two-stage framework to unlock LLMs’ potential for sensor data tasks. In the Sensor-Language Alignment Stage, we introduce special tokens for each sensor channel and automatically generate trend-descriptive text to align sensor data with textual inputs, enabling SensorLLM to capture numerical changes, channel-specific information, and sensor data of varying lengths-capabilities that existing LLMs typically struggle with, all without the need for human annotations. Next, in Task-Aware Tuning Stage, we refine the model for HAR classification using the frozen LLM and alignment module, achieving performance on par with or surpassing state-of-the-art models. We further demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, enabling it to generalize across diverse datasets for HAR tasks. We strongly believe our work lays the stepstone for future time-series and text alignment research, offering a path toward foundation models for sensor data.

arxiv情報

著者 Zechen Li,Shohreh Deldari,Linyao Chen,Hao Xue,Flora D. Salim
発行日 2024-10-14 15:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition はコメントを受け付けていません

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

要約

医療用大規模言語モデルを現地の言語に適応させると、医療サービスへのアクセスに対する障壁が軽減されますが、データ不足は、特にリソースの少ない言語にとって依然として大きな課題です。
これに対処するために、私たちはまず高品質の医療データセットを構築し、分析を行ってその品質を保証します。
多言語 LLM の一般化機能を活用して、よりリソースに制約のある言語に効率的に拡張するために、Mixture of Experts (MoE) モジュール性を使用して、多言語の観点から LLM の内部情報フローを調査します。
技術的には、言語固有の専門家と言語間ルーティングを採用した新しい MoE ルーティング方法を提案します。
回路理論に触発された私たちのルーティング分析により、エンドに拡散する情報フロー メカニズムが明らかになりました。つまり、初期の層が言語を越えた情報フローを集中させる一方で、後の層は言語固有の分岐を示します。
この洞察は、Post-MoE アーキテクチャの開発に直接つながりました。このアーキテクチャでは、後の層にのみスパース ルーティングを適用し、他の層は高密度に維持します。
実験結果は、このアプローチが解釈可能性を維持しながら、多言語モデルの他の言語への一般化を強化することを示しています。
最後に、モデルを 50 言語まで効率的に拡張するために、言語事前分布を活用した言語族エキスパートの概念を導入します。これにより、パラメーターを追加せずに言語の数を拡張できるようになります。

要約(オリジナル)

Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.

arxiv情報

著者 Guorui Zheng,Xidong Wang,Juhao Liang,Nuo Chen,Yuping Zheng,Benyou Wang
発行日 2024-10-14 15:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts はコメントを受け付けていません

Translating Across Cultures: LLMs for Intralingual Cultural Adaptation

要約

LLM は多言語アプリケーションに導入されることが増えており、いくつかの低リソース言語と高リソース言語間の優れた翻訳機能が実証されています。
翻訳の見落とされがちな側面は、文化への適応、つまりソース文化の参照をターゲット文化に合わせて変更することです。
専門化された翻訳モデルは、正確さの観点から見ると、機械翻訳タスクでは依然として LLM よりも優れていますが、文化の違いには敏感ではなく、多くの場合手動による修正が必要です。
一方、LLM には、そのパラメータ内に文化的知識の豊富な宝庫が埋め込まれており、そのようなアプリケーションに活用できる可能性があります。
この論文では、文化適応のタスクを定義し、文化適応に対する現代のLLMのパフォーマンスを評価し、異文化間で関連する概念を結び付けながら異文化知識を分析するための評価フレームワークを作成します。
また、自動適応に関して起こり得る問題も分析します。
このタスクにより、LLM の文化的理解と、異文化シナリオにおける LLM の創造性について、より多くの洞察が得られることを願っています。

要約(オリジナル)

LLMs are increasingly being deployed for multilingual applications and have demonstrated impressive translation capabilities between several low and high-resource languages. An aspect of translation that often gets overlooked is that of cultural adaptation, or modifying source culture references to suit the target culture. While specialized translation models still outperform LLMs on the machine translation task when viewed from the lens of correctness, they are not sensitive to cultural differences often requiring manual correction. LLMs on the other hand have a rich reservoir of cultural knowledge embedded within its parameters that can be potentially exploited for such applications. In this paper, we define the task of cultural adaptation and create an evaluation framework to evaluate the performance of modern LLMs for cultural adaptation and analyze their cross-cultural knowledge while connecting related concepts across different cultures. We also analyze possible issues with automatic adaptation. We hope that this task will offer more insight into the cultural understanding of LLMs and their creativity in cross-cultural scenarios.

arxiv情報

著者 Pushpdeep Singh,Mayur Patidar,Lovekesh Vig
発行日 2024-10-14 15:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Translating Across Cultures: LLMs for Intralingual Cultural Adaptation はコメントを受け付けていません

Building Knowledge-Guided Lexica to Model Cultural Variation

要約

文化の違いは国家間(例:米国対中国)だけでなく、地域内(例:カリフォルニア対テキサス、ロサンゼルス対サンフランシスコ)にも存在します。
この地域的な文化の違いを測定することで、人々の考え方や行動がどのように、そしてなぜ異なるのかを明らかにすることができます。
歴史的には、トレーニング データの不足とスケーラビリティの制約により、文化的差異を計算によってモデル化することは困難でした。
この研究では、NLP コミュニティに新しい研究課題を導入します。それは、言語を使用して地域間の文化構造の変動をどのように測定するかということです。
次に、スケーラブルなソリューションを提供します。つまり、文化的差異をモデル化するための知識に基づいた語彙を構築し、NLP と文化的理解の交差点における将来の作業を奨励します。
また、現代の LLM が文化的差異を測定したり、文化的に多様な言語を生成したりしていないことも強調します。

要約(オリジナル)

Cultural variation exists between nations (e.g., the United States vs. China), but also within regions (e.g., California vs. Texas, Los Angeles vs. San Francisco). Measuring this regional cultural variation can illuminate how and why people think and behave differently. Historically, it has been difficult to computationally model cultural variation due to a lack of training data and scalability constraints. In this work, we introduce a new research problem for the NLP community: How do we measure variation in cultural constructs across regions using language? We then provide a scalable solution: building knowledge-guided lexica to model cultural variation, encouraging future work at the intersection of NLP and cultural understanding. We also highlight modern LLMs’ failure to measure cultural variation or generate culturally varied language.

arxiv情報

著者 Shreya Havaldar,Salvatore Giorgi,Sunny Rai,Young-Min Cho,Thomas Talhelm,Sharath Chandra Guntuku,Lyle Ungar
発行日 2024-10-14 16:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Building Knowledge-Guided Lexica to Model Cultural Variation はコメントを受け付けていません