Rectified Sparse Attention

要約

効率的な長シーケンス生成は、大規模な言語モデルにとって重要な課題です。
最近のスパースデコード方法は効率を改善しますが、近似誤差が生成の品質を蓄積して低下させるKVキャッシュの不整合に苦しんでいます。
この作業では、ブロックスパースの注意と周期的な密な整流を組み合わせたシンプルで効果的な方法である整流されたまばらな注意(RESA)を提案します。
密なフォワードパスを使用して固定間隔でKVキャッシュを更新することにより、RESAはエラーの蓄積を境界し、前oraining分布とのアライメントを保持します。
数学の推論、言語モデリング、および検索タスク全体の実験は、RESAが効率を大幅に改善して、ほぼ失われない世代の品質を達成することを示しています。
特に、RESAは、256Kシーケンス長でデコードする下で最大2.42 $ \ Times $のエンドツーエンドスピードアップを提供し、スケーラブルな長いコンテキスト推論の実用的なソリューションになります。
コードはhttps://aka.ms/resa-lmで入手できます。

要約(オリジナル)

Efficient long-sequence generation is a critical challenge for Large Language Models. While recent sparse decoding methods improve efficiency, they suffer from KV cache misalignment, where approximation errors accumulate and degrade generation quality. In this work, we propose Rectified Sparse Attention (ReSA), a simple yet effective method that combines block-sparse attention with periodic dense rectification. By refreshing the KV cache at fixed intervals using a dense forward pass, ReSA bounds error accumulation and preserves alignment with the pretraining distribution. Experiments across math reasoning, language modeling, and retrieval tasks demonstrate that ReSA achieves near-lossless generation quality with significantly improved efficiency. Notably, ReSA delivers up to 2.42$\times$ end-to-end speedup under decoding at 256K sequence length, making it a practical solution for scalable long-context inference. Code is available at https://aka.ms/ReSA-LM.

arxiv情報

著者 Yutao Sun,Tianzhu Ye,Li Dong,Yuqing Xia,Jian Chen,Yizhao Gao,Shijie Cao,Jianyong Wang,Furu Wei
発行日 2025-06-04 16:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rectified Sparse Attention はコメントを受け付けていません

Assistant-Guided Mitigation of Teacher Preference Bias in LLM-as-a-Judge

要約

LLM-as-a-judgeは、GPT-4などの大規模な言語モデル(LLM)を採用して、LLM生成された反応の質を評価し、費用対効果と人間の評価との強い整合で人気を博しています。
ただし、強力な教師モデルによって生成された評価データを使用してプロキシジャッジモデルのトレーニングは、以前に見落とされがちな重要な問題を紹介します。教師の好みバイアスは、プロキシジャッジモデルが教師モデルからの応答に対する偏った優先権を学習します。
この問題に取り組むために、トレーニングデータを補完するために、教師モデルの応答に偏っていない追加のアシスタントモデルを組み込んだ新しい設定を提案します。
このセットアップに基づいて、トレーニングデータのラベルとフィードバックの両方からDebiasに設計された3段階のフレームワークであるAgde-Judgeを紹介します。
広範な実験は、AGDEの裁判官が6つの評価ベンチマークで強力なパフォーマンスを維持しながら、教師の好みのバイアスを効果的に減らすことを示しています。
コードはhttps://github.com/liuz233/agde-judgeで入手できます。

要約(オリジナル)

LLM-as-a-Judge employs large language models (LLMs), such as GPT-4, to evaluate the quality of LLM-generated responses, gaining popularity for its cost-effectiveness and strong alignment with human evaluations. However, training proxy judge models using evaluation data generated by powerful teacher models introduces a critical yet previously overlooked issue: teacher preference bias, where the proxy judge model learns a biased preference for responses from the teacher model. To tackle this problem, we propose a novel setting that incorporates an additional assistant model, which is not biased toward the teacher model’s responses, to complement the training data. Building on this setup, we introduce AGDe-Judge, a three-stage framework designed to debias from both the labels and feedbacks in the training data. Extensive experiments demonstrate that AGDe-Judge effectively reduces teacher preference bias while maintaining strong performance across six evaluation benchmarks. Code is available at https://github.com/Liuz233/AGDe-Judge.

arxiv情報

著者 Zhuo Liu,Moxin Li,Xun Deng,Qifan Wang,Fuli Feng
発行日 2025-06-04 16:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assistant-Guided Mitigation of Teacher Preference Bias in LLM-as-a-Judge はコメントを受け付けていません

Rubrik’s Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset

要約

大規模な言語モデル(LLM)のパフォーマンスと使いやすさは、説明生成タスクでの使用を促進しています。
しかし、彼らの広範な採用にもかかわらず、LLMの説明は信頼できないことがわかっているため、ユーザーが悪い説明と良いことを区別することは困難です。
この問題に対処するために、Rubrikのキューブ、教育に触発されたルーブリックと26kの説明のデータセットを提示します。
キューブデータセットは、2つの推論と2つの言語タスクに焦点を当てており、提案されたルーブリックを効果的にテストするために必要な多様性を提供します。
Rubrikを使用して、説明はタスクと知覚される困難の両方に影響されることがわかります。
低品質は、主に凝集と単語の選択ではなく、LLM生成の説明における簡潔さの欠如に起因します。
完全なデータセット、ルーブリック、およびコードは、https://github.com/rubrikscube/rubriks_cubeで入手できます。

要約(オリジナル)

The performance and usability of Large-Language Models (LLMs) are driving their use in explanation generation tasks. However, despite their widespread adoption, LLM explanations have been found to be unreliable, making it difficult for users to distinguish good from bad explanations. To address this issue, we present Rubrik’s CUBE, an education-inspired rubric and a dataset of 26k explanations, written and later quality-annotated using the rubric by both humans and six open- and closed-source LLMs. The CUBE dataset focuses on two reasoning and two language tasks, providing the necessary diversity for us to effectively test our proposed rubric. Using Rubrik, we find that explanations are influenced by both task and perceived difficulty. Low quality stems primarily from a lack of conciseness in LLM-generated explanations, rather than cohesion and word choice. The full dataset, rubric, and code are available at https://github.com/RubriksCube/rubriks_cube.

arxiv情報

著者 Diana Galvan-Sosa,Gabrielle Gaudeau,Pride Kavumba,Yunmeng Li,Hongyi gu,Zheng Yuan,Keisuke Sakaguchi,Paula Buttery
発行日 2025-06-04 16:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Rubrik’s Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset はコメントを受け付けていません

DynaSaur: Large Language Agents Beyond Predefined Actions

要約

既存のLLMエージェントシステムは、通常、すべてのステップで固定および事前定義されたセットからアクションを選択します。
このアプローチは、閉じた狭いスコープ環境で効果的ですが、実世界の自由なシナリオに2つの主要な課題を提示します。(1)LLMエージェントの計画と演技能力を大幅に制限し、(2)可能なすべてのアクションを列挙し、実装するためにかなりの人間の努力を必要とします。
これらの制限に対処するために、必要に応じてアクションを動的に作成および構成できるLLMエージェントフレームワークを提案します。
このフレームワークでは、エージェントは、汎用プログラミング言語で記述されたプログラムを生成および実行することにより、環境と対話します。
さらに、生成されたアクションは、将来の再利用のために時間とともに蓄積されます。
複数のベンチマークにわたる広範な実験は、このフレームワークが柔軟性を大幅に向上させ、固定アクションセットに依存する以前の方法よりも優れていることを示しています。
特に、LLMエージェントは、予期せぬエッジケースのために事前定義されたアクションが不十分または失敗するシナリオで適応および回復することができます。
私たちのコードは、https://github.com/adobe-research/dynasaurにあります。

要約(オリジナル)

Existing LLM agent systems typically select actions from a fixed and predefined set at every step. While this approach is effective in closed, narrowly scoped environments, it presents two major challenges for real-world, open-ended scenarios: (1) it significantly restricts the planning and acting capabilities of LLM agents, and (2) it requires substantial human effort to enumerate and implement all possible actions, which is impractical in complex environments with a vast number of potential actions. To address these limitations, we propose an LLM agent framework that can dynamically create and compose actions as needed. In this framework, the agent interacts with its environment by generating and executing programs written in a general-purpose programming language. Moreover, generated actions are accumulated over time for future reuse. Our extensive experiments across multiple benchmarks show that this framework significantly improves flexibility and outperforms prior methods that rely on a fixed action set. Notably, it enables LLM agents to adapt and recover in scenarios where predefined actions are insufficient or fail due to unforeseen edge cases. Our code can be found in https://github.com/adobe-research/dynasaur.

arxiv情報

著者 Dang Nguyen,Viet Dac Lai,Seunghyun Yoon,Ryan A. Rossi,Handong Zhao,Ruiyi Zhang,Puneet Mathur,Nedim Lipka,Yu Wang,Trung Bui,Franck Dernoncourt,Tianyi Zhou
発行日 2025-06-04 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DynaSaur: Large Language Agents Beyond Predefined Actions はコメントを受け付けていません

Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish?

要約

日常言語のニュアンスを理解することは、計算言語学と感情の研究における進歩にとって極めて重要です。
LIWCやパターンなどの従来のレキシコンベースのツールは、このドメインの基礎的な楽器として長い間機能してきました。
LIWCは、社会科学とパターンの最も広範囲に検証された単語カウントベースのテキスト分析ツールです。パターンは、NLPの機能を提供するオープンソースPythonライブラリです。
しかし、日常の言語は本質的に自発的で、豊かに表現力豊かで、深く文脈に依存しています。
フランドルの日々の物語の価格をキャプチャする際のLLMの能力を調査するために、最初に102人のオランダ語を話す参加者から約25,000人のテキスト応答を含む研究を実施しました。
各参加者は、「今何が起こっているのか、それについてどう思いますか?」という質問によって促された物語を提供しました。
次に、これらの価数スコアを予測する際に、3つのオランダ固有のLLMの性能を評価し、それらの出力をLIWCとパターンによって生成された出力と比較しました。
私たちの調査結果は、LLMアーキテクチャの進歩にもかかわらず、これらのオランダの調整されたモデルは現在、自発的で現実世界の物語に存在する感情的な原子価を正確に捉えることに不足していることを示しています。
この研究では、自然言語の使用の複雑さを巧みに処理できる文化的および言語的に調整されたモデル/ツールを開発するための命令を強調しています。
自動化された原子価分析の強化は、計算方法論を進めるための極めて重要なことであるだけでなく、人間の日常体験に関する生態学的に有効な洞察を伴う心理研究の重要な約束も抱えています。
私たちは、計算言語学と感情研究の間のギャップを埋めることを目指して、フランドルのような低リソース言語の包括的なデータセットと微調整LLMを作成する努力の増加を提唱しています。

要約(オリジナル)

Understanding the nuances in everyday language is pivotal for advancements in computational linguistics & emotions research. Traditional lexicon-based tools such as LIWC and Pattern have long served as foundational instruments in this domain. LIWC is the most extensively validated word count based text analysis tool in the social sciences and Pattern is an open source Python library offering functionalities for NLP. However, everyday language is inherently spontaneous, richly expressive, & deeply context dependent. To explore the capabilities of LLMs in capturing the valences of daily narratives in Flemish, we first conducted a study involving approximately 25,000 textual responses from 102 Dutch-speaking participants. Each participant provided narratives prompted by the question, ‘What is happening right now and how do you feel about it?’, accompanied by self-assessed valence ratings on a continuous scale from -50 to +50. We then assessed the performance of three Dutch-specific LLMs in predicting these valence scores, and compared their outputs to those generated by LIWC and Pattern. Our findings indicate that, despite advancements in LLM architectures, these Dutch tuned models currently fall short in accurately capturing the emotional valence present in spontaneous, real-world narratives. This study underscores the imperative for developing culturally and linguistically tailored models/tools that can adeptly handle the complexities of natural language use. Enhancing automated valence analysis is not only pivotal for advancing computational methodologies but also holds significant promise for psychological research with ecologically valid insights into human daily experiences. We advocate for increased efforts in creating comprehensive datasets & finetuning LLMs for low-resource languages like Flemish, aiming to bridge the gap between computational linguistics & emotion research.

arxiv情報

著者 Ratna Kandala,Katie Hoemann
発行日 2025-06-04 16:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? はコメントを受け付けていません

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

要約

大規模な言語モデル(LLMS)の開発は、信頼できる評価に依存します。
ただし、現在のほとんどの評価は、公平性を大幅に損なうデータ汚染の問題を起こしやすいパブリックベンチマークに依存しています。
以前の研究では、汚染に対処するための動的ベンチマークの構築に焦点を当ててきました。
ただし、新しいベンチマークを継続的に構築することは、費用がかかり、周期的です。
この作業では、汚染されたモデル自体のメカニズムを分析することにより、汚染に取り組むことを目指しています。
実験を通じて、汚染されたモデルの過大評価は、トレーニングでショートカットソリューションを取得するパラメーターによる可能性が高いことがわかります。
さらに、比較および因果分析を通じてショートカットニューロンを識別する新しい方法を提案します。
これに基づいて、ショートカットニューロンを抑制するためのショートカットニューロンパッチと呼ばれる評価方法を紹介します。
実験は、汚染の緩和におけるアプローチの有効性を検証します。
さらに、私たちの評価結果は、最近リリースされた信頼できるベンチマークであるMixevalとの強い線形相関を示し、0.95を超えるスピアマン係数($ \ rho $)を達成します。
この高い相関は、私たちの方法がモデルの真の能力を密接に明らかにし、信頼できることを示しています。
さらに実験を行い、さまざまなベンチマークやハイパーパラメーター設定にわたるメソッドの一般化可能性を実証します。
コード:https://github.com/garystack/trustworthy-evaluation

要約(オリジナル)

The development of large language models (LLMs) depends on trustworthy evaluation. However, most current evaluations rely on public benchmarks, which are prone to data contamination issues that significantly compromise fairness. Previous researches have focused on constructing dynamic benchmarks to address contamination. However, continuously building new benchmarks is costly and cyclical. In this work, we aim to tackle contamination by analyzing the mechanisms of contaminated models themselves. Through our experiments, we discover that the overestimation of contaminated models is likely due to parameters acquiring shortcut solutions in training. We further propose a novel method for identifying shortcut neurons through comparative and causal analysis. Building on this, we introduce an evaluation method called shortcut neuron patching to suppress shortcut neurons. Experiments validate the effectiveness of our approach in mitigating contamination. Additionally, our evaluation results exhibit a strong linear correlation with MixEval, a recently released trustworthy benchmark, achieving a Spearman coefficient ($\rho$) exceeding 0.95. This high correlation indicates that our method closely reveals true capabilities of the models and is trustworthy. We conduct further experiments to demonstrate the generalizability of our method across various benchmarks and hyperparameter settings. Code: https://github.com/GaryStack/Trustworthy-Evaluation

arxiv情報

著者 Kejian Zhu,Shangqing Tu,Zhuoran Jin,Lei Hou,Juanzi Li,Jun Zhao
発行日 2025-06-04 16:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis はコメントを受け付けていません

Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models

要約

文の埋め込みは、多くのNLPタスクに不可欠であり、NLIのような注釈付きデータセットを使用して強力なパフォーマンスを実現する対照的な学習方法があります。
しかし、マニュアルラベルに依存すると、スケーラビリティが制限されます。
最近の研究では、大規模な言語モデル(LLMS)を活用して文のペアを生成し、注釈の依存を減らします。
ただし、ランキング情報を見落としています。
この課題に取り組むために、潜在空間でLLMの生成方向を制御する方法を提案します。
制約のない世代とは異なり、制御されたアプローチは意味のある意味的な発散を保証します。
次に、ランキング情報とセマンティック情報を統合することにより、存在する文の埋め込みモデルを改良します。
複数のベンチマークでの実験は、ランキング文の統合にわずかなコストで新しいSOTAパフォーマンスを達成することを示しています。

要約(オリジナル)

Sentence embedding is essential for many NLP tasks, with contrastive learning methods achieving strong performance using annotated datasets like NLI. Yet, the reliance on manual labels limits scalability. Recent studies leverage large language models (LLMs) to generate sentence pairs, reducing annotation dependency. However, they overlook ranking information crucial for fine-grained semantic distinctions. To tackle this challenge, we propose a method for controlling the generation direction of LLMs in the latent space. Unlike unconstrained generation, the controlled approach ensures meaningful semantic divergence. Then, we refine exist sentence embedding model by integrating ranking information and semantic information. Experiments on multiple benchmarks demonstrate that our method achieves new SOTA performance with a modest cost in ranking sentence synthesis.

arxiv情報

著者 Liyang He,Chenglong Liu,Rui Li,Zhenya Huang,Shulan Ruan,Jun Zhou,Enhong Chen
発行日 2025-06-04 16:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models はコメントを受け付けていません

Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of Topic Models

要約

NLPの一般的な使用は、従来のトピックモデルの使用から大規模な言語モデルにシフトすることで、大規模なドキュメントコレクションの理解を促進することです。
しかし、実際のアプリケーションでの大規模なコーパス理解にLLMを使用することの有効性は、未調査のままです。
この調査では、ユーザーが2つのデータセットで監督されていない、監視されたLLMベースの探索的アプローチまたは従来のトピックモデルで獲得する知識を測定します。
LLMベースの方法は、より人間の読み取り可能なトピックを生成し、データ探索の従来のモデルよりも高い平均WIN確率を示しますが、ユーザーがドキュメントについてあまり学習できないドメイン固有のデータセットの過度に一般的なトピックを作成します。
LLM生成プロセスに人間の監督を追加すると、幻覚と過剰な性能を緩和することにより、データ探索が改善されますが、より大きな人間の努力が必要です。
対照的に、伝統的です。
Latent Dirichlet Allocation(LDA)のようなモデルは、探索に効果的なままですが、使いやすいものではありません。
LLMSは、人間の助け、特にドメイン固有のデータ、およびコンテキストの長さの制約によるスケーリングと幻覚の制限に直面している大規模なコーパラの干し草の屋根を記述するのに苦労していることを示しています。

要約(オリジナル)

A common use of NLP is to facilitate the understanding of large document collections, with a shift from using traditional topic models to Large Language Models. Yet the effectiveness of using LLM for large corpus understanding in real-world applications remains under-explored. This study measures the knowledge users acquire with unsupervised, supervised LLM-based exploratory approaches or traditional topic models on two datasets. While LLM-based methods generate more human-readable topics and show higher average win probabilities than traditional models for data exploration, they produce overly generic topics for domain-specific datasets that do not easily allow users to learn much about the documents. Adding human supervision to the LLM generation process improves data exploration by mitigating hallucination and over-genericity but requires greater human effort. In contrast, traditional. models like Latent Dirichlet Allocation (LDA) remain effective for exploration but are less user-friendly. We show that LLMs struggle to describe the haystack of large corpora without human help, particularly domain-specific data, and face scaling and hallucination limitations due to context length constraints.

arxiv情報

著者 Zongxia Li,Lorena Calvo-Bartolomé,Alexander Hoyle,Paiheng Xu,Alden Dima,Juan Francisco Fung,Jordan Boyd-Graber
発行日 2025-06-04 16:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of Topic Models はコメントを受け付けていません

A Dataset for Addressing Patient’s Information Needs related to Clinical Course of Hospitalization

要約

患者は、電子健康記録(EHR)からの臨床的証拠を使用して対処できる入院に関する明確な情報ニーズを持っています。
人工知能(AI)システムは、これらのニーズを満たす際に有望であることを示していますが、AIに生成された応答の事実上の正確性と関連性を評価するには、堅牢なデータセットが必要です。
私たちの知る限り、既存のデータセットは、EHRのコンテキストで患者情報のニーズをキャプチャしません。
集中治療室および救急部門の設定からの実際の患者の症例に基づいて、専門家が解決したデータセットであるArchehr-Qaを紹介します。
この症例は、患者が公衆衛生フォーラムに提起した質問、臨床医が解釈したカウンターパート、関連する臨床ノートの抜粋を伴う文レベルの関連性の注釈を備えた臨床医が告発した質問で構成されています。
接地されたEHR質問応答(QA)のベンチマークを確立するために、3つのオープンウェイトの大手言語モデル(LLMS) – llama 4、llama 3、およびmixtral-across 3つのプロンプト戦略を評価しました。
2つの次元のパフォーマンスを評価しました:事実性(引用されたメモ文とグラウンドトゥルースの間の重複)と関連性(システムと参照の回答のテキストとセマンティックの類似性)。
最終データセットには、134の患者ケースが含まれています。
回答ファーストプロンプトアプローチは一貫して最高のパフォーマンスを発揮し、Llama 4は最高のスコアを達成しました。
手動エラー分析がこれらの発見をサポートし、省略した主要な臨床的証拠や矛盾または幻覚の内容などの一般的な問題を明らかにしました。
全体として、Archehr-QAは、患者中心のEHR QAシステムを開発および評価するための強力なベンチマークを提供し、臨床的文脈で事実と関連する反応を生成するためのさらなる進歩の必要性を強調しています。

要約(オリジナル)

Patients have distinct information needs about their hospitalization that can be addressed using clinical evidence from electronic health records (EHRs). While artificial intelligence (AI) systems show promise in meeting these needs, robust datasets are needed to evaluate the factual accuracy and relevance of AI-generated responses. To our knowledge, no existing dataset captures patient information needs in the context of their EHRs. We introduce ArchEHR-QA, an expert-annotated dataset based on real-world patient cases from intensive care unit and emergency department settings. The cases comprise questions posed by patients to public health forums, clinician-interpreted counterparts, relevant clinical note excerpts with sentence-level relevance annotations, and clinician-authored answers. To establish benchmarks for grounded EHR question answering (QA), we evaluated three open-weight large language models (LLMs)–Llama 4, Llama 3, and Mixtral–across three prompting strategies: generating (1) answers with citations to clinical note sentences, (2) answers before citations, and (3) answers from filtered citations. We assessed performance on two dimensions: Factuality (overlap between cited note sentences and ground truth) and Relevance (textual and semantic similarity between system and reference answers). The final dataset contains 134 patient cases. The answer-first prompting approach consistently performed best, with Llama 4 achieving the highest scores. Manual error analysis supported these findings and revealed common issues such as omitted key clinical evidence and contradictory or hallucinated content. Overall, ArchEHR-QA provides a strong benchmark for developing and evaluating patient-centered EHR QA systems, underscoring the need for further progress toward generating factual and relevant responses in clinical contexts.

arxiv情報

著者 Sarvesh Soni,Dina Demner-Fushman
発行日 2025-06-04 16:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Dataset for Addressing Patient’s Information Needs related to Clinical Course of Hospitalization はコメントを受け付けていません

Through the Prism of Culture: Evaluating LLMs’ Understanding of Indian Subcultures and Traditions

要約

大規模な言語モデル(LLM)は、顕著な進歩を示していますが、文化的偏見についての懸念も提起し、多くの場合、過小評価されたサブカルチャーを犠牲にして支配的な物語を反映しています。
この研究では、LLMSの能力を評価して、カースト、親族、結婚、宗教などのローカライズされた文化的慣行とサブカルチャーを含むインド社会内の小さな伝統を認識し、正確に対応します。
一連のケーススタディを通じて、LLMが支配的な偉大な伝統とローカライズされた小さな伝統の相互作用のバランスをとることができるかどうかを評価します。
さまざまなプロンプト戦略を調査し、地域言語でプロンプトを使用することで、モデルの文化的感度と応答の質が向上するかどうかをさらに調査します。
私たちの調査結果は、LLMが文化的ニュアンスを明確にする能力を示している一方で、彼らはしばしばこの理解を実際の文脈固有のシナリオで適用するのに苦労していることを明らかにしています。
私たちの知る限り、これはインドのサブカルチャーとのLLMSエンゲージメントを分析する最初の研究であり、AIシステムに文化的多様性を埋め込むという課題に関する重要な洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable advancements but also raise concerns about cultural bias, often reflecting dominant narratives at the expense of under-represented subcultures. In this study, we evaluate the capacity of LLMs to recognize and accurately respond to the Little Traditions within Indian society, encompassing localized cultural practices and subcultures such as caste, kinship, marriage, and religion. Through a series of case studies, we assess whether LLMs can balance the interplay between dominant Great Traditions and localized Little Traditions. We explore various prompting strategies and further investigate whether using prompts in regional languages enhances the models cultural sensitivity and response quality. Our findings reveal that while LLMs demonstrate an ability to articulate cultural nuances, they often struggle to apply this understanding in practical, context-specific scenarios. To the best of our knowledge, this is the first study to analyze LLMs engagement with Indian subcultures, offering critical insights into the challenges of embedding cultural diversity in AI systems.

arxiv情報

著者 Garima Chhikara,Abhishek Kumar,Abhijnan Chakraborty
発行日 2025-06-04 17:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Through the Prism of Culture: Evaluating LLMs’ Understanding of Indian Subcultures and Traditions はコメントを受け付けていません