A Llama walks into the ‘Bar’: Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam

要約

法的推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大規模な言語モデル(LLMS)に独自の課題を提示します。
このホワイトペーパーでは、法的質問の回答精度を改善するために、1,514のマルチステートバー検査(MBE)の質問の限られたデータセットで、より小さな言語モデル(Llama 2 7bおよびllama 3 8b)を微調整できる方法を調査します。
これらのモデルを、「GPT-4で使用されているJDアドバイスからライセンスされた2022 MBE質問」で評価します。
私たちの方法論では、7つのドメインにわたって法的ドメインごとに約200の質問を収集することが含まれます。
Llama 3(70b)を使用してデータセットを蒸留し、説明を構造化されたIRAC(問題、ルール、アプリケーション、結論)形式に変換して、ガイド付き推論プロセスとして、未留めのデータセットよりもパフォーマンスが向上するかどうかを確認します。
ドメインごとに異なるサンプルサイズのために訓練された、監視された微調整(SFT)のカウンターパートと、非ファインチューニングモデルを、精度と迅速なアドヒアランスへの影響を研究するために、監視された微調整(SFT)のカウンターパートと比較します。
また、SFT後のオプション選択バイアスとその緩和を分析します。
さらに、複数の変数にわたってパフォーマンスを統合します:プロンプトタイプ(少数のショットvsゼロショット)、回答順序(選択対象対生成 – 実現最初)、応答形式(番号付きリストvs Markdown vs JSON)、およびさまざまなデコード温度。
私たちの調査結果は、ドメイン固有のSFTが、計算リソースが限られており、比較的小さなデータセットにもかかわらず、一部のモデル構成が人間のベースラインパフォーマンスに近づくのに役立つことを示しています。
収集されたSFTデータセットと、MBEパフォーマンスに最適化された監視付き微調整(SFT)アダプターのファミリーの両方をリリースします。
これにより、より小さなLLMでの効果的な法的質問の回答を達成するために必要なリソースの実用的な下限が確立されます。

要約(オリジナル)

Legal reasoning tasks present unique challenges for large language models (LLMs) due to the complexity of domain-specific knowledge and reasoning processes. This paper investigates how effectively smaller language models (Llama 2 7B and Llama 3 8B) can be fine-tuned with a limited dataset of 1,514 Multi-state Bar Examination (MBE) questions to improve legal question answering accuracy. We evaluate these models on the 2022 MBE questions licensed from JD Advising, the same dataset used in the ‘GPT-4 passes the Bar exam’ study. Our methodology involves collecting approximately 200 questions per legal domain across 7 domains. We distill the dataset using Llama 3 (70B) to transform explanations into a structured IRAC (Issue, Rule, Application, Conclusion) format as a guided reasoning process to see if it results in better performance over the non-distilled dataset. We compare the non-fine-tuned models against their supervised fine-tuned (SFT) counterparts, trained for different sample sizes per domain, to study the effect on accuracy and prompt adherence. We also analyse option selection biases and their mitigation following SFT. In addition, we consolidate the performance across multiple variables: prompt type (few-shot vs zero-shot), answer ordering (chosen-option first vs generated-explanation first), response format (Numbered list vs Markdown vs JSON), and different decoding temperatures. Our findings show that domain-specific SFT helps some model configurations achieve close to human baseline performance, despite limited computational resources and a relatively small dataset. We release both the gathered SFT dataset and the family of Supervised Fine-tuned (SFT) adapters optimised for MBE performance. This establishes a practical lower bound on resources needed towards achieving effective legal question answering in smaller LLMs.

arxiv情報

著者 Rean Fernandes,André Biedenkapp,Frank Hutter,Noor Awad
発行日 2025-04-07 11:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.1 | A Llama walks into the ‘Bar’: Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam はコメントを受け付けていません

M-Prometheus: A Suite of Open Multilingual LLM Judges

要約

ロングフォームテキスト(LLM-as-a-judge)を自動的に評価するための言語モデルの使用はますます一般的になりつつありますが、ほとんどのLLM審査員は英語のみ専用であり、多言語評価機能を強化するための戦略が現在の文献では主に未開拓のままです。
これにより、英語以外の言語の自動評価方法の品質に格差が生まれ、最終的には多言語機能が向上したモデルの開発が妨げられます。
このギャップを埋めるために、3Bから14Bのパラメーターの範囲のオープンウェイトLLMジャッジのスイートであるM-Prometheusを紹介します。
M-Prometheusモデルは、20を超える言語にまたがる多言語報酬ベンチマークと、4つの言語ペアをカバーする文学機械翻訳(MT)評価で、最先端のオープンLLM審査員を上回ります。
さらに、M-Prometheusモデルをデコード時に活用して、3つのテストされた言語すべてで生成された出力を大幅に改善し、より良い多言語モデルの開発のためにユーティリティを紹介します。
最後に、広範なアブレーションを通じて、翻訳されたデータではなくネイティブな多言語フィードバックデータに関するバックボーンモデルの選択やトレーニングなど、効果的な多言語裁判官を取得するための重要な要因を特定します。
モデル、トレーニングデータセット、およびコードをリリースします。

要約(オリジナル)

The use of language models for automatically evaluating long-form text (LLM-as-a-judge) is becoming increasingly common, yet most LLM judges are optimized exclusively for English, with strategies for enhancing their multilingual evaluation capabilities remaining largely unexplored in the current literature. This has created a disparity in the quality of automatic evaluation methods for non-English languages, ultimately hindering the development of models with better multilingual capabilities. To bridge this gap, we introduce M-Prometheus, a suite of open-weight LLM judges ranging from 3B to 14B parameters that can provide both direct assessment and pairwise comparison feedback on multilingual outputs. M-Prometheus models outperform state-of-the-art open LLM judges on multilingual reward benchmarks spanning more than 20 languages, as well as on literary machine translation (MT) evaluation covering 4 language pairs. Furthermore, M-Prometheus models can be leveraged at decoding time to significantly improve generated outputs across all 3 tested languages, showcasing their utility for the development of better multilingual models. Lastly, through extensive ablations, we identify the key factors for obtaining an effective multilingual judge, including backbone model selection and training on natively multilingual feedback data instead of translated data. We release our models, training dataset, and code.

arxiv情報

著者 José Pombal,Dongkeun Yoon,Patrick Fernandes,Ian Wu,Seungone Kim,Ricardo Rei,Graham Neubig,André F. T. Martins
発行日 2025-04-07 11:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | M-Prometheus: A Suite of Open Multilingual LLM Judges はコメントを受け付けていません

Constraint Multi-class Positive and Unlabeled Learning for Distantly Supervised Named Entity Recognition

要約

遠い監督された名前付きエンティティ認識(DS-NER)は、人間の注釈の代わりに、外部の知識ベースによって自動ラベル付けされたトレーニングデータを活用するために提案されています。
ただし、固有の不完全性のために、高い偽陰性率に苦しむ傾向があります。
この問題に対処するために、\ textbf {c} onstraint \ textbf {m} ulti-class \ textbf {p} ositiveと\ textbf {u} nlabeled Learning(CMPU)と呼ばれる新しいアプローチを提示します。
制約の非陰性リスク推定器は、陽性データが限られている以前のPU学習方法よりも過剰適合に対してより堅牢であることを示唆しています。
CMPUの強固な理論分析が提供され、アプローチの妥当性を証明します。
多様な外部知識ソースを使用してラベル付けされた2つのベンチマークデータセットでの広範な実験は、既存のDSNERメソッドと比較してCMPUの優れたパフォーマンスを実証するのに役立ちます。

要約(オリジナル)

Distantly supervised named entity recognition (DS-NER) has been proposed to exploit the automatically labeled training data by external knowledge bases instead of human annotations. However, it tends to suffer from a high false negative rate due to the inherent incompleteness. To address this issue, we present a novel approach called \textbf{C}onstraint \textbf{M}ulti-class \textbf{P}ositive and \textbf{U}nlabeled Learning (CMPU), which introduces a constraint factor on the risk estimator of multiple positive classes. It suggests that the constraint non-negative risk estimator is more robust against overfitting than previous PU learning methods with limited positive data. Solid theoretical analysis on CMPU is provided to prove the validity of our approach. Extensive experiments on two benchmark datasets that were labeled using diverse external knowledge sources serve to demonstrate the superior performance of CMPU in comparison to existing DS-NER methods.

arxiv情報

著者 Yuzhe Zhang,Min Cen,Hong Zhang
発行日 2025-04-07 11:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Constraint Multi-class Positive and Unlabeled Learning for Distantly Supervised Named Entity Recognition はコメントを受け付けていません

Few Dimensions are Enough: Fine-tuning BERT with Selected Dimensions Revealed Its Redundant Nature

要約

特定のタスクの微調整BERTモデルの場合、最終レイヤーの出力の一部を選択して、新しく作成された完全に接続されたレイヤーに入力することが一般的です。
ただし、最終レイヤーのどの部分を選択し、レイヤーの各次元がどのような情報を保持するかは不明のままです。
この研究では、接着剤タスク上のバート微調整を通じて、トークンベクター、層、および寸法の有効性と冗長性を包括的に調査しました。
結果は、最終層のCLSベクトル以外の出力には同等の情報が含まれており、ほとんどのタスクには2〜3の寸法のみが必要であり、下層の寄与は減少するが、より高い層の間にはほとんど差がないことを示しました。
また、事前に訓練された層の凍結の影響を評価し、クロスファインチューニングを実施しました。ここでは、微調整がさまざまなタスクに連続的に適用されます。
調査結果は、隠れ層が微調整中に大幅に変化する可能性があることを示唆しており、Bertはかなりの冗長性を持ち、複数のタスクを同時に処理できるようにし、その寸法の数は過剰になる可能性があります。

要約(オリジナル)

When fine-tuning BERT models for specific tasks, it is common to select part of the final layer’s output and input it into a newly created fully connected layer. However, it remains unclear which part of the final layer should be selected and what information each dimension of the layers holds. In this study, we comprehensively investigated the effectiveness and redundancy of token vectors, layers, and dimensions through BERT fine-tuning on GLUE tasks. The results showed that outputs other than the CLS vector in the final layer contain equivalent information, most tasks require only 2-3 dimensions, and while the contribution of lower layers decreases, there is little difference among higher layers. We also evaluated the impact of freezing pre-trained layers and conducted cross-fine-tuning, where fine-tuning is applied sequentially to different tasks. The findings suggest that hidden layers may change significantly during fine-tuning, BERT has considerable redundancy, enabling it to handle multiple tasks simultaneously, and its number of dimensions may be excessive.

arxiv情報

著者 Shion Fukuhata,Yoshinobu Kano
発行日 2025-04-07 11:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Few Dimensions are Enough: Fine-tuning BERT with Selected Dimensions Revealed Its Redundant Nature はコメントを受け付けていません

DataLab: A Unified Platform for LLM-Powered Business Intelligence

要約

Business Intelligence(BI)は、近代的な組織内の大量のデータを、情報に基づいた意思決定のための実用的な洞察に変換します。
最近、大規模な言語モデル(LLM)ベースのエージェントは、自然言語(NL)クエリに基づく実行可能環境でタスク計画、推論、およびアクションを自動的に実行することにより、BIワークフローを合理化しました。
ただし、既存のアプローチは、主にNL2SQLやNL2VISなどの個々のBIタスクに焦点を当てています。
さまざまなデータの役割とツールにわたるタスクの断片化は、BIの反復的および共同性の性質による非効率性と潜在的なエラーにつながります。
このホワイトペーパーでは、ワンストップLLMベースのエージェントフレームワークを拡張した計算ノートブックインターフェースと統合する統合されたBIプラットフォームであるDatalabを紹介します。
Datalabは、LLMの支援と単一の環境内でのユーザーのカスタマイズをシームレスに組み合わせることにより、データの準備、分析、視覚化におけるさまざまなデータの役割に関するさまざまなBIタスクをサポートしています。
この統合を実現するために、エンタープライズ固有のBIタスクに合わせたドメインナレッジインコルア酸モジュール、BIワークフロー全体の情報共有を促進するエージェント間のコミュニケーションメカニズム、およびBIノートブックのコンテキスト利用効率を強化するセルベースのコンテキスト管理戦略を設計します。
広範な実験は、Datalabが一般的な研究ベンチマーク全体でさまざまなBIタスクで最先端のパフォーマンスを達成することを示しています。
さらに、Datalabは、Tencentの実際のデータセットに対する高い効果と効率を維持し、精度が58.58%増加し、企業固有のBIタスクのトークンコストが61.65%削減されました。

要約(オリジナル)

Business intelligence (BI) transforms large volumes of data within modern organizations into actionable insights for informed decision-making. Recently, large language model (LLM)-based agents have streamlined the BI workflow by automatically performing task planning, reasoning, and actions in executable environments based on natural language (NL) queries. However, existing approaches primarily focus on individual BI tasks such as NL2SQL and NL2VIS. The fragmentation of tasks across different data roles and tools lead to inefficiencies and potential errors due to the iterative and collaborative nature of BI. In this paper, we introduce DataLab, a unified BI platform that integrates a one-stop LLM-based agent framework with an augmented computational notebook interface. DataLab supports various BI tasks for different data roles in data preparation, analysis, and visualization by seamlessly combining LLM assistance with user customization within a single environment. To achieve this unification, we design a domain knowledge incorporation module tailored for enterprise-specific BI tasks, an inter-agent communication mechanism to facilitate information sharing across the BI workflow, and a cell-based context management strategy to enhance context utilization efficiency in BI notebooks. Extensive experiments demonstrate that DataLab achieves state-of-the-art performance on various BI tasks across popular research benchmarks. Moreover, DataLab maintains high effectiveness and efficiency on real-world datasets from Tencent, achieving up to a 58.58% increase in accuracy and a 61.65% reduction in token cost on enterprise-specific BI tasks.

arxiv情報

著者 Luoxuan Weng,Yinghao Tang,Yingchaojie Feng,Zhuo Chang,Ruiqin Chen,Haozhe Feng,Chen Hou,Danqing Huang,Yang Li,Huaming Rao,Haonan Wang,Canshi Wei,Xiaofeng Yang,Yuhui Zhang,Yifeng Zheng,Xiuqi Huang,Minfeng Zhu,Yuxin Ma,Bin Cui,Peng Chen,Wei Chen
発行日 2025-04-07 12:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | DataLab: A Unified Platform for LLM-Powered Business Intelligence はコメントを受け付けていません

Towards Visual Text Grounding of Multimodal Large Language Model

要約

マルチモーダル大手言語モデル(MLLMS)の既存の進化にもかかわらず、特にドキュメントのテキストが豊富な画像では、視覚的なテキストの接地との闘いには無視できない制限が残っています。
スキャンされたフォームやインフォグラフィックなどのドキュメント画像は、複雑なレイアウトやテキストコンテンツによる重要な課題を強調しています。
ただし、現在のベンチマークは、テキストが豊富なドキュメント画像ではなく、自然画像の視覚的接地に主に焦点を当てているため、これらの課題に完全に対処するものではありません。
したがって、このギャップを橋渡しするために、ドキュメントの質問におけるMLLMのテキストが豊富な画像接地機能をベンチマークして改善するための新しく設計された命令データセットを備えた新しいタスクであるTrigを紹介します。
具体的には、4つの多様なデータセットに基づいて、ベンチマークとして800の手動注釈付き質問ペアと90ドルの合成データの大規模なトレーニングセットを作成するために、OCR-llm-Humanインタラクションパイプラインを提案します。
提案されているベンチマークでのさまざまなMLLMの包括的な評価は、テキストが豊富な画像の接地能力の大幅な制限を明らかにします。
さらに、一般的な命令の調整とプラグアンドプレイ効率の埋め込みに基づいて、2つのシンプルで効果的なトリグメソッドを提案します。
合成データセットでMLLMを微調整することにより、彼らは空間的推論と接地能力を有望に改善します。

要約(オリジナル)

Despite the existing evolution of Multimodal Large Language Models (MLLMs), a non-neglectable limitation remains in their struggle with visual text grounding, especially in text-rich images of documents. Document images, such as scanned forms and infographics, highlight critical challenges due to their complex layouts and textual content. However, current benchmarks do not fully address these challenges, as they mostly focus on visual grounding on natural images, rather than text-rich document images. Thus, to bridge this gap, we introduce TRIG, a novel task with a newly designed instruction dataset for benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs in document question-answering. Specifically, we propose an OCR-LLM-human interaction pipeline to create 800 manually annotated question-answer pairs as a benchmark and a large-scale training set of 90$ synthetic data based on four diverse datasets. A comprehensive evaluation of various MLLMs on our proposed benchmark exposes substantial limitations in their grounding capability on text-rich images. In addition, we propose two simple and effective TRIG methods based on general instruction tuning and plug-and-play efficient embedding, respectively. By finetuning MLLMs on our synthetic dataset, they promisingly improve spatial reasoning and grounding capabilities.

arxiv情報

著者 Ming Li,Ruiyi Zhang,Jian Chen,Jiuxiang Gu,Yufan Zhou,Franck Dernoncourt,Wanrong Zhu,Tianyi Zhou,Tong Sun
発行日 2025-04-07 12:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Towards Visual Text Grounding of Multimodal Large Language Model はコメントを受け付けていません

Differential Transformer

要約

トランスは、無関係なコンテキストに全体的に注意を向ける傾向があります。
この作業では、diffトランスを導入します。これは、ノイズをキャンセルしながら、関連するコンテキストへの注意を増幅します。
具体的には、差動注意メカニズムは、2つの個別のSoftMax注意マップの違いとして注意スコアを計算します。
減算はノイズをキャンセルし、まばらな注意パターンの出現を促進します。
言語モデリングの実験結果は、DIFFトランスがモデルサイズのスケーリングとトレーニングトークンのスケーリングのさまざまな設定でトランスを上回ることを示しています。
さらに興味深いことに、長いコンテキストモデリング、主要な情報検索、幻覚緩和、コンテキスト学習、活性化外れ値の削減など、実際のアプリケーションで顕著な利点を提供します。
無関係なコンテキストに気を取られることにより、DIFFトランスは問題の回答とテキストの要約の幻覚を軽減できます。
コンテキスト内学習の場合、DIFFトランスは精度を向上させるだけでなく、慢性的な堅牢性の問題と見なされた順序性の順序方をより堅牢にします。
結果は、大規模な言語モデルを進めるための非常に効果的で有望なアーキテクチャとしてDiff Transformerを位置付けています。

要約(オリジナル)

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

arxiv情報

著者 Tianzhu Ye,Li Dong,Yuqing Xia,Yutao Sun,Yi Zhu,Gao Huang,Furu Wei
発行日 2025-04-07 12:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Differential Transformer はコメントを受け付けていません

A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models

要約

大規模な言語モデル(LLMS)の研究は、オープンワールドの機械学習の重要な分野です。
LLMSは顕著な自然言語処理能力を示していますが、一貫性の問題、幻覚、脱獄の脆弱性など、いくつかの課題にも直面しています。
ジェイルブレイクは、Alignment Alignment Safegaddをバイパスするプロンプトのクラフトを指し、LLMSの完全性を損なう危険な出力につながります。
この作業は、脱獄の脆弱性の課題に特に焦点を当てており、LLMSのトレーニングドメインに基づいた脱獄攻撃の新しい分類法を導入します。
一般化、目的、堅牢性のギャップを通じて、アライメントの障害を特徴付けます。
私たちの主な貢献は、LLMのトレーニングとアライメント中に出現するさまざまな言語ドメインを通して囲まれた脱獄に関する視点です。
この視点は、既存のアプローチの限界を強調し、将来のモデルの欠陥に基づいて脱獄攻撃を分類することができます。
迅速な構築方法(迅速なテンプレートなど)に基づいて攻撃を分類する従来の分類とは異なり、このアプローチはLLMの動作をより深く理解します。
不一致の一般化、競合する目的、敵対的な堅牢性、混合攻撃の4つのカテゴリを持つ分類法を紹介します。
最後に、この分類学的研究から派生した重要な教訓を提示します。

要約(オリジナル)

The study of large language models (LLMs) is a key area in open-world machine learning. Although LLMs demonstrate remarkable natural language processing capabilities, they also face several challenges, including consistency issues, hallucinations, and jailbreak vulnerabilities. Jailbreaking refers to the crafting of prompts that bypass alignment safeguards, leading to unsafe outputs that compromise the integrity of LLMs. This work specifically focuses on the challenge of jailbreak vulnerabilities and introduces a novel taxonomy of jailbreak attacks grounded in the training domains of LLMs. It characterizes alignment failures through generalization, objectives, and robustness gaps. Our primary contribution is a perspective on jailbreak, framed through the different linguistic domains that emerge during LLM training and alignment. This viewpoint highlights the limitations of existing approaches and enables us to classify jailbreak attacks on the basis of the underlying model deficiencies they exploit. Unlike conventional classifications that categorize attacks based on prompt construction methods (e.g., prompt templating), our approach provides a deeper understanding of LLM behavior. We introduce a taxonomy with four categories — mismatched generalization, competing objectives, adversarial robustness, and mixed attacks — offering insights into the fundamental nature of jailbreak vulnerabilities. Finally, we present key lessons derived from this taxonomic study.

arxiv情報

著者 Carlos Peláez-González,Andrés Herrera-Poyatos,Cristina Zuheros,David Herrera-Poyatos,Virilo Tejedor,Francisco Herrera
発行日 2025-04-07 12:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models はコメントを受け付けていません

Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs

要約

大規模な言語モデル(LLMS)の印象的なパフォーマンスにもかかわらず、彼らはエンコードされた値によって駆動される意図しないバイアスと有害な行動を提示することができ、その背後にある価値メカニズムを理解する緊急の必要性を強調します。
ただし、現在の研究は、主にAIの安全性に焦点を当て、解釈可能性を欠いており、実際のコンテキストでの社会的価値を評価できない外部応答を通じてこれらの値を評価しています。
この論文では、NeuronレベルでのLLMS内の国家社会的価値の行動主導型メカニズムを探求することを目的とするValueExplorationと呼ばれる新しいフレームワークを提案します。
ケーススタディとして、私たちは中国の社会的価値に焦点を当て、LLMの中国の社会的価値を特定して評価するための大規模なバイリンガルベンチマークであるC-Voiceを最初に構築します。
C-Voiceを活用することにより、活性化の違いに応じてこれらの値をコードする原因となるニューロンを特定して見つけます。
最後に、これらのニューロンを非アクティブ化することにより、モデルの動作のシフトを分析し、値がLLMの意思決定に影響する内部メカニズムを明らかにします。
4人の代表的なLLMSに関する広範な実験は、フレームワークの有効性を検証します。
ベンチマークとコードが利用可能になります。

要約(オリジナル)

Despite the impressive performance of large language models (LLMs), they can present unintended biases and harmful behaviors driven by encoded values, emphasizing the urgent need to understand the value mechanisms behind them. However, current research primarily evaluates these values through external responses with a focus on AI safety, lacking interpretability and failing to assess social values in real-world contexts. In this paper, we propose a novel framework called ValueExploration, which aims to explore the behavior-driven mechanisms of National Social Values within LLMs at the neuron level. As a case study, we focus on Chinese Social Values and first construct C-voice, a large-scale bilingual benchmark for identifying and evaluating Chinese Social Values in LLMs. By leveraging C-voice, we then identify and locate the neurons responsible for encoding these values according to activation difference. Finally, by deactivating these neurons, we analyze shifts in model behavior, uncovering the internal mechanism by which values influence LLM decision-making. Extensive experiments on four representative LLMs validate the efficacy of our framework. The benchmark and code will be available.

arxiv情報

著者 Ling Hu,Yuemei Xu,Xiaoyang Gu,Letao Han
発行日 2025-04-07 12:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs はコメントを受け付けていません

Surveying Professional Writers on AI: Limitations, Expectations, and Fears

要約

AI駆動型ツール、特に大規模な言語モデル(LLMS)の急速な発展は、専門的な執筆を再構築しています。
それでも、言語のサポート、倫理、作家の声と創造性への長期的な影響など、養子縁組の重要な側面は未定です。
この作業では、AIを使用して定期的にプロの作家を対象としたアンケート(n = 301)とインタラクティブ調査(n = 36)を実施しました。
25以上の言語、倫理的懸念、ユーザーの期待にわたるLLM支援の執筆慣行を調べました。
調査の結果は、以下の英語スピーカーのLLMS採用の重要性を反映して、重要な洞察を示しています。
誤った情報、ドメイン、スタイルの適応の程度。
LLMSの使いやすさと重要な機能。
これらの洞察は、さらなる開発を導き、作家とより幅広いユーザーベースの両方に利益をもたらすことができます。

要約(オリジナル)

The rapid development of AI-driven tools, particularly large language models (LLMs), is reshaping professional writing. Still, key aspects of their adoption such as languages support, ethics, and long-term impact on writers voice and creativity remain underexplored. In this work, we conducted a questionnaire (N = 301) and an interactive survey (N = 36) targeting professional writers regularly using AI. We examined LLM-assisted writing practices across 25+ languages, ethical concerns, and user expectations. The findings of the survey demonstrate important insights, reflecting upon the importance of: LLMs adoption for non-English speakers; the degree of misinformation, domain and style adaptation; usability and key features of LLMs. These insights can guide further development, benefiting both writers and a broader user base.

arxiv情報

著者 Anastasiia Ivanova,Natalia Fedorova,Sergey Tilga,Ekaterina Artemova
発行日 2025-04-07 12:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC | Surveying Professional Writers on AI: Limitations, Expectations, and Fears はコメントを受け付けていません