A Survey on Mixture of Experts in Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語加工からコンピュータービジョン、それ以降に至るまで、多様な分野で前例のない進歩を獲得しています。
LLMSの腕前は、実質的なモデルサイズ、広範囲で多様なデータセット、およびトレーニング中に活用される広大な計算能力によって支えられており、これらはすべて、小さなモデルには存在しないLLMS(例えば、コンテキスト学習)の緊急能力に貢献しています。
このコンテキスト内で、専門家(MOE)の混合は、最小限の計算オーバーヘッドでモデル容量を実質的にスケーリングするための効果的な方法として浮上し、学界や産業から大きな注目を集めています。
その有病率の高まりにもかかわらず、MOEに関する文献の体系的かつ包括的なレビューがありません。
この調査では、そのギャップを埋めることを目指しており、MOEの複雑さを掘り下げている研究者にとって不可欠なリソースとして機能します。
まず、MOE層の構造を簡単に紹介し、その後、MOEの新しい分類法を提案しました。
次に、アルゴリズムと全身の側面の両方を含むさまざまなMOEモデルのコア設計を概要し、利用可能なオープンソースの実装、ハイパーパラメーターの構成、経験的評価のコレクションとともに概要します。
さらに、実際にMOEの多面的なアプリケーションを描き、将来の研究のためのいくつかの潜在的な方向性を概説します。
継続的な更新とMOEの研究における最先端の進歩の共有を促進するために、https://github.com/withinmiaov/a-survey-on-mixture-of-experts-in-llmsにリソースリポジトリを設立しました。

要約(オリジナル)

Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge advances in MoE research, we have established a resource repository at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs.

arxiv情報

著者 Weilin Cai,Juyong Jiang,Fan Wang,Jing Tang,Sunghun Kim,Jiayi Huang
発行日 2025-04-09 13:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Survey on Mixture of Experts in Large Language Models はコメントを受け付けていません

Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval

要約

最近の検索された高等世代(RAG)システムの進歩にもかかわらず、ほとんどの検索方法論は、クエリと肯定的なドキュメントが意味的に類似していると仮定する事実検索のために開発されることがよくあります。
この論文では、代わりに、QueryとDocumentが類似していないが、チェーン、論理関係、または経験的な経験を推論することで推測できるHidden Rationale取得と呼ばれる、より挑戦的なタイプの検索タスクを提案し、研究します。
このような問題に対処するために、クロスエンコーダーアーキテクチャを備えた命令調整された大手言語モデル(LLM)が合理的な選択になる可能性があります。
先駆的なLLMベースのレトリバーをさらに強化するために、LLMにバイナリ選択の質問に答えるように促すことにより、検索タスクを生成タスクに変換する特別な指示を設計します。
このモデルは、直接優先最適化(DPO)で微調整できます。
このフレームワークは、パフォーマンスの低下なしで計算効率のために最適化されています。
Rahoreによるこの検索フレームワークに名前を付け、以前の検索作業と比較して、感情的なサポート会話(ESC)のゼロショットと微調整されたパフォーマンスの優位性を確認します。
私たちの研究は、LLMをより広範な検索タスクの基盤として採用する可能性を示唆しています。
コード、モデル、およびデータセットは、https://github.com/flyfree5/lahoreで入手できます。

要約(オリジナル)

Despite the recent advancement in Retrieval-Augmented Generation (RAG) systems, most retrieval methodologies are often developed for factual retrieval, which assumes query and positive documents are semantically similar. In this paper, we instead propose and study a more challenging type of retrieval task, called hidden rationale retrieval, in which query and document are not similar but can be inferred by reasoning chains, logic relationships, or empirical experiences. To address such problems, an instruction-tuned Large language model (LLM) with a cross-encoder architecture could be a reasonable choice. To further strengthen pioneering LLM-based retrievers, we design a special instruction that transforms the retrieval task into a generative task by prompting LLM to answer a binary-choice question. The model can be fine-tuned with direct preference optimization (DPO). The framework is also optimized for computational efficiency with no performance degradation. We name this retrieval framework by RaHoRe and verify its zero-shot and fine-tuned performance superiority on Emotional Support Conversation (ESC), compared with previous retrieval works. Our study suggests the potential to employ LLM as a foundation for a wider scope of retrieval tasks. Our codes, models, and datasets are available on https://github.com/flyfree5/LaHoRe.

arxiv情報

著者 Luo Ji,Feixiang Guo,Teng Chen,Qingqing Gu,Xiaoyu Wang,Ningyuan Xi,Yihong Wang,Peng Yu,Yue Zhao,Hongyang Lei,Zhonglin Jiang,Yong Chen
発行日 2025-04-09 14:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval はコメントを受け付けていません

Identifying Aspects in Peer Reviews

要約

ピアレビューはアカデミック出版の中心ですが、提出量の増加はプロセスに緊張しています。
これにより、ピアレビューをサポートするための計算アプローチの開発が動機付けられます。
各レビューは特定の論文に合わせて調整されていますが、レビュアーはしばしば、研究コミュニティの価値を反映したノベルティなどの特定の側面に従って評価を行います。
このアラインメントは、レビュープロセスを標準化し、品質管理の改善、計算サポートを可能にする機会を生み出します。
以前の研究では、ピアレビュー支援のアスペクト分析の可能性が実証されていますが、アスペクトの概念は依然として不十分に形式化されています。
既存のアプローチは、多くの場合、主要なNLP会場のレビューフォームとガイドラインからアスペクトセットを導き出しますが、アスペクト識別のためのデータ駆動型の方法はほとんど露出していません。
このギャップに対処するために、私たちの作業はボトムアップアプローチを取ります。私たちは、アスペクトの運用上の定義を提案し、ピアレビューのコーパスからきめ細かい側面を導き出すためのデータ駆動型スキーマを開発します。
アスペクトで拡張されたピアレビューのデータセットを紹介し、コミュニティレベルのレビュー分析にどのように使用できるかを示します。
さらに、LLMで生成されたレビュー検出など、側面の選択がダウンストリームアプリケーションにどのように影響するかを示します。
私たちの結果は、レビューの側面の原則的かつデータ主導の調査の基盤を築き、ピアレビューをサポートするためにNLPの新しいアプリケーションの道を開いています。

要約(オリジナル)

Peer review is central to academic publishing, but the growing volume of submissions is straining the process. This motivates the development of computational approaches to support peer review. While each review is tailored to a specific paper, reviewers often make assessments according to certain aspects such as Novelty, which reflect the values of the research community. This alignment creates opportunities for standardizing the reviewing process, improving quality control, and enabling computational support. While prior work has demonstrated the potential of aspect analysis for peer review assistance, the notion of aspect remains poorly formalized. Existing approaches often derive aspect sets from review forms and guidelines of major NLP venues, yet data-driven methods for aspect identification are largely underexplored. To address this gap, our work takes a bottom-up approach: we propose an operational definition of aspect and develop a data-driven schema for deriving fine-grained aspects from a corpus of peer reviews. We introduce a dataset of peer reviews augmented with aspects and show how it can be used for community-level review analysis. We further show how the choice of aspects can impact downstream applications, such as LLM-generated review detection. Our results lay a foundation for a principled and data-driven investigation of review aspects, and pave the path for new applications of NLP to support peer review.

arxiv情報

著者 Sheng Lu,Ilia Kuznetsov,Iryna Gurevych
発行日 2025-04-09 14:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Identifying Aspects in Peer Reviews はコメントを受け付けていません

Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains

要約

インターネットの成長に伴い、購入習慣が変化し、顧客は購入を導くために他の顧客のオンライン意見に依存するようになりました。
したがって、偽のレビューを特定することは、自然言語処理(NLP)研究の重要な分野になりました。
ただし、高性能NLPモデルの開発は、低リソース言語やドメインでは利用できないことが多いトレーニングデータの利用可能性に依存します。
この研究では、大規模な言語モデルを使用してデータセットを生成して、偽のレビュー検出器をトレーニングしました。
私たちのアプローチは、さまざまなドメイン(書評、レストランのレビュー、ホテルのレビュー)とさまざまな言語(英語と中国語)で偽のレビューを生成するために使用されました。
私たちの結果は、データ増強技術がすべてのドメインと言語の偽のレビュー検出でパフォーマンスが向上することを示しています。
偽のレビュー検出モデルの精度は、DEREVテストで0.3パーセントポイント、Amazonテストで10.9パーセントポイント、YELPテストで8.3パーセントポイント、拡張データセットを使用したDIANPINGテストで7.2パーセントポイントを改善できます。

要約(オリジナル)

With the growth of the Internet, buying habits have changed, and customers have become more dependent on the online opinions of other customers to guide their purchases. Identifying fake reviews thus became an important area for Natural Language Processing (NLP) research. However, developing high-performance NLP models depends on the availability of large amounts of training data, which are often not available for low-resource languages or domains. In this research, we used large language models to generate datasets to train fake review detectors. Our approach was used to generate fake reviews in different domains (book reviews, restaurant reviews, and hotel reviews) and different languages (English and Chinese). Our results demonstrate that our data augmentation techniques result in improved performance at fake review detection for all domains and languages. The accuracy of our fake review detection model can be improved by 0.3 percentage points on DeRev TEST, 10.9 percentage points on Amazon TEST, 8.3 percentage points on Yelp TEST and 7.2 percentage points on DianPing TEST using the augmented datasets.

arxiv情報

著者 Ming Liu,Massimo Poesio
発行日 2025-04-09 14:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains はコメントを受け付けていません

RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

要約

この論文では、ロシアのニューステキストからの構造化された意見の抽出に関する対話評価の共有タスクを紹介します。
コンテストのタスクは、特定の文で意見のタプルを抽出することです。
タプルは、センチメントホルダー、そのターゲット、保持者からターゲットへの表現、感情で構成されています。
合計で、タスクは100以上の提出物を受け取りました。
参加者は、主にゼロショット、少ないショット、微調整形式の大きな言語モデルを実験しました。
テストセットでの最良の結果は、大きな言語モデルの微調整で取得されました。
また、30のプロンプトと11のオープンソース言語モデルを、1ショットおよび10ショットの設定で3〜320億パラメーターと比較し、最適なモデルとプロンプトを見つけました。

要約(オリジナル)

In this paper, we introduce the Dialogue Evaluation shared task on extraction of structured opinions from Russian news texts. The task of the contest is to extract opinion tuples for a given sentence; the tuples are composed of a sentiment holder, its target, an expression and sentiment from the holder to the target. In total, the task received more than 100 submissions. The participants experimented mainly with large language models in zero-shot, few-shot and fine-tuning formats. The best result on the test set was obtained with fine-tuning of a large language model. We also compared 30 prompts and 11 open source language models with 3-32 billion parameters in the 1-shot and 10-shot settings and found the best models and prompts.

arxiv情報

著者 Natalia Loukachevitch,Natalia Tkachenko,Anna Lapanitsyna,Mikhail Tikhomirov,Nicolay Rusnachenko
発行日 2025-04-09 14:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts はコメントを受け付けていません

LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning

要約

現代の大規模な言語モデル(LLM)は、推論タスクに対処する際に、暗黙的かつ明示的に、さまざまな形式の論理推論を採用しています。
これらの推論パラダイムを最適に活用する方法を理解することは、LLMの推論機能を進めるために重要です。
このペーパーでは、3つの次元にわたって体系的にパラメーター化された類似の推論(基本的な認知タスク)のために制御された評価環境を導入することにより、探索的アプローチを採用しています:モダリティ(テキスト、視覚、象徴)、難易度(簡単、中、ハード)、およびタスク形式(複数の選択またはフリーテキスト生成)。
これらの次元にわたって、誘導性、誘ductive、および演ductiveの推論パイプラインの比較ダイナミクスを分析し、調査結果がより広範なコンテキスト学習タスクに一般化することを示しています。
さらに、仮説の選択、検証、洗練などの高度なパラダイムを調査し、LLM推論における論理的推論を拡大する可能性を明らかにします。
この探索的研究は、体系的な論理推論戦略を通じてLLMの推論を強化する際の将来の研究の基盤を提供します。
リソースはhttps://github.com/hkust-knowcomp/logidynamicsで入手できます。

要約(オリジナル)

Modern large language models (LLMs) employ various forms of logical inference, both implicitly and explicitly, when addressing reasoning tasks. Understanding how to optimally leverage these inference paradigms is critical for advancing LLMs’ reasoning capabilities. This paper adopts an exploratory approach by introducing a controlled evaluation environment for analogical reasoning — a fundamental cognitive task — that is systematically parameterized across three dimensions: modality (textual, visual, symbolic), difficulty (easy, medium, hard), and task format (multiple-choice or free-text generation). We analyze the comparative dynamics of inductive, abductive, and deductive inference pipelines across these dimensions, and demonstrate that our findings generalize to broader in-context learning tasks. Additionally, we investigate advanced paradigms such as hypothesis selection, verification, and refinement, revealing their potential to scale up logical inference in LLM reasoning. This exploratory study provides a foundation for future research in enhancing LLM reasoning through systematic logical inference strategies. Resources are available at https://github.com/HKUST-KnowComp/LogiDynamics.

arxiv情報

著者 Tianshi Zheng,Jiayang Cheng,Chunyang Li,Haochen Shi,Zihao Wang,Jiaxin Bai,Yangqiu Song,Ginny Y. Wong,Simon See
発行日 2025-04-09 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning はコメントを受け付けていません

Towards LLMs Robustness to Changes in Prompt Format Styles

要約

大規模な言語モデル(LLM)は、近年、さまざまなアプリケーションでのユーティリティで人気を博しています。
ただし、これらはプロンプト形式の非セマンチックな変化に敏感であり、プロンプト形式の小さな変化は大きなパフォーマンスの変動につながる可能性があります。
文献では、この問題は一般に迅速なbrittlenessと呼ばれています。
迅速なエンジニアリングに関する以前の研究では、主に特定のタスクに最適なプロンプトを特定するための技術の開発に焦点を当てています。
いくつかの研究では、迅速なbrittlenessの問題と、パフォーマンスの変動を定量化するための提案された方法も調査しています。
ただし、この課題に対処するための簡単なソリューションは見つかりませんでした。
フォーマット(MOF)の混合物を提案します。これは、迅速な少ないショットの例で使用されるスタイルを多様化することにより、LLMSの迅速な脆性性に対処するためのシンプルで効率的な手法です。
MOFは、多様なスタイルのデータセットを利用して、モデルが特定のスタイルをターゲット変数に関連付けないようにするコンピュータービジョン技術に触発されました。
経験的な結果は、提案された手法により、さまざまなLLMでスタイル誘発された迅速なbrittle性を減らしながら、迅速なバリエーションやさまざまなデータセット全体の全体的なパフォーマンスを向上させることを示しています。

要約(オリジナル)

Large language models (LLMs) have gained popularity in recent years for their utility in various applications. However, they are sensitive to non-semantic changes in prompt formats, where small changes in the prompt format can lead to significant performance fluctuations. In the literature, this problem is commonly referred to as prompt brittleness. Previous research on prompt engineering has focused mainly on developing techniques for identifying the optimal prompt for specific tasks. Some studies have also explored the issue of prompt brittleness and proposed methods to quantify performance variations; however, no simple solution has been found to address this challenge. We propose Mixture of Formats (MOF), a simple and efficient technique for addressing prompt brittleness in LLMs by diversifying the styles used in the prompt few-shot examples. MOF was inspired by computer vision techniques that utilize diverse style datasets to prevent models from associating specific styles with the target variable. Empirical results show that our proposed technique reduces style-induced prompt brittleness in various LLMs while also enhancing overall performance across prompt variations and different datasets.

arxiv情報

著者 Lilian Ngweta,Kiran Kate,Jason Tsay,Yara Rizk
発行日 2025-04-09 15:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards LLMs Robustness to Changes in Prompt Format Styles はコメントを受け付けていません

Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety

要約

生成的大型言語モデルのアプリケーションLLMは、さまざまなドメインにわたって急速に拡大しており、ワークフローの効率と情報の検索の大幅な改善を約束しています。
ただし、危険な材料輸送などの専門的でハイステークスドメインでの実装は、正確性と信頼性の懸念のために困難です。
この研究では、3つの微調整された生成モデル、ChatGpt、Googleの頂点AI、およびORNL検索されたジェネレーションのパフォーマンスを評価します。
約40の公的に利用可能な連邦および州の規制文書を利用して、ルート計画と許可要件に関連する100の現実的なクエリを開発しました。
応答は、モデル出力間のセマンティックな類似性の定量的評価によって補完された精度、詳細、および関連性に基づいて定性的に評価されました。
結果は、Rag-Augmented Llamaモデルが頂点AIとChatGPTを大幅に上回り、時折矛盾にもかかわらず、より詳細で一般的に正確な情報を提供することを実証しました。
この研究では、輸送の安全性におけるRAGの最初の既知の応用が導入されており、信頼性を確保し、ハイステークス環境での不正確さのリスクを最小限に抑えるために、ドメイン固有の微調整と厳密な評価方法論の必要性を強調しています。

要約(オリジナル)

Applications of generative Large Language Models LLMs are rapidly expanding across various domains, promising significant improvements in workflow efficiency and information retrieval. However, their implementation in specialized, high-stakes domains such as hazardous materials transportation is challenging due to accuracy and reliability concerns. This study evaluates the performance of three fine-tuned generative models, ChatGPT, Google’s Vertex AI, and ORNL Retrieval Augmented Generation augmented LLaMA 2 and LLaMA in retrieving regulatory information essential for hazardous material transportation compliance in the United States. Utilizing approximately 40 publicly available federal and state regulatory documents, we developed 100 realistic queries relevant to route planning and permitting requirements. Responses were qualitatively rated based on accuracy, detail, and relevance, complemented by quantitative assessments of semantic similarity between model outputs. Results demonstrated that the RAG-augmented LLaMA models significantly outperformed Vertex AI and ChatGPT, providing more detailed and generally accurate information, despite occasional inconsistencies. This research introduces the first known application of RAG in transportation safety, emphasizing the need for domain-specific fine-tuning and rigorous evaluation methodologies to ensure reliability and minimize the risk of inaccuracies in high-stakes environments.

arxiv情報

著者 Chad Melton,Alex Sorokine,Steve Peterson
発行日 2025-04-09 16:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety はコメントを受け付けていません

Data Augmentation and Hyperparameter Tuning for Low-Resource MFA

要約

計算ツールと絶滅の危機にedしていない、リソース不足の言語を扱っている人にとって継続的な問題は、データが少ない言語の結果の精度が低いことです。
データの増強方法を使用してコーパスサイズを増やすことにより、この問題を改善し、増強とハイパーパラメーターの調整と多言語の強制アライメントを比較しようとします。
テキストの増強方法とは異なり、オーディオの増強はパフォーマンスが大幅に向上することはありません。
一方、ハイパーパラメーターチューニングは、(この量のデータに対して)実行不可能な追加トレーニング時間なしで大幅に改善されます。
少量から中程度のトレーニングデータを持つ言語の場合、これは高リソース言語からモデルを適応するための実行可能な代替手段です。

要約(オリジナル)

A continued issue for those working with computational tools and endangered and under-resourced languages is the lower accuracy of results for languages with smaller amounts of data. We attempt to ameliorate this issue by using data augmentation methods to increase corpus size, comparing augmentation to hyperparameter tuning for multilingual forced alignment. Unlike text augmentation methods, audio augmentation does not lead to substantially increased performance. Hyperparameter tuning, on the other hand, results in substantial improvement without (for this amount of data) infeasible additional training time. For languages with small to medium amounts of training data, this is a workable alternative to adapting models from high-resource languages.

arxiv情報

著者 Alessio Tosolini,Claire Bowern
発行日 2025-04-09 16:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Data Augmentation and Hyperparameter Tuning for Low-Resource MFA はコメントを受け付けていません

Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods

要約

大規模な言語モデル(LLMS)の不確実性の定量化(UQ)は、特に誤った出力が深刻な結果をもたらす重要なアプリケーションでは、安全で信頼できる展開に不可欠です。
現在のUQメソッドは、通常、非ゼロ温度サンプリングを使用してモデルを複数回クエリすることに依存して、不確実性の推定のために多様な出力を生成します。
ただし、特定の温度パラメーターを選択することの影響は研究されており、私たちの分析により、温度が不確実性の推定の質に基本的な役割を果たすことが明らかになりました。
最適な温度値を識別する従来のアプローチには、新しいモデルデータセットの組み合わせごとに繰り返す必要がある高価なハイパーパラメーター最適化(HPO)が必要です。
温度キャリブレーションの必要性を排除する堅牢なサンプリング戦略であるモンテカルロ温度(MCT)を提案します。
1)MCTは、広範囲の温度でより堅牢な不確実性の推定値を提供し、2)MCTはHPOに依存しない固定温度戦略を置き換えることによりUQメソッドのパフォーマンスを向上させ、3)MCTはOracle温度と統計パリティを達成します。
これらの調査結果は、温度パラメーターのキャリブレーションの計算負担なしで効果的なUQを達成できることを示しています。

要約(オリジナル)

Uncertainty quantification (UQ) in Large Language Models (LLMs) is essential for their safe and reliable deployment, particularly in critical applications where incorrect outputs can have serious consequences. Current UQ methods typically rely on querying the model multiple times using non-zero temperature sampling to generate diverse outputs for uncertainty estimation. However, the impact of selecting a given temperature parameter is understudied, and our analysis reveals that temperature plays a fundamental role in the quality of uncertainty estimates. The conventional approach of identifying optimal temperature values requires expensive hyperparameter optimization (HPO) that must be repeated for each new model-dataset combination. We propose Monte Carlo Temperature (MCT), a robust sampling strategy that eliminates the need for temperature calibration. Our analysis reveals that: 1) MCT provides more robust uncertainty estimates across a wide range of temperatures, 2) MCT improves the performance of UQ methods by replacing fixed-temperature strategies that do not rely on HPO, and 3) MCT achieves statistical parity with oracle temperatures, which represent the ideal outcome of a well-tuned but computationally expensive HPO process. These findings demonstrate that effective UQ can be achieved without the computational burden of temperature parameter calibration.

arxiv情報

著者 Nicola Cecere,Andrea Bacciu,Ignacio Fernández Tobías,Amin Mantrach
発行日 2025-04-09 16:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods はコメントを受け付けていません