Inducing Programmatic Skills for Agentic Tasks

要約

Webナビゲーションなどの一般的なデジタルタスクで成功するには、エージェントは製品の検索や旅行ルートの計画など、さまざまな専門的なタスクを実行する必要があります。
これらのタスクに取り組むために、エージェントは、Web環境とのやり取りを通じてオンラインでタスク固有のスキルを学習することで自分自身をブートストラップできます。
この作業では、プログラムがスキルの効果的な表現であることを実証します。
エージェントスキル誘導(ASI)を提案します。これにより、エージェントは、その場でプログラムベースのスキルを誘導、検証、および利用することで自分自身を適応させることができます。
WebArenaエージェントのベンチマークの評価から始めて、ASIが静的ベースラインエージェントとそのテキストスキルのカウンターパートを23.5%および11.3%上回ることを示しています。
ASIはまた、ベースライン上のステップの10.7-15.3%を減らし、原始的なアクション(クリック)を高レベルのスキル(たとえば、検索製品)に構成することにより、効率を向上させます。
次に、スケーリングされたWebアクティビティの下で効率的かつ正確なままであることにおけるASIの有効性を強調します。
最後に、Webサイト間を転送する際に誘導スキルの一般化可能性を調べ、ASIが一般的なスキルを効果的に再利用することができると同時に、互換性のないWebサイトの変更に互換性のないスキルを更新できることがわかります。

要約(オリジナル)

To succeed in common digital tasks such as web navigation, agents must carry out a variety of specialized tasks such as searching for products or planning a travel route. To tackle these tasks, agents can bootstrap themselves by learning task-specific skills online through interaction with the web environment. In this work, we demonstrate that programs are an effective representation for skills. We propose agent skill induction (ASI), which allows agents to adapt themselves by inducing, verifying, and utilizing program-based skills on the fly. We start with an evaluation on the WebArena agent benchmark and show that ASI outperforms the static baseline agent and its text-skill counterpart by 23.5% and 11.3% in success rate, mainly thanks to the programmatic verification guarantee during the induction phase. ASI also improves efficiency by reducing 10.7-15.3% of the steps over baselines, by composing primitive actions (e.g., click) into higher-level skills (e.g., search product). We then highlight the efficacy of ASI in remaining efficient and accurate under scaled-up web activities. Finally, we examine the generalizability of induced skills when transferring between websites, and find that ASI can effectively reuse common skills, while also updating incompatible skills to versatile website changes.

arxiv情報

著者 Zora Zhiruo Wang,Apurva Gandhi,Graham Neubig,Daniel Fried
発行日 2025-04-09 12:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Inducing Programmatic Skills for Agentic Tasks はコメントを受け付けていません

Open Problems and a Hypothetical Path Forward in LLM Knowledge Paradigms

要約

知識は、大規模な言語モデル(LLMS)の全体的な能力の基本です。
モデルの知識パラダイムは、知識をエンコードおよび利用する方法を指示し、そのパフォーマンスに大きな影響を与えます。
既存の知識パラダイムの下でのLLMの継続的な開発にもかかわらず、これらのフレームワーク内の問題はモデルの可能性を制約し続けています。
このブログ投稿は、モデル機能を制限する3つの重要なオープン問題を強調しています。(1)LLMの知識の更新、(2)逆の知識一般化の失敗(逆転呪い)、および(3)内部知識の矛盾。
これらの問題に対処する際に最近の進展を確認し、潜在的な一般的なソリューションについて議論します。
これらの領域での観察に基づいて、コンテキストの知識スケーリングに基づいて仮説的なパラダイムを提案し、現代の技術内で実行可能なままである実装経路をさらに概説します。
証拠は、このアプローチが現在の欠点に対処する可能性を秘めていることを示唆しており、将来のモデルパラダイムのビジョンとして機能します。
このブログ投稿は、LLMナレッジシステムの進捗状況の簡単な概要を研究者に提供することを目的としており、次世代モデルアーキテクチャの開発のインスピレーションを提供します。

要約(オリジナル)

Knowledge is fundamental to the overall capabilities of Large Language Models (LLMs). The knowledge paradigm of a model, which dictates how it encodes and utilizes knowledge, significantly affects its performance. Despite the continuous development of LLMs under existing knowledge paradigms, issues within these frameworks continue to constrain model potential. This blog post highlight three critical open problems limiting model capabilities: (1) challenges in knowledge updating for LLMs, (2) the failure of reverse knowledge generalization (the reversal curse), and (3) conflicts in internal knowledge. We review recent progress made in addressing these issues and discuss potential general solutions. Based on observations in these areas, we propose a hypothetical paradigm based on Contextual Knowledge Scaling, and further outline implementation pathways that remain feasible within contemporary techniques. Evidence suggests this approach holds potential to address current shortcomings, serving as our vision for future model paradigms. This blog post aims to provide researchers with a brief overview of progress in LLM knowledge systems, while provide inspiration for the development of next-generation model architectures.

arxiv情報

著者 Xiaotian Ye,Mengqi Zhang,Shu Wu
発行日 2025-04-09 12:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Open Problems and a Hypothetical Path Forward in LLM Knowledge Paradigms はコメントを受け付けていません

Pretraining Language Models for Diachronic Linguistic Change Discovery

要約

大規模な言語モデル(LLM)は、科学的発見のためのツールとしての可能性を示しています。
これは、歴史的言語学や文学研究など、人道的な分野での使用に関心が高まっています。
これらのフィールドは、多くの場合、ジャンルなどの描写、またはより柔軟に期間の期間に基づいて議論を構築します。
微調整またはモデルの編集を介して特定のドメインへの推論を制限する努力がなされていますが、唯一の真の保証はドメイン制限された前oraining(通常、データと計算の高価な提案)であると仮定します。
効率的な事前トレーニング技術は、簡単な手動検査には大きすぎますが、「典型的な」LLMアプローチには小さすぎるコーポラよりも有用なモデルを生成できることを示しています。
5つの1000万ワードのスライスの一時的にセグメント化されたデータセットを取得するために、新しい日付と貢献パイプラインを採用しています。
これらのコーパスセグメントで2つの対応する5つのモデルバッテリー、効率的なPretrainingおよびLlama3-8Bパラメーターを効率的に微調整します。
先立ったモデルは、微調ューされたベースラインよりも訓練が速く、コーパスの歴史的分裂をよりよく尊重することがわかります。
歴史的な包括性よりも速度と精度を強調することにより、ターゲット分野での仮説発見とテストに対する多くの新しいアプローチが可能になります。
時刻言語学をテストベッドとして取り上げると、私たちの方法は、規模の変化、非屈発性(文法的および形態学的)変化、単語感覚の紹介/陳腐化など、多様な現象の検出を可能にすることを示しています。
最小限の適応のみで他のターゲットフィールドへのアプローチを拡張できるようにする、すぐに使用できるパイプラインを提供します。

要約(オリジナル)

Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining — typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for ‘typical’ LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.

arxiv情報

著者 Elisabeth Fittschen,Sabrina Li,Tom Lippincott,Leshem Choshen,Craig Messner
発行日 2025-04-09 13:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pretraining Language Models for Diachronic Linguistic Change Discovery はコメントを受け付けていません

A Survey on Mixture of Experts in Large Language Models

要約

大規模な言語モデル(LLM)は、自然言語加工からコンピュータービジョン、それ以降に至るまで、多様な分野で前例のない進歩を獲得しています。
LLMSの腕前は、実質的なモデルサイズ、広範囲で多様なデータセット、およびトレーニング中に活用される広大な計算能力によって支えられており、これらはすべて、小さなモデルには存在しないLLMS(例えば、コンテキスト学習)の緊急能力に貢献しています。
このコンテキスト内で、専門家(MOE)の混合は、最小限の計算オーバーヘッドでモデル容量を実質的にスケーリングするための効果的な方法として浮上し、学界や産業から大きな注目を集めています。
その有病率の高まりにもかかわらず、MOEに関する文献の体系的かつ包括的なレビューがありません。
この調査では、そのギャップを埋めることを目指しており、MOEの複雑さを掘り下げている研究者にとって不可欠なリソースとして機能します。
まず、MOE層の構造を簡単に紹介し、その後、MOEの新しい分類法を提案しました。
次に、アルゴリズムと全身の側面の両方を含むさまざまなMOEモデルのコア設計を概要し、利用可能なオープンソースの実装、ハイパーパラメーターの構成、経験的評価のコレクションとともに概要します。
さらに、実際にMOEの多面的なアプリケーションを描き、将来の研究のためのいくつかの潜在的な方向性を概説します。
継続的な更新とMOEの研究における最先端の進歩の共有を促進するために、https://github.com/withinmiaov/a-survey-on-mixture-of-experts-in-llmsにリソースリポジトリを設立しました。

要約(オリジナル)

Large language models (LLMs) have garnered unprecedented advancements across diverse fields, ranging from natural language processing to computer vision and beyond. The prowess of LLMs is underpinned by their substantial model size, extensive and diverse datasets, and the vast computational power harnessed during training, all of which contribute to the emergent abilities of LLMs (e.g., in-context learning) that are not present in small models. Within this context, the mixture of experts (MoE) has emerged as an effective method for substantially scaling up model capacity with minimal computation overhead, gaining significant attention from academia and industry. Despite its growing prevalence, there lacks a systematic and comprehensive review of the literature on MoE. This survey seeks to bridge that gap, serving as an essential resource for researchers delving into the intricacies of MoE. We first briefly introduce the structure of the MoE layer, followed by proposing a new taxonomy of MoE. Next, we overview the core designs for various MoE models including both algorithmic and systemic aspects, alongside collections of available open-source implementations, hyperparameter configurations and empirical evaluations. Furthermore, we delineate the multifaceted applications of MoE in practice, and outline some potential directions for future research. To facilitate ongoing updates and the sharing of cutting-edge advances in MoE research, we have established a resource repository at https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs.

arxiv情報

著者 Weilin Cai,Juyong Jiang,Fan Wang,Jing Tang,Sunghun Kim,Jiayi Huang
発行日 2025-04-09 13:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Survey on Mixture of Experts in Large Language Models はコメントを受け付けていません

Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval

要約

最近の検索された高等世代(RAG)システムの進歩にもかかわらず、ほとんどの検索方法論は、クエリと肯定的なドキュメントが意味的に類似していると仮定する事実検索のために開発されることがよくあります。
この論文では、代わりに、QueryとDocumentが類似していないが、チェーン、論理関係、または経験的な経験を推論することで推測できるHidden Rationale取得と呼ばれる、より挑戦的なタイプの検索タスクを提案し、研究します。
このような問題に対処するために、クロスエンコーダーアーキテクチャを備えた命令調整された大手言語モデル(LLM)が合理的な選択になる可能性があります。
先駆的なLLMベースのレトリバーをさらに強化するために、LLMにバイナリ選択の質問に答えるように促すことにより、検索タスクを生成タスクに変換する特別な指示を設計します。
このモデルは、直接優先最適化(DPO)で微調整できます。
このフレームワークは、パフォーマンスの低下なしで計算効率のために最適化されています。
Rahoreによるこの検索フレームワークに名前を付け、以前の検索作業と比較して、感情的なサポート会話(ESC)のゼロショットと微調整されたパフォーマンスの優位性を確認します。
私たちの研究は、LLMをより広範な検索タスクの基盤として採用する可能性を示唆しています。
コード、モデル、およびデータセットは、https://github.com/flyfree5/lahoreで入手できます。

要約(オリジナル)

Despite the recent advancement in Retrieval-Augmented Generation (RAG) systems, most retrieval methodologies are often developed for factual retrieval, which assumes query and positive documents are semantically similar. In this paper, we instead propose and study a more challenging type of retrieval task, called hidden rationale retrieval, in which query and document are not similar but can be inferred by reasoning chains, logic relationships, or empirical experiences. To address such problems, an instruction-tuned Large language model (LLM) with a cross-encoder architecture could be a reasonable choice. To further strengthen pioneering LLM-based retrievers, we design a special instruction that transforms the retrieval task into a generative task by prompting LLM to answer a binary-choice question. The model can be fine-tuned with direct preference optimization (DPO). The framework is also optimized for computational efficiency with no performance degradation. We name this retrieval framework by RaHoRe and verify its zero-shot and fine-tuned performance superiority on Emotional Support Conversation (ESC), compared with previous retrieval works. Our study suggests the potential to employ LLM as a foundation for a wider scope of retrieval tasks. Our codes, models, and datasets are available on https://github.com/flyfree5/LaHoRe.

arxiv情報

著者 Luo Ji,Feixiang Guo,Teng Chen,Qingqing Gu,Xiaoyu Wang,Ningyuan Xi,Yihong Wang,Peng Yu,Yue Zhao,Hongyang Lei,Zhonglin Jiang,Yong Chen
発行日 2025-04-09 14:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval はコメントを受け付けていません

Identifying Aspects in Peer Reviews

要約

ピアレビューはアカデミック出版の中心ですが、提出量の増加はプロセスに緊張しています。
これにより、ピアレビューをサポートするための計算アプローチの開発が動機付けられます。
各レビューは特定の論文に合わせて調整されていますが、レビュアーはしばしば、研究コミュニティの価値を反映したノベルティなどの特定の側面に従って評価を行います。
このアラインメントは、レビュープロセスを標準化し、品質管理の改善、計算サポートを可能にする機会を生み出します。
以前の研究では、ピアレビュー支援のアスペクト分析の可能性が実証されていますが、アスペクトの概念は依然として不十分に形式化されています。
既存のアプローチは、多くの場合、主要なNLP会場のレビューフォームとガイドラインからアスペクトセットを導き出しますが、アスペクト識別のためのデータ駆動型の方法はほとんど露出していません。
このギャップに対処するために、私たちの作業はボトムアップアプローチを取ります。私たちは、アスペクトの運用上の定義を提案し、ピアレビューのコーパスからきめ細かい側面を導き出すためのデータ駆動型スキーマを開発します。
アスペクトで拡張されたピアレビューのデータセットを紹介し、コミュニティレベルのレビュー分析にどのように使用できるかを示します。
さらに、LLMで生成されたレビュー検出など、側面の選択がダウンストリームアプリケーションにどのように影響するかを示します。
私たちの結果は、レビューの側面の原則的かつデータ主導の調査の基盤を築き、ピアレビューをサポートするためにNLPの新しいアプリケーションの道を開いています。

要約(オリジナル)

Peer review is central to academic publishing, but the growing volume of submissions is straining the process. This motivates the development of computational approaches to support peer review. While each review is tailored to a specific paper, reviewers often make assessments according to certain aspects such as Novelty, which reflect the values of the research community. This alignment creates opportunities for standardizing the reviewing process, improving quality control, and enabling computational support. While prior work has demonstrated the potential of aspect analysis for peer review assistance, the notion of aspect remains poorly formalized. Existing approaches often derive aspect sets from review forms and guidelines of major NLP venues, yet data-driven methods for aspect identification are largely underexplored. To address this gap, our work takes a bottom-up approach: we propose an operational definition of aspect and develop a data-driven schema for deriving fine-grained aspects from a corpus of peer reviews. We introduce a dataset of peer reviews augmented with aspects and show how it can be used for community-level review analysis. We further show how the choice of aspects can impact downstream applications, such as LLM-generated review detection. Our results lay a foundation for a principled and data-driven investigation of review aspects, and pave the path for new applications of NLP to support peer review.

arxiv情報

著者 Sheng Lu,Ilia Kuznetsov,Iryna Gurevych
発行日 2025-04-09 14:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Identifying Aspects in Peer Reviews はコメントを受け付けていません

Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains

要約

インターネットの成長に伴い、購入習慣が変化し、顧客は購入を導くために他の顧客のオンライン意見に依存するようになりました。
したがって、偽のレビューを特定することは、自然言語処理(NLP)研究の重要な分野になりました。
ただし、高性能NLPモデルの開発は、低リソース言語やドメインでは利用できないことが多いトレーニングデータの利用可能性に依存します。
この研究では、大規模な言語モデルを使用してデータセットを生成して、偽のレビュー検出器をトレーニングしました。
私たちのアプローチは、さまざまなドメイン(書評、レストランのレビュー、ホテルのレビュー)とさまざまな言語(英語と中国語)で偽のレビューを生成するために使用されました。
私たちの結果は、データ増強技術がすべてのドメインと言語の偽のレビュー検出でパフォーマンスが向上することを示しています。
偽のレビュー検出モデルの精度は、DEREVテストで0.3パーセントポイント、Amazonテストで10.9パーセントポイント、YELPテストで8.3パーセントポイント、拡張データセットを使用したDIANPINGテストで7.2パーセントポイントを改善できます。

要約(オリジナル)

With the growth of the Internet, buying habits have changed, and customers have become more dependent on the online opinions of other customers to guide their purchases. Identifying fake reviews thus became an important area for Natural Language Processing (NLP) research. However, developing high-performance NLP models depends on the availability of large amounts of training data, which are often not available for low-resource languages or domains. In this research, we used large language models to generate datasets to train fake review detectors. Our approach was used to generate fake reviews in different domains (book reviews, restaurant reviews, and hotel reviews) and different languages (English and Chinese). Our results demonstrate that our data augmentation techniques result in improved performance at fake review detection for all domains and languages. The accuracy of our fake review detection model can be improved by 0.3 percentage points on DeRev TEST, 10.9 percentage points on Amazon TEST, 8.3 percentage points on Yelp TEST and 7.2 percentage points on DianPing TEST using the augmented datasets.

arxiv情報

著者 Ming Liu,Massimo Poesio
発行日 2025-04-09 14:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains はコメントを受け付けていません

RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

要約

この論文では、ロシアのニューステキストからの構造化された意見の抽出に関する対話評価の共有タスクを紹介します。
コンテストのタスクは、特定の文で意見のタプルを抽出することです。
タプルは、センチメントホルダー、そのターゲット、保持者からターゲットへの表現、感情で構成されています。
合計で、タスクは100以上の提出物を受け取りました。
参加者は、主にゼロショット、少ないショット、微調整形式の大きな言語モデルを実験しました。
テストセットでの最良の結果は、大きな言語モデルの微調整で取得されました。
また、30のプロンプトと11のオープンソース言語モデルを、1ショットおよび10ショットの設定で3〜320億パラメーターと比較し、最適なモデルとプロンプトを見つけました。

要約(オリジナル)

In this paper, we introduce the Dialogue Evaluation shared task on extraction of structured opinions from Russian news texts. The task of the contest is to extract opinion tuples for a given sentence; the tuples are composed of a sentiment holder, its target, an expression and sentiment from the holder to the target. In total, the task received more than 100 submissions. The participants experimented mainly with large language models in zero-shot, few-shot and fine-tuning formats. The best result on the test set was obtained with fine-tuning of a large language model. We also compared 30 prompts and 11 open source language models with 3-32 billion parameters in the 1-shot and 10-shot settings and found the best models and prompts.

arxiv情報

著者 Natalia Loukachevitch,Natalia Tkachenko,Anna Lapanitsyna,Mikhail Tikhomirov,Nicolay Rusnachenko
発行日 2025-04-09 14:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts はコメントを受け付けていません

LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning

要約

現代の大規模な言語モデル(LLM)は、推論タスクに対処する際に、暗黙的かつ明示的に、さまざまな形式の論理推論を採用しています。
これらの推論パラダイムを最適に活用する方法を理解することは、LLMの推論機能を進めるために重要です。
このペーパーでは、3つの次元にわたって体系的にパラメーター化された類似の推論(基本的な認知タスク)のために制御された評価環境を導入することにより、探索的アプローチを採用しています:モダリティ(テキスト、視覚、象徴)、難易度(簡単、中、ハード)、およびタスク形式(複数の選択またはフリーテキスト生成)。
これらの次元にわたって、誘導性、誘ductive、および演ductiveの推論パイプラインの比較ダイナミクスを分析し、調査結果がより広範なコンテキスト学習タスクに一般化することを示しています。
さらに、仮説の選択、検証、洗練などの高度なパラダイムを調査し、LLM推論における論理的推論を拡大する可能性を明らかにします。
この探索的研究は、体系的な論理推論戦略を通じてLLMの推論を強化する際の将来の研究の基盤を提供します。
リソースはhttps://github.com/hkust-knowcomp/logidynamicsで入手できます。

要約(オリジナル)

Modern large language models (LLMs) employ various forms of logical inference, both implicitly and explicitly, when addressing reasoning tasks. Understanding how to optimally leverage these inference paradigms is critical for advancing LLMs’ reasoning capabilities. This paper adopts an exploratory approach by introducing a controlled evaluation environment for analogical reasoning — a fundamental cognitive task — that is systematically parameterized across three dimensions: modality (textual, visual, symbolic), difficulty (easy, medium, hard), and task format (multiple-choice or free-text generation). We analyze the comparative dynamics of inductive, abductive, and deductive inference pipelines across these dimensions, and demonstrate that our findings generalize to broader in-context learning tasks. Additionally, we investigate advanced paradigms such as hypothesis selection, verification, and refinement, revealing their potential to scale up logical inference in LLM reasoning. This exploratory study provides a foundation for future research in enhancing LLM reasoning through systematic logical inference strategies. Resources are available at https://github.com/HKUST-KnowComp/LogiDynamics.

arxiv情報

著者 Tianshi Zheng,Jiayang Cheng,Chunyang Li,Haochen Shi,Zihao Wang,Jiaxin Bai,Yangqiu Song,Ginny Y. Wong,Simon See
発行日 2025-04-09 14:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning はコメントを受け付けていません

Towards LLMs Robustness to Changes in Prompt Format Styles

要約

大規模な言語モデル(LLM)は、近年、さまざまなアプリケーションでのユーティリティで人気を博しています。
ただし、これらはプロンプト形式の非セマンチックな変化に敏感であり、プロンプト形式の小さな変化は大きなパフォーマンスの変動につながる可能性があります。
文献では、この問題は一般に迅速なbrittlenessと呼ばれています。
迅速なエンジニアリングに関する以前の研究では、主に特定のタスクに最適なプロンプトを特定するための技術の開発に焦点を当てています。
いくつかの研究では、迅速なbrittlenessの問題と、パフォーマンスの変動を定量化するための提案された方法も調査しています。
ただし、この課題に対処するための簡単なソリューションは見つかりませんでした。
フォーマット(MOF)の混合物を提案します。これは、迅速な少ないショットの例で使用されるスタイルを多様化することにより、LLMSの迅速な脆性性に対処するためのシンプルで効率的な手法です。
MOFは、多様なスタイルのデータセットを利用して、モデルが特定のスタイルをターゲット変数に関連付けないようにするコンピュータービジョン技術に触発されました。
経験的な結果は、提案された手法により、さまざまなLLMでスタイル誘発された迅速なbrittle性を減らしながら、迅速なバリエーションやさまざまなデータセット全体の全体的なパフォーマンスを向上させることを示しています。

要約(オリジナル)

Large language models (LLMs) have gained popularity in recent years for their utility in various applications. However, they are sensitive to non-semantic changes in prompt formats, where small changes in the prompt format can lead to significant performance fluctuations. In the literature, this problem is commonly referred to as prompt brittleness. Previous research on prompt engineering has focused mainly on developing techniques for identifying the optimal prompt for specific tasks. Some studies have also explored the issue of prompt brittleness and proposed methods to quantify performance variations; however, no simple solution has been found to address this challenge. We propose Mixture of Formats (MOF), a simple and efficient technique for addressing prompt brittleness in LLMs by diversifying the styles used in the prompt few-shot examples. MOF was inspired by computer vision techniques that utilize diverse style datasets to prevent models from associating specific styles with the target variable. Empirical results show that our proposed technique reduces style-induced prompt brittleness in various LLMs while also enhancing overall performance across prompt variations and different datasets.

arxiv情報

著者 Lilian Ngweta,Kiran Kate,Jason Tsay,Yara Rizk
発行日 2025-04-09 15:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards LLMs Robustness to Changes in Prompt Format Styles はコメントを受け付けていません