Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation

要約

近年、基礎モデルや、大規模モデルを下流のタスクに転送する事前学習と適応のパラダイムが、ボリュームメトリックな医用画像セグメンテーションのために注目されている。しかし、現在の転移学習戦略は、転移学習のための完全なファインチューニングに専念しており、ターゲットタスクのラベル付きデータが乏しい場合、多大なリソースを必要とし、最適とは言えない結果をもたらす可能性がある。このため、実際の臨床現場では、独自の解決策を開発するためのデータや計算資源に制約があるため、その適用が困難である。この課題に対処するため、我々は、医療画像セグメンテーション基礎モデルを適応させるための、新規かつ現実的なシナリオである、Few-Shot Efficient Fine-Tuning (FSEFT)を定式化する。この設定では、適応の際のデータ効率とパラメータ効率の両方の重要な役割を考慮する。オープンアクセスCT臓器セグメンテーションソースで事前に訓練された基礎モデルをベースに、パラメータ効率的ファインチューニングとブラックボックスアダプタを活用して、このような課題に対処することを提案する。さらに、本研究では、密な予測タスクに適した空間ブラックボックスアダプタや、タスク固有の事前知識を活用した制約付き転移推論を含む、新しい効率的な適応手法を導入する。我々の包括的な転移学習実験により、医用画像セグメンテーションにおける基礎モデルの適合性が確認され、数ショットのシナリオにおける一般的な微調整戦略の限界が明らかになった。

要約(オリジナル)

The recent popularity of foundation models and the pre-train-and-adapt paradigm, where a large-scale model is transferred to downstream tasks, is gaining attention for volumetric medical image segmentation. However, current transfer learning strategies devoted to full fine-tuning for transfer learning may require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This makes its applicability in real clinical settings challenging since these institutions are usually constrained on data and computational resources to develop proprietary solutions. To address this challenge, we formalize Few-Shot Efficient Fine-Tuning (FSEFT), a novel and realistic scenario for adapting medical image segmentation foundation models. This setting considers the key role of both data- and parameter- efficiency during adaptation. Building on a foundation model pre-trained on open-access CT organ segmentation sources, we propose leveraging Parameter-Efficient Fine-Tuning and black-box Adapters to address such challenges. Furthermore, novel efficient adaptation methodologies are introduced in this work, which include Spatial black-box Adapters that are more appropriate for dense prediction tasks and constrained transductive inference, leveraging task-specific prior knowledge. Our comprehensive transfer learning experiments confirm the suitability of foundation models in medical image segmentation and unveil the limitations of popular fine-tuning strategies in few-shot scenarios.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2024-10-03 17:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Contrastive Localized Language-Image Pre-Training

要約

コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進する画像/テキスト表現を生成するビジョンエンコーダを訓練するための有名な手法である。近年、CLIPは、言語相互作用のための画像入力を接続するためのマルチモーダル大規模言語モデル(MLLM)の視覚バックボーンとして広く採用されている。視覚-言語基盤モデルとしてのCLIPの成功は、ウェブクローリングされたノイズの多いテキスト注釈を画像レベルで整列させることに依存している。それにもかかわらず、このような基準は、特に領域レベルの理解がMLLMに要求されるような、きめ細かい視覚表現を必要とする下流のタスクには不十分となる可能性がある。本論文では、CLIPのローカリゼーション能力をいくつかの進歩により向上させる。CLIPを領域-テキスト対比損失とモジュールで補完することで、CLOC(Contrastive Localized Language-Image Pre-training)と呼ばれる事前学習法を提案する。CLOCでは、空間的なヒントが与えられると、エンコーダが領域表現に変換しやすい画像埋め込みを生成する。大規模な事前学習をサポートするために、視覚的に強化され、空間的に局所化されたキャプションフレームワークを設計し、領域テキスト擬似ラベルを効果的に生成する。CLOCは、数十億の注釈付き画像までスケールアップすることで、画像領域の認識と検索タスクのための高品質な領域埋め込みを可能にし、特に参照と接地タスクにおいて、MLLMを強化するためのCLIPのドロップイン置き換えとなり得る。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

arxiv情報

著者 Hong-You Chen,Zhengfeng Lai,Haotian Zhang,Xinze Wang,Marcin Eichner,Keen You,Meng Cao,Bowen Zhang,Yinfei Yang,Zhe Gan
発行日 2024-10-03 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

要約

映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。1つのアプローチは、幾何学的制約を持つ各映像上の単一画像モデルを微調整することであるが、これは非効率的であり、ロバスト性に欠ける。もう一つの方法は、データから一貫性を強制する学習であり、これはよく設計されたモデルと十分なビデオ深度データを必要とする。この2つの課題を解決するために、様々な単一画像モデルによって推定された一貫性のない奥行きをプラグアンドプレイで安定化させるNVDS+を紹介する。また、大規模なVideo Depth in the Wild (VDW)データセットを精緻化する。このデータセットには14,203本の動画が含まれ、200万フレームを超える。さらに、前方予測と後方予測を適応的に融合することで、整合性を向上させる双方向推論戦略を設計する。我々は、様々なアプリケーションのために、小規模から大規模までのモデルファミリーをインスタンス化する。本手法をVDWデータセットと3つの公開ベンチマークで評価する。さらに汎用性を証明するために、NVDS+をビデオのセマンティックセグメンテーションや、ボケレンダリング、新しいビュー合成、3D再構成のようないくつかの下流アプリケーションに拡張する。実験結果は、我々の手法が一貫性、精度、効率性において大幅な改善を達成したことを示している。我々の研究は、学習ベースのビデオ深度推定のための強固なベースラインとデータ基盤として役立つ。コードとデータセットはhttps://github.com/RaymondWang987/NVDS。

要約(オリジナル)

Video depth estimation aims to infer temporally consistent depth. One approach is to finetune a single-image model on each video with geometry constraints, which proves inefficient and lacks robustness. An alternative is learning to enforce consistency from data, which requires well-designed models and sufficient video depth data. To address both challenges, we introduce NVDS+ that stabilizes inconsistent depth estimated by various single-image models in a plug-and-play manner. We also elaborate a large-scale Video Depth in the Wild (VDW) dataset, which contains 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset. Additionally, a bidirectional inference strategy is designed to improve consistency by adaptively fusing forward and backward predictions. We instantiate a model family ranging from small to large scales for different applications. The method is evaluated on VDW dataset and three public benchmarks. To further prove the versatility, we extend NVDS+ to video semantic segmentation and several downstream applications like bokeh rendering, novel view synthesis, and 3D reconstruction. Experimental results show that our method achieves significant improvements in consistency, accuracy, and efficiency. Our work serves as a solid baseline and data foundation for learning-based video depth estimation. Code and dataset are available at: https://github.com/RaymondWang987/NVDS

arxiv情報

著者 Yiran Wang,Min Shi,Jiaqi Li,Chaoyi Hong,Zihao Huang,Juewen Peng,Zhiguo Cao,Jianming Zhang,Ke Xian,Guosheng Lin
発行日 2024-10-03 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

要約

分単位の長い動画を生成することは、望ましいが難しい。自己回帰型大規模言語モデル(LLM)は、自然言語処理の領域において、トークンの首尾一貫した長いシーケンスの生成において大きな成功を収めているが、動画生成のための自己回帰型LLMの探索は、数秒の短い動画の生成に限られている。本研究では、自己回帰LLMに基づく動画生成器が長い動画を生成することを妨げる課題について深い分析を行う。観察と分析に基づき、分単位の動画を生成できる新しい自己回帰型LLMベースの動画生成器Loongを提案する。具体的には、テキストトークンとビデオトークンを自己回帰LLMの統一シーケンスとしてモデル化し、ゼロからモデルを学習する。長時間の動画学習における損失の不均衡問題を緩和するために、損失再重み付けスキームを用いた漸進的な短時間から長時間の学習を提案する。さらに、ビデオトークンの再エンコードやサンプリング戦略などの推論戦略を検討し、推論中のエラー蓄積を減少させる。我々の提案するLoongは、10秒間の動画で学習可能であり、結果によって示されるように、テキストプロンプトを条件とする分レベルの長い動画を生成するために拡張可能である。より多くのサンプルはhttps://epiphqny.github.io/Loong-video。

要約(オリジナル)

It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.

arxiv情報

著者 Yuqing Wang,Tianwei Xiong,Daquan Zhou,Zhijie Lin,Yang Zhao,Bingyi Kang,Jiashi Feng,Xihui Liu
発行日 2024-10-03 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

要約

我々は、視覚言語モデル(VLM)の内部表現を調査し、モデルサイズとトレーニングの進歩にもかかわらず、根強い課題である幻覚に対処する。VLMの内部画像表現を言語語彙に投影し、幻覚物体よりも現実物体に対する出力確率が高いことを確認する。さらに、これらの出力確率を用いて、現実の物体を空間的に定位させる。このアプローチを基に、幻覚物体特徴に対して画像特徴を線形に直交させることで幻覚を除去する知識消去アルゴリズムを導入する。COCO2014データセットにおいて、モデルの潜在表現に的を絞った編集を行うことで、性能を維持したまま幻覚を最大25.7%削減できることを示す。この結果は、VLMの潜在表現をより深く理解することで、信頼性が向上し、ゼロショットセグメンテーションのような新しい機能が可能になることを示している。

要約(オリジナル)

We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs’ internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model’s latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs’ latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.

arxiv情報

著者 Nick Jiang,Anish Kachinthaya,Suzie Petryk,Yossi Gandelsman
発行日 2024-10-03 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

Flash-Splat: 3D Reflection Removal with Flash Cues and Gaussian Splats

要約

透過光と反射光を分離するための、シンプルで効果的なアプローチを紹介する。我々の重要な洞察は、最新の逆レンダリング手法(例えば、~3Dガウス・スプラッティング)によって提供される強力で新しいビュー合成機能によって、対になっていない測定値を用いてフラッシュ/非フラッシュ反射分離を行うことができるということである。広範な実世界実験を通して、我々は、我々の方法であるフラッシュ・スプラットが、透過シーンと反射シーンの両方を3Dで正確に再構成することを実証した。本手法は、照明制御を活用しない既存の3D反射分離法を大きく上回る。我々のプロジェクトのウェブページはhttps://flash-splat.github.io/。

要約(オリジナル)

We introduce a simple yet effective approach for separating transmitted and reflected light. Our key insight is that the powerful novel view synthesis capabilities provided by modern inverse rendering methods (e.g.,~3D Gaussian splatting) allow one to perform flash/no-flash reflection separation using unpaired measurements — this relaxation dramatically simplifies image acquisition over conventional paired flash/no-flash reflection separation methods. Through extensive real-world experiments, we demonstrate our method, Flash-Splat, accurately reconstructs both transmitted and reflected scenes in 3D. Our method outperforms existing 3D reflection separation methods, which do not leverage illumination control, by a large margin. Our project webpage is at https://flash-splat.github.io/.

arxiv情報

著者 Mingyang Xie,Haoming Cai,Sachin Shah,Yiran Xu,Brandon Y. Feng,Jia-Bin Huang,Christopher A. Metzler
発行日 2024-10-03 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Achieving Fairness in Predictive Process Analytics via Adversarial Learning

要約

ビジネスプロセスの予測分析は、組織にとって重要なものとなっており、プロセスのリアルタイムな運用サポートを提供している。しかし、これらのアルゴリズムは、偏った変数(例えば、性別や国籍)、すなわち差別を体現する変数に基づいているため、しばしば不公正な予測を行う。本論文では、予測ビジネスプロセス分析にデビアス段階を統合し、予測が偏った変数に影響されないようにするという課題に取り組む。我々のフレームワークは、4つのケーススタディで評価され、予測値に対する偏った変数の寄与が大幅に減少することを示す。提案された技術は、プロセスマイニングにおける公平性の最新技術とも比較され、我々のフレームワークが、より良い予測品質を保持しながら、より強化された公平性のレベルを可能にすることを示す。

要約(オリジナル)

Predictive business process analytics has become important for organizations, offering real-time operational support for their processes. However, these algorithms often perform unfair predictions because they are based on biased variables (e.g., gender or nationality), namely variables embodying discrimination. This paper addresses the challenge of integrating a debiasing phase into predictive business process analytics to ensure that predictions are not influenced by biased variables. Our framework leverages on adversial debiasing is evaluated on four case studies, showing a significant reduction in the contribution of biased variables to the predicted value. The proposed technique is also compared with the state of the art in fairness in process mining, illustrating that our framework allows for a more enhanced level of fairness, while retaining a better prediction quality.

arxiv情報

著者 Massimiliano de Leoni,Alessandro Padella
発行日 2024-10-03 15:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, J.1 | コメントする

PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation?

要約

本稿では、インドの法律判例文書に限定して学習させた法律言語モデルのコレクションであるParamanu-Aynを紹介する。この9,700万パラメータの自己回帰(AR)デコーダのみのモデルは、単一のGPUでコンテキストサイズ8,192、わずか185時間でゼロから事前学習され、41.35の効率的なMFUを達成した。また、法律分野に特化したBPEトークナイザーも開発しました。このモデルをパープレキシティとゼロショットタスクを用いて評価したところ、説明を伴う事例判断予測と抽象的な事例要約を行うことができた。Paramanu-AynはLlama-2 7BとGemini-Proよりも72倍小さいにもかかわらず、説明付き事例判断予測タスクのテスト精度を2ポイント近く上回った。ゼロショット抽象的要約では、固定長要約(5000トークン)を生成するデコーダのみのLLMを、BLEUとMETEORメトリクスで10%ポイント以上、BERTScoreで4%ポイント近く上回った。さらに、ゼロショットのコモンセンスベンチマークと数学ベンチマークで評価した結果、Paramanu-Aynは法律文書のみで学習したにもかかわらず、AGIEVAL-AQuA-RATとAGIEVAL-SAT-MathタスクにおいてLlama-1、Llama-2、Falconを凌駕する優れた結果を示しました。また、法律条文生成、法律草案作成、判例要約など、10,763の多様な法律タスクに対して、我々のモデルをインストラクションチューニングした。Paramanu-Ayn-instructモデルは、GPT-3.5-Turboにより、明瞭性、関連性、完全性、法的推論指標において10点満点中8点以上のスコアを獲得した。また、GPT-3.5-Turboでは、明確性、関連性、完全性、法的推論指標において10点満点中8点以上を獲得した。したがって、我々は、強いドメインに特化した生成言語モデル(法律など)に対して、ゼロからドメインに特化した事前学習を行うことは、より費用対効果が高く、環境に優しく、より大規模なモデルとの競争力を維持し、あるいは法律ドメインのタスクにLLMを適応させるよりも優れていると結論付けた。

要約(オリジナル)

In this paper, we present Paramanu-Ayn, a collection of legal language models trained exclusively on Indian legal case documents. This 97-million-parameter Auto-Regressive (AR) decoder-only model was pretrained from scratch with a context size of 8192 on a single GPU for just 185 hours, achieving an efficient MFU of 41.35. We also developed a legal domain specialized BPE tokenizer. We evaluated our model using perplexity and zero-shot tasks: case judgment prediction with explanation and abstractive case summarization. Paramanu-Ayn outperformed Llama-2 7B and Gemini-Pro in case judgment prediction with explanation task on test accuracy by nearly 2 percentage points, despite being 72 times smaller. In zero-shot abstractive summarization, it surpassed decoder-only LLMs generating fixed-length summaries (5000 tokens) by over 10 percentage points in BLEU and METEOR metrics, and by nearly 4 percentage points in BERTScore. Further evaluations on zero-shot commonsense and mathematical benchmarks showed that Paramanu-Ayn excelled despite being trained exclusively on legal documents, outperforming Llama-1, Llama-2, and Falcon on AGIEVAL-AQuA-RAT and AGIEVAL-SAT-Math tasks. We also instruction-tuned our model on 10,763 diverse legal tasks, including legal clause generation, legal drafting, case summarization, etc. The Paramanu-Ayn-instruct model scored above 8 out of 10 in clarity, relevance, completeness, and legal reasoning metrics by GPT-3.5-Turbo. We found that our models, were able to learn drafting knowledge and generalize to draft legal contracts and legal clauses with limited instruction-tuning. Hence, we conclude that for a strong domain-specialized generative language model (such as legal), domain specialized pretraining from scratch is more cost effective, environmentally friendly, and remains competitive with larger models or even better than adapting LLMs for legal domain tasks.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-10-03 16:01:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs

要約

本稿では、Kubernetesアプリケーションのマイクロサービス環境において、特に動的ナレッジグラフの異常検知に対するさまざまなアプローチを探求する。我々のアプローチは、3つの動的知識グラフ表現を探求する:シーケンシャルデータ、ワンホップグラフ構造、および2ホップグラフ構造であり、各表現はますます複雑な構造情報を組み込んでいる。各フェーズには、異なる機械学習とディープラーニングモデルが含まれる。我々はそれらの性能を経験的に分析し、これらのモデルのアンサンブル学習に基づくアプローチを提案する。我々のアプローチは、ISWC 2024動的知識グラフ異常検知データセットにおいてベースラインを大幅に上回り、動的複雑データにおける異常検知のための頑健なソリューションを提供する。

要約(オリジナル)

In this paper, we explore different approaches to anomaly detection on dynamic knowledge graphs, specifically in a microservices environment for Kubernetes applications. Our approach explores three dynamic knowledge graph representations: sequential data, one-hop graph structure, and two-hop graph structure, with each representation incorporating increasingly complex structural information. Each phase includes different machine learning and deep learning models. We empirically analyse their performance and propose an approach based on ensemble learning of these models. Our approach significantly outperforms the baseline on the ISWC 2024 Dynamic Knowledge Graph Anomaly Detection dataset, providing a robust solution for anomaly detection in dynamic complex data.

arxiv情報

著者 Xiaohua Lu,Leshanshui Yang
発行日 2024-10-03 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Heuristic-based Sampling

要約

プロンプト最適化の目的は、与えられたタスクに最適なプロンプトを大規模言語モデル(LLM)に求めることである。LLMは、シングルステップのタスクのプロンプト候補を見つけ、改善するために使用されてきた。(1)プロンプトの内容はより広範で複雑になる可能性が高く、LLMがエラーを分析することがより困難になる、(2)個々のステップの影響を評価することが困難である、(3)タスク実行に関する好みは人によって異なる可能性がある。そこで我々は、LLM駆動の新しい離散プロンプト最適化フレームワークPRompt Optimization in Multi-Step Tasks (PROMST)を導入し、人間が設計したフィードバックルールを組み込んで、改善のための直接的な提案を自動的に行う。また、プロンプト候補から効率的にサンプリングするために、プロンプトのパフォーマンスを予測する追加学習されたヒューリスティックモデルを用いる。このアプローチは、11の代表的なマルチステップタスクにおいて、人間が設計したプロンプトと他のいくつかのプロンプト最適化手法の両方を大幅に上回る(それぞれ5つのLLMにおいて、現在の最良手法に対して平均10.6%~29.3%の改善)。我々は、我々の研究が、LLM駆動マルチステップタスクの自動プロンプト最適化のベンチマークになると信じている。データセットとコードはhttps://github.com/yongchao98/PROMST。プロジェクトページはhttps://yongchao98.github.io/MIT-REALM-PROMST。

要約(オリジナル)

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework PRompt Optimization in Multi-Step Tasks (PROMST) that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6\%-29.3\% improvement to current best methods on five LLMs respectively). We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yilun Hao,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-10-03 16:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO | コメントする