PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs

要約

大規模言語モデル(LLM)は、様々なタスクにおいて優れているが、攻撃者が有害または攻撃的なコンテンツを生成するようにモデルを惑わすために脱獄プロンプトを作成する脱獄攻撃に対してまだ脆弱である。現在の脱獄方法は、スケーラビリティと適応性に課題をもたらす手作業で作られたテンプレートに大きく依存するか、意味的に首尾一貫したプロンプトを生成するのに苦労し、簡単に検出できるようにしている。さらに、ほとんどの既存のアプローチは、長いプロンプトを含み、より高いクエリコストにつながる。この論文では、これらの課題を改善するために、PAPILLONと呼ばれる新しい脱獄攻撃フレームワークを紹介します。PAPILLONは、一連のカスタマイズされた設計でブラックボックスファズテストアプローチを適応させる自動化されたブラックボックス脱獄攻撃フレームワークです。PAPILLONは、手動で作成されたテンプレートに依存する代わりに、空のシードプールから開始し、関連する脱獄テンプレートを検索する必要性を排除します。また、LLMヘルパーを使用して3つの新しい質問依存変異戦略を開発し、長さを大幅に削減しながら意味の一貫性を維持するプロンプトを生成します。さらに、2レベルの判定モジュールを実装し、成功した本物の脱獄を正確に検出します。我々は7つの代表的なLLMでPAPILLONを評価し、5つの最先端の脱獄攻撃戦略と比較した。GPT-3.5ターボ、GPT-4、Gemini-Proなどの独自のLLM APIに対して、PAPILLONはそれぞれ90%以上、80%以上、74%以上の攻撃成功率を達成し、既存のベースラインを60%以上上回りました。さらに、PAPILLONは脱獄プロンプトの長さを大幅に削減しながら、高い意味的一貫性を維持することができます。GPT-4をターゲットにした場合、PAPILLONは100トークンであっても78%以上の攻撃成功率を達成できます。さらに、PAPILLONは移植性を示し、最先端の防御に対して堅牢です。コード: https://github.com/aaFrostnova/Papillon

要約(オリジナル)

Large Language Models (LLMs) have excelled in various tasks but are still vulnerable to jailbreaking attacks, where attackers create jailbreak prompts to mislead the model to produce harmful or offensive content. Current jailbreak methods either rely heavily on manually crafted templates, which pose challenges in scalability and adaptability, or struggle to generate semantically coherent prompts, making them easy to detect. Additionally, most existing approaches involve lengthy prompts, leading to higher query costs. In this paper, to remedy these challenges, we introduce a novel jailbreaking attack framework called PAPILLON, which is an automated, black-box jailbreaking attack framework that adapts the black-box fuzz testing approach with a series of customized designs. Instead of relying on manually crafted templates,PAPILLON starts with an empty seed pool, removing the need to search for any related jailbreaking templates. We also develop three novel question-dependent mutation strategies using an LLM helper to generate prompts that maintain semantic coherence while significantly reducing their length. Additionally, we implement a two-level judge module to accurately detect genuine successful jailbreaks. We evaluated PAPILLON on 7 representative LLMs and compared it with 5 state-of-the-art jailbreaking attack strategies. For proprietary LLM APIs, such as GPT-3.5 turbo, GPT-4, and Gemini-Pro, PAPILLONs achieves attack success rates of over 90%, 80%, and 74%, respectively, exceeding existing baselines by more than 60\%. Additionally, PAPILLON can maintain high semantic coherence while significantly reducing the length of jailbreak prompts. When targeting GPT-4, PAPILLON can achieve over 78% attack success rate even with 100 tokens. Moreover, PAPILLON demonstrates transferability and is robust to state-of-the-art defenses. Code: https://github.com/aaFrostnova/Papillon

arxiv情報

著者 Xueluan Gong,Mingzhe Li,Yilin Zhang,Fengyuan Ran,Chen Chen,Yanjiao Chen,Qian Wang,Kwok-Yan Lam
発行日 2025-03-03 07:25:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR | PAPILLON: Efficient and Stealthy Fuzz Testing-Powered Jailbreaks for LLMs はコメントを受け付けていません

Will AI replace Software Engineers? Do not hold your breath

要約

大規模言語モデル(LLM)のような人工知能(AI)技術は、コードを作成する上で非常に普及している。このため、将来のソフトウェアの仕事はLLMだけが行うようになり、ソフトウェア産業は存在しなくなるのではないかという憶測が広まっている。特に、大規模なソフトウェアを保守し、信頼性を維持することはソフトウェア工学の主要な部分であり、LLMにはまだその能力はない。

要約(オリジナル)

Artificial Intelligence (AI) technology such as Large Language Models (LLMs) have become extremely popular in creating code. This has led to the conjecture that future software jobs will be exclusively conducted by LLMs, and the software industry will cease to exist. But software engineering is much more than producing code — notably, \emph{maintaining} large software and keeping it reliable is a major part of software engineering, which LLMs are not yet capable of.

arxiv情報

著者 Abhik Roychoudhury,Andreas Zeller
発行日 2025-03-03 07:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.SE | Will AI replace Software Engineers? Do not hold your breath はコメントを受け付けていません

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

要約

大規模言語モデル(LLM)学習のスケーリング則は広く研究されているが、LLMの最適な推論構成はまだ十分に研究されていない。我々は、推論スケーリング則(別名テスト時間スケーリング則)と計算最適推論を研究し、モデルサイズと異なる推論戦略による追加トークン生成のトレードオフに焦点を当てる。計算最適推論手法を理解し設計するための第一歩として、貪欲探索、多数決、ベストオブ$-n$、重み付き投票、2つの異なる木探索アルゴリズムなどの推論戦略について、異なるモデルサイズと計算バジェットを用いて、コストと性能のトレードオフを研究した。我々の発見は、推論戦略を用いて推論計算量をスケーリングすることは、モデルパラメータをスケーリングすることよりも計算効率が高いことを示唆している。さらに、より小さなモデルと高度な推論アルゴリズムの組み合わせは、コストと性能のパレート最適トレードオフを提供する。例えば、Llemma-7Bモデルは、我々の新しい木探索アルゴリズムと組み合わせた場合、MATHベンチマークでテストされたすべての推論戦略において、Llemma-34Bモデルを一貫して上回った。これらの洞察が、LLMの推論スケーリング則(テスト時間スケーリング則)のより深い理解に貢献することを期待している。

要約(オリジナル)

While the scaling laws of large language models (LLMs) training have been extensively studied, optimal inference configurations of LLMs remain underexplored. We study inference scaling laws (aka test-time scaling laws) and compute-optimal inference, focusing on the trade-offs between model sizes and generating additional tokens with different inference strategies. As a first step towards understanding and designing compute-optimal inference methods, we studied cost-performance trade-offs for inference strategies such as greedy search, majority voting, best-of-$n$, weighted voting, and two different tree search algorithms, using different model sizes and compute budgets. Our findings suggest that scaling inference compute with inference strategies can be more computationally efficient than scaling model parameters. Additionally, smaller models combined with advanced inference algorithms offer Pareto-optimal trade-offs in cost and performance. For example, the Llemma-7B model, when paired with our novel tree search algorithm, consistently outperforms the Llemma-34B model across all tested inference strategies on the MATH benchmark. We hope these insights contribute to a deeper understanding of inference scaling laws (test-time scaling laws) for LLMs.

arxiv情報

著者 Yangzhen Wu,Zhiqing Sun,Shanda Li,Sean Welleck,Yiming Yang
発行日 2025-03-03 07:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models はコメントを受け付けていません

Deep Learning-Driven Malware Classification with API Call Sequence Analysis and Concept Drift Handling

要約

動的な環境におけるマルウェア分類は、マルウェアデータの統計的特性が時間と共に進化するコンセプトドリフトにより、検出努力を複雑にするという大きな課題を呈する。この問題に対処するため、マルウェア分類の精度と適応性を向上させる遺伝的アルゴリズムで強化されたディープラーニングフレームワークを提案する。我々のアプローチは、進化するマルウェアの脅威に対する頑健性を確保しながら、ディープラーニングモデルを継続的に改良するために、遺伝的アルゴリズム内に突然変異操作とフィットネススコア評価を組み込んでいる。実験結果は、このハイブリッド手法が分類性能と適応性を大幅に向上させ、従来の静的モデルを上回ることを示している。我々の提案するアプローチは、刻々と変化するサイバーセキュリティランドスケープにおけるリアルタイムのマルウェア分類のための有望なソリューションを提供する。

要約(オリジナル)

Malware classification in dynamic environments presents a significant challenge due to concept drift, where the statistical properties of malware data evolve over time, complicating detection efforts. To address this issue, we propose a deep learning framework enhanced with a genetic algorithm to improve malware classification accuracy and adaptability. Our approach incorporates mutation operations and fitness score evaluations within genetic algorithms to continuously refine the deep learning model, ensuring robustness against evolving malware threats. Experimental results demonstrate that this hybrid method significantly enhances classification performance and adaptability, outperforming traditional static models. Our proposed approach offers a promising solution for real-time malware classification in ever-changing cybersecurity landscapes.

arxiv情報

著者 Bishwajit Prasad Gond,Durga Prasad Mohapatra
発行日 2025-03-03 08:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | Deep Learning-Driven Malware Classification with API Call Sequence Analysis and Concept Drift Handling はコメントを受け付けていません

ReFocus: Reinforcing Mid-Frequency and Key-Frequency Modeling for Multivariate Time Series Forecasting

要約

最近の進歩により、ディープラーニングモデルに周波数ベースの技術が徐々に組み込まれ、時系列分析タスクの精度と効率の顕著な向上につながっている。しかし、実世界の時系列には、低周波数領域にエネルギーが集中する一方で、中間周波数帯域は無視できるほど小さいという中間周波数スペクトラムギャップが存在し、重要な周波数情報を抽出する既存の深層学習モデルの能力を妨げている。さらに、異なる時系列が区別できない周波数パターンを共有する、多変量時系列における共有キー周波数は、既存の文献ではほとんど利用されていない。本研究では、畳み込みと残差学習に基づく、中間周波数帯域の重要性を強調するための新しいモジュール、適応的中間周波数エネルギー最適化器を導入する。また、共有キー周波数を捕捉するためのエネルギーベースのキー周波数ピッキングブロックを提案し、より少ないパラメータで優れた系列間モデリング性能を達成する。Key-Frequencyのモデリングをさらに強化するために、他のチャンネルからのスペクトル情報を各チャンネルにランダムに導入する、新しいKey-Frequency Enhanced Training戦略を採用する。我々のアプローチは、困難なTraffic、ECL、Solarベンチマークにおいて多変量時系列予測を高度化し、従来のSOTA iTransformerと比較してMSEを4%、6%、5%削減した。コードはGitHubリポジトリhttps://github.com/Levi-Ackman/ReFocus。

要約(オリジナル)

Recent advancements have progressively incorporated frequency-based techniques into deep learning models, leading to notable improvements in accuracy and efficiency for time series analysis tasks. However, the Mid-Frequency Spectrum Gap in the real-world time series, where the energy is concentrated at the low-frequency region while the middle-frequency band is negligible, hinders the ability of existing deep learning models to extract the crucial frequency information. Additionally, the shared Key-Frequency in multivariate time series, where different time series share indistinguishable frequency patterns, is rarely exploited by existing literature. This work introduces a novel module, Adaptive Mid-Frequency Energy Optimizer, based on convolution and residual learning, to emphasize the significance of mid-frequency bands. We also propose an Energy-based Key-Frequency Picking Block to capture shared Key-Frequency, which achieves superior inter-series modeling performance with fewer parameters. A novel Key-Frequency Enhanced Training strategy is employed to further enhance Key-Frequency modeling, where spectral information from other channels is randomly introduced into each channel. Our approach advanced multivariate time series forecasting on the challenging Traffic, ECL, and Solar benchmarks, reducing MSE by 4%, 6%, and 5% compared to the previous SOTA iTransformer. Code is available at this GitHub Repository: https://github.com/Levi-Ackman/ReFocus.

arxiv情報

著者 Guoqi Yu,Yaoming Li,Juncheng Wang,Xiaoyu Guo,Angelica I. Aviles-Rivero,Tong Yang,Shujun Wang
発行日 2025-03-03 08:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | ReFocus: Reinforcing Mid-Frequency and Key-Frequency Modeling for Multivariate Time Series Forecasting はコメントを受け付けていません

Enhancing Large Language Models with Pseudo- and Multisource- Knowledge Graphs for Open-ended Question Answering

要約

大規模言語モデルの幻覚を軽減することは極めて重要な課題である。既存の手法の中には、自己強化技術を採用しているものもあるが、未知の事実の幻覚に効果的に対処するには不十分である。一方、知識グラフ(KG)強化のアプローチは、異なるKGソース間の汎化と、自由形式の回答質問の強化を同時に扱うことができない。これらの限界に取り組むために、擬似グラフ生成と原子知識検証(PG&AKV)を組み合わせたフレームワークを提案する。自由形式の質問応答の強化は、関連知識のフレームワークを提供するために擬似グラフ生成を活用することから始まる。その後、原子知識検証は原子レベルの知識問い合わせと検証を利用し、異なるKGソースの下での汎化可能性を達成する。ベースラインと比較して、このアプローチは自由形式の質問に対してROUGE-Lスコアの最小11.5の改善をもたらす。正確に回答された質問に対しては、最小7.5%の精度向上が観察される。さらに、PG&AKVは異なるKGソース間で一般性を示す。質問ソースと異なるKGを利用することで、PGG&AKVは少なくとも3.5%の性能改善を達成することができる。要約すると、我々の結果は、特に自由形式の質問において、擬似KGやマルチソースKGを組み込むことによってLLMを強化する道を開く。

要約(オリジナル)

Mitigating the hallucinations of Large Language Models is a crucial task. Although some existing methods employ self-enhancement techniques, they fall short of effectively addressing unknown factual hallucinations. Meanwhile, Knowledge Graph (KG) enhancement approaches fail to address the generalization across different KG sources and the enhancement of open-ended answer questions simultaneously. To tackle these limitations, we propose a framework that combines Pseudo-Graph Generation and Atomic Knowledge Verification (PG\&AKV). Enhancement of open-ended question-answering begins with leveraging the Pseudo-Graph Generation to provide the related knowledge framework. Subsequently, Atomic Knowledge Verification utilizes atomic-level knowledge querying and verification to achieve generalizability under different KG sources. Compared to the baseline, this approach yields a minimum improvement of 11.5 in the ROUGE-L score for open-ended questions. For precise-answered questions, we observe a minimum accuracy improvement of 7.5%. Moreover, PG\&AKV also exhibits generalizability across different KG sources. Utilizing KG different from the question sources, PG\&AKV can even achieve at least a 3.5 % performance improvement. In summary, our results pave the way for enhancing LLMs by incorporating Pseudo- and Multisource-KGs, particularly in the filed of open-ended questions.

arxiv情報

著者 Jiaxiang Liu,Tong Zhou,Yubo Chen,Kang Liu,Jun Zhao
発行日 2025-03-03 09:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Enhancing Large Language Models with Pseudo- and Multisource- Knowledge Graphs for Open-ended Question Answering はコメントを受け付けていません

‘Nuclear Deployed!’: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents

要約

大規模言語モデル(LLM)は自律的な意思決定者へと進化しており、特に化学、生物、放射線、核(CBRN)領域など、大きなリスクを伴うシナリオにおける破滅的なリスクについての懸念を引き起こしている。このようなリスクは、エージェントのHelpful, Harmlessness and Honest (HHH)ゴール間のトレードオフに起因する可能性があるという洞察に基づき、我々は、このようなリスクを効果的かつ自然に明らかにするために注意深く構築された、新しい3段階評価フレームワークを構築した。12の先進的なLLMにおいて14,400のエージェントシミュレーションを行い、広範な実験と分析を行った。その結果、LLMエージェントは、意図的に誘導されることなく、自律的に破滅的な行動や欺瞞を行うことができることが明らかになった。さらに、より強力な推論能力は、これらのリスクを軽減するのではなく、むしろ増大させることが多い。また、LLMエージェントは指示や上位者の命令に違反する可能性があることも示した。全体として、我々は自律的LLMエージェントにおける破局的リスクの存在を経験的に証明した。要望があればコードを公開する。

要約(オリジナル)

Large language models (LLMs) are evolving into autonomous decision-makers, raising concerns about catastrophic risks in high-stakes scenarios, particularly in Chemical, Biological, Radiological and Nuclear (CBRN) domains. Based on the insight that such risks can originate from trade-offs between the agent’s Helpful, Harmlessness and Honest (HHH) goals, we build a novel three-stage evaluation framework, which is carefully constructed to effectively and naturally expose such risks. We conduct 14,400 agentic simulations across 12 advanced LLMs, with extensive experiments and analysis. Results reveal that LLM agents can autonomously engage in catastrophic behaviors and deception, without being deliberately induced. Furthermore, stronger reasoning abilities often increase, rather than mitigate, these risks. We also show that these agents can violate instructions and superior commands. On the whole, we empirically prove the existence of catastrophic risks in autonomous LLM agents. We will release our code upon request.

arxiv情報

著者 Rongwu Xu,Xiaojian Li,Shuo Chen,Wei Xu
発行日 2025-03-03 09:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY | ‘Nuclear Deployed!’: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents はコメントを受け付けていません

Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

要約

機械学習(ML)システムの信頼性を確保することは、機械学習(ML)システムがますます重要な領域に組み込まれるようになる中で極めて重要である。本稿では、公正性、プライバシー、頑健性、正確性、説明可能性など、信頼できるMLの主要な原則間のトレードオフをナビゲートするために、因果的手法を機械学習に統合することを提唱する。これらの目的は理想的には同時に満たされるべきであるが、しばしば単独で取り組まれ、対立や最適でない解決策をもたらす。本稿では、公正さと正確さ、あるいはプライバシーと頑健性といった目標の整合に成功した、MLにおける因果性の既存の応用例を引きながら、信頼できるMLと基礎モデルの両方において、競合する複数の目標のバランスを取るために因果的アプローチが不可欠であることを主張する。これらのトレードオフを強調するだけでなく、因果関係をどのようにMLや基礎モデルに実用的に組み込むことができるかを検討し、その信頼性と解釈可能性を高めるための解決策を提示する。最後に、因果関係のフレームワークを採用する際の課題、限界、機会について議論し、より説明責任のある倫理的に健全なAIシステムへの道を開く。

要約(オリジナル)

Ensuring trustworthiness in machine learning (ML) systems is crucial as they become increasingly embedded in high-stakes domains. This paper advocates for integrating causal methods into machine learning to navigate the trade-offs among key principles of trustworthy ML, including fairness, privacy, robustness, accuracy, and explainability. While these objectives should ideally be satisfied simultaneously, they are often addressed in isolation, leading to conflicts and suboptimal solutions. Drawing on existing applications of causality in ML that successfully align goals such as fairness and accuracy or privacy and robustness, this paper argues that a causal approach is essential for balancing multiple competing objectives in both trustworthy ML and foundation models. Beyond highlighting these trade-offs, we examine how causality can be practically integrated into ML and foundation models, offering solutions to enhance their reliability and interpretability. Finally, we discuss the challenges, limitations, and opportunities in adopting causal frameworks, paving the way for more accountable and ethically sound AI systems.

arxiv情報

著者 Ruta Binkyte,Ivaxi Sheth,Zhijing Jin,Mohammad Havaei,Bernhard Schölkopf,Mario Fritz
発行日 2025-03-03 10:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models はコメントを受け付けていません

TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

要約

階層組織は生物システムや人間社会の基本であるが、人工知能システムは適応性や拡張性を制限するモノリシックなアーキテクチャに依存することが多い。現在の階層強化学習(HRL)アプローチは、一般的に階層を2階層に制限するか、集中的な学習を必要とするため、実用的な適用が制限される。我々は、完全に分散化された階層型マルチエージェントシステムを構築するためのフレームワークであるTAMEエージェントフレームワーク(TAG)を紹介する。TAGは、各階層レベルをその上のエージェントの環境として抽象化する新しいLevelEnvコンセプトにより、任意の深さの階層を可能にする。このアプローチは、疎結合を維持しながらレベル間の情報フローを標準化し、多様なエージェントタイプのシームレスな統合を可能にします。我々は、複数のレベルにまたがる異なるRLエージェントを組み合わせた階層アーキテクチャを実装することにより、TAGの有効性を実証し、標準的なベンチマークにおいて従来のマルチエージェントRLベースラインを上回る性能向上を達成した。我々の結果は、分散化された階層構造が学習速度と最終的な性能の両方を向上させることを示しており、TAGをスケーラブルなマルチエージェントシステムの有望な方向性として位置づけている。

要約(オリジナル)

Hierarchical organization is fundamental to biological systems and human societies, yet artificial intelligence systems often rely on monolithic architectures that limit adaptability and scalability. Current hierarchical reinforcement learning (HRL) approaches typically restrict hierarchies to two levels or require centralized training, which limits their practical applicability. We introduce TAME Agent Framework (TAG), a framework for constructing fully decentralized hierarchical multi-agent systems.TAG enables hierarchies of arbitrary depth through a novel LevelEnv concept, which abstracts each hierarchy level as the environment for the agents above it. This approach standardizes information flow between levels while preserving loose coupling, allowing for seamless integration of diverse agent types. We demonstrate the effectiveness of TAG by implementing hierarchical architectures that combine different RL agents across multiple levels, achieving improved performance over classical multi-agent RL baselines on standard benchmarks. Our results show that decentralized hierarchical organization enhances both learning speed and final performance, positioning TAG as a promising direction for scalable multi-agent systems.

arxiv情報

著者 Giuseppe Paolo,Abdelhakim Benechehab,Hamza Cherkaoui,Albert Thomas,Balázs Kégl
発行日 2025-03-03 10:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning はコメントを受け付けていません

Exploring Iterative Controllable Summarization with Large Language Models

要約

大規模言語モデル(LLM)は、抽象的な要約タスクにおいて顕著な性能を示してきた。しかし、要約の属性(例えば長さやトピック)を正確に制御する能力についてはまだ十分に研究されておらず、特定のユーザーの嗜好への適応性を制限している。本稿では、LLMの制御可能性を系統的に探索する。この目的のために、要約属性測定を再検討し、単にエラーを評価するのではなく、LLMの制御性を正確に評価するために、反復評価指標、失敗率、平均反復回数を導入する。我々の発見は、LLMが言語的属性よりも数値的属性でより苦戦することを示している。この課題に対処するため、我々は制御可能な要約のためのGTE(guide-to-explain framework)を提案する。我々のGTEフレームワークは、モデルが最初の草稿でずれた属性を特定することを可能にし、以前の出力の誤りを自己説明するように導く。モデルがそのズレを反省することを可能にすることで、GTEは、他の反復的アプローチよりも驚くほど少ない反復回数で、ロバストな有効性を持つ、望ましい属性を満たす、よく調整された要約を生成する。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance in abstractive summarization tasks. However, their ability to precisely control summary attributes (e.g., length or topic) remains underexplored, limiting their adaptability to specific user preferences. In this paper, we systematically explore the controllability of LLMs. To this end, we revisit summary attribute measurements and introduce iterative evaluation metrics, failure rate and average iteration count to precisely evaluate controllability of LLMs, rather than merely assessing errors. Our findings show that LLMs struggle more with numerical attributes than with linguistic attributes. To address this challenge, we propose a guide-to-explain framework (GTE) for controllable summarization. Our GTE framework enables the model to identify misaligned attributes in the initial draft and guides it in self-explaining errors in the previous output. By allowing the model to reflect on its misalignment, GTE generates well-adjusted summaries that satisfy the desired attributes with robust effectiveness, requiring surprisingly fewer iterations than other iterative approaches.

arxiv情報

著者 Sangwon Ryu,Heejin Do,Daehee Kim,Hwanjo Yu,Dongwoo Kim,Yunsu Kim,Gary Geunbae Lee,Jungseul Ok
発行日 2025-03-03 10:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Exploring Iterative Controllable Summarization with Large Language Models はコメントを受け付けていません