Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models

要約

大規模言語モデル (LLM) などの基盤モデル (FM) は、ソフトウェア エンジニアリング (SE) を含む多くの分野に大きな影響を与えています。
SE と FM の間の相互作用により、FM の SE 実践への統合 (FM4SE) や、SE 方法論の FM への適用 (SE4FM) が生まれました。
これらの傾向に対する学術的貢献に関する文献調査はいくつか存在しますが、実践者の見解を提供するのは私たちが初めてです。
私たちは、FM を活用した調査アプローチを活用して、主要なテクノロジー企業からの 155 件の FM4SE および 997 件の SE4FM ブログ投稿を分析し、議論されている活動とタスクを体系的にラベル付けして要約します。
コード生成が最も顕著な FM4SE タスクである一方、FM はコードの理解、要約、API の推奨など、他の多くの SE アクティビティにも活用されていることがわかりました。
SE4FM のブログ投稿の大部分は、モデルのデプロイと運用、システム アーキテクチャとオーケストレーションに関するものです。
クラウド展開に重点が置かれていますが、FM を圧縮してエッジ デバイスやモバイル デバイスなどの小型デバイスに展開することへの関心が高まっています。
私たちは、学術的発見と現実世界の応用の間のギャップを埋めることを目的として、得られた洞察に触発された 8 つの将来の研究の方向性を概説します。
私たちの研究は、FM4SE および SE4FM の実践的な応用に関する一連の知識を豊かにするだけでなく、技術文献および灰色文献の領域内で文献調査を実施する際の強力かつ効率的なアプローチとしての FM の有用性を実証しています。
データセット、結果、コード、および使用されたプロンプトは、https://github.com/SAILResearch/fmse-blogs のオンライン レプリケーション パッケージにあります。

要約(オリジナル)

Foundation models (FMs) such as large language models (LLMs) have significantly impacted many fields, including software engineering (SE). The interaction between SE and FMs has led to the integration of FMs into SE practices (FM4SE) and the application of SE methodologies to FMs (SE4FM). While several literature surveys exist on academic contributions to these trends, we are the first to provide a practitioner’s view. We analyze 155 FM4SE and 997 SE4FM blog posts from leading technology companies, leveraging an FM-powered surveying approach to systematically label and summarize the discussed activities and tasks. We observed that while code generation is the most prominent FM4SE task, FMs are leveraged for many other SE activities such as code understanding, summarization, and API recommendation. The majority of blog posts on SE4FM are about model deployment & operation, and system architecture & orchestration. Although the emphasis is on cloud deployments, there is a growing interest in compressing FMs and deploying them on smaller devices such as edge or mobile devices. We outline eight future research directions inspired by our gained insights, aiming to bridge the gap between academic findings and real-world applications. Our study not only enriches the body of knowledge on practical applications of FM4SE and SE4FM but also demonstrates the utility of FMs as a powerful and efficient approach in conducting literature surveys within technical and grey literature domains. Our dataset, results, code and used prompts can be found in our online replication package at https://github.com/SAILResearch/fmse-blogs.

arxiv情報

著者 Hao Li,Cor-Paul Bezemer,Ahmed E. Hassan
発行日 2024-10-11 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models はコメントを受け付けていません

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

要約

ユーザーが安全対策を回避しモデル機能を悪用するプロンプトを設計する脱獄攻撃に対する LLM の堅牢性は、主に単純なチャットボットとして機能する LLM について研究されてきました。
一方、外部ツールを使用し、複数段階のタスクを実行できる LLM エージェントは、悪用された場合に大きなリスクを引き起こす可能性がありますが、その堅牢性は依然として十分に解明されていません。
LLM エージェントの誤用に関する研究を促進するために、AgentHarm と呼ばれる新しいベンチマークを提案します。
このベンチマークには、詐欺、サイバー犯罪、ハラスメントを含む 11 の危害カテゴリをカバーする、110 の明示的に悪意のあるエージェント タスク (拡張を含めると 440) の多様なセットが含まれています。
AgentHarm で良好なスコアを獲得するには、モデルが有害なエージェントのリクエストを拒否するかどうかを測定することに加えて、ジェイルブレイクされたエージェントが攻撃後に複数ステップのタスクを完了する能力を維持する必要があります。
私たちはさまざまな主要な LLM を評価し、(1) 主要な LLM はジェイルブレイクなしで悪意のあるエージェントのリクエストに驚くほど準拠していること、(2) シンプルなユニバーサル ジェイルブレイク テンプレートを効果的にジェイルブレイク エージェントに適合させることができること、(3) これらのジェイルブレイクにより一貫性のある悪意のある攻撃が可能であることがわかりました。
マルチステップのエージェントの動作を管理し、モデルの機能を保持します。
LLM ベースのエージェントに対する攻撃と防御のシンプルかつ信頼性の高い評価を可能にするために、AgentHarm を一般公開します。
https://huggingface.co/ai-safety-institute/AgentHarm でベンチマークを公開しています。

要約(オリジナル)

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents — which use external tools and can execute multi-stage tasks — may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. We publicly release AgentHarm to enable simple and reliable evaluation of attacks and defenses for LLM-based agents. We publicly release the benchmark at https://huggingface.co/ai-safety-institute/AgentHarm.

arxiv情報

著者 Maksym Andriushchenko,Alexandra Souly,Mateusz Dziemian,Derek Duenas,Maxwell Lin,Justin Wang,Dan Hendrycks,Andy Zou,Zico Kolter,Matt Fredrikson,Eric Winsor,Jerome Wynne,Yarin Gal,Xander Davies
発行日 2024-10-11 17:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents はコメントを受け付けていません

DeLLMa: Decision Making Under Uncertainty with Large Language Models

要約

意思決定支援ツールとしての大規模言語モデル (LLM) の可能性は、不確実性の下での意思決定という困難なタスクに直面することが多いビジネス、エンジニアリング、医学などの分野でますます研究されています。
この論文では、このようなタイプの意思決定の問題について LLM に直接指示すると、特に問題の複雑さが増すにつれて、悪い結果が生じる可能性があることを示します。
これらのタスクを支援するために、不確実な環境における意思決定の精度を高めるために設計されたフレームワークである DeLLMa (意思決定大規模言語モデル アシスタント) を提案します。
DeLLMa には、意思決定理論と効用理論の原則を利用して、推論時間推論のスケーリングにおける最近のベスト プラクティスを統合する複数ステップの推論手順が含まれており、正確で人間による監査が可能な意思決定プロセスを提供します。
私たちは複数の現実的な意思決定環境で手順を検証し、DeLLMa が主要な言語モデルの意思決定パフォーマンスを一貫して向上させ、競合する手法と比較して最大 40% の精度向上を達成できることを実証しました。
さらに、テスト時にコンピューティングをスケーリングするとパフォーマンスがどのように向上するかを示し、DELLMa のコンポーネントをベンチマークするために人間による評価を実行します。

要約(オリジナル)

The potential of large language models (LLMs) as decision support tools is increasingly being explored in fields such as business, engineering, and medicine, which often face challenging tasks of decision-making under uncertainty. In this paper, we show that directly prompting LLMs on these types of decision-making problems can yield poor results, especially as the problem complexity increases. To aid in these tasks, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step reasoning procedure that integrates recent best practices in scaling inference-time reasoning, drawing upon principles from decision theory and utility theory, to provide an accurate and human-auditable decision-making process. We validate our procedure on multiple realistic decision-making environments, demonstrating that DeLLMa can consistently enhance the decision-making performance of leading language models, and achieve up to a 40% increase in accuracy over competing methods. Additionally, we show how performance improves when scaling compute at test time, and carry out human evaluations to benchmark components of DeLLMa.

arxiv情報

著者 Ollie Liu,Deqing Fu,Dani Yogatama,Willie Neiswanger
発行日 2024-10-11 17:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DeLLMa: Decision Making Under Uncertainty with Large Language Models はコメントを受け付けていません

IP-FL: Incentivized and Personalized Federated Learning

要約

従来のフェデレーテッド ラーニング (FL) に対する既存のインセンティブ ソリューションは、単一のグローバル目標に対する個人の貢献に焦点を当てており、複数のクラスター レベル モデルを使用したクラスター化されたパーソナライゼーションのニュアンスや、クライアントに対するパーソナライズされたモデルの魅力などの非金銭的なインセンティブを無視しています。
この論文では、まずインセンティブとパーソナライゼーションを相互に関連する課題として扱い、パーソナライズされた学習を促進するインセンティブのメカニズムでそれらを解決することを提案します。
さらに、現在の方法はクライアントのクラスタリングをアグリゲータに依存していますが、プライバシーの制約によりクライアントの機密情報にアクセスできないため制限があり、不正確なクラスタリングが発生します。
これを克服するために、私たちはクライアントが直接関与することを提案し、クライアントがデータ配布とインセンティブ主導のフィードバックに基づいてクラスター メンバーシップの好みを示すことができるようにします。
私たちのアプローチは、積極的かつ一貫した参加につながる高品質のデータによって、自己認識型のクライアントに対するパーソナライズされたモデルの魅力を強化します。
私たちの評価では、データの異質性やパーソナライゼーションへの対応を含め、既存の FL モデルと比較して、テスト精度 (8 ~ 45%)、パーソナライズされたモデルの魅力 (3 ~ 38%)、および参加率 (31 ~ 100%) が大幅に向上していることが実証されています。

要約(オリジナル)

Existing incentive solutions for traditional Federated Learning (FL) focus on individual contributions to a single global objective, neglecting the nuances of clustered personalization with multiple cluster-level models and the non-monetary incentives such as personalized model appeal for clients. In this paper, we first propose to treat incentivization and personalization as interrelated challenges and solve them with an incentive mechanism that fosters personalized learning. Additionally, current methods depend on an aggregator for client clustering, which is limited by a lack of access to clients’ confidential information due to privacy constraints, leading to inaccurate clustering. To overcome this, we propose direct client involvement, allowing clients to indicate their cluster membership preferences based on data distribution and incentive-driven feedback. Our approach enhances the personalized model appeal for self-aware clients with high-quality data leading to their active and consistent participation. Our evaluation demonstrates significant improvements in test accuracy (8-45%), personalized model appeal (3-38%), and participation rates (31-100%) over existing FL models, including those addressing data heterogeneity and personalization.

arxiv情報

著者 Ahmad Faraz Khan,Xinran Wang,Qi Le,Zain ul Abdeen,Azal Ahmad Khan,Haider Ali,Ming Jin,Jie Ding,Ali R. Butt,Ali Anwar
発行日 2024-10-11 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | IP-FL: Incentivized and Personalized Federated Learning はコメントを受け付けていません

PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents

要約

タイコグラフィーは、X 線および電子顕微鏡における高度な計算によるイメージング技術です。
物理学、化学、生物学、材料科学などの科学研究分野だけでなく、半導体の特性評価などの産業用途でも広く採用されています。
実際には、高品質のタイコグラフィック画像を取得するには、多数の実験パラメータとアルゴリズムパラメータを同時に最適化する必要があります。
従来、パラメータの選択は試行錯誤に頼ることが多く、ワークフローのスループットが低下したり、人間によるバイアスが発生したりする可能性がありました。
この研究では、大規模言語モデル (LLM) を利用してタイコグラフィーのデータ分析を自動化するフレームワークである「タイコグラフィック実験分析ロボット」(PEAR) を開発します。
高い堅牢性と精度を確保するために、PEAR は知識の検索、コード生成、パラメーターの推奨、画像推論などのタスクに複数の LLM エージェントを採用しています。
私たちの調査では、LLaMA 3.1 8B のような小規模なオープンウェイト モデルであっても、PEAR のマルチエージェント設計によりワークフローの成功率が大幅に向上することが実証されています。
また、PEAR はさまざまな自動化レベルをサポートし、カスタマイズされたローカルの知識ベースと連携して動作するように設計されており、さまざまな研究環境にわたる柔軟性と適応性を確保します。

要約(オリジナル)

Ptychography is an advanced computational imaging technique in X-ray and electron microscopy. It has been widely adopted across scientific research fields, including physics, chemistry, biology, and materials science, as well as in industrial applications such as semiconductor characterization. In practice, obtaining high-quality ptychographic images requires simultaneous optimization of numerous experimental and algorithmic parameters. Traditionally, parameter selection often relies on trial and error, leading to low-throughput workflows and potential human bias. In this work, we develop the ‘Ptychographic Experiment and Analysis Robot’ (PEAR), a framework that leverages large language models (LLMs) to automate data analysis in ptychography. To ensure high robustness and accuracy, PEAR employs multiple LLM agents for tasks including knowledge retrieval, code generation, parameter recommendation, and image reasoning. Our study demonstrates that PEAR’s multi-agent design significantly improves the workflow success rate, even with smaller open-weight models such as LLaMA 3.1 8B. PEAR also supports various automation levels and is designed to work with customized local knowledge bases, ensuring flexibility and adaptability across different research environments.

arxiv情報

著者 Xiangyu Yin,Chuqiao Shi,Yimo Han,Yi Jiang
発行日 2024-10-11 17:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.MA | PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents はコメントを受け付けていません

Mentor-KD: Making Small Language Models Better Multi-step Reasoners

要約

大規模言語モデル (LLM) は、思考連鎖 (CoT) プロンプトを活用することで、さまざまな複雑なタスクにわたって優れたパフォーマンスを示しています。
最近の研究では、知識蒸留(KD)アプローチである推論蒸留が提案されています。これは、LLM教師によって生成された複数ステップの理論的根拠の言語モデルを微調整することによって、LLMのそのような推論能力を伝達します。
しかし、彼らは、1) データ品質と 2) ソフトラベルの提供という観点から、LLM 教師モデルからの不十分な蒸留セットに関する 2 つの課題を十分に考慮していませんでした。
この論文では、前述の課題に対処しながら、LLM の複数ステップの推論能力をより小さな LM に効果的に抽出する Mentor-KD を提案します。
具体的には、中規模のタスク固有の微調整モデルであるメンターを活用して、追加の CoT アノテーションを強化し、推論蒸留中に学生モデルにソフト ラベルを提供します。
私たちは広範な実験を実施し、さまざまなモデルや複雑な推論タスクにわたる Mentor-KD の有効性を確認しています。

要約(オリジナル)

Large Language Models (LLMs) have displayed remarkable performances across various complex tasks by leveraging Chain-of-Thought (CoT) prompting. Recently, studies have proposed a Knowledge Distillation (KD) approach, reasoning distillation, which transfers such reasoning ability of LLMs through fine-tuning language models of multi-step rationales generated by LLM teachers. However, they have inadequately considered two challenges regarding insufficient distillation sets from the LLM teacher model, in terms of 1) data quality and 2) soft label provision. In this paper, we propose Mentor-KD, which effectively distills the multi-step reasoning capability of LLMs to smaller LMs while addressing the aforementioned challenges. Specifically, we exploit a mentor, intermediate-sized task-specific fine-tuned model, to augment additional CoT annotations and provide soft labels for the student model during reasoning distillation. We conduct extensive experiments and confirm Mentor-KD’s effectiveness across various models and complex reasoning tasks.

arxiv情報

著者 Hojae Lee,Junho Kim,SangKeun Lee
発行日 2024-10-11 17:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Mentor-KD: Making Small Language Models Better Multi-step Reasoners はコメントを受け付けていません

SimpleStrat: Diversifying Language Model Generation with Stratification

要約

大規模言語モデル (LLM) から多様な応答を生成することは、多様性によって世代間で明確な答えが得られる、計画/検索や合成データ生成などのアプリケーションにとって非常に重要です。
従来のアプローチは、多様性を高めるために温度を上昇させることに依存していました。
しかし、一般的な考えに反して、このアプローチは気温が上昇すると品質の低い個々の世代を生成するだけでなく、モデルの次のトークンの確率が答えの真の分布に似ていることに依存することを示しました。
私たちは、言語モデル自体を使用して空間を階層に分割する代替アプローチである \method{} を提案します。
推論では、ランダムな層が選択され、その層内からサンプルが抽出されます。
多様性を測定するために、CoverageQA (同様にもっともらしい回答が複数ある不特定の質問のデータセット) を導入し、出力分布と有効なグランド トゥルース回答の一様分布の間の KL ダイバージェンスを測定することで多様性を評価します。
独自モデルの応答/解ごとの確率を計算することは実行不可能であるため、グラウンド トゥルース ソリューションで再現率を測定します。
SimpleStrat を使用した評価では、GPT-4o と比較して 0.05 高い再現率を達成し、Llama 3 と比較して KL Divergence が平均 0.36 減少しました。

要約(オリジナル)

Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model’s next-token probabilities being similar to the true distribution of answers. We propose \method{}, an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.

arxiv情報

著者 Justin Wong,Yury Orlovskiy,Michael Luo,Sanjit A. Seshia,Joseph E. Gonzalez
発行日 2024-10-11 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SimpleStrat: Diversifying Language Model Generation with Stratification はコメントを受け付けていません

Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI

要約

自動運転車の進化する状況においては、堅牢な車載ネットワーク (IVN) セキュリティを確保することが最も重要です。
このペーパーでは、変分オートエンコーダー (VAE) ベースの知識蒸留アプローチを使用してパフォーマンスと効率の両方を向上させる、KD-XVAE と呼ばれる高度な侵入検知システム (IDS) を紹介します。
私たちのモデルは複雑さを大幅に軽減し、わずか 1669 個のパラメーターで動作し、バッチあたりの推論時間 0.3 ミリ秒を達成するため、リソースに制約のある自動車環境に非常に適しています。
HCRL カーハッキング データセットの評価では、DoS、ファジング、ギア スプーフィング、RPM スプーフィングなどの複数の攻撃タイプの下で完璧なスコア (再現率、精度、F1 スコア 100%、FNR 0%) を達成する優れた機能が実証されています。
CCIoV2024 データセットの比較分析により、従来の機械学習モデルに対するその優位性がさらに強調され、完璧な検出メトリクスが達成されます。
さらに、Explainable AI (XAI) 技術を統合して、モデルの決定における透明性を確保します。
VAE は、元の特徴空間を潜在空間に圧縮し、その上で蒸留されたモデルがトレーニングされます。
SHAP (SHapley Additive exPlanations) 値は、潜在的な各次元の重要性についての洞察を提供し、直感的な理解のために元の特徴にマッピングし直されます。
私たちの論文は、最先端の技術を統合することでこの分野を前進させ、自動運転車向けの効率的で信頼性の高い IDS の展開における重要な課題に対処し、新たなサイバー脅威に対する保護を強化します。

要約(オリジナル)

In the evolving landscape of autonomous vehicles, ensuring robust in-vehicle network (IVN) security is paramount. This paper introduces an advanced intrusion detection system (IDS) called KD-XVAE that uses a Variational Autoencoder (VAE)-based knowledge distillation approach to enhance both performance and efficiency. Our model significantly reduces complexity, operating with just 1669 parameters and achieving an inference time of 0.3 ms per batch, making it highly suitable for resource-constrained automotive environments. Evaluations in the HCRL Car-Hacking dataset demonstrate exceptional capabilities, attaining perfect scores (Recall, Precision, F1 Score of 100%, and FNR of 0%) under multiple attack types, including DoS, Fuzzing, Gear Spoofing, and RPM Spoofing. Comparative analysis on the CICIoV2024 dataset further underscores its superiority over traditional machine learning models, achieving perfect detection metrics. We furthermore integrate Explainable AI (XAI) techniques to ensure transparency in the model’s decisions. The VAE compresses the original feature space into a latent space, on which the distilled model is trained. SHAP(SHapley Additive exPlanations) values provide insights into the importance of each latent dimension, mapped back to original features for intuitive understanding. Our paper advances the field by integrating state-of-the-art techniques, addressing critical challenges in the deployment of efficient, trustworthy, and reliable IDSes for autonomous vehicles, ensuring enhanced protection against emerging cyber threats.

arxiv情報

著者 Muhammet Anil Yagiz,Pedram MohajerAnsari,Mert D. Pese,Polat Goktas
発行日 2024-10-11 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI はコメントを受け付けていません

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

要約

ビジョン言語モデル (VLM) の安全調整機能は、LLM バックボーンと比較して、ビジョン モジュールの統合によって低下する傾向があります。
本稿では「安全性アライメントの劣化」と名付けたこの現象を調査し、この課題が視覚モダリティを VLM に導入する際に生じる表現のギャップから生じることを示します。
特に、マルチモーダル入力の表現が、LLM バックボーンが最適化されている分布を表すテキストのみの入力の表現からシフトすることを示します。
同時に、最初はテキスト埋め込み空間内で開発された安全調整機能は、この新しいマルチモーダル表現空間にうまく移行できません。
安全性アライメントの低下を軽減するために、VLM の機能能力を同時に維持しながら、VLM の LLM バックボーンに固有の安全性アライメント能力を回復するための推論時間表現介入手法であるクロスモダリティ表現操作 (CMRM) を導入します。
経験的な結果は、私たちのフレームワークが、追加のトレーニングなしでも、事前トレーニングされた VLM の流暢さと言語能力への影響を最小限に抑えながら、LLM バックボーンから受け継いだアライメント能力を大幅に回復することを示しています。
具体的には、推論時間の介入のみで、マルチモーダル入力における LLaVA-7B の危険率を 61.53% から 3.15% まで下げることができます。
警告: この文書には、有毒または有害な言葉の例が含まれています。

要約(オリジナル)

The safety alignment ability of Vision-Language Models (VLMs) is prone to be degraded by the integration of the vision module compared to its LLM backbone. We investigate this phenomenon, dubbed as ”safety alignment degradation” in this paper, and show that the challenge arises from the representation gap that emerges when introducing vision modality to VLMs. In particular, we show that the representations of multi-modal inputs shift away from that of text-only inputs which represent the distribution that the LLM backbone is optimized for. At the same time, the safety alignment capabilities, initially developed within the textual embedding space, do not successfully transfer to this new multi-modal representation space. To reduce safety alignment degradation, we introduce Cross-Modality Representation Manipulation (CMRM), an inference time representation intervention method for recovering the safety alignment ability that is inherent in the LLM backbone of VLMs, while simultaneously preserving the functional capabilities of VLMs. The empirical results show that our framework significantly recovers the alignment ability that is inherited from the LLM backbone with minimal impact on the fluency and linguistic capabilities of pre-trained VLMs even without additional training. Specifically, the unsafe rate of LLaVA-7B on multi-modal input can be reduced from 61.53% to as low as 3.15% with only inference-time intervention. WARNING: This paper contains examples of toxic or harmful language.

arxiv情報

著者 Qin Liu,Chao Shang,Ling Liu,Nikolaos Pappas,Jie Ma,Neha Anna John,Srikanth Doss,Lluis Marquez,Miguel Ballesteros,Yassine Benajiba
発行日 2024-10-11 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models はコメントを受け付けていません

ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections

要約

パラメーター効率の良い微調整 (PEFT) は、一般化機能を維持しながら基礎モデルを下流のタスク要件に適応させるために広く普及しています。
ただし、追加で導入されるパラメータの量と、適応やハイパーパラメータの検索を成功させるために計算する量は、特に多数の個別のリクエストに対応するために大規模に展開される場合、急速に爆発的に増加する可能性があります。
効果的でパラメータ効率が高く、ハイパーパラメータに堅牢な適応を保証するために、HypErplane Reflections を介して効率的な微調整を実行する ETHER 変換ファミリーを提案します。
設計上、ETHER 変換に必要なパラメータの数は最小限であり、モデルのパフォーマンスが低下する可能性が低く、ハイパーパラメータと学習率の選択に対する堅牢性を示します。
特に、ETHER とその緩和 ETHER+ を導入します。これは、網羅的なハイパーパラメータを使用せずに、複数の画像合成および自然言語タスクにわたって大幅に少ないパラメータ (LoRA や OFT の $\sim$$10$-$100$ 倍低い) で既存の PEFT 手法と同等またはそれを上回るパフォーマンスを発揮します。
チューニング。
最後に、適応のための超球状エネルギー保持が最近重視されている点を調査し、その実用性について疑問を提起します。
コードは https://github.com/mwbini/ether で入手できます。

要約(オリジナル)

Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether.

arxiv情報

著者 Massimo Bini,Karsten Roth,Zeynep Akata,Anna Khoreva
発行日 2024-10-11 12:41:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections はコメントを受け付けていません