要約
現在、開発者は、大規模な言語モデル(LLM)を搭載したソリューションにますます依存して、コーディングタスクを支援しています。
これにより、これらのツールを人間の価値に合わせて、悪意のある誤用を防ぐことが重要になります。
この論文では、ソフトウェアエンジニアリングドメイン内のLLMの潜在的な有害性を評価するための包括的なフレームワークを提案します。
まず、潜在的に有害なソフトウェアエンジニアリングシナリオの分類法を開発し、その後、この分類法に基づいてプロンプトのデータセットを作成します。
回答を体系的に評価するために、オープンソースモデルとクローズドソースモデル、および汎用およびコード固有のLLMの両方のさまざまなLLMの出力を分類する自動評価者を設計および検証します。
さらに、モデルのサイズ、アーキテクチャファミリ、およびアラインメント戦略が有害なコンテンツを生成する傾向に対する影響を調査します。
結果は、無害性のためにさまざまなLLMの整合に大きな格差を示しています。
OpenHermesなどの一部のモデルやモデルファミリは、他のモデルよりも有害であり、コード固有のモデルは汎用の対応物よりも優れていないことがわかります。
特に、一部の微調整されたモデルは、デザインの選択により、ベースモデルよりも著しく悪化しています。
反対側では、より大きなモデルがより役に立つ傾向があり、有害な情報で応答する可能性が低いことがわかります。
これらの結果は、ソフトウェアエンジニアリングタスクのユニークな課題に合わせたターゲットを絞ったアライメント戦略の重要性を強調し、この重要な分野での将来の作業の基盤を提供します。
要約(オリジナル)
Nowadays, developers increasingly rely on solutions powered by Large Language Models (LLM) to assist them with their coding tasks. This makes it crucial to align these tools with human values to prevent malicious misuse. In this paper, we propose a comprehensive framework for assessing the potential harmfulness of LLMs within the software engineering domain. We begin by developing a taxonomy of potentially harmful software engineering scenarios and subsequently, create a dataset of prompts based on this taxonomy. To systematically assess the responses, we design and validate an automatic evaluator that classifies the outputs of a variety of LLMs both open-source and closed-source models, as well as general-purpose and code-specific LLMs. Furthermore, we investigate the impact of models size, architecture family, and alignment strategies on their tendency to generate harmful content. The results show significant disparities in the alignment of various LLMs for harmlessness. We find that some models and model families, such as Openhermes, are more harmful than others and that code-specific models do not perform better than their general-purpose counterparts. Notably, some fine-tuned models perform significantly worse than their base-models due to their design choices. On the other side, we find that larger models tend to be more helpful and are less likely to respond with harmful information. These results highlight the importance of targeted alignment strategies tailored to the unique challenges of software engineering tasks and provide a foundation for future work in this critical area.
arxiv情報
著者 | Ali Al-Kaswan,Sebastian Deatc,Begüm Koç,Arie van Deursen,Maliheh Izadi |
発行日 | 2025-04-02 16:00:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google