要約
プログラミング言語とライブラリの選択は、ソフトウェアの信頼性とセキュリティにとって重要です。
貧弱または一貫性のない選択は、安全性の高いシステムにおける技術的な負債の増加、セキュリティの脆弱性、さらには壊滅的な失敗にさえつながる可能性があります。
大規模な言語モデル(LLM)がコード生成において増加する役割を果たしているため、これらの決定をどのように行うかを理解することが不可欠です。
ただし、さまざまなコーディングタスクに対してプログラミング言語とライブラリを選択する際には、好みについてはほとんど知られていません。
このギャップを埋めるために、この研究は、コードを生成するときに使用されるプログラミング言語とライブラリのLLM設定に関する最初の詳細な調査を提供します。
広く研究されているベンチマークや、新しいプロジェクトの初期構造コードを生成するというより実用的なタスクを含むさまざまなコーディングタスクを完了するように促すことにより、8つの多様なLLMの好みを評価します(プロジェクトの言語またはライブラリの選択をしばしば決定する重要なステップ)。
私たちの調査結果は、LLMSが言語に依存しない問題を解決する際にPythonを大きく支持し、ベンチマークタスクに症例の90%〜97%で使用することを明らかにしています。
Pythonが適切な言語ではない最初のプロジェクトコードを生成する場合でも、インスタンスの58%で最もよく使用されている言語のままです。
さらに、LLMSは、プロジェクトの初期化タスクの83%で独自の言語の推奨事項と矛盾し、言語の選択における信頼性について懸念を引き起こします。
確立された図書館に対する同様のバイアスは、新しいオープンソースプロジェクトに深刻な発見可能性の課題をさらに生み出します。
これらの結果は、多様なプログラミングコンテキストに対するLLMの適応性を改善し、プログラミング言語とライブラリバイアスを緩和するためのメカニズムを開発する必要性を強調しています。
要約(オリジナル)
Programming language and library choices are crucial to software reliability and security. Poor or inconsistent choices can lead to increased technical debt, security vulnerabilities, and even catastrophic failures in safety-critical systems. As Large Language Models (LLMs) play an increasing role in code generation, it is essential to understand how they make these decisions. However, little is known about their preferences when selecting programming languages and libraries for different coding tasks. To fill this gap, this study provides the first in-depth investigation into LLM preferences for programming languages and libraries used when generating code. We assess the preferences of eight diverse LLMs by prompting them to complete various coding tasks, including widely-studied benchmarks and the more practical task of generating the initial structural code for new projects (a crucial step that often determines a project’s language or library choices). Our findings reveal that LLMs heavily favour Python when solving language-agnostic problems, using it in 90%-97% of cases for benchmark tasks. Even when generating initial project code where Python is not a suitable language, it remains the most-used language in 58% of instances. Moreover, LLMs contradict their own language recommendations in 83% of project initialisation tasks, raising concerns about their reliability in guiding language selection. Similar biases toward well-established libraries further create serious discoverability challenges for newer open-source projects. These results highlight the need to improve LLMs’ adaptability to diverse programming contexts and to develop mechanisms for mitigating programming language and library bias.
arxiv情報
著者 | Lukas Twist,Jie M. Zhang,Mark Harman,Don Syme,Joost Noppen,Detlef Nauck |
発行日 | 2025-03-21 14:29:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google