DReSD: Dense Retrieval for Speculative Decoding

要約

投機的デコード(SD)は、効率的なドラフトモデルを使用して次の数トークンを提案することにより、大規模な言語モデル(LLM)生成を加速します。これは、1回のフォワードコールでLLMによって検証され、出力を維持しながら遅延を減らします。
ドラフトモデルがノンパラメトリックデータストアから次のトークンを取得する検索ベースのSDに焦点を当てています。
ストリングの表面形式で動作するスパース検索(REST)は、そのシンプルさとスケーラビリティのために現在、支配的なパラダイムです。
ただし、短いコンテキストの使用と正確な文字列のマッチングにより、その有効性は限られています。
代わりに、SDの最も意味的に関連するトークンシーケンスを取得するためにコンテキスト化されたトークン埋め込みを使用して、近似の近隣検索を使用する新しいフレームワークである投機的デコード(DRESD)の密な検索を導入します。
大規模な実験では、DRESDが(平均して)87%の受け入れ率、65%が受け入れられたトークン、およびスパース検索(REST)と比較して19%の生成速度を19%達成することが示されています。

要約(オリジナル)

Speculative decoding (SD) accelerates Large Language Model (LLM) generation by using an efficient draft model to propose the next few tokens, which are verified by the LLM in a single forward call, reducing latency while preserving its outputs. We focus on retrieval-based SD where the draft model retrieves the next tokens from a non-parametric datastore. Sparse retrieval (REST), which operates on the surface form of strings, is currently the dominant paradigm due to its simplicity and scalability. However, its effectiveness is limited due to the usage of short contexts and exact string matching. Instead, we introduce Dense Retrieval for Speculative Decoding (DReSD), a novel framework that uses approximate nearest neighbour search with contextualised token embeddings to retrieve the most semantically relevant token sequences for SD. Extensive experiments show that DReSD achieves (on average) 87% higher acceptance rates, 65% longer accepted tokens and 19% faster generation speeds compared to sparse retrieval (REST).

arxiv情報

著者 Milan Gritta,Huiyin Xue,Gerasimos Lampouras
発行日 2025-02-21 16:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DReSD: Dense Retrieval for Speculative Decoding はコメントを受け付けていません

Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders

要約

大規模な言語モデル(LLM)は、人間のクエリの取り扱いに優れていますが、時々欠陥または予期しない応答を生成することができます。
彼らの内部状態を理解することは、彼らの成功を理解し、障害を診断し、能力を改善するために重要です。
スパース自動エンコーダー(SAE)はLLM内部表現を解釈することを約束していますが、限られた研究では、SAE機能をよりよく説明する方法、つまりSAEが学んだ機能の意味的な意味を理解する方法を探りました。
私たちの理論分析は、既存の説明方法が周波数バイアスの問題に苦しんでおり、セマンティックの概念よりも言語パターンを強調していることが明らかになり、後者はLLMの動作を操縦するにはより重要です。
これに対処するために、これらの機能の背後にある意味的な意味をより適切にキャプチャすることを目的とした、機能の解釈と相互情報ベースの目標を設計するための固定語彙セットを使用して提案します。
さらに、対応する説明に基づいて学習された機能のアクティブ化を調整する2つのランタイムステアリング戦略を提案します。
経験的結果は、ベースラインと比較して、私たちの方法はより多くの談話レベルの説明を提供し、LLMの行動を効果的に操縦して脱獄攻撃を防御することを示しています。
これらの調査結果は、ダウンストリームアプリケーションでのLLM行動を操縦するための説明の価値を強調しています。
受け入れられたら、コードとデータをリリースします。

要約(オリジナル)

Large language models (LLMs) excel at handling human queries, but they can occasionally generate flawed or unexpected responses. Understanding their internal states is crucial for understanding their successes, diagnosing their failures, and refining their capabilities. Although sparse autoencoders (SAEs) have shown promise for interpreting LLM internal representations, limited research has explored how to better explain SAE features, i.e., understanding the semantic meaning of features learned by SAE. Our theoretical analysis reveals that existing explanation methods suffer from the frequency bias issue, where they emphasize linguistic patterns over semantic concepts, while the latter is more critical to steer LLM behaviors. To address this, we propose using a fixed vocabulary set for feature interpretations and designing a mutual information-based objective, aiming to better capture the semantic meaning behind these features. We further propose two runtime steering strategies that adjust the learned feature activations based on their corresponding explanations. Empirical results show that, compared to baselines, our method provides more discourse-level explanations and effectively steers LLM behaviors to defend against jailbreak attacks. These findings highlight the value of explanations for steering LLM behaviors in downstream applications. We will release our code and data once accepted.

arxiv情報

著者 Xuansheng Wu,Jiayi Yuan,Wenlin Yao,Xiaoming Zhai,Ninghao Liu
発行日 2025-02-21 16:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders はコメントを受け付けていません

From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation

要約

世界の言語の多くは、ドメイン固有のモデルは言うまでもなく、高性能の一般的な神経機械翻訳(NMT)モデルをトレーニングするためのデータが不十分であり、多くの場合、利用可能な唯一の並列データは少量の宗教テキストです。
したがって、ドメイン適応(DA)は、現代のNMTが直面する重要な問題であり、これまでのところ、低リソース言語では不足しています。
この論文では、現実的な設定で低リソースNMTとDAの両方からの一連の方法を評価します。この設定では、高度なリソースと低リソースの言語のみをアクセスすることを目指しています。a)並列聖書データ
、b)バイリンガル辞書、およびc)高リソース言語の単一言語ターゲットドメインコーパス。
私たちの結果は、テストされた方法の有効性が異なることを示しており、最も単純な方法であるDALIが最も効果的であることを示しています。
私たちは、DALIの小さな人間の評価でフォローアップします。これは、低リソースNMTのDAを達成する方法をより慎重に調査する必要があることを示しています。

要約(オリジナル)

Many of the world’s languages have insufficient data to train high-performing general neural machine translation (NMT) models, let alone domain-specific models, and often the only available parallel data are small amounts of religious texts. Hence, domain adaptation (DA) is a crucial issue faced by contemporary NMT and has, so far, been underexplored for low-resource languages. In this paper, we evaluate a set of methods from both low-resource NMT and DA in a realistic setting, in which we aim to translate between a high-resource and a low-resource language with access to only: a) parallel Bible data, b) a bilingual dictionary, and c) a monolingual target-domain corpus in the high-resource language. Our results show that the effectiveness of the tested methods varies, with the simplest one, DALI, being most effective. We follow up with a small human evaluation of DALI, which shows that there is still a need for more careful investigation of how to accomplish DA for low-resource NMT.

arxiv情報

著者 Ali Marashian,Enora Rice,Luke Gessler,Alexis Palmer,Katharina von der Wense
発行日 2025-02-21 16:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation はコメントを受け付けていません

Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring

要約

大規模な言語モデル(LLM)は、構築された応答評価のために自動スコアリングを実行する際に強い可能性を示しています。
人間によって格付けされた構築された応答は通常、特定のグレーディングルーブリックに基づいていますが、LLMSの割り当てスコアはほとんど不明のままです。
また、AIのスコアリングプロセスが人間のスコアリングプロセスをどのように反映しているか、または同じグレーディング基準に固執するかどうかは不明です。
このギャップに対処するために、このペーパーでは、LLMが科学タスクに対する学生の書面による応答と人間のスコアとの整合性を獲得するために使用したグレーディングルーブリックを明らかにします。
また、アライメントを強化することでスコアリングの精度を向上させることができるかどうかを調べます。
具体的には、LLMSに、スコアを割り当て、人間のグレーディングルーブリックとのアライメントギャップを研究するために使用する分析的ルーブリックを生成するように促します。
LLM設定のさまざまな構成を使用した一連の実験に基づいて、ヒトとLLMグレーダーの間の顕著なアライメントギャップが明らかになります。
LLMはスコアリングタスクに迅速に適応できますが、多くの場合、ショートカットに頼り、人間のグレーディングで予想されるより深い論理的推論をバイパスします。
人間のグレーディングロジックを反映するように設計された高品質の分析ルーブリックを組み込むと、このギャップが軽減され、LLMSのスコアリング精度が向上することがわかりました。
これらの結果は、科学教育にLLMを適用する際の微妙なアプローチの必要性を強調し、効率的かつ正確な自動スコアリングを確保するためにLLM出力を人間の期待に合わせることの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong potential in performing automatic scoring for constructed response assessments. While constructed responses graded by humans are usually based on given grading rubrics, the methods by which LLMs assign scores remain largely unclear. It is also uncertain how closely AI’s scoring process mirrors that of humans or if it adheres to the same grading criteria. To address this gap, this paper uncovers the grading rubrics that LLMs used to score students’ written responses to science tasks and their alignment with human scores. We also examine whether enhancing the alignments can improve scoring accuracy. Specifically, we prompt LLMs to generate analytic rubrics that they use to assign scores and study the alignment gap with human grading rubrics. Based on a series of experiments with various configurations of LLM settings, we reveal a notable alignment gap between human and LLM graders. While LLMs can adapt quickly to scoring tasks, they often resort to shortcuts, bypassing deeper logical reasoning expected in human grading. We found that incorporating high-quality analytical rubrics designed to reflect human grading logic can mitigate this gap and enhance LLMs’ scoring accuracy. These results underscore the need for a nuanced approach when applying LLMs in science education and highlight the importance of aligning LLM outputs with human expectations to ensure efficient and accurate automatic scoring.

arxiv情報

著者 Xuansheng Wu,Padmaja Pravin Saraf,Gyeonggeon Lee,Ehsan Latif,Ninghao Liu,Xiaoming Zhai
発行日 2025-02-21 16:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring はコメントを受け付けていません

Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid

要約

人工知能の急速な進歩により、質問回答(Q&A)システムは、インテリジェント検索エンジン、仮想アシスタント、および顧客サービスプラットフォームで不可欠になりました。
ただし、スマートグリッドなどの動的なドメインでは、従来の検索された生成(RAG)Q&Aシステムは、大規模でリアルタイムのデータストリームの処理における不十分な検索品質、無関係な応答、非効率性などの課題に直面しています。
このペーパーでは、スマートグリッド環境向けに合わせたチャットグリッドと呼ばれる最適化された反復的な検索ベースのQ&Aフレームワークを提案します。
レトリエバル以前のフェーズでは、Chats-Grid Advanced Query拡張により、センサーの測定値、メーターレコード、制御システムパラメーターなど、多様なデータソースの包括的なカバレッジが保証されます。
検索中に、25(BM25)スパース検索とBAAIの一般的な埋め込み(BGE)の密な検索を組み合わせて、広大で不均一なデータセットを効果的に処理します。
微調整された大規模な言語モデルであるretrieval後の大規模な言語モデルは、迅速なエンジニアリングを使用して、関連性を評価し、無関係な結果をフィルタリングし、文脈の精度に基づいてドキュメントを再注文します。
このモデルはさらに、コンテキストを意識した正確な回答を生成し、品質基準を順守し、信頼性を高めるための自己チェックメカニズムを採用します。
実験結果は、忠実度、コンテキストリコール、関連性、精度における最先端の方法に対するチャットグリッドの優位性をそれぞれ2.37%、2.19%、3.58%に示しています。
このフレームワークは、意思決定とユーザーの対話を改善し、回復力のある適応性のあるスマートグリッドインフラストラクチャを促進することにより、スマートグリッド管理を進めます。

要約(オリジナル)

With rapid advancements in artificial intelligence, question-answering (Q&A) systems have become essential in intelligent search engines, virtual assistants, and customer service platforms. However, in dynamic domains like smart grids, conventional retrieval-augmented generation(RAG) Q&A systems face challenges such as inadequate retrieval quality, irrelevant responses, and inefficiencies in handling large-scale, real-time data streams. This paper proposes an optimized iterative retrieval-based Q&A framework called Chats-Grid tailored for smart grid environments. In the pre-retrieval phase, Chats-Grid advanced query expansion ensures comprehensive coverage of diverse data sources, including sensor readings, meter records, and control system parameters. During retrieval, Best Matching 25(BM25) sparse retrieval and BAAI General Embedding(BGE) dense retrieval in Chats-Grid are combined to process vast, heterogeneous datasets effectively. Post-retrieval, a fine-tuned large language model uses prompt engineering to assess relevance, filter irrelevant results, and reorder documents based on contextual accuracy. The model further generates precise, context-aware answers, adhering to quality criteria and employing a self-checking mechanism for enhanced reliability. Experimental results demonstrate Chats-Grid’s superiority over state-of-the-art methods in fidelity, contextual recall, relevance, and accuracy by 2.37%, 2.19%, and 3.58% respectively. This framework advances smart grid management by improving decision-making and user interactions, fostering resilient and adaptive smart grid infrastructures.

arxiv情報

著者 Yunfeng Li,Jiqun Zhang,Guofu Liao,Xue Shi,Junhong Liu
発行日 2025-02-21 16:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid はコメントを受け付けていません

Everyday Speech in the Indian Subcontinent

要約

インドには1369の言語があり、そのうち22は公式です。
これらの言語を表すために、約13の異なるスクリプトが使用されます。
共通のラベルセット(CLS)は、多言語合成のためにエンドツーエンド(E2E)フレームワークで必要なユニットの大きな語彙の問題に対処するために、音声学に基づいて開発されました。
インド語のテキストは最初にCLSに変換されます。
このアプローチにより、特定のネイティブスピーカーの声で13のインド言語と英語にわたってシームレスなコードを切り替えることができます。これは、人口が多言語であるインド亜大陸での日常のスピーチに対応しています。

要約(オリジナル)

India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End-to-End (E2E) framework for multilingual synthesis. The Indian language text is first converted to CLS. This approach enables seamless code switching across 13 Indian languages and English in a given native speaker’s voice, which corresponds to everyday speech in the Indian subcontinent, where the population is multilingual.

arxiv情報

著者 Utkarsh P
発行日 2025-02-21 17:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | Everyday Speech in the Indian Subcontinent はコメントを受け付けていません

SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention

要約

大規模な言語モデル(LLMS)の広範な実世界の展開により、安全基準に準拠する行動が重要になるようにします。
脱獄攻撃は、LLMSの脆弱性を活用して望ましくない行動を誘発し、LLMの安全性に大きな脅威をもたらします。
以前の防御は、多くの場合、有効性と効率の両方を同時に達成できません。
表現の観点からの防御は新しい洞察を提供しますが、既存の介入は、クエリの有害性に基づいて表現を動的に調整することはできません。
この制限に対処するために、有効性と効率の両方を確保するために、安全性の認識表現介入を通じて脱獄攻撃からLLMを保護する新しい防御方法であるSafe Intervention(SafeInt)を提案します。
SafeIntは、脱獄サンプルの表現の分析に基づいて構築されています。
介入を通じて脱獄サンプルの表現分布を調整して、脱獄様式の表現に対する不必要な摂動を最小限に抑えながら、安全でないサンプルの表現に合わせます。
6つの脱獄攻撃、2つのジェイルブレイクデータセット、2つのユーティリティベンチマークをカバーする包括的な実験を実施します。
実験結果は、SafeIntが主に有用性を維持しながら、脱獄攻撃に対してLLMを防御する際のすべてのベースラインを上回ることを示しています。
さらに、適応攻撃に対してSafeIntを評価し、リアルタイム攻撃の緩和におけるその有効性を検証します。

要約(オリジナル)

With the widespread real-world deployment of large language models (LLMs), ensuring their behavior complies with safety standards has become crucial. Jailbreak attacks exploit vulnerabilities in LLMs to induce undesirable behavior, posing a significant threat to LLM safety. Previous defenses often fail to achieve both effectiveness and efficiency simultaneously. Defenses from a representation perspective offer new insights, but existing interventions cannot dynamically adjust representations based on the harmfulness of the queries. To address this limitation while ensuring both effectiveness and efficiency, we propose SafeIntervention (SafeInt), a novel defense method that shields LLMs from jailbreak attacks through safety-aware representation intervention. SafeInt is built on our analysis of the representations of jailbreak samples. It adjusts representation distributions of jailbreak samples through intervention to align them with the representations of unsafe samples while minimizing unnecessary perturbations to jailbreak-irrelevant representations. We conduct comprehensive experiments covering six jailbreak attacks, two jailbreak datasets, and two utility benchmarks. Experimental results demonstrate that SafeInt outperforms all baselines in defending LLMs against jailbreak attacks while largely maintaining utility. Additionally, we evaluate SafeInt against adaptive attacks and verify its effectiveness in mitigating real-time attacks.

arxiv情報

著者 Jiaqi Wu,Chen Chen,Chunyan Hou,Xiaojie Yuan
発行日 2025-02-21 17:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention はコメントを受け付けていません

Robust Bias Detection in MLMs and its Application to Human Trait Ratings

要約

MLMの人口統計属性に対するバイアスを研究するために、テンプレートを使用した重要な事前の作業がありました。
ただし、これらには制限があります。テンプレートのランダムな変動性を見落とし、分析されたターゲットの概念を見落とし、テンプレート間の平等を想定し、バイアスの定量化を見落としています。
これらに対処すると、MLMのバイアスを評価するための体系的な統計的アプローチを提案し、混合モデルを使用してランダム効果を説明し、テンプレートから派生した文の疑似複雑さの重みを説明し、統計効果サイズを使用してバイアスを定量化します。
以前の研究を複製すると、小規模から中程度の効果サイズで、大きさと方向のバイアススコアを一致させます。
次に、$ \ textit {personality} $および$ \ textit {character} $の特性のコンテキストで、ジェンダーバイアスの斬新な問題を調査します。
MLMSは異なることがわかります。
アルバートはバイナリの性別では偏見がありませんが、非バイナリ$ \ textit {neo} $で最も偏っていますが、ロベルタ・ラージはバイナリの性別で最も偏っていますが、$ \ textit {neo} $の小さい〜バイアスを示しています。
MLMバイアスと心理学の発見(人間の視点)のいくつかの整合性があります-Roberta-largeと$ \ textit {asmeableness} $には、$ \ textit {感情的安定性} $がBert-largeを使用しています。
残りの3つの性格の次元には一般的な一致があります。双方は性別全体でほとんどの小さな違いを観察します。
キャラクター特性の場合、性別バイアスに関する人間の研究は限られているため、比較は実行不可能です。

要約(オリジナル)

There has been significant prior work using templates to study bias against demographic attributes in MLMs. However, these have limitations: they overlook random variability of templates and target concepts analyzed, assume equality amongst templates, and overlook bias quantification. Addressing these, we propose a systematic statistical approach to assess bias in MLMs, using mixed models to account for random effects, pseudo-perplexity weights for sentences derived from templates and quantify bias using statistical effect sizes. Replicating prior studies, we match on bias scores in magnitude and direction with small to medium effect sizes. Next, we explore the novel problem of gender bias in the context of $\textit{personality}$ and $\textit{character}$ traits, across seven MLMs (base and large). We find that MLMs vary; ALBERT is unbiased for binary gender but the most biased for non-binary $\textit{neo}$, while RoBERTa-large is the most biased for binary gender but shows small to no bias for $\textit{neo}$. There is some alignment of MLM bias and findings in psychology (human perspective) – in $\textit{agreeableness}$ with RoBERTa-large and $\textit{emotional stability}$ with BERT-large. There is general agreement for the remaining 3 personality dimensions: both sides observe at most small differences across gender. For character traits, human studies on gender bias are limited thus comparisons are not feasible.

arxiv情報

著者 Ingroj Shrestha,Louis Tay,Padmini Srinivasan
発行日 2025-02-21 17:18:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Robust Bias Detection in MLMs and its Application to Human Trait Ratings はコメントを受け付けていません

LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

要約

MAMBAなどの状態空間モデル(SSM)は、長いコンテキストシーケンスモデリングのためのトランスの効率的な代替品として浮上しています。
しかし、採用の拡大にもかかわらず、SSMには、注意ベースのアーキテクチャを理解し改善するために重要な解釈可能性ツールがありません。
最近の取り組みは、Mambaの内部メカニズムに関する洞察を提供しますが、トークンごとの貢献を明示的に分解することはなく、Mambaがレイヤー全体でシーケンスを選択的に処理する方法を理解するギャップを残します。
この作業では、MAMBA-1とMAMBA-2の両方の新しいトークンレベルの分解方法であるLATIMを紹介し、細粒の解釈可能性を可能にします。
機械の翻訳、コピー、検索ベースの世代など、多様なタスク全体で方法を広範囲に評価し、マンバのトークン間相互作用パターンを明らかにする際のその有効性を示しています。

要約(オリジナル)

State space models (SSMs), such as Mamba, have emerged as an efficient alternative to transformers for long-context sequence modeling. However, despite their growing adoption, SSMs lack the interpretability tools that have been crucial for understanding and improving attention-based architectures. While recent efforts provide insights into Mamba’s internal mechanisms, they do not explicitly decompose token-wise contributions, leaving gaps in understanding how Mamba selectively processes sequences across layers. In this work, we introduce LaTIM, a novel token-level decomposition method for both Mamba-1 and Mamba-2 that enables fine-grained interpretability. We extensively evaluate our method across diverse tasks, including machine translation, copying, and retrieval-based generation, demonstrating its effectiveness in revealing Mamba’s token-to-token interaction patterns.

arxiv情報

著者 Hugo Pitorro,Marcos Treviso
発行日 2025-02-21 17:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models はコメントを受け付けていません

ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms

要約

ユニットテストの生成は、LLMSの有望で重要なユースケースになっています。
ただし、LLMユニットテスト生成機能を評価するための既存の評価ベンチマークは、より実用的で挑戦的なプロジェクトレベルのコードベースではなく、機能またはクラスレベルのコードに焦点を当てています。
このような制限に対処するために、Python、Java、およびJavaScriptをカバーする単体テスト生成のプロジェクトレベルのベンチマークであるProjectTestを提案します。
ProjectTestは、言語ごとに20の中程度の高品質のプロジェクトを備えています。
ProjectTestで9つのフロンティアLLMを評価し、結果は、PicthonとJavaのProjecttestで中程度のパフォーマンスを示し、ProjectTestの難易度を強調していることを示しています。
また、徹底的なエラー分析も実施します。これは、Claude-3.5-SonnetなどのフロンティアLLMでさえ、コンピレーションやカスケードエラーを含む重要な基本的でありながら重大なエラーがあることを示しています。
この観察に動機付けられて、エラー固定メカニズムを装備した場合の可能性を評価するために、手動のエラー固定シナリオと自己誤差固定シナリオの下ですべてのフロンティアLLMをさらに評価します。
コードとデータセットは、\ href {https://github.com/yibowang214/projecttest} {projecttest}で入手できます。

要約(オリジナル)

Unit test generation has become a promising and important use case of LLMs. However, existing evaluation benchmarks for assessing LLM unit test generation capabilities focus on function- or class-level code rather than more practical and challenging project-level codebases. To address such limitation, we propose ProjectTest, a project-level benchmark for unit test generation covering Python, Java, and JavaScript. ProjectTest features 20 moderate-sized and high-quality projects per language. We evaluate nine frontier LLMs on ProjectTest and the results show that all frontier LLMs tested exhibit moderate performance on ProjectTest on Python and Java, highlighting the difficulty of ProjectTest. We also conduct a thorough error analysis, which shows that even frontier LLMs, such as Claude-3.5-Sonnet, have significant basic yet critical errors, including compilation and cascade errors. Motivated by this observation, we further evaluate all frontier LLMs under manual error-fixing and self-error-fixing scenarios to assess their potential when equipped with error-fixing mechanisms. Our code and dataset is available at \href{https://github.com/YiboWANG214/ProjectTest}{ProjectTest}.

arxiv情報

著者 Yibo Wang,Congying Xia,Wenting Zhao,Jiangshu Du,Chunyu Miao,Zhongfen Deng,Philip S. Yu,Chen Xing
発行日 2025-02-21 17:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms はコメントを受け付けていません