A Bayesian Optimization Approach to Machine Translation Reranking

要約

外部スコアリングモデルを備えた機械翻訳システムの候補者のリストを再表示し、最高スコアの候補者を返すことは、全体的な出力品質を改善するためのシンプルで効果的な方法です。
翻訳スコアリングモデルはサイズが大きくなり続けており、最高のモデルは生成モデルに匹敵します。
したがって、翻訳パイプラインに相当な計算コストを追加することができます。
この作業では、レランクをベイジアン最適化(ベイソップ)の問題として提起します。
候補者を戦略的に選択して、探索と搾取のバランスに基づいて得点することにより、候補リストのほんの一部のみを採点する際に、トップスコアリングの候補者を見つけることが可能であることを示します。
たとえば、私たちの方法は、180を使用してベースラインシステムを比較した70のスコアリング評価を使用して同じCometkiwiスコアを達成します。Bayesoptの多忠実度設定を提示します。候補者は、より安価でノイジアなプロキシスコアリングモデルで最初にスコアを付けます。

要約(オリジナル)

Reranking a list of candidates from a machine translation system with an external scoring model and returning the highest-scoring candidate remains a simple and effective method for improving the overall output quality. Translation scoring models continue to grow in size, with the best models being comparable to generation models. Thus, reranking can add substantial computational cost to the translation pipeline. In this work, we pose reranking as a Bayesian optimization (BayesOpt) problem. By strategically selecting candidates to score based on a balance of exploration and exploitation, we show that it is possible to find top-scoring candidates when scoring only a fraction of the candidate list. For instance, our method achieves the same CometKiwi score using only 70 scoring evaluations compared a baseline system using 180. We present a multi-fidelity setting for BayesOpt, where the candidates are first scored with a cheaper but noisier proxy scoring model, which further improves the cost-performance tradeoff when using smaller but well-trained distilled proxy scorers.

arxiv情報

著者 Julius Cheng,Maike Züfle,Vilém Zouhar,Andreas Vlachos
発行日 2025-04-29 15:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Bayesian Optimization Approach to Machine Translation Reranking はコメントを受け付けていません

HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?

要約

高解像度の画像(HRI)理解は、病理学的画像や農業航空画像など、多数のピクセルで画像を処理することを目的としています。どちらも100万ピクセルを超える可能性があります。
Vision Large Language Models(VLMS)はHRIを処理できると言われていますが、HRIの理解を評価するための包括的なベンチマークが不足しています。
このギャップに対処するために、豊富なシーンを使用したHRI理解のための新しい統一ベンチマークであるHrsceneを紹介します。
HRSceneには、1,024 $ \ Times $ 1,024から35,503 $ \ Times $ 26,627の範囲の解像度を備えた25の実世界のデータセットと2つの合成診断データセットが組み込まれています。
HRSCEENは、顕微鏡画像から放射線画像、ストリートビュー、長距離写真、望遠鏡画像に至るまで、25のシナリオをカバーする10の大学院レベルのアノテーターによって収集され、再現されます。
実世界のオブジェクトのHRI、スキャンされたドキュメント、複合マルチイメージが含まれます。
2つの診断評価データセットは、ターゲット画像とゴールドの回答とさまざまな注文の気を散らす画像を組み合わせることで合成され、HRIの領域をどの程度うまく利用するかを評価します。
Gemini 2.0 FlashやGPT-4Oを含む28のVLMを含む広範な実験を実施しています。
HRSceneの実験は、現在のVLMが実際のタスクで平均精度が約50%を達成し、HRIの理解に大きなギャップが明らかになることを示しています。
合成データセットの結果は、VLMSがHRI領域を効果的に利用するのに苦労していることを明らかにしており、将来の研究に光を当てて、地域の多様性と中に紛失したことを示しています。

要約(オリジナル)

High-resolution image (HRI) understanding aims to process images with a large number of pixels, such as pathological images and agricultural aerial images, both of which can exceed 1 million pixels. Vision Large Language Models (VLMs) can allegedly handle HRIs, however, there is a lack of a comprehensive benchmark for VLMs to evaluate HRI understanding. To address this gap, we introduce HRScene, a novel unified benchmark for HRI understanding with rich scenes. HRScene incorporates 25 real-world datasets and 2 synthetic diagnostic datasets with resolutions ranging from 1,024 $\times$ 1,024 to 35,503 $\times$ 26,627. HRScene is collected and re-annotated by 10 graduate-level annotators, covering 25 scenarios, ranging from microscopic to radiology images, street views, long-range pictures, and telescope images. It includes HRIs of real-world objects, scanned documents, and composite multi-image. The two diagnostic evaluation datasets are synthesized by combining the target image with the gold answer and distracting images in different orders, assessing how well models utilize regions in HRI. We conduct extensive experiments involving 28 VLMs, including Gemini 2.0 Flash and GPT-4o. Experiments on HRScene show that current VLMs achieve an average accuracy of around 50% on real-world tasks, revealing significant gaps in HRI understanding. Results on synthetic datasets reveal that VLMs struggle to effectively utilize HRI regions, showing significant Regional Divergence and lost-in-middle, shedding light on future research.

arxiv情報

著者 Yusen Zhang,Wenliang Zheng,Aashrith Madasu,Peng Shi,Ryo Kamoi,Hao Zhou,Zhuoyang Zou,Shu Zhao,Sarkar Snigdha Sarathi Das,Vipul Gupta,Xiaoxin Lu,Nan Zhang,Ranran Haoran Zhang,Avitej Iyer,Renze Lou,Wenpeng Yin,Rui Zhang
発行日 2025-04-29 16:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? はコメントを受け付けていません

Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition

要約

私たちは、オリジナルのマルチヘッドセルフ注意(MHSA)を個別に理解できるコンポーネントに解くためのトランスの注意層のまばらな交換モデルである低ランクのまばらな注意(LORSA)を提案します。
Lorsaは、さまざまなトークン位置の特徴間の注意を介した相互作用を理解するために、注意の重ね合わせの課題に対処するように設計されています。
Lorsa Headは、誘導ヘッド、後継者、および注意シンクの行動など、以前に発見されたMHSA行動のクリーナーで細かいバージョンを見つけることを示しています(すなわち、最初のトークンに非常に参加しています)。
LorsaとSparse Autoencoder(SAE)は、どちらも異なる変圧器成分に適用されるスパース辞書学習方法であり、多くの点で一貫した調査結果につながります。
たとえば、それぞれがllama-3.1-8bの原子操作に対応する算術固有のロールサヘッドの包括的なファミリーを発見します。
自動化された解釈可能性分析は、LORSAが解釈可能性のSAEとの平等を達成し、LORSAは特に複数のMHSAヘッドによって集合的に計算された機能について、優れた回路発見特性を示すことを示しています。
また、建築設計アブレーション、ロールサのスケーリング法、エラー分析に関する広範な実験も実施しています。

要約(オリジナル)

We propose Low-Rank Sparse Attention (Lorsa), a sparse replacement model of Transformer attention layers to disentangle original Multi Head Self Attention (MHSA) into individually comprehensible components. Lorsa is designed to address the challenge of attention superposition to understand attention-mediated interaction between features in different token positions. We show that Lorsa heads find cleaner and finer-grained versions of previously discovered MHSA behaviors like induction heads, successor heads and attention sink behavior (i.e., heavily attending to the first token). Lorsa and Sparse Autoencoder (SAE) are both sparse dictionary learning methods applied to different Transformer components, and lead to consistent findings in many ways. For instance, we discover a comprehensive family of arithmetic-specific Lorsa heads, each corresponding to an atomic operation in Llama-3.1-8B. Automated interpretability analysis indicates that Lorsa achieves parity with SAE in interpretability while Lorsa exhibits superior circuit discovery properties, especially for features computed collectively by multiple MHSA heads. We also conduct extensive experiments on architectural design ablation, Lorsa scaling law and error analysis.

arxiv情報

著者 Zhengfu He,Junxuan Wang,Rui Lin,Xuyang Ge,Wentao Shu,Qiong Tang,Junping Zhang,Xipeng Qiu
発行日 2025-04-29 17:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition はコメントを受け付けていません

An LLM-Powered Agent for Physiological Data Analysis: A Case Study on PPG-based Heart Rate Estimation

要約

大規模な言語モデル(LLM)は、診断、患者ケア、およびインタラクティブなコミュニケーションを通じて意思決定サポートを改善することにより、ヘルスケアに革命をもたらしています。
最近では、健康洞察抽出のためのウェアラブルデータなどの生理学的時系列の分析に適用されています。
既存の方法は、生の数値シーケンスを直接プロンプトに埋め込み、トークンの制限を超えて計算コストを増加させます。
さらに、一部の研究では、テキストプロンプトまたは適用されたマルチモーダルアプローチで時系列から抽出された機能を統合しました。
ただし、これらの方法は、LLMSの制限された分析的厳密さと連続波形の解釈における非効率性により、一般的で信頼できない出力を生成することがよくあります。
この論文では、LLMを確立された分析ツールと統合することのギャップを埋めることを目的とした生理学的時系列分析のためのLLM駆動剤エージェントを開発します。
オープンソースのLLM駆動型フレームワークであるOpenChaに基づいて構築されたOpenAIのGPT-3.5ターボモデルを搭載したエージェントは、ユーザーのインタラクション、データソース、分析ツールを統合して正確な健康洞察を生成するオーケストレーターを備えています。
その有効性を評価するために、リモートヘルスモニタリング研究でPPGと心電図(ECG)記録のデータセットを使用して、フォトトップメモグラム(PPG)信号からの心拍数(HR)推定に関するケーススタディを実装します。
エージェントのパフォーマンスは、OpenAI GPT-4O-MINIおよびGPT-4Oに対してベンチマークされており、ECGはHR推定のゴールドスタンダードとして機能します。
結果は、エージェントが低いエラー率とより信頼性の高いHR推定を達成することにより、ベンチマークモデルを大幅に上回ることを示しています。
エージェントの実装は、GitHubで公開されています。

要約(オリジナル)

Large language models (LLMs) are revolutionizing healthcare by improving diagnosis, patient care, and decision support through interactive communication. More recently, they have been applied to analyzing physiological time-series like wearable data for health insight extraction. Existing methods embed raw numerical sequences directly into prompts, which exceeds token limits and increases computational costs. Additionally, some studies integrated features extracted from time-series in textual prompts or applied multimodal approaches. However, these methods often produce generic and unreliable outputs due to LLMs’ limited analytical rigor and inefficiency in interpreting continuous waveforms. In this paper, we develop an LLM-powered agent for physiological time-series analysis aimed to bridge the gap in integrating LLMs with well-established analytical tools. Built on the OpenCHA, an open-source LLM-powered framework, our agent powered by OpenAI’s GPT-3.5-turbo model features an orchestrator that integrates user interaction, data sources, and analytical tools to generate accurate health insights. To evaluate its effectiveness, we implement a case study on heart rate (HR) estimation from Photoplethysmogram (PPG) signals using a dataset of PPG and Electrocardiogram (ECG) recordings in a remote health monitoring study. The agent’s performance is benchmarked against OpenAI GPT-4o-mini and GPT-4o, with ECG serving as the gold standard for HR estimation. Results demonstrate that our agent significantly outperforms benchmark models by achieving lower error rates and more reliable HR estimations. The agent implementation is publicly available on GitHub.

arxiv情報

著者 Mohammad Feli,Iman Azimi,Pasi Liljeberg,Amir M. Rahmani
発行日 2025-04-29 17:14:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An LLM-Powered Agent for Physiological Data Analysis: A Case Study on PPG-based Heart Rate Estimation はコメントを受け付けていません

Inaccuracy of an E-Dictionary and Its Influence on Chinese Language Users

要約

電子辞書は、主に紙の辞書に取って代わり、語彙を拡大しようとするL2学習者の中心的なツールになりました。
多くの場合、ユーザーはこれらのリソースが信頼できると仮定し、提供された定義の有効性に疑問を抱くことはめったにありません。
主要な電子辞書の精度はめったに精査されておらず、彼らのコーパスの構築方法にはほとんど注意が払われていません。
辞書の使用、特に電子辞書の制限に関する研究は依然として不足しています。
この研究では、実験、ユーザー調査、辞書批評の組み合わせ方法を採用して、中国で最も広く使用されている電子監督の1つであるYoudaoを調べます。
この実験には、遡及的反射と組み合わせた翻訳タスクが含まれていました。
参加者は、Youdaoで不十分または不正確に定義されている単語を含む文を翻訳するように求められました。
彼らの相談行動は、誤った定義が理解の影響にどのように影響したかを分析するために記録されました。
結果は、不完全または誤解を招く定義が深刻な誤解を引き起こす可能性があることを示しています。
さらに、学生は問題のある相談習慣を示しました。
この研究では、このような欠陥のある定義がどのように発生するかをさらに調査し、データ処理の問題と辞書構造におけるAIおよび機械学習技術の統合を強調しています。
この調査結果は、ユーザー向けの辞書リテラシーのより良いトレーニングの必要性と、電子辞書の構築に使用される基礎となるAIモデルの改善が必要であることを示唆しています。

要約(オリジナル)

Electronic dictionaries have largely replaced paper dictionaries and become central tools for L2 learners seeking to expand their vocabulary. Users often assume these resources are reliable and rarely question the validity of the definitions provided. The accuracy of major E-dictionaries is seldom scrutinized, and little attention has been paid to how their corpora are constructed. Research on dictionary use, particularly the limitations of electronic dictionaries, remains scarce. This study adopts a combined method of experimentation, user survey, and dictionary critique to examine Youdao, one of the most widely used E-dictionaries in China. The experiment involved a translation task paired with retrospective reflection. Participants were asked to translate sentences containing words that are insufficiently or inaccurately defined in Youdao. Their consultation behavior was recorded to analyze how faulty definitions influenced comprehension. Results show that incomplete or misleading definitions can cause serious misunderstandings. Additionally, students exhibited problematic consultation habits. The study further explores how such flawed definitions originate, highlighting issues in data processing and the integration of AI and machine learning technologies in dictionary construction. The findings suggest a need for better training in dictionary literacy for users, as well as improvements in the underlying AI models used to build E-dictionaries.

arxiv情報

著者 Xi Wang,Fanfei Meng,Shiyang Zhang,Lan Li
発行日 2025-04-29 17:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, H.5.2 | Inaccuracy of an E-Dictionary and Its Influence on Chinese Language Users はコメントを受け付けていません

Information Gravity: A Field-Theoretic Model for Token Selection in Large Language Models

要約

「情報重力」と呼ばれる理論モデルを提案して、大規模な言語モデル(LLM)のテキスト生成プロセスを記述します。
このモデルは、フィールド理論と時空ジオメトリの物理装置を使用して、ユーザークエリと生成されたトークンの確率分布との相互作用を形式化します。
クエリは、モデルのセマンティック空間を曲げる「情報質量」を持つオブジェクトと見なされ、生成中にトークンを「引き付ける」重力潜在井戸を作成します。
このモデルは、幻覚(低密度セマンティックボイドから出現する)、クエリ定式化に対する感度(セマンティックフィールドの曲率変化による)、および出力の多様性に対するサンプリング温度の影響など、LLMの挙動におけるいくつかの観察された現象を説明するメカニズムを提供します。

要約(オリジナル)

We propose a theoretical model called ‘information gravity’ to describe the text generation process in large language models (LLMs). The model uses physical apparatus from field theory and spacetime geometry to formalize the interaction between user queries and the probability distribution of generated tokens. A query is viewed as an object with ‘information mass’ that curves the semantic space of the model, creating gravitational potential wells that ‘attract’ tokens during generation. This model offers a mechanism to explain several observed phenomena in LLM behavior, including hallucinations (emerging from low-density semantic voids), sensitivity to query formulation (due to semantic field curvature changes), and the influence of sampling temperature on output diversity.

arxiv情報

著者 Maryna Vyshnyvetska
発行日 2025-04-29 17:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Information Gravity: A Field-Theoretic Model for Token Selection in Large Language Models はコメントを受け付けていません

SetKE: Knowledge Editing for Knowledge Elements Overlap

要約

大規模な言語モデル(LLMS)は、検索や質問への回答などのタスクに優れていますが、新しい知識を組み込み、不正確さや幻覚を減らすために更新が必要です。
微調整や漸進的な学習などの従来の更新方法は、過剰適合や高い計算コストなどの課題に直面しています。
知識編集(KE)は有望な代替手段を提供しますが、多くの場合、知識要素のオーバーラップ(KEO)現象を見落とします。複数のトリプレットが共通の要素を共有し、編集競合につながります。
既存のKEデータセットにおけるKEOの有病率を特定し、現在のKEメソッドに大きな影響を与え、そのようなトリプレットの取り扱いにパフォーマンスの劣化を引き起こします。
これに対処するために、新しい定式化、知識セット編集(KSE)を提案し、Tripletsのセットを同時に編集する方法であるSetkeを紹介します。
実験結果は、Setkeが主流のLLMのKEOシナリオで既存の方法を上回ることを示しています。
さらに、Keoトリプレットを含むデータセットであるEditsetを紹介し、包括的なベンチマークを提供します。

要約(オリジナル)

Large Language Models (LLMs) excel in tasks such as retrieval and question answering but require updates to incorporate new knowledge and reduce inaccuracies and hallucinations. Traditional updating methods, like fine-tuning and incremental learning, face challenges such as overfitting and high computational costs. Knowledge Editing (KE) provides a promising alternative but often overlooks the Knowledge Element Overlap (KEO) phenomenon, where multiple triplets share common elements, leading to editing conflicts. We identify the prevalence of KEO in existing KE datasets and show its significant impact on current KE methods, causing performance degradation in handling such triplets. To address this, we propose a new formulation, Knowledge Set Editing (KSE), and introduce SetKE, a method that edits sets of triplets simultaneously. Experimental results demonstrate that SetKE outperforms existing methods in KEO scenarios on mainstream LLMs. Additionally, we introduce EditSet, a dataset containing KEO triplets, providing a comprehensive benchmark.

arxiv情報

著者 Yifan Wei,Xiaoyan Yu,Ran Song,Hao Peng,Angsheng Li
発行日 2025-04-29 17:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SetKE: Knowledge Editing for Knowledge Elements Overlap はコメントを受け付けていません

Approximate Lifted Model Construction

要約

パラメトリックファクターグラフなどの確率的リレーショナルモデルは、オブジェクトの区別可能性を悪用することにより、効率的(持ち上げられた)推論を可能にします。
持ち上げられた推論では、区別できないオブジェクトの代表が計算に使用されます。
リレーショナル(つまり、持ち上げられた)表現を取得するために、高度な色の通過(ACP)アルゴリズムが最先端です。
ただし、ACPアルゴリズムでは、潜在的なベースの因子としてエンコードされた根本的な分布が必要であり、不動の区別機能を識別および悪用するために正確に一致します。
したがって、ACPは、関連するオブジェクトが区別できない場合でも、データから学習する可能性が必然的に逸脱する実用的なアプリケーションには適さない。
この問題を軽減するために、$ \ varepsilon $ advanced Color pass($ \ varepsilon $ -ACP)アルゴリズムを紹介します。
$ \ varepsilon $ -ACPは、正確ではない差し止め能力を効率的に明らかにし、悪用します。
$ \ varepsilon $ -ACPによって誘導される近似誤差が厳密に境界が付けられていることを証明し、私たちの実験では、近似誤差が実際にはゼロに近いことを示しています。

要約(オリジナル)

Probabilistic relational models such as parametric factor graphs enable efficient (lifted) inference by exploiting the indistinguishability of objects. In lifted inference, a representative of indistinguishable objects is used for computations. To obtain a relational (i.e., lifted) representation, the Advanced Colour Passing (ACP) algorithm is the state of the art. The ACP algorithm, however, requires underlying distributions, encoded as potential-based factorisations, to exactly match to identify and exploit indistinguishabilities. Hence, ACP is unsuitable for practical applications where potentials learned from data inevitably deviate even if associated objects are indistinguishable. To mitigate this problem, we introduce the $\varepsilon$-Advanced Colour Passing ($\varepsilon$-ACP) algorithm, which allows for a deviation of potentials depending on a hyperparameter $\varepsilon$. $\varepsilon$-ACP efficiently uncovers and exploits indistinguishabilities that are not exact. We prove that the approximation error induced by $\varepsilon$-ACP is strictly bounded and our experiments show that the approximation error is close to zero in practice.

arxiv情報

著者 Malte Luttermann,Jan Speller,Marcel Gehrke,Tanya Braun,Ralf Möller,Mattis Hartwig
発行日 2025-04-29 14:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG | Approximate Lifted Model Construction はコメントを受け付けていません

Partitioned Memory Storage Inspired Few-Shot Class-Incremental learning

要約

現在の主流の深い学習技術は、広範なトレーニングデータに過度に依存しており、動的な世界への適応性の欠如を示し、人間の知性とのかなりの格差を示しています。
このギャップを埋めるために、少数の授業学習(FSCIL)が登場し、古い知識を忘れることなく、限られたサンプルを持つ新しいカテゴリの継続的な学習に焦点を当てています。
既存のFSCIL研究では、通常、単一のモデルを使用してすべてのセッションで知識を学習し、必然的に安定性塑性ジレンマにつながります。
機械とは異なり、人間はさまざまな脳皮質にさまざまな知識を保存しています。
この特徴に触発された私たちの論文は、各セッションの独立モデルを学習する方法を開発することを目指しています。
それは本質的に壊滅的な忘却を防ぐことができます。
テスト段階では、この方法でモデル展開の不確実性の定量化(UQ)を統合します。
私たちの方法は、FSCILの新たな視点を提供し、CIFAR-100およびMINI-IMAGENETデータセットの最先端のパフォーマンスを実証します。

要約(オリジナル)

Current mainstream deep learning techniques exhibit an over-reliance on extensive training data and a lack of adaptability to the dynamic world, marking a considerable disparity from human intelligence. To bridge this gap, Few-Shot Class-Incremental Learning (FSCIL) has emerged, focusing on continuous learning of new categories with limited samples without forgetting old knowledge. Existing FSCIL studies typically use a single model to learn knowledge across all sessions, inevitably leading to the stability-plasticity dilemma. Unlike machines, humans store varied knowledge in different cerebral cortices. Inspired by this characteristic, our paper aims to develop a method that learns independent models for each session. It can inherently prevent catastrophic forgetting. During the testing stage, our method integrates Uncertainty Quantification (UQ) for model deployment. Our method provides a fresh viewpoint for FSCIL and demonstrates the state-of-the-art performance on CIFAR-100 and mini-ImageNet datasets.

arxiv情報

著者 Renye Zhang,Yimin Yin,Jinghua Zhang
発行日 2025-04-29 14:11:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Partitioned Memory Storage Inspired Few-Shot Class-Incremental learning はコメントを受け付けていません

Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges

要約

大規模な言語モデル(LLM)の最近の技術的ブレークスルーにより、ソースコードを流fluentに生成することができました。
ソフトウェア開発者は、多くの場合、汎用とコードの両方のLLMSの両方を活用して、既存のコードを修正したり、ゼロから機能全体を生成したりします。
これらの機能は、ノーコードまたは低コードのコンテキストでも有益であり、技術的なバックグラウンドなしでプログラムを作成できます。
ただし、内部設計により、LLMは幻覚を生成する傾向がありますが、幻覚は間違っており、無意味で、正当な情報ではありませんが、その存在を特定するのは困難です。
この問題は、ソースコードを生成するときにも発生します。
特に特定の実行パスでそのような幻覚を特定できる場合、幻覚コードが作成されると、ユーザーがそれを特定して修正することは困難なことがよくあります。
その結果、幻覚コードはコードベース内で気付かれないままになる可能性があります。
この調査では、Codellmsによって生成された幻覚に関連する最近の研究と技術を調査します。
codellmsによって生成されたコードの幻覚の種類を分類し、既存のベンチマークと緩和戦略を確認し、公開課題を特定します。
これらの調査結果に基づいて、この調査では、Codellmsによって生成された幻覚の検出と除去に関するさらなる研究の方向性の概要を説明しています。

要約(オリジナル)

Recent technical breakthroughs in large language models (LLMs) have enabled them to fluently generate source code. Software developers often leverage both general-purpose and code-specialized LLMs to revise existing code or even generate a whole function from scratch. These capabilities are also beneficial in no-code or low-code contexts, in which one can write programs without a technical background. However, due to their internal design, LLMs are prone to generating hallucinations, which are incorrect, nonsensical, and not justifiable information but difficult to identify its presence. This problem also occurs when generating source code. Once hallucinated code is produced, it is often challenging for users to identify and fix it, especially when such hallucinations can be identified under specific execution paths. As a result, the hallucinated code may remain unnoticed within the codebase. This survey investigates recent studies and techniques relevant to hallucinations generated by CodeLLMs. We categorize the types of hallucinations in the code generated by CodeLLMs, review existing benchmarks and mitigation strategies, and identify open challenges. Based on these findings, this survey outlines further research directions in the detection and removal of hallucinations produced by CodeLLMs.

arxiv情報

著者 Yunseo Lee,John Youngeun Song,Dongsun Kim,Jindae Kim,Mijung Kim,Jaechang Nam
発行日 2025-04-29 14:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges はコメントを受け付けていません