要約
埋め込み空間の等方性が低いと、意味推論を伴うタスクのパフォーマンスが低下します。
私たちの研究では、セマンティック コード検索のパフォーマンスに対する等方性の影響を調査し、この問題を軽減するための後処理技術を検討しています。
私たちはさまざまなコード言語モデルを分析し、その埋め込み空間における等方性と、それが検索効率に及ぼす影響を調べます。
我々は、埋め込みの等方性レベルを制御するために修正された ZCA ホワイトニング手法を提案します。
私たちの結果は、Soft-ZCA ホワイトニングが事前トレーニングされたコード言語モデルのパフォーマンスを向上させ、コントラスト微調整を補完できることを示しています。
実験のコードは https://github.com/drndr/code\_isotropy で入手できます。
要約(オリジナル)
Low isotropy in an embedding space impairs performance on tasks involving semantic inference. Our study investigates the impact of isotropy on semantic code search performance and explores post-processing techniques to mitigate this issue. We analyze various code language models, examine isotropy in their embedding spaces, and its influence on search effectiveness. We propose a modified ZCA whitening technique to control isotropy levels in embeddings. Our results demonstrate that Soft-ZCA whitening improves the performance of pre-trained code language models and can complement contrastive fine-tuning. The code for our experiments is available at https://github.com/drndr/code\_isotropy
arxiv情報
著者 | Andor Diera,Lukas Galke,Ansgar Scherp |
発行日 | 2024-11-26 15:53:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google