要約
埋め込み空間の等方性が低いと、意味推論を伴うタスクのパフォーマンスが低下します。
私たちの研究では、セマンティック コード検索のパフォーマンスに対する等方性の影響を調査し、この問題を軽減するための後処理技術を検討しています。
私たちはさまざまなコード言語モデルを分析し、その埋め込み空間における等方性と、それが検索効率に及ぼす影響を調べます。
我々は、埋め込みの等方性レベルを制御するために修正された ZCA ホワイトニング手法を提案します。
私たちの結果は、Soft-ZCA ホワイトニングが事前トレーニングされたコード言語モデルのパフォーマンスを向上させ、コントラスト微調整を補完できることを示しています。
要約(オリジナル)
Low isotropy in an embedding space impairs performance on tasks involving semantic inference. Our study investigates the impact of isotropy on semantic code search performance and explores post-processing techniques to mitigate this issue. We analyze various code language models, examine isotropy in their embedding spaces, and its influence on search effectiveness. We propose a modified ZCA whitening technique to control isotropy levels in embeddings. Our results demonstrate that Soft-ZCA whitening improves the performance of pre-trained code language models and can complement contrastive fine-tuning.
arxiv情報
著者 | Andor Diera,Lukas Galke,Ansgar Scherp |
発行日 | 2024-11-27 09:43:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google