Isotropy Matters: Soft-ZCA Whitening of Embeddings for Semantic Code Search

要約

埋め込み空間の等方性が低いと、意味推論を伴うタスクのパフォーマンスが低下します。
私たちの研究では、セマンティック コード検索のパフォーマンスに対する等方性の影響を調査し、この問題を軽減するための後処理技術を検討しています。
私たちはさまざまなコード言語モデルを分析し、その埋め込み空間における等方性と、それが検索効率に及ぼす影響を調べます。
我々は、埋め込みの等方性レベルを制御するために修正された ZCA ホワイトニング手法を提案します。
私たちの結果は、Soft-ZCA ホワイトニングが事前トレーニングされたコード言語モデルのパフォーマンスを向上させ、コントラスト微調整を補完できることを示しています。

要約(オリジナル)

Low isotropy in an embedding space impairs performance on tasks involving semantic inference. Our study investigates the impact of isotropy on semantic code search performance and explores post-processing techniques to mitigate this issue. We analyze various code language models, examine isotropy in their embedding spaces, and its influence on search effectiveness. We propose a modified ZCA whitening technique to control isotropy levels in embeddings. Our results demonstrate that Soft-ZCA whitening improves the performance of pre-trained code language models and can complement contrastive fine-tuning.

arxiv情報

著者 Andor Diera,Lukas Galke,Ansgar Scherp
発行日 2024-11-27 09:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク