要約
この研究では、バイナリ コードを理解するタスクに関してディープ ニューラル ネットワークをトレーニングする可能性の調査を開始します。
具体的には、ネットワークはバイナリから直接派生した機能を入力として受け取り、機能の英語の説明を出力して、リバース エンジニアリングが悪意のあるものであるか無害なものであるかに関係なく、クローズド ソース ソフトウェアの機能を調査できるようにします。
大規模言語モデル (生成 AI) をソース コード要約タスクに適用することに最近成功していることを考えると、これは有望な方向性のように思えます。
しかし、利用可能なデータセットの最初の調査では、これらの複雑なモデルをトレーニングするのに十分な高品質と量を備えたデータセットは見つかりませんでした。
代わりに、110 万のエントリを含むスタック オーバーフローのキャプチャから派生した独自のデータセットを構築します。
私たちの研究の主な成果は、サンプルペア上の 2 つの距離 (入力の埋め込み空間内の距離と出力の埋め込み空間内の距離) 間の相関関係を使用した新しいデータセット評価方法です。
直感的には、2 つのサンプルの入力が入力エンベディング空間内で近い場合、それらの出力も出力エンベディング空間内で近くなるはずです。
この埋め込み距離相関 (EDC) テストは非常に診断的であることがわかり、収集したデータセットといくつかの既存のオープンソース データセットは、距離の相関が十分ではないため品質が低いことがわかりました。
私たちは EDC の一般的な適用性を調査し、定性的に既知の良好なデータセットと総合的に既知の悪いデータセットの多くに EDC を適用し、それがデータセットの価値の信頼できる指標であることを発見しました。
要約(オリジナル)
In this work, we begin to investigate the possibility of training a deep neural network on the task of binary code understanding. Specifically, the network would take, as input, features derived directly from binaries and output English descriptions of functionality to aid a reverse engineer in investigating the capabilities of a piece of closed-source software, be it malicious or benign. Given recent success in applying large language models (generative AI) to the task of source code summarization, this seems a promising direction. However, in our initial survey of the available datasets, we found nothing of sufficiently high quality and volume to train these complex models. Instead, we build our own dataset derived from a capture of Stack Overflow containing 1.1M entries. A major result of our work is a novel dataset evaluation method using the correlation between two distances on sample pairs: one distance in the embedding space of inputs and the other in the embedding space of outputs. Intuitively, if two samples have inputs close in the input embedding space, their outputs should also be close in the output embedding space. We found this Embedding Distance Correlation (EDC) test to be highly diagnostic, indicating that our collected dataset and several existing open-source datasets are of low quality as the distances are not well correlated. We proceed to explore the general applicability of EDC, applying it to a number of qualitatively known good datasets and a number of synthetically known bad ones and found it to be a reliable indicator of dataset value.
arxiv情報
著者 | Alexander Interrante-Grant,Andy Davis,Heather Preslier,Tim Leek |
発行日 | 2024-04-30 15:34:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google