Inorganic Catalyst Efficiency Prediction Based on EAPCR Model: A Deep Learning Solution for Multi-Source Heterogeneous Data

要約

無機触媒の設計と触媒効率の予測は、化学および材料科学における基本的な課題です。
従来の触媒評価方法は、主に機械学習技術に依存しています。
ただし、これらの方法はしばしば、マルチソースの不均一なデータを処理するのに苦労し、予測精度と一般化の両方を制限します。
これらの制限に対処するために、この研究では、埋め込まれた出来事によるCNN抵抗性(EAPCR)ディープ学習モデルを紹介します。
EAPCRは、埋め込みメカニズムと注意メカニズムを使用して特徴的な関連性マトリックスを構築し、順列化されたCNNアーキテクチャと残留接続を通じて予測パフォーマンスを強化します。
このアプローチにより、モデルはさまざまな触媒条件で複雑な特徴の相互作用を正確にキャプチャし、正確な効率予測につながることができます。
EAPCRは、計算研究者のための強力なツールとして機能し、ドメインの専門家が触媒設計の最適化を支援し、データ駆動型モデリングと実験アプリケーションの間のギャップを効果的に埋めることもできます。
TIO2光触媒、熱触媒、および電気触媒からのデータセットのEAPCRを評価し、従来の機械学習方法(線形回帰、ランダムフォレストなど)および従来の深い学習モデル(ANN、NNSなど)よりもその優位性を実証します。
複数の評価メトリック(MAE、MSE、R2、およびRMSE)にわたって、EAPCRは既存のアプローチを常に上回ります。
これらの発見は、無機触媒効率予測におけるEAPCRの強い可能性を強調しています。
多用途の深い学習フレームワークとして、EAPCRは予測精度を向上させるだけでなく、無機触媒における将来の大規模モデル開発の強固な基盤を確立します。

要約(オリジナル)

The design of inorganic catalysts and the prediction of their catalytic efficiency are fundamental challenges in chemistry and materials science. Traditional catalyst evaluation methods primarily rely on machine learning techniques; however, these methods often struggle to process multi-source heterogeneous data, limiting both predictive accuracy and generalization. To address these limitations, this study introduces the Embedding-Attention-Permutated CNN-Residual (EAPCR) deep learning model. EAPCR constructs a feature association matrix using embedding and attention mechanisms and enhances predictive performance through permutated CNN architectures and residual connections. This approach enables the model to accurately capture complex feature interactions across various catalytic conditions, leading to precise efficiency predictions. EAPCR serves as a powerful tool for computational researchers while also assisting domain experts in optimizing catalyst design, effectively bridging the gap between data-driven modeling and experimental applications. We evaluate EAPCR on datasets from TiO2 photocatalysis, thermal catalysis, and electrocatalysis, demonstrating its superiority over traditional machine learning methods (e.g., linear regression, random forest) as well as conventional deep learning models (e.g., ANN, NNs). Across multiple evaluation metrics (MAE, MSE, R2, and RMSE), EAPCR consistently outperforms existing approaches. These findings highlight the strong potential of EAPCR in inorganic catalytic efficiency prediction. As a versatile deep learning framework, EAPCR not only improves predictive accuracy but also establishes a solid foundation for future large-scale model development in inorganic catalysis.

arxiv情報

著者 Zhangdi Liu,Ling An,Mengke Song,Zhuohang Yu,Shan Wang,Kezhen Qi,Zhenyu Zhang,Chichun Zhou
発行日 2025-03-10 15:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Inorganic Catalyst Efficiency Prediction Based on EAPCR Model: A Deep Learning Solution for Multi-Source Heterogeneous Data はコメントを受け付けていません

Learning to Localize Leakage of Cryptographic Sensitive Variables

要約

ユビキタス高度な暗号化標準(AES)などの暗号化アルゴリズムは、ハードウェアのこれらのアルゴリズムの安全な *物理的実装 *であり、暗号化キーなどの敏感なデータを必然的に「リーク」しています。
特に陰湿な形の漏れは、ハードウェアが電力を消費し、それが処理するデータとそれが実行する命令に統計的に関連付けられている方法で放射線を放出するという事実から生じます。
監督された深い学習は、 *サイドチャネル攻撃 *を実行するための最先端のツールとして浮上しました。これは、暗号化を通してその暗号化中に動作する機密データにマッピングされることを学習することにより、この漏れを活用します。
この作業では、そのような攻撃に対する防御 *を知らせるために、さまざまな時点で記録された測定による相対的な漏れを決定するための原則的なディープラーニングフレームワークを開発します。
この情報は、ハードウェアが漏れている理由とそれを緩和する方法を理解するために、暗号化ハードウェアデザイナーにとって非常に貴重です(たとえば、責任のあるコードまたは電子コンポーネントの特定のセクションを示すことにより)。
私たちのフレームワークは、測定のサブセットが与えられた機密データの条件付き分布を推定するように訓練された分類因子との間の敵対的なゲームと、これらの分類子の損失を最大化するために個々の測定値を確率的に消去する予算制約のある騒音分布に基づいています。
AE、ECC、RSA実装からの3つの評価メトリックと6つの公開されたパワー/EMトレースデータセットを使用して、8つのベースラインメソッドとの広範な実験的比較を通じて、以前の作業の制限を克服する方法と能力を実証します。
これらの実験のオープンソースPytorch実装を提供します。

要約(オリジナル)

While cryptographic algorithms such as the ubiquitous Advanced Encryption Standard (AES) are secure, *physical implementations* of these algorithms in hardware inevitably ‘leak’ sensitive data such as cryptographic keys. A particularly insidious form of leakage arises from the fact that hardware consumes power and emits radiation in a manner that is statistically associated with the data it processes and the instructions it executes. Supervised deep learning has emerged as a state-of-the-art tool for carrying out *side-channel attacks*, which exploit this leakage by learning to map power/radiation measurements throughout encryption to the sensitive data operated on during that encryption. In this work we develop a principled deep learning framework for determining the relative leakage due to measurements recorded at different points in time, in order to inform *defense* against such attacks. This information is invaluable to cryptographic hardware designers for understanding *why* their hardware leaks and how they can mitigate it (e.g. by indicating the particular sections of code or electronic components which are responsible). Our framework is based on an adversarial game between a family of classifiers trained to estimate the conditional distributions of sensitive data given subsets of measurements, and a budget-constrained noise distribution which probabilistically erases individual measurements to maximize the loss of these classifiers. We demonstrate our method’s efficacy and ability to overcome limitations of prior work through extensive experimental comparison with 8 baseline methods using 3 evaluation metrics and 6 publicly-available power/EM trace datasets from AES, ECC and RSA implementations. We provide an open-source PyTorch implementation of these experiments.

arxiv情報

著者 Jimmy Gammell,Anand Raghunathan,Abolfazl Hashemi,Kaushik Roy
発行日 2025-03-10 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Learning to Localize Leakage of Cryptographic Sensitive Variables はコメントを受け付けていません

Sample Complexity of Nonparametric Closeness Testing for Continuous Distributions and Its Application to Causal Discovery with Hidden Confounding

要約

継続的な分布のための親密性テストの問題と、因果発見への影響を研究します。
具体的には、ノンパラメトリックな仮定の下でKullback-Leibler(KL)発散に関して、2つの多次元の連続分布が同一であるか、少なくとも$ \ epsilon $によって異なるかどうかを区別するサンプルの複雑さを分析します。
この目的のために、Von Misesの拡張に基づいたKL Divergenceの推定器を提案します。
私たちの近さテストは、滑らかさの仮定の下で最適なパラメトリックレートを達成します。
因果発見アルゴリズムの構成要素として機能するこのテストを装備し、2つの多次元ランダム変数間の因果構造を識別するため、因果発見方法のサンプルの複雑さ保証を確立します。
私たちの知る限り、この作業は、観測されていない交絡の存在下で非ガウス連続変数を備えた多次元の非線形モデルでの際の原因と結果を区別するためのサンプルの複雑さの保証を提供する最初の作業です。

要約(オリジナル)

We study the problem of closeness testing for continuous distributions and its implications for causal discovery. Specifically, we analyze the sample complexity of distinguishing whether two multidimensional continuous distributions are identical or differ by at least $\epsilon$ in terms of Kullback-Leibler (KL) divergence under non-parametric assumptions. To this end, we propose an estimator of KL divergence which is based on the von Mises expansion. Our closeness test attains optimal parametric rates under smoothness assumptions. Equipped with this test, which serves as a building block of our causal discovery algorithm to identify the causal structure between two multidimensional random variables, we establish sample complexity guarantees for our causal discovery method. To the best of our knowledge, this work is the first work that provides sample complexity guarantees for distinguishing cause and effect in multidimensional non-linear models with non-Gaussian continuous variables in the presence of unobserved confounding.

arxiv情報

著者 Fateme Jamshidi,Sina Akbari,Negar Kiyavash
発行日 2025-03-10 15:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Sample Complexity of Nonparametric Closeness Testing for Continuous Distributions and Its Application to Causal Discovery with Hidden Confounding はコメントを受け付けていません

Multimodal Human-AI Synergy for Medical Imaging Quality Control: A Hybrid Intelligence Framework with Adaptive Dataset Curation and Closed-Loop Evaluation

要約

医療イメージング品質管理(QC)は正確な診断に不可欠ですが、従来のQC方法は労働集約的で主観的なままです。
この課題に対処するために、この研究では、医療イメージングQCの標準化されたデータセットと評価フレームワークを確立し、画質評価とレポート標準化における大規模な言語モデル(LLMS)を体系的に評価します。
具体的には、最初に161の胸部X線(CXR)レントゲン写真のデータセットと評価のために219のCTレポートを構築および匿名化しました。
次に、Gemini 2.0-Flash、GPT-4O、およびDeepSeek-R1を含む複数のLLMを、リコール、精度、およびF1スコアに基づいて評価して、技術的なエラーと矛盾を検出しました。
実験結果は、Gemini 2.0-FlashがCXRタスクで90のマクロF1スコアを達成し、強力な一般化が限られた微細なパフォーマンスを示していることを示しています。
DeepSeek-R1は、62.23 \%リコール率でCTレポート監査に優れており、他のモデルよりも優れています。
ただし、蒸留型バリアントはパフォーマンスが低下しましたが、InternLM2.5-7B-chatは最高の追加の発見率を示し、より広いが正確ではないエラー検出を示しています。
これらの発見は、deepseek-r1とgemini 2.0-flashが優れたパフォーマンスを実証する医療イメージングQCにおけるLLMの可能性を強調しています。

要約(オリジナル)

Medical imaging quality control (QC) is essential for accurate diagnosis, yet traditional QC methods remain labor-intensive and subjective. To address this challenge, in this study, we establish a standardized dataset and evaluation framework for medical imaging QC, systematically assessing large language models (LLMs) in image quality assessment and report standardization. Specifically, we first constructed and anonymized a dataset of 161 chest X-ray (CXR) radiographs and 219 CT reports for evaluation. Then, multiple LLMs, including Gemini 2.0-Flash, GPT-4o, and DeepSeek-R1, were evaluated based on recall, precision, and F1 score to detect technical errors and inconsistencies. Experimental results show that Gemini 2.0-Flash achieved a Macro F1 score of 90 in CXR tasks, demonstrating strong generalization but limited fine-grained performance. DeepSeek-R1 excelled in CT report auditing with a 62.23\% recall rate, outperforming other models. However, its distilled variants performed poorly, while InternLM2.5-7B-chat exhibited the highest additional discovery rate, indicating broader but less precise error detection. These findings highlight the potential of LLMs in medical imaging QC, with DeepSeek-R1 and Gemini 2.0-Flash demonstrating superior performance.

arxiv情報

著者 Zhi Qin,Qianhui Gui,Mouxiao Bian,Rui Wang,Hong Ge,Dandan Yao,Ziying Sun,Yuan Zhao,Yu Zhang,Hui Shi,Dongdong Wang,Chenxin Song,Shenghong Ju,Lihao Liu,Junjun He,Jie Xu,Yuan-Cheng Wang
発行日 2025-03-10 08:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Multimodal Human-AI Synergy for Medical Imaging Quality Control: A Hybrid Intelligence Framework with Adaptive Dataset Curation and Closed-Loop Evaluation はコメントを受け付けていません

Bot Wars Evolved: Orchestrating Competing LLMs in a Counterstrike Against Phone Scams

要約

シミュレートされた敵対的な対話を通じて電話詐欺に対抗するために、大規模な言語モデル(LLMS)詐欺師を使用したフレームワーク「ボットウォーズ」を提示します。
私たちの重要な貢献は、明示的な最適化なしに、考え方の連鎖推論を通じて戦略の出現のための正式な基盤です。
新しい2層プロンプトアーキテクチャを通じて、私たちのフレームワークにより、LLMは戦略的な一貫性を維持しながら、人口統計学的に本物の犠牲者のペルソナを作成できます。
179時間の人間の詐欺対話に対して検証された3,200の詐欺ダイアログのデータセットを使用してアプローチを評価し、複雑な敵対的ダイナミクスをキャプチャする際の有効性を示しています。
認知的、定量的、およびコンテンツ固有のメトリックによる私たちの体系的な評価は、GPT-4が対話の自然性とペルソナの信頼性に優れていることを示していますが、Deepseekは優れたエンゲージメントの持続可能性を示しています。

要約(オリジナル)

We present ‘Bot Wars,’ a framework using Large Language Models (LLMs) scam-baiters to counter phone scams through simulated adversarial dialogues. Our key contribution is a formal foundation for strategy emergence through chain-of-thought reasoning without explicit optimization. Through a novel two-layer prompt architecture, our framework enables LLMs to craft demographically authentic victim personas while maintaining strategic coherence. We evaluate our approach using a dataset of 3,200 scam dialogues validated against 179 hours of human scam-baiting interactions, demonstrating its effectiveness in capturing complex adversarial dynamics. Our systematic evaluation through cognitive, quantitative, and content-specific metrics shows that GPT-4 excels in dialogue naturalness and persona authenticity, while Deepseek demonstrates superior engagement sustainability.

arxiv情報

著者 Nardine Basta,Conor Atkins,Dali Kaafar
発行日 2025-03-10 08:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Bot Wars Evolved: Orchestrating Competing LLMs in a Counterstrike Against Phone Scams はコメントを受け付けていません

TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine

要約

大規模な言語モデル(LLM)は、さまざまなNLPタスクや現代医学に優れていますが、伝統的な漢方薬(TCM)での評価は掘り下げられていません。
これに対処するために、TCM3CEVALを紹介します。これは、コアナレッジマスタリー、古典的なテキスト理解、臨床的意思決定という3つの次元にわたってTCMのLLMを評価するベンチマークです。
国際(例:GPT-4O)、中国語(例えば、InternLM)、および医療特有(例えば、pluse)を含む多様なモデルを評価します。
結果はパフォーマンスの階層を示しています。すべてのモデルには、子午線や順調な理論やさまざまなTCM学校などの特殊なサブドメインに制限があり、現在の能力と臨床的ニーズの間のギャップが明らかになります。
中国の言語的および文化的なプライアーを備えたモデルは、古典的なテキストの解釈と臨床的推論においてより良いパフォーマンスを発揮します。
TCM-3CEVALは、TCMのAI評価の標準を設定し、文化的に根拠のある医療ドメインでLLMを最適化するための洞察を提供します。
ベンチマークは、MedbenchのTCMトラックで利用でき、多次元の質問と実際のケースを通じて、基本的な知識、古典的なテキスト、臨床的意思決定におけるLLMSのTCM機能を評価することを目指しています。

要約(オリジナル)

Large language models (LLMs) excel in various NLP tasks and modern medicine, but their evaluation in traditional Chinese medicine (TCM) is underexplored. To address this, we introduce TCM3CEval, a benchmark assessing LLMs in TCM across three dimensions: core knowledge mastery, classical text understanding, and clinical decision-making. We evaluate diverse models, including international (e.g., GPT-4o), Chinese (e.g., InternLM), and medical-specific (e.g., PLUSE). Results show a performance hierarchy: all models have limitations in specialized subdomains like Meridian & Acupoint theory and Various TCM Schools, revealing gaps between current capabilities and clinical needs. Models with Chinese linguistic and cultural priors perform better in classical text interpretation and clinical reasoning. TCM-3CEval sets a standard for AI evaluation in TCM, offering insights for optimizing LLMs in culturally grounded medical domains. The benchmark is available on Medbench’s TCM track, aiming to assess LLMs’ TCM capabilities in basic knowledge, classic texts, and clinical decision-making through multidimensional questions and real cases.

arxiv情報

著者 Tianai Huang,Lu Lu,Jiayuan Chen,Lihao Liu,Junjun He,Yuping Zhao,Wenchao Tang,Jie Xu
発行日 2025-03-10 08:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine はコメントを受け付けていません

DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science

要約

データサイエンスのタスクは、多面的で動的で、しばしばドメイン固有です。
既存のLLMベースのアプローチは、主に孤立したフェーズに集中し、多くのデータサイエンスタスクの相互依存性の性質を無視し、包括的なエンドツーエンドサポートの能力を制限します。
Notebook中心のLLMエージェントフレームワークであるDataWiseagentを提案します。これは、マークダウンおよび実行可能なコードセルを介してユーザー、エージェント、および計算環境間の相互作用を統合し、柔軟で適応性のある自動化されたデータサイエンスをサポートします。
有限状態トランスデューサー(FST)の上に構築されたDataWiseagentは、DSFのような計画、漸進的実行、自己不開発、ポストフィルタリングなど、4つの段階を組織します。
具体的には、DFSのような計画段階でソリューション空間を体系的に調査しますが、インクリメンタル実行はリアルタイムフィードバックを活用し、LLMの限られた機能に対応してタスクを徐々に完了します。
自己不足とフィルタリング後のモジュールは、エラーを診断および修正し、無関係な情報を剪定することにより、信頼性をさらに高めます。
データ分析、視覚化、データモデリングを含む多様なタスクに関する広範な実験は、DataWiseagentが複数のモデル設定にわたって最新のメソッドを常に上回ったり一致させることを示しています。
これらの結果は、データサイエンスシナリオ全体に一般化し、より効率的で完全に自動化されたワークフローのために基礎を築く可能性を強調しています。

要約(オリジナル)

Data Science tasks are multifaceted, dynamic, and often domain-specific. Existing LLM-based approaches largely concentrate on isolated phases, neglecting the interdependent nature of many data science tasks and limiting their capacity for comprehensive end-to-end support. We propose DatawiseAgent, a notebook-centric LLM agent framework that unifies interactions among user, agent and the computational environment through markdown and executable code cells, supporting flexible and adaptive automated data science. Built on a Finite State Transducer(FST), DatawiseAgent orchestrates four stages, including DSF-like planning, incremental execution, self-debugging, and post-filtering. Specifically, the DFS-like planning stage systematically explores the solution space, while incremental execution harnesses real-time feedback and accommodates LLM’s limited capabilities to progressively complete tasks. The self-debugging and post-filtering modules further enhance reliability by diagnosing and correcting errors and pruning extraneous information. Extensive experiments on diverse tasks, including data analysis, visualization, and data modeling, show that DatawiseAgent consistently outperforms or matches state-of-the-art methods across multiple model settings. These results highlight its potential to generalize across data science scenarios and lay the groundwork for more efficient, fully automated workflows.

arxiv情報

著者 Ziming You,Yumiao Zhang,Dexuan Xu,Yiwei Lou,Yandong Yan,Wei Wang,Huaming Zhang,Yu Huang
発行日 2025-03-10 08:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science はコメントを受け付けていません

Memorization in Attention-only Transformers

要約

最近の研究では、マルチヘッドの注意の記憶能力が調査されていますが、これらの調査結果は、コンテキストサイズの非現実的な制限によって制約されています。
現在の仮説をコンテキストサイズに拡張する言語ベースのトランスの新しい証拠を提示します。
私たちのアプローチは、注意層でより効果的な正確な暗記を達成することにより、最先端のアートを改善し、また、分配のおおよその暗記の概念を導入します。
実験的検証を通じて、提案された限界が言語モデルの真の記憶能力をより正確に反映し、以前の作業と正確な比較を提供することを実証します。

要約(オリジナル)

Recent research has explored the memorization capacity of multi-head attention, but these findings are constrained by unrealistic limitations on the context size. We present a novel proof for language-based Transformers that extends the current hypothesis to any context size. Our approach improves upon the state-of-the-art by achieving more effective exact memorization with an attention layer, while also introducing the concept of approximate memorization of distributions. Through experimental validation, we demonstrate that our proposed bounds more accurately reflect the true memorization capacity of language models, and provide a precise comparison with prior work.

arxiv情報

著者 Léo Dana,Muni Sreenivas Pydi,Yann Chevaleyre
発行日 2025-03-10 08:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Memorization in Attention-only Transformers はコメントを受け付けていません

Discrete Diffusion Language Model for Efficient Text Summarization

要約

拡散モデルは高品質の画像を生成する条件付きで優れていますが、離散拡散モデルの以前の作業は条件付きの長所生成で評価されませんでした。
この作業では、特に抽象的な要約などの長いシーケンスからシーケンスからシーケンスへのタスクで、条件付きの長所生成に関する以前の離散拡散モデルの制限に対処します。
自己回帰方法と比較して速いデコード速度にもかかわらず、バックボーンアーキテクチャとランダムノージングプロセスの間の非互換性により、抽象的な要約タスクで以前の拡散モデルは失敗しました。
これらの課題を克服するために、変圧器のバックボーンが長いシーケンスを効果的に処理できるようにする新しいセマンティックに対応するノイズプロセスを導入します。
さらに、Crossmambaを提案します。Crossmambaは、Mambaモデルのエンコーダーデコーダーパラダイムへの適応を提案します。これは、ランダムな吸収ノーシングプロセスとシームレスに統合されます。
私たちのアプローチは、Gigaword、CNN/Dailymail、およびArxivの3つのベンチマーク要約データセットで最先端のパフォーマンスを実現し、Rouge Metricsの既存の離散拡散モデルを上回り、自己誘導モデルと比較して推論ではるかに速い速度を持っています。

要約(オリジナル)

While diffusion models excel at conditional generating high-quality images, prior works in discrete diffusion models were not evaluated on conditional long-text generation. In this work, we address the limitations of prior discrete diffusion models for conditional long-text generation, particularly in long sequence-to-sequence tasks such as abstractive summarization. Despite fast decoding speeds compared to autoregressive methods, previous diffusion models failed on the abstractive summarization task due to the incompatibility between the backbone architectures and the random noising process. To overcome these challenges, we introduce a novel semantic-aware noising process that enables Transformer backbones to handle long sequences effectively. Additionally, we propose CrossMamba, an adaptation of the Mamba model to the encoder-decoder paradigm, which integrates seamlessly with the random absorbing noising process. Our approaches achieve state-of-the-art performance on three benchmark summarization datasets: Gigaword, CNN/DailyMail, and Arxiv, outperforming existing discrete diffusion models on ROUGE metrics as well as possessing much faster speed in inference compared to autoregressive models.

arxiv情報

著者 Do Huu Dat,Do Duc Anh,Anh Tuan Luu,Wray Buntine
発行日 2025-03-10 08:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Discrete Diffusion Language Model for Efficient Text Summarization はコメントを受け付けていません

CoIR: A Comprehensive Benchmark for Code Information Retrieval Models

要約

さまざまなNLPタスクでの情報検索(IR)の大幅な成功にもかかわらず、ほとんどのIRシステムは主に自然言語のクエリとコーパスを処理し、コード検索の領域を無視しています。
コードの検索は非常に重要ですが、既存のメソッドとベンチマークがさまざまなドメインやタスクのコードの多様性を不十分に表すことができないため、依存していないままです。
このギャップに対処すると、コード検索機能を評価するために特別に設計された堅牢で包括的なベンチマークであるCoir(コード情報検索ベンチマーク)を提示します。
Coirは、7つの多様なドメインにわたる8つの特徴的な検索タスクにまたがる10の細心の注意を払ってキュレーションされたコードデータセットで構成されています。
まず、Coirの構築とその多様なデータセット構成について説明します。
さらに、COIRを使用して9つの広く使用されている検索モデルを評価し、最先端のシステムでもコード検索タスクを実行する際の重大な困難を明らかにします。
既存の研究ワークフロー内での簡単な採用と統合を促進するために、Coirは、PIPを介して簡単にインストールできるユーザーフレンドリーなPythonフレームワークとして開発されました。
MTEBやBeirなどの他の人気のあるベンチマークと同じデータスキーマを共有し、シームレスなクロスベンチマーク評価を可能にします。
Coirを通じて、コード検索ドメインの研究を活性化することを目指して、コード検索システムのさらなる開発と調査https://github.com/coir-team/coirを促進する汎用性の高いベンチマークツールを提供します。

要約(オリジナル)

Despite the substantial success of Information Retrieval (IR) in various NLP tasks, most IR systems predominantly handle queries and corpora in natural language, neglecting the domain of code retrieval. Code retrieval is critically important yet remains under-explored, with existing methods and benchmarks inadequately representing the diversity of code in various domains and tasks. Addressing this gap, we present COIR (Code Information Retrieval Benchmark), a robust and comprehensive benchmark specifically designed to assess code retrieval capabilities. COIR comprises ten meticulously curated code datasets, spanning eight distinctive retrieval tasks across seven diverse domains. We first discuss the construction of COIR and its diverse dataset composition. Further, we evaluate nine widely used retrieval models using COIR, uncovering significant difficulties in performing code retrieval tasks even with state-of-the-art systems. To facilitate easy adoption and integration within existing research workflows, COIR has been developed as a user-friendly Python framework, readily installable via pip. It shares same data schema as other popular benchmarks like MTEB and BEIR, enabling seamless cross-benchmark evaluations. Through COIR, we aim to invigorate research in the code retrieval domain, providing a versatile benchmarking tool that encourages further development and exploration of code retrieval systems https://github.com/CoIR-team/coir.

arxiv情報

著者 Xiangyang Li,Kuicai Dong,Yi Quan Lee,Wei Xia,Hao Zhang,Xinyi Dai,Yasheng Wang,Ruiming Tang
発行日 2025-03-10 08:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CoIR: A Comprehensive Benchmark for Code Information Retrieval Models はコメントを受け付けていません