DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts

要約

チャート質問応答(CQA)ベンチマークは、視覚データを解釈するためのマルチモーダル大手言語モデル(MLLM)の機能を評価するために不可欠です。
ただし、現在のベンチマークは、主に汎用CQAの評価に焦点を当てていますが、ドメイン固有の課題を適切にキャプチャすることができません。
ドメイン固有のCQAベンチマークを構築するための体系的な方法論であるDomainCQAを紹介し、天文学の分野でのCQAベンチマークであるAstrochartを開発することにより、その有効性を実証します。
私たちの評価は、チャートの推論とチャート情報をドメインの知識と組み合わせて、ドメイン固有の知識ではなく、より深い分析と要約が既存のMLLMの主要な課題をもたらし、現在のベンチマークの重要なギャップを強調することを示しています。
スケーラブルで厳密なフレームワークを提供することにより、DomainCQAは、ドメイン固有のアプリケーションのMLLMのより正確な評価と改善を可能にします。

要約(オリジナル)

Chart Question Answering (CQA) benchmarks are essential for evaluating the capability of Multimodal Large Language Models (MLLMs) to interpret visual data. However, current benchmarks focus primarily on the evaluation of general-purpose CQA but fail to adequately capture domain-specific challenges. We introduce DomainCQA, a systematic methodology for constructing domain-specific CQA benchmarks, and demonstrate its effectiveness by developing AstroChart, a CQA benchmark in the field of astronomy. Our evaluation shows that chart reasoning and combining chart information with domain knowledge for deeper analysis and summarization, rather than domain-specific knowledge, pose the primary challenge for existing MLLMs, highlighting a critical gap in current benchmarks. By providing a scalable and rigorous framework, DomainCQA enables more precise assessment and improvement of MLLMs for domain-specific applications.

arxiv情報

著者 Ling Zhong,Yujing Lu,Jing Yang,Weiming Li,Peng Wei,Yongheng Wang,Manni Duan,Qing Zhang
発行日 2025-03-28 12:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts はコメントを受け付けていません

Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting

要約

$ \ textIT {Differingivativitivitive Private Text rewriting}のタスクは、(敏感な)入力テキストドキュメントが$ \ textit {rewritten} $ differyial Privacy(DP)保証のクラスです。
このような方法の背後にある動機は、元のテキストの意味的な意味を保持しながら、テキストに含まれる可能性のある明示的および暗黙的な識別子の両方を隠すことです。
近年、この分野での研究出力が増加しており、単語、文、およびドキュメントレベルのDP書き換え方法の多様な配列を提供しています。
これらの方法に共通するのは、プライバシー予算(つまり、$ \ varepsilon $パラメーター)の選択です。これは、テキストが民営化されている程度を支配します。
言語自体の一意の構造から直接発生する以前の作品の主要な制限の1つは、言語のすべての側面、したがってテキストが等しく敏感または個人的であるため、プライバシー予算を割り当てる必要がある$ \ textit {ここで$ \ textit {ここで配分する必要があることです。
この作業では、この欠点に対処した最初の人物であり、特定のプライバシー予算がターゲットドキュメントの間にどのように賢明かつ賢明に分配されるかについての質問をしています。
テキストドキュメントでプライバシー予算を構成トークンに割り当てるために使用される言語学およびNLPベースの方法のツールキットを構築および評価します。
一連のプライバシーとユーティリティの実験では、同じプライバシーの予算を考えると、インテリジェントな分布が$ \ varepsilon $の素朴な分布よりも高いプライバシーレベルと肯定的なトレードオフにつながることを経験的に実証します。
私たちの研究は、DPによるテキストの民営化の複雑さを強調しており、さらに、テキスト書き換えでDPが提供する民営化の利点を最大化するためのより効率的な方法を見つけるためのさらなる作業が必要です。

要約(オリジナル)

The task of $\textit{Differentially Private Text Rewriting}$ is a class of text privatization techniques in which (sensitive) input textual documents are $\textit{rewritten}$ under Differential Privacy (DP) guarantees. The motivation behind such methods is to hide both explicit and implicit identifiers that could be contained in text, while still retaining the semantic meaning of the original text, thus preserving utility. Recent years have seen an uptick in research output in this field, offering a diverse array of word-, sentence-, and document-level DP rewriting methods. Common to these methods is the selection of a privacy budget (i.e., the $\varepsilon$ parameter), which governs the degree to which a text is privatized. One major limitation of previous works, stemming directly from the unique structure of language itself, is the lack of consideration of $\textit{where}$ the privacy budget should be allocated, as not all aspects of language, and therefore text, are equally sensitive or personal. In this work, we are the first to address this shortcoming, asking the question of how a given privacy budget can be intelligently and sensibly distributed amongst a target document. We construct and evaluate a toolkit of linguistics- and NLP-based methods used to allocate a privacy budget to constituent tokens in a text document. In a series of privacy and utility experiments, we empirically demonstrate that given the same privacy budget, intelligent distribution leads to higher privacy levels and more positive trade-offs than a naive distribution of $\varepsilon$. Our work highlights the intricacies of text privatization with DP, and furthermore, it calls for further work on finding more efficient ways to maximize the privatization benefits offered by DP in text rewriting.

arxiv情報

著者 Stephen Meisenbacher,Chaeeun Joy Lee,Florian Matthes
発行日 2025-03-28 12:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting はコメントを受け付けていません

Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

要約

LLMはソフトウェア開発を変換していますが、現在のコード生成およびコード修理ベンチマークは、主に単純な単一エラーのケースで構文的および機能的正しさを評価しています。
複雑なデータサイエンスコードのランタイムの論理エラーを自律的に見つけて修正するLLMSの機能は、ほとんど未踏のままです。
このギャップに対処するために、DSDBench:データサイエンスデバッグベンチマークを紹介します。これは、データサイエンスコードのデバッグにおけるマルチホップエラートレースとマルチバグ検出に関するLLMSの系統的評価のための最初のベンチマークです。
DSDBenchは、DabenchやMatplotbenchなどの既存のデータサイエンスタスクベンチマークからのデータセットを適合させます。これは、自動的に合成されたマルチホップ、マルチバグコードスニペットを備えた現実的なデータサイエンスデバッグタスクを備えています。
DSDBenchには、741の原因効果エラーペアとランタイムエラーメッセージを備えた1,117の注釈付きサンプルが含まれています。
DSDBenchでの最先端のLLMの評価は、重要なパフォーマンスギャップを示し、データサイエンスコードの論理ランタイムエラーのデバッグの課題を強調しています。
DSDBenchは、LLMSのデバッグと推論機能を評価および改善するための重要なリソースを提供し、将来より信頼性の高いAIアシストデータサイエンスを可能にします。DSDBenchはhttps://github.com/kevincl16/dsdbenchで公開されています。

要約(オリジナル)

LLMs are transforming software development, yet current code generation and code repair benchmarks mainly assess syntactic and functional correctness in simple, single-error cases. LLMs’ capabilities to autonomously find and fix runtime logical errors in complex data science code remain largely unexplored. To address this gap, we introduce DSDBench: the Data Science Debugging Benchmark, the first benchmark for systematic evaluation of LLMs on multi-hop error tracing and multi-bug detection in data science code debugging. DSDBench adapts datasets from existing data science task benchmarks, such as DABench and MatPlotBench, featuring realistic data science debugging tasks with automatically synthesized multi-hop, multi-bug code snippets. DSDBench includes 1,117 annotated samples with 741 cause-effect error pairs and runtime error messages. Evaluations of state-of-the-art LLMs on DSDBench show significant performance gaps, highlighting challenges in debugging logical runtime errors in data science code. DSDBench offers a crucial resource to evaluate and improve LLMs’ debugging and reasoning capabilities, enabling more reliable AI-assisted data science in the future.DSDBench is publicly available at https://github.com/KevinCL16/DSDBench.

arxiv情報

著者 Zhiyu Yang,Shuo Wang,Yukun Yan,Yang Deng
発行日 2025-03-28 12:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors はコメントを受け付けていません

Negation: A Pink Elephant in the Large Language Models’ Room?

要約

否定は、文の意味を決定するための鍵であり、論理的な推論に不可欠です。
それらの重要性にもかかわらず、否定は大規模な言語モデル(LLM)に大きな課題をもたらし、露出していないままです。
否定が異なる\ textit {ペア付き}の例を使用して、2つの多言語自然言語推論(NLI)データセットを構築します。
人気のあるLLMを評価することにより、モデルのサイズと言語が否定を正しく処理する能力にどのように影響するかを調査します。
以前の研究とは反対に、モデルサイズを増やすと、モデルの否定を処理する能力が一貫して改善されることが示されます。
さらに、モデルの推論の精度と否定に対する堅牢性の両方が言語依存性であり、前提の長さと明示性が言語よりも堅牢性に大きな影響を与えることがわかります。
当社のデータセットは、多言語設定での言語モデルの推論のさらなる研究と改善を促進することができます。

要約(オリジナル)

Negations are key to determining sentence meaning, making them essential for logical reasoning. Despite their importance, negations pose a substantial challenge for large language models (LLMs) and remain underexplored. We construct two multilingual natural language inference (NLI) datasets with \textit{paired} examples differing in negation. We investigate how model size and language impact its ability to handle negation correctly by evaluating popular LLMs. Contrary to previous work, we show that increasing the model size consistently improves the models’ ability to handle negations. Furthermore, we find that both the models’ reasoning accuracy and robustness to negation are language-dependent and that the length and explicitness of the premise have a greater impact on robustness than language. Our datasets can facilitate further research and improvements of language model reasoning in multilingual settings.

arxiv情報

著者 Tereza Vrabcová,Marek Kadlčík,Petr Sojka,Michal Štefánik,Michal Spiegel
発行日 2025-03-28 13:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Negation: A Pink Elephant in the Large Language Models’ Room? はコメントを受け付けていません

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

要約

線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKV-7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時トークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの理論的基礎を強化し、2層での二面体グループの問題を解決できることを証明します。

要約(オリジナル)

Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKV-7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet by proving that it can solve dihedral group word problems in just two layers.

arxiv情報

著者 Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi
発行日 2025-03-28 13:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products はコメントを受け付けていません

Elite Political Discourse has Become More Toxic in Western Countries

要約

有毒で不自然な政治は、民主的価値とガバナンスに対する脅威の高まりと広く見られていますが、政治的敵意の要因と進化の理解は限られています。
5年間にわたって17か国の議会議員からの1800万人近くのTwitterメッセージの新しいデータセットを活用して、この論文は、国際的に政治がより不確かになっているかどうか、そして政治的矛盾の決定要因は何であるかを体系的に調査します。
私たちの分析は、政治的エリートの間での有毒な言説の著しい増加を明らかにし、それは反対の過激な右政党と政党に関連していることを明らかにしています。
毒性は、Covid-19のパンデミックの初期段階で著しく減少し、驚くべきことに、選挙運動中に減少しました。
さらに、我々の結果は、「文化戦争」に関連する投稿が移行やLGBTQ+の権利などのトピックが、福祉や経済問題に焦点を当てた議論よりもかなり有毒であることを示しています。
これらの発見は、建設的な民主的対話の侵食に対する国際民主主義の厄介な変化を強調しています。

要約(オリジナル)

Toxic and uncivil politics is widely seen as a growing threat to democratic values and governance, yet our understanding of the drivers and evolution of political incivility remains limited. Leveraging a novel dataset of nearly 18 million Twitter messages from parliamentarians in 17 countries over five years, this paper systematically investigates whether politics internationally is becoming more uncivil, and what are the determinants of political incivility. Our analysis reveals a marked increase in toxic discourse among political elites, and that it is associated to radical-right parties and parties in opposition. Toxicity diminished markedly during the early phase of the COVID-19 pandemic and, surprisingly, during election campaigns. Furthermore, our results indicate that posts relating to “culture war” topics, such as migration and LGBTQ+ rights, are substantially more toxic than debates focused on welfare or economic issues. These findings underscore a troubling shift in international democracies toward an erosion of constructive democratic dialogue.

arxiv情報

著者 Petter Törnberg,Juliana Chueri
発行日 2025-03-28 13:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Elite Political Discourse has Become More Toxic in Western Countries はコメントを受け付けていません

Whispering in Amharic: Fine-tuning Whisper for Low-resource Language

要約

この作業では、転写の精度を向上させるために、低リソース言語であるAmharicの微調整Openaiのささやき自動音声認識(ASR)モデルを探ります。
基本的なささやきモデルは、トレーニングデータの表現が限られているためAmharicと闘っていますが、Mozilla Common Voice、Fleurs、BDU-Speech Datasetなどのデータセットを使用して微調整します。
最高のパフォーマンスモデルであるWhispersmall-Amは、既存のFleursデータと新しい目に見えないAmharicデータセットの組み合わせで微調整されると大幅に改善されます。
新しいデータのみでのトレーニングはパフォーマンスの低下につながりますが、それをFleursデータと組み合わせることでモデルが強化され、AMHARICのより良い専門化が可能になります。
また、AMHARICの正規化により、単語エラー率(WER)およびバイリンガル評価アンダースタディ(BLE)スコアが大幅に向上することも実証しています。
この研究では、低リソース言語でASRを改善するための微調整戦略とデータセット構成の重要性を強調し、将来のAMHARIC音声認識研究の洞察を提供します。

要約(オリジナル)

This work explores fine-tuning OpenAI’s Whisper automatic speech recognition (ASR) model for Amharic, a low-resource language, to improve transcription accuracy. While the foundational Whisper model struggles with Amharic due to limited representation in its training data, we fine-tune it using datasets like Mozilla Common Voice, FLEURS, and the BDU-speech dataset. The best-performing model, Whispersmall-am, significantly improves when finetuned on a mix of existing FLEURS data and new, unseen Amharic datasets. Training solely on new data leads to poor performance, but combining it with FLEURS data reinforces the model, enabling better specialization in Amharic. We also demonstrate that normalizing Amharic homophones significantly enhances Word Error Rate (WER) and Bilingual Evaluation Understudy (BLEU) scores. This study underscores the importance of fine-tuning strategies and dataset composition for improving ASR in low-resource languages, providing insights for future Amharic speech recognition research.

arxiv情報

著者 Dawit Ketema Gete,Bedru Yimam Ahmed,Tadesse Destaw Belay,Yohannes Ayana Ejigu,Sukairaj Hafiz Imam,Alemu Belay Tessema,Mohammed Oumer Adem,Tadesse Amare Belay,Robert Geislinger,Umma Aliyu Musa,Martin Semmann,Shamsuddeen Hassan Muhammad,Henning Schreiber,Seid Muhie Yimam
発行日 2025-03-28 13:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Whispering in Amharic: Fine-tuning Whisper for Low-resource Language はコメントを受け付けていません

Long-Tail Crisis in Nearest Neighbor Language Models

要約

検索中のテキストデータから構築された大規模なデータストアに直接アクセスすることにより、検索された言語モデルの1つである$ k $ -nearest-neighbor言語モデル($ k $ nnnlm)は、特定のテキストの困惑を改善します。
$ k $ nnnlmの成功のための広く保持されている仮説は、その明示的なメモリ、つまりデータストアが長期尾現象の予測を強化することです。
ただし、以前の作品は主にロングテールのコンテキストを取得する能力を示しており、推論中の長期ターゲットトークンの確率を推定する際に、モデルのパフォーマンスを不足しているままにしておきます。
このホワイトペーパーでは、低周波トークンでの$ k $ nnnlmの動作を調査し、予測の確率、検索精度、データストアのトークン分布、および製品量子量化の近似誤差を調べます。
私たちの実験結果は、$ K $ nnn-LMが低周波トークンの予測パフォーマンスを改善しないが、主にデータストアの長期尾のコンテキストに関係なく高頻度のトークンに利益をもたらすことを明らかにしています。

要約(オリジナル)

The $k$-nearest-neighbor language model ($k$NN-LM), one of the retrieval-augmented language models, improves the perplexity for given text by directly accessing a large datastore built from any text data during inference. A widely held hypothesis for the success of $k$NN-LM is that its explicit memory, i.e., the datastore, enhances predictions for long-tail phenomena. However, prior works have primarily shown its ability to retrieve long-tail contexts, leaving the model’s performance remain underexplored in estimating the probabilities of long-tail target tokens during inference. In this paper, we investigate the behavior of $k$NN-LM on low-frequency tokens, examining prediction probability, retrieval accuracy, token distribution in the datastore, and approximation error of the product quantization. Our experimental results reveal that $k$NN-LM does not improve prediction performance for low-frequency tokens but mainly benefits high-frequency tokens regardless of long-tail contexts in the datastore.

arxiv情報

著者 Yuto Nishida,Makoto Morishita,Hiroyuki Deguchi,Hidetaka Kamigaito,Taro Watanabe
発行日 2025-03-28 13:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-Tail Crisis in Nearest Neighbor Language Models はコメントを受け付けていません

Scaling Laws of Scientific Discovery with AI and Robot Scientists

要約

科学的調査の急速な進化は、伝統的な研究の限界を超越する画期的な方法論の緊急の必要性を強調しています。
手動のプロセスとサイロ化された専門知識に悩まされている従来のアプローチは、現代の発見の要求に対応するのに苦労しています。
私たちは、自律的なジェネラリストの科学者(AGS)システム – 研究ライフサイクルを再定義するエージェントAIと具体化されたロボット工学の融合を想定しています。
このシステムは、物理的およびデジタルの領域を自律的にナビゲートし、異なる分野からの洞察を前例のない効率性と結びつけることを約束します。
高度なAIおよびロボットテクノロジーをあらゆる段階からの仮説からの定式化に埋め込むことにより、ピア対応の原稿に埋め込むと、多様な分野での科学研究に必要な時間とリソースを削減できます。
科学的発見が、そのようなシステムの拡散と洗練によって推進された新しいスケーリング法則に従う未来を予測しています。
これらの自律エージェントとロボットは、極端な環境に適応し、知識の貯水池の増加を活用して、パラダイムシフトを引き起こし、容赦ない革新の時代に可能なことの境界を押し広げ、先駆けとなる可能性があります。

要約(オリジナル)

The rapid evolution of scientific inquiry highlights an urgent need for groundbreaking methodologies that transcend the limitations of traditional research. Conventional approaches, bogged down by manual processes and siloed expertise, struggle to keep pace with the demands of modern discovery. We envision an autonomous generalist scientist (AGS) system-a fusion of agentic AI and embodied robotics-that redefines the research lifecycle. This system promises to autonomously navigate physical and digital realms, weaving together insights from disparate disciplines with unprecedented efficiency. By embedding advanced AI and robot technologies into every phase-from hypothesis formulation to peer-ready manuscripts-AGS could slash the time and resources needed for scientific research in diverse field. We foresee a future where scientific discovery follows new scaling laws, driven by the proliferation and sophistication of such systems. As these autonomous agents and robots adapt to extreme environments and leverage a growing reservoir of knowledge, they could spark a paradigm shift, pushing the boundaries of what’s possible and ushering in an era of relentless innovation.

arxiv情報

著者 Pengsong Zhang,Heng Zhang,Huazhe Xu,Renjun Xu,Zhenting Wang,Cong Wang,Animesh Garg,Zhibin Li,Arash Ajoudani,Xinyu Liu
発行日 2025-03-28 14:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | Scaling Laws of Scientific Discovery with AI and Robot Scientists はコメントを受け付けていません

Leveraging ASIC AI Chips for Homomorphic Encryption

要約

クラウドベースのサービスは、機密性の高いクライアントデータのアウトソーシングをますます一般的にしています。
同音異常(HE)は強力なプライバシー保証を提供しますが、プレーンテキストでの計算よりもかなり多くのリソースが必要であり、多くの場合、結果を得るのに容認できないほど大きな潜在性につながります。
彼の加速器は、この潜伏期の問題を軽減するために現れましたが、ASICのコストが高くなりました。
この論文では、彼のプリミティブをAI演算子に変換し、既存のASIC AI加速器(すでにクラウドに広く展開されているTPU)に加速できることを示しています。
彼のためにこのような加速器を適応させるには、(1)モジュラー乗算、(2)ソフトウェアの高精度算術、および(3)マトリックスエンジンの効率的なマッピングをサポートする必要があります。
クロスコンパイラ(1)を導入してバレット削減を採用して、乗数とアダーを使用したモジュール削減サポートを提供します。
エンジン。
Google TPUV4でのCrossの評価は、多くのコアCPUおよびV100の以前の研究と比較して、最大161倍および5倍のスピードアップで、大幅なパフォーマンスの改善を示しています。
カーネルレベルのコードは、https://github.com/google/jaxite/tree/main/jaxite_wordでオープンソースを販売しています。

要約(オリジナル)

Cloud-based services are making the outsourcing of sensitive client data increasingly common. Although homomorphic encryption (HE) offers strong privacy guarantee, it requires substantially more resources than computing on plaintext, often leading to unacceptably large latencies in getting the results. HE accelerators have emerged to mitigate this latency issue, but with the high cost of ASICs. In this paper we show that HE primitives can be converted to AI operators and accelerated on existing ASIC AI accelerators, like TPUs, which are already widely deployed in the cloud. Adapting such accelerators for HE requires (1) supporting modular multiplication, (2) high-precision arithmetic in software, and (3) efficient mapping on matrix engines. We introduce the CROSS compiler (1) to adopt Barrett reduction to provide modular reduction support using multiplier and adder, (2) Basis Aligned Transformation (BAT) to convert high-precision multiplication as low-precision matrix-vector multiplication, (3) Matrix Aligned Transformation (MAT) to covert vectorized modular operation with reduction into matrix multiplication that can be efficiently processed on 2D spatial matrix engine. Our evaluation of CROSS on a Google TPUv4 demonstrates significant performance improvements, with up to 161x and 5x speedup compared to the previous work on many-core CPUs and V100. The kernel-level codes are open-sourced at https://github.com/google/jaxite/tree/main/jaxite_word.

arxiv情報

著者 Jianming Tong,Tianhao Huang,Leo de Castro,Anirudh Itagi,Jingtian Dang,Anupam Golder,Asra Ali,Jevin Jiang,Arvind,G. Edward Suh,Tushar Krishna
発行日 2025-03-28 14:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL, cs.CR, cs.PL | Leveraging ASIC AI Chips for Homomorphic Encryption はコメントを受け付けていません