Evaluating Uncertainty in Deep Gaussian Processes

要約

信頼できる不確実性の推定値は、現代の機械学習において重要です。
ディープガウスプロセス(DGPS)およびディープシグマポイントプロセス(DSPP)はGPSを階層的に拡張し、ベイジアンの原理に基づいた不確実性の定量化の有望な方法を提供します。
ただし、ディープアンサンブルのようなベースラインと比較して、分布シフト下での経験的キャリブレーションと堅牢性は留まられたままです。
この作業は、これらのモデルを回帰(CASPデータセット)および分類(ESRデータセット)タスクで評価し、予測パフォーマンス(MAE、Accuracy)、ネガティブログリケリ(NLL)および予想キャリブレーションエラー(ECE)を使用したキャリブレーション、およびさまざまな合成特徴レベルの分布シフトの下での堅牢性とともに評価します。
結果は、DSPPがシグマポイント近似を活用する強力な分配内式キャリブレーションを提供することを示しています。
ただし、テストされたシフト下でのパフォーマンスとキャリブレーションの両方で優れた堅牢性を示したディープアンサンブルと比較して、GPベースの方法は脆弱性を示し、観察されたメトリックに特定の感度を示しました。
私たちの調査結果は、堅牢なベースラインとしてアンサンブルを強調しており、深いGPメソッドは良好な分散型式キャリブレーションを提供する一方で、分布シフト下での実際的な堅牢性には慎重な評価が必要であることを示唆しています。
再現性を促進するために、https://github.com/matthjs/xai-gpでコードを利用できるようにします。

要約(オリジナル)

Reliable uncertainty estimates are crucial in modern machine learning. Deep Gaussian Processes (DGPs) and Deep Sigma Point Processes (DSPPs) extend GPs hierarchically, offering promising methods for uncertainty quantification grounded in Bayesian principles. However, their empirical calibration and robustness under distribution shift relative to baselines like Deep Ensembles remain understudied. This work evaluates these models on regression (CASP dataset) and classification (ESR dataset) tasks, assessing predictive performance (MAE, Accu- racy), calibration using Negative Log-Likelihood (NLL) and Expected Calibration Error (ECE), alongside robustness under various synthetic feature-level distribution shifts. Results indicate DSPPs provide strong in-distribution calibration leveraging their sigma point approximations. However, compared to Deep Ensembles, which demonstrated superior robustness in both per- formance and calibration under the tested shifts, the GP-based methods showed vulnerabilities, exhibiting particular sensitivity in the observed metrics. Our findings underscore ensembles as a robust baseline, suggesting that while deep GP methods offer good in-distribution calibration, their practical robustness under distribution shift requires careful evaluation. To facilitate reproducibility, we make our code available at https://github.com/matthjs/xai-gp.

arxiv情報

著者 Matthijs van der Lende,Jeremias Lino Ferrao,Niclas Müller-Hof
発行日 2025-04-24 16:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Evaluating Uncertainty in Deep Gaussian Processes はコメントを受け付けていません

Towards Robust LLMs: an Adversarial Robustness Measurement Framework

要約

大規模な言語モデル(LLMS)の台頭は人工知能に革命をもたらしましたが、これらのモデルは敵対的な摂動に対して脆弱なままであり、ハイステークスアプリケーションでの信頼性を損ないます。
視覚ベースのニューラルネットワークにおける敵対的な堅牢性が広範囲に研究されていますが、LLMの堅牢性は引き続き標識されていません。
モデルパラメーターへのアクセスを必要とせずに、LLMレジリエンスを敵対的な入力に対するLLMレジリエンスを定量化するために、堅牢性測定と評価(ROMA)フレームワークを適応させます。
Romaの推定値を正式な検証方法の推定値と比較することにより、計算効率を維持しながら、エラーマージンを最小限に抑えて精度を示します。
私たちの経験的評価は、堅牢性は異なるモデル間だけでなく、同じタスク内のカテゴリ間およびさまざまなタイプの摂動間でも大きく異なることを明らかにしています。
この不均一性は、タスク固有の堅牢性評価の必要性を強調し、実践者がアプリケーション固有の堅牢性要件に基づいてモデルを比較および選択できるようにすることができます。
私たちの仕事は、LLMの堅牢性を評価するための体系的な方法論を提供し、実際の展開のためのより信頼性の高い言語モデルの開発を進めます。

要約(オリジナル)

The rise of Large Language Models (LLMs) has revolutionized artificial intelligence, yet these models remain vulnerable to adversarial perturbations, undermining their reliability in high-stakes applications. While adversarial robustness in vision-based neural networks has been extensively studied, LLM robustness remains under-explored. We adapt the Robustness Measurement and Assessment (RoMA) framework to quantify LLM resilience against adversarial inputs without requiring access to model parameters. By comparing RoMA’s estimates to those of formal verification methods, we demonstrate its accuracy with minimal error margins while maintaining computational efficiency. Our empirical evaluation reveals that robustness varies significantly not only between different models but also across categories within the same task and between various types of perturbations. This non-uniformity underscores the need for task-specific robustness evaluations, enabling practitioners to compare and select models based on application-specific robustness requirements. Our work provides a systematic methodology to assess LLM robustness, advancing the development of more reliable language models for real-world deployment.

arxiv情報

著者 Natan Levy,Adiel Ashrov,Guy Katz
発行日 2025-04-24 16:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Towards Robust LLMs: an Adversarial Robustness Measurement Framework はコメントを受け付けていません

Interpretable Early Detection of Parkinson’s Disease through Speech Analysis

要約

パーキンソン病は、運動および非運動機能に影響を与える進行性神経変性障害であり、その初期の症状の中で言語障害があります。
音声障害は貴重な診断の機会を提供し、機械学習の進歩はタイムリーな検出のための有望なツールを提供します。
この研究では、音声記録からの初期のパーキンソン病の検出のための深い学習アプローチを提案します。これは、解釈可能性を高めるために予測を促進する声のセグメントも強調しています。
このアプローチは、予測音声パターンを調音の特徴と関連付け、基礎となる神経筋障害を解釈するための基礎を提供することを目指しています。
イタリアのパーキンソンの音声および音声データベースを使用してアプローチを評価しました。これは、健康な個人と患者の両方を含む65人の参加者からの831のオーディオ録音を含んでいます。
私たちのアプローチは、予測に影響を与える主要な音声機能を特定することにより、最先端の方法と比較して競争分類パフォーマンスを示し、解釈性を高めることができました。

要約(オリジナル)

Parkinson’s disease is a progressive neurodegenerative disorder affecting motor and non-motor functions, with speech impairments among its earliest symptoms. Speech impairments offer a valuable diagnostic opportunity, with machine learning advances providing promising tools for timely detection. In this research, we propose a deep learning approach for early Parkinson’s disease detection from speech recordings, which also highlights the vocal segments driving predictions to enhance interpretability. This approach seeks to associate predictive speech patterns with articulatory features, providing a basis for interpreting underlying neuromuscular impairments. We evaluated our approach using the Italian Parkinson’s Voice and Speech Database, containing 831 audio recordings from 65 participants, including both healthy individuals and patients. Our approach showed competitive classification performance compared to state-of-the-art methods, while providing enhanced interpretability by identifying key speech features influencing predictions.

arxiv情報

著者 Lorenzo Simone,Mauro Giuseppe Camporeale,Vito Marco Rubino,Vincenzo Gervasi,Giovanni Dimauro
発行日 2025-04-24 16:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Interpretable Early Detection of Parkinson’s Disease through Speech Analysis はコメントを受け付けていません

Embedding Empirical Distributions for Computing Optimal Transport Maps

要約

分布データは、最新の信号処理でますます顕著になっており、複数の確率分布にわたるコンピューティング最適輸送(OT)マップの必要性を強調しています。
それにもかかわらず、2つの分布間の単一マップの効率的な計算に主に焦点を当てた神経OTメソッドに関する最近の研究が主に焦点を合わせていました。
この課題に対処するために、新しい経験的分布のための輸送マップを学習するための新しいアプローチを紹介します。
具体的には、変圧器アーキテクチャを使用して、さまざまな長さの分布データから埋め込みを生成します。
これらの埋め込みは、ハイパーネットワークに供給され、神経OTマップを生成します。
埋め込みと生成されたOTマップを検証するために、さまざまな数値実験が実施されました。
モデルの実装とコードは、https://github.com/jiangmingchen/hotetで提供されます。

要約(オリジナル)

Distributional data have become increasingly prominent in modern signal processing, highlighting the necessity of computing optimal transport (OT) maps across multiple probability distributions. Nevertheless, recent studies on neural OT methods predominantly focused on the efficient computation of a single map between two distributions. To address this challenge, we introduce a novel approach to learning transport maps for new empirical distributions. Specifically, we employ the transformer architecture to produce embeddings from distributional data of varying length; these embeddings are then fed into a hypernetwork to generate neural OT maps. Various numerical experiments were conducted to validate the embeddings and the generated OT maps. The model implementation and the code are provided on https://github.com/jiangmingchen/HOTET.

arxiv情報

著者 Mingchen Jiang,Peng Xu,Xichen Ye,Xiaohui Chen,Yun Yang,Yifan Chen
発行日 2025-04-24 16:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Embedding Empirical Distributions for Computing Optimal Transport Maps はコメントを受け付けていません

Siren — Advancing Cybersecurity through Deception and Adaptive Analysis

要約

サイレンは、欺ception、機械学習、積極的な脅威分析の戦略的統合を通じてサイバーセキュリティを強化することを目的とした先駆的な研究努力を表しています。
神話上のサイレンからインスピレーションを得るこのプロジェクトは、潜在的な脅威を制御された環境に誘惑するために洗練された方法を採用しています。
このシステムは、リアルタイム分析と分類のための動的な機械学習モデルを備えており、新たなサイバー脅威に対する継続的な適応性を確保しています。
アーキテクチャのフレームワークには、リンク監視プロキシ、動的リンク分析のための専用の機械学習モデル、シミュレートされたユーザーインタラクションが豊富なハニーポットが脅威エンゲージメントを強化することが含まれます。
ハニーポット内のデータ保護は、確率的暗号化で強化されています。
さらに、シミュレートされたユーザーアクティビティを組み込むことで、ユーザーの離脱後でも潜在的な攻撃者からキャプチャおよび学習するシステムの能力が拡張されます。
全体として、サイレンはサイバーセキュリティのパラダイムシフトを導入し、従来の防御メカニズムを潜在的な敵から積極的に関与し、学習する積極的なシステムに変換します。
この研究は、サイバーセキュリティの脅威の進化する状況に応じて、継続的な改良のための貴重な洞察をもたらしながら、ユーザー保護を強化するよう努めています。

要約(オリジナル)

Siren represents a pioneering research effort aimed at fortifying cybersecurity through strategic integration of deception, machine learning, and proactive threat analysis. Drawing inspiration from mythical sirens, this project employs sophisticated methods to lure potential threats into controlled environments. The system features a dynamic machine learning model for realtime analysis and classification, ensuring continuous adaptability to emerging cyber threats. The architectural framework includes a link monitoring proxy, a purpose-built machine learning model for dynamic link analysis, and a honeypot enriched with simulated user interactions to intensify threat engagement. Data protection within the honeypot is fortified with probabilistic encryption. Additionally, the incorporation of simulated user activity extends the system’s capacity to capture and learn from potential attackers even after user disengagement. Overall, Siren introduces a paradigm shift in cybersecurity, transforming traditional defense mechanisms into proactive systems that actively engage and learn from potential adversaries. The research strives to enhance user protection while yielding valuable insights for ongoing refinement in response to the evolving landscape of cybersecurity threats.

arxiv情報

著者 Samhruth Ananthanarayanan,Girish Kulathumani,Ganesh Narayanan
発行日 2025-04-24 17:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, I.2.7 | Siren — Advancing Cybersecurity through Deception and Adaptive Analysis はコメントを受け付けていません

MSGCN: Multiplex Spatial Graph Convolution Network for Interlayer Link Weight Prediction

要約

グラフニューラルネットワーク(GNNS)は、ノード分類からリンク予測まで、さまざまな学習タスクに広く使用されています。
彼らは、グラフ構造データを含む複数のドメインで優れたパフォーマンスを実証しています。
ただし、学習タスクの重要なカテゴリ、すなわちリンク重量予測は、バイナリリンク分類と比較して複雑さが増加するため、あまり重点を置いていません。
リンクの重量予測は、複数のレイヤー間でノードを相互接続できるマルチレイヤーネットワークを考慮すると、さらに困難になります。
これらの課題に対処するために、Multiplex Spatial Graph Convolution Network(MSGCN)という名前の新しい方法を提案します。これは、複数のレイヤーに情報を空間的に埋め込み、層間リンクの重みを予測します。
MSGCNモデルは、空間グラフの畳み込みをマルチプレックスネットワークに一般化し、複数のレイヤーにまたがるノードの幾何学的構造をキャプチャします。
既知のインターレイヤーリンク情報を使用したデータを使用した広範な実験は、MSGCNモデルが多種多様なマルチプレックスネットワーク構造にわたって堅牢で正確で一般化可能なリンク重み予測パフォーマンスを持っていることを示しています。

要約(オリジナル)

Graph Neural Networks (GNNs) have been widely used for various learning tasks, ranging from node classification to link prediction. They have demonstrated excellent performance in multiple domains involving graph-structured data. However, an important category of learning tasks, namely link weight prediction, has received less emphasis due to its increased complexity compared to binary link classification. Link weight prediction becomes even more challenging when considering multilayer networks, where nodes can be interconnected across multiple layers. To address these challenges, we propose a new method named Multiplex Spatial Graph Convolution Network (MSGCN), which spatially embeds information across multiple layers to predict interlayer link weights. The MSGCN model generalizes spatial graph convolution to multiplex networks and captures the geometric structure of nodes across multiple layers. Extensive experiments using data with known interlayer link information show that the MSGCN model has robust, accurate, and generalizable link weight prediction performance across a wide variety of multiplex network structures.

arxiv情報

著者 Steven E. Wilson,Sina Khanmohammadi
発行日 2025-04-24 17:08:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MSGCN: Multiplex Spatial Graph Convolution Network for Interlayer Link Weight Prediction はコメントを受け付けていません

Disaggregated Deep Learning via In-Physics Computing at Radio Frequency

要約

カメラ、ドローン、インターネットノードなどの最新のエッジデバイスは、オブジェクト認識、環境知覚、自律ナビゲーションなど、幅広いインテリジェントアプリケーションを可能にするために、深い学習に依存しています。
ただし、多くの場合、リソースに制約されているエッジデバイスにディープラーニングモデルを直接展開するには、従来のデジタルコンピューティングアーキテクチャを使用して、リアルタイム推論のための重要なメモリフットプリントと計算能力が必要です。
この論文では、深い学習推論におけるエネルギーの制約を克服するために設計されたワイヤレスエッジネットワークの新しいコンピューティングアーキテクチャであるWiseを紹介します。
Wiseは、2つの重要なイノベーションを通じてこの目標を達成します。ワイヤレスブロードキャストを介した分解モデルアクセスと、無線周波数での一般的な複雑なマトリックスベクトル乗算の一般的な物理学計算です。
空気上でワイヤレスブロードキャストモデルの重みを備えたソフトウェア定義のラジオプラットフォームを使用して、ワイズが165.8 TOPS/Wの計算効率に対応するクライアントごとに6.0 FJ/MACの超低動作電力で95.7%の画像分類精度を達成することを実証します。
このアプローチにより、ワイヤレスに接続されたエッジデバイスでのエネルギー効率の高い深い学習推論が可能になり、従来のデジタルコンピューティングと比較して、効率が2桁以上改善されます。

要約(オリジナル)

Modern edge devices, such as cameras, drones, and Internet-of-Things nodes, rely on deep learning to enable a wide range of intelligent applications, including object recognition, environment perception, and autonomous navigation. However, deploying deep learning models directly on the often resource-constrained edge devices demands significant memory footprints and computational power for real-time inference using traditional digital computing architectures. In this paper, we present WISE, a novel computing architecture for wireless edge networks designed to overcome energy constraints in deep learning inference. WISE achieves this goal through two key innovations: disaggregated model access via wireless broadcasting and in-physics computation of general complex-valued matrix-vector multiplications directly at radio frequency. Using a software-defined radio platform with wirelessly broadcast model weights over the air, we demonstrate that WISE achieves 95.7% image classification accuracy with ultra-low operation power of 6.0 fJ/MAC per client, corresponding to a computation efficiency of 165.8 TOPS/W. This approach enables energy-efficient deep learning inference on wirelessly connected edge devices, achieving more than two orders of magnitude improvement in efficiency compared to traditional digital computing.

arxiv情報

著者 Zhihui Gao,Sri Krishna Vadlamani,Kfir Sulimany,Dirk Englund,Tingjun Chen
発行日 2025-04-24 17:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG, eess.SP, physics.app-ph | Disaggregated Deep Learning via In-Physics Computing at Radio Frequency はコメントを受け付けていません

Replay to Remember: Retaining Domain Knowledge in Streaming Language Models

要約

大規模な言語モデル(LLMS)での継続的な学習は、通常、壊滅的な忘却の重要な課題に遭遇します。これは、以前に獲得した知識が新しいデータにさらされると悪化します。
リプレイバッファーやパラメーター効率の高いチューニング(低ランク適応やLORAなど)などの手法が提案されていますが、厳格な計算およびデータストリーム制約の下でリアルタイムドメイン適応を調査する研究はほとんどありません。
この論文では、3つの多様な知識領域の現実的なストリーミング設定でLORAと最小限のリプレイメカニズムを組み合わせた軽量の方法を示します:医療質問応答、遺伝学、および法律。
困惑、セマンティックの類似性、およびGPTベースの人間のような評価メトリックを使用して、時間の経過とともにモデルの適応、忘却、回復を定量化します。
私たちの実験は、壊滅的な忘却が自然に起こることを明らかにしていますが、最小限のリプレイでさえもドメイン固有の知識を大幅に安定させ、部分的に回復することが明らかになりました。
この研究は、リソースが制約された現実世界のシナリオに適応性のあるLLMを展開するための実用的な洞察を提供しています。

要約(オリジナル)

Continual learning in large language models (LLMs) typically encounters the critical challenge of catastrophic forgetting, where previously acquired knowledge deteriorates upon exposure to new data. While techniques like replay buffers and parameter-efficient tuning (e.g., Low-Rank Adaptation or LoRA) have been proposed, few studies investigate real-time domain adaptation under strict computational and data-stream constraints. In this paper, we demonstrate a lightweight method combining LoRA and a minimal replay mechanism in a realistic streaming setting across three diverse knowledge domains: medical question answering, genetics, and law. Using perplexity, semantic similarity, and GPT-based human-like evaluation metrics, we quantify the model’s adaptation, forgetting, and recovery over time. Our experiments reveal that while catastrophic forgetting naturally occurs, even minimal replay significantly stabilizes and partially restores domain-specific knowledge. This study contributes practical insights for deploying adaptable LLMs in resource-constrained, real-world scenarios.

arxiv情報

著者 Sneh Pillai
発行日 2025-04-24 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Replay to Remember: Retaining Domain Knowledge in Streaming Language Models はコメントを受け付けていません

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources

要約

ユニバーサルサウンドセパレーションは、混合オーディオからの明確なイベントに対応するクリーンなオーディオトラックを抽出することを目的としています。これは、人工聴覚の知覚に重要です。
ただし、現在の方法は、人工的に混合されたオーディオのトレーニングに大きく依存しているため、実際の環境で収集された自然に混合されたオーディオに一般化する能力が制限されています。
この制限を克服するために、データエンジンを採用して複雑な自然混合オーディオを複数の独立したトラックに分解し、実際のシナリオで効果的なサウンド分離を可能にするClearSepを提案します。
2つのリミックスベースの評価メトリックを導入して、分離品質を定量的に評価し、これらのメトリックをしきい値として使用して、モデルトレーニングとともにデータエンジンを繰り返し適用し、分離パフォーマンスを徐々に最適化します。
さらに、これらの分離された独立したトラックに合わせて調整された一連のトレーニング戦略を提案して、それらを最大限に活用します。
広範な実験は、ClearSepが複数のサウンド分離タスクにわたって最先端のパフォーマンスを達成し、自然なオーディオシナリオでサウンド分離を進める可能性を強調することを示しています。
その他の例と詳細な結果については、https://clearsep.github.ioのデモページをご覧ください。

要約(オリジナル)

Universal sound separation aims to extract clean audio tracks corresponding to distinct events from mixed audio, which is critical for artificial auditory perception. However, current methods heavily rely on artificially mixed audio for training, which limits their ability to generalize to naturally mixed audio collected in real-world environments. To overcome this limitation, we propose ClearSep, an innovative framework that employs a data engine to decompose complex naturally mixed audio into multiple independent tracks, thereby allowing effective sound separation in real-world scenarios. We introduce two remix-based evaluation metrics to quantitatively assess separation quality and use these metrics as thresholds to iteratively apply the data engine alongside model training, progressively optimizing separation performance. In addition, we propose a series of training strategies tailored to these separated independent tracks to make the best use of them. Extensive experiments demonstrate that ClearSep achieves state-of-the-art performance across multiple sound separation tasks, highlighting its potential for advancing sound separation in natural audio scenarios. For more examples and detailed results, please visit our demo page at https://clearsep.github.io.

arxiv情報

著者 Xize Cheng,Slytherin Wang,Zehan Wang,Rongjie Huang,Tao Jin,Zhou Zhao
発行日 2025-04-24 17:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD | Unleashing the Power of Natural Audio Featuring Multiple Sound Sources はコメントを受け付けていません

Looking beyond the next token

要約

因果言語モデルトレーニングの構造は、各トークンを前のコンテキストから正確に予測できると想定しています。
これは、人間の自然な執筆と推論プロセスとは対照的であり、通常、正確な議論やフレーズの前に目標が知られています。
このミスマッチは文献でよく研究されていますが、この不一致に対処するには建築的変化が必要であるという作業の仮定があります。
トレーニングデータシーケンスの再配置と処理により、モデルは真のデータ生成プロセスをより正確に模倣できるようになり、アーキテクチャまたはトレーニングインフラストラクチャに他の変更を必要としないと主張します。
この手法、Trelawney、およびそれから導き出された推論アルゴリズムにより、計画、アルゴリズムの推論、ストーリー生成タスクにまたがるいくつかの重要なベンチマークのパフォーマンスを改善できることを実証します。
最後に、当社の方法は、自然に追加費用なしで長期目標の生成を可能にします。
モデルの目標生成機能を使用することで、計画と推論がさらに改善される方法を調査します。
さらに、Trelawneyは、現在の言語モデリングのパラダイムを超えて新しい機能への扉を開く可能性があると考えています。

要約(オリジナル)

The structure of causal language model training assumes that each token can be accurately predicted from the previous context. This contrasts with humans’ natural writing and reasoning process, where goals are typically known before the exact argument or phrasings. While this mismatch has been well studied in the literature, the working assumption has been that architectural changes are needed to address this mismatch. We argue that rearranging and processing the training data sequences can allow models to more accurately imitate the true data-generating process, and does not require any other changes to the architecture or training infrastructure. We demonstrate that this technique, Trelawney, and the inference algorithms derived from it allow us to improve performance on several key benchmarks that span planning, algorithmic reasoning, and story generation tasks. Finally, our method naturally enables the generation of long-term goals at no additional cost. We investigate how using the model’s goal-generation capability can further improve planning and reasoning. Additionally, we believe Trelawney could potentially open doors to new capabilities beyond the current language modeling paradigm.

arxiv情報

著者 Abitha Thankaraj,Yiding Jiang,J. Zico Kolter,Yonatan Bisk
発行日 2025-04-24 03:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Looking beyond the next token はコメントを受け付けていません