DAPE: Data-Adaptive Positional Encoding for Length Extrapolation

要約

位置エンコーディングはトランスフォーマーにおいて重要な役割を果たし、モデルのパフォーマンスと長さの一般化に大きな影響を与えます。
以前の研究では、特定のシーケンス内のトークンの位置を区別するために、絶対位置エンコーディング (APE) と相対位置エンコーディング (RPE) が導入されました。
ただし、APE と RPE はどちらも、入力データに関係なくモデルのトレーニング後に固定されたままとなり、適応性と柔軟性が制限されます。
したがって、目的の位置エンコーディングはデータ適応型である必要があり、所定の注意を払って動的に調整できることが期待されます。
この論文では、入力コンテキストと学習された固定事前分布に基づいて動的かつ意味論的に調整するデータ適応型位置エンコーディング (DAPE) 手法を提案します。
実世界のデータセット (Arxiv、Book3、CHE) での実験検証では、DAPE がトレーニングされた長さと長さの汎化の点でモデルのパフォーマンスを向上させ、統計的に有意な改善が見られることが実証されています。
モデルの視覚化は、モデルがローカル情報と反ローカル情報の両方を保持できることを示唆しています。
最後に、シーケンス長 128 でモデルをトレーニングすることに成功し、評価シーケンス長 8192 で他の静的位置エンコード方法と比較して優れたパフォーマンスを達成し、適応型位置エンコード方法の利点を明らかにしました。

要約(オリジナル)

Positional encoding plays a crucial role in transformers, significantly impacting model performance and length generalization. Prior research has introduced absolute positional encoding (APE) and relative positional encoding (RPE) to distinguish token positions in given sequences. However, both APE and RPE remain fixed after model training regardless of input data, limiting their adaptability and flexibility. Hence, we expect that the desired positional encoding should be data-adaptive and can be dynamically adjusted with the given attention. In this paper, we propose a Data-Adaptive Positional Encoding (DAPE) method, which dynamically and semantically adjusts based on input context and learned fixed priors. Experimental validation on real-world datasets (Arxiv, Books3, and CHE) demonstrates that DAPE enhances model performances in terms of trained length and length generalization, where the improvements are statistically significant. The model visualization suggests that our model can keep both local and anti-local information. Finally, we successfully train the model on sequence length 128 and achieve better performance at evaluation sequence length 8192, compared with other static positional encoding methods, revealing the benefit of the adaptive positional encoding method.

arxiv情報

著者 Chuanyang Zheng,Yihang Gao,Han Shi,Minbin Huang,Jingyao Li,Jing Xiong,Xiaozhe Ren,Michael Ng,Xin Jiang,Zhenguo Li,Yu Li
発行日 2024-10-10 16:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

要約

大規模言語モデル (LLM) の事前トレーニングを高速化するには、効率的なデータ選択が不可欠です。
データ効率を高めるためにさまざまな方法が提案されていますが、LLM 事前トレーニングに最適なデータ選択を達成するために、これらのアプローチ間の固有の矛盾に対処した研究は限られています。
この問題に取り組むために、我々は新しいマルチエージェント協調データ選択メカニズムを提案します。
このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェント コンソールは、LLM トレーニング プロセス全体を通じてすべてのエージェントからの情報を動的に統合するように設計されています。
当社では、マルチエージェント フレームワークを評価するために広範な実証研究を実施しています。
実験結果は、私たちのアプローチがデータ効率を大幅に向上させ、LLM トレーニングの収束を加速し、最先端の手法と比較して複数の言語モデルのベンチマーク全体で平均 10.5% のパフォーマンス向上を達成することを示しています。

要約(オリジナル)

Efficient data selection is crucial to accelerate the pretraining of large language models (LLMs). While various methods have been proposed to enhance data efficiency, limited research has addressed the inherent conflicts between these approaches to achieve optimal data selection for LLM pretraining. To tackle this problem, we propose a novel multi-agent collaborative data selection mechanism. In this framework, each data selection method serves as an independent agent, and an agent console is designed to dynamically integrate the information from all agents throughout the LLM training process. We conduct extensive empirical studies to evaluate our multi-agent framework. The experimental results demonstrate that our approach significantly improves data efficiency, accelerates convergence in LLM training, and achieves an average performance gain of 10.5% across multiple language model benchmarks compared to the state-of-the-art methods.

arxiv情報

著者 Tianyi Bai,Ling Yang,Zhen Hao Wong,Jiahui Peng,Xinlin Zhuang,Chi Zhang,Lijun Wu,Qiu Jiantao,Wentao Zhang,Binhang Yuan,Conghui He
発行日 2024-10-10 16:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures

要約

解釈可能性における普遍性の仮説は、異なるニューラル ネットワークが収束して、同様のタスクに対して同様のアルゴリズムを実装する可能性があることを示唆しています。
この研究では、言語モデリングの 2 つの主流アーキテクチャ、つまり Transformers と Mambas を調査し、それらのメカニズムの類似性の範囲を調査します。
私たちは、Sparse Autoencoder (SAE) を使用して、これらのモデルから解釈可能な特徴を分離し、これら 2 つのモデルでほとんどの特徴が類似していることを示すことを提案します。
また、特徴の類似性と普遍性の間の相関関係も検証します。
次に、Mamba モデルの回路レベルの解析を詳しく調べ、Mamba の誘導回路がトランスフォーマーの誘導回路と構造的に類似していることを発見しました。
また、 \emph{Off-by-One モチーフ} と呼ぶ微妙な違いも特定します。つまり、1 つのトークンの情報が、SSM 状態の次の位置に書き込まれます。
一方、トランスフォーマーのトークン間の相互作用にはそのような傾向は見られません。

要約(オリジナル)

The hypothesis of Universality in interpretability suggests that different neural networks may converge to implement similar algorithms on similar tasks. In this work, we investigate two mainstream architectures for language modeling, namely Transformers and Mambas, to explore the extent of their mechanistic similarity. We propose to use Sparse Autoencoders (SAEs) to isolate interpretable features from these models and show that most features are similar in these two models. We also validate the correlation between feature similarity and Universality. We then delve into the circuit-level analysis of Mamba models and find that the induction circuits in Mamba are structurally analogous to those in Transformers. We also identify a nuanced difference we call \emph{Off-by-One motif}: The information of one token is written into the SSM state in its next position. Whilst interaction between tokens in Transformers does not exhibit such trend.

arxiv情報

著者 Junxuan Wang,Xuyang Ge,Wentao Shu,Qiong Tang,Yunhua Zhou,Zhengfu He,Xipeng Qiu
発行日 2024-10-10 16:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

What Makes Large Language Models Reason in (Multi-Turn) Code Generation?

要約

思考連鎖などの即効性のある手法は、大規模言語モデル (LLM) の出力を向上させるための一般的な手段としての地位を確立しています。
ただし、コード生成については、その正確な仕組みと有効性は十分に調査されていません。
したがって、複数のターンにわたる自動再プロンプトと計算要件に焦点を当てて、幅広いプロンプト戦略の効果を調査します。
推論、指示、および実行のフィードバック プロンプトを体系的に分解した後、複数の LLM ファミリとサイズ (Llama 3.0 および 3.1、8B、70B、405B、および GPT-4o) に対して、競技プログラミング ベンチマーク CodeContests および TACO で広範なグリッド検索を実行します。
私たちの調査により、サンプリング予算が大小を問わず、すべてのモデルのパフォーマンスを一貫して向上させる戦略が明らかになりました。
次に、このような最適な構成で微調整することで、モデルがどのように誘導推論プロセスを内部化し、マルチターン コード生成のパフォーマンスとスケーラビリティを向上させることができるかを示します。

要約(オリジナル)

Prompting techniques such as chain-of-thought have established themselves as a popular vehicle for improving the outputs of large language models (LLMs). For code generation, however, their exact mechanics and efficacy are under-explored. We thus investigate the effects of a wide range of prompting strategies with a focus on automatic re-prompting over multiple turns and computational requirements. After systematically decomposing reasoning, instruction, and execution feedback prompts, we conduct an extensive grid search on the competitive programming benchmarks CodeContests and TACO for multiple LLM families and sizes (Llama 3.0 and 3.1, 8B, 70B, 405B, and GPT-4o). Our study reveals strategies that consistently improve performance across all models with small and large sampling budgets. We then show how finetuning with such an optimal configuration allows models to internalize the induced reasoning process and obtain improvements in performance and scalability for multi-turn code generation.

arxiv情報

著者 Kunhao Zheng,Juliette Decugis,Jonas Gehring,Taco Cohen,Benjamin Negrevergne,Gabriel Synnaeve
発行日 2024-10-10 16:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Think Beyond Size: Dynamic Prompting for More Effective Reasoning

要約

この文書では、大規模言語モデル (LLM) の推論機能の向上を目的とした新しいフレームワークである動的プロンプティングについて説明します。
従来の静的なプロンプト手法とは対照的に、動的プロンプトでは、リアルタイムのタスクの複雑さとモデルのパフォーマンスに基づいて、プロンプト シーケンスとステップ数を適応的に変更できます。
この動的な適応により、幻覚や反復サイクルが減少するため、特に小規模なモデルにおいて、より効率的な問題解決が促進されます。
私たちの経験的評価は、動的プロンプティングにより、小規模な LLM がはるかに大きなモデルと競合して実行できることを示しており、これにより、推論の有効性の主要な決定要因としてモデル サイズを重視する従来の考え方に挑戦することができます。

要約(オリジナル)

This paper presents Dynamic Prompting, a novel framework aimed at improving the reasoning capabilities of Large Language Models (LLMs). In contrast to conventional static prompting methods, Dynamic Prompting enables the adaptive modification of prompt sequences and step counts based on real-time task complexity and model performance. This dynamic adaptation facilitates more efficient problem-solving, particularly in smaller models, by reducing hallucinations and repetitive cycles. Our empirical evaluations demonstrate that Dynamic Prompting allows smaller LLMs to perform competitively with much larger models, thereby challenging the conventional emphasis on model size as the primary determinant of reasoning efficacy.

arxiv情報

著者 Kamesh R
発行日 2024-10-10 17:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

要約

大規模な言語モデルで推論を改善するための有望なアプローチは、プロセス報酬モデル (PRM) を使用することです。
PRM は、複数ステップの推論トレースの各ステップでフィードバックを提供するため、最終ステップでのみフィードバックを提供する結果報酬モデル (ORM) よりもクレジットの割り当てが向上する可能性があります。
ただし、ステップごとに人間による高密度のラベルを収集することはスケーラブルではなく、自動ラベル付けされたデータから PRM をトレーニングしても、これまでのところ効果は限られています。
PRM に対して検索を実行したり、強化学習 (RL) の高密度報酬として使用したりして、基本ポリシーを改善するには、「プロセス報酬をどのように設計すべきか?」と考えます。
私たちの重要な洞察は、効果的であるためには、ステップに対するプロセス報酬で進捗状況を測定する必要があるということです。つまり、ステップレベルの利点の概念に対応して、ステップを実行する前と後で、将来正しい応答を生成する可能性の変化です。
RLで。
重要なのは、この進捗状況は、基本ポリシーとは異なる証明者ポリシーに基づいて測定される必要があることです。
私たちは理論的に優れた証明者のセットを特徴づけ、その結果、そのような証明者からのプロセス報酬を最適化すると、テスト時の検索とオンライン RL 中の探索が向上することがわかりました。
実際、私たちの特徴付けは、弱い証明者ポリシーがより強力な基本ポリシーを大幅に改善できることを示しており、これは経験的にも観察されています。
私たちは、そのような証明者の下で進捗を予測するためにプロセス アドバンテージ検証者 (PAV) をトレーニングすることによって主張を検証し、ORM と比較して、PAV に対するテスト時検索の精度が $>8\%$ 高く、$1.5-5\times$ 高いことを示します。
計算効率が高い。
PAV からの豊富な報酬を備えたオンライン RL により、ORM と比較してサンプル効率が $5-6\times$ 向上し、精度が $>6\%$ 向上する最初の結果の 1 つが可能になります。

要約(オリジナル)

A promising approach for improving reasoning in large language models is to use process reward models (PRMs). PRMs provide feedback at each step of a multi-step reasoning trace, potentially improving credit assignment over outcome reward models (ORMs) that only provide feedback at the final step. However, collecting dense, per-step human labels is not scalable, and training PRMs from automatically-labeled data has thus far led to limited gains. To improve a base policy by running search against a PRM or using it as dense rewards for reinforcement learning (RL), we ask: ‘How should we design process rewards?’. Our key insight is that, to be effective, the process reward for a step should measure progress: a change in the likelihood of producing a correct response in the future, before and after taking the step, corresponding to the notion of step-level advantages in RL. Crucially, this progress should be measured under a prover policy distinct from the base policy. We theoretically characterize the set of good provers and our results show that optimizing process rewards from such provers improves exploration during test-time search and online RL. In fact, our characterization shows that weak prover policies can substantially improve a stronger base policy, which we also observe empirically. We validate our claims by training process advantage verifiers (PAVs) to predict progress under such provers, and show that compared to ORMs, test-time search against PAVs is $>8\%$ more accurate, and $1.5-5\times$ more compute-efficient. Online RL with dense rewards from PAVs enables one of the first results with $5-6\times$ gain in sample efficiency, and $>6\%$ gain in accuracy, over ORMs.

arxiv情報

著者 Amrith Setlur,Chirag Nagpal,Adam Fisch,Xinyang Geng,Jacob Eisenstein,Rishabh Agarwal,Alekh Agarwal,Jonathan Berant,Aviral Kumar
発行日 2024-10-10 17:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

The Effect of Surprisal on Reading Times in Information Seeking and Repeated Reading

要約

驚きが処理の困難に及ぼす影響は、心理言語学における研究の中心的なテーマとなっています。
ここでは、視線追跡データを使用して、日常生活で一般的であるものの、この問題に関しては取り上げられていない 3 つの言語処理体制、つまり情報探索、反復処理、およびその 2 つの組み合わせを調べます。
標準的なレジームに依存しないサプライズ推定を使用すると、処理時間に対するサプライズの線形効果の存在に関するサプライズ理論の予測がこれらのレジームにも及ぶことがわかります。
しかし、人間に与えられたコンテキストやタスクと一致する体制固有のコンテキストからの意外な推定値を使用すると、情報探索において、そのような推定値は標準的な驚きと比較して処理時間の予測能力を向上させないことがわかります。
さらに、レジーム固有のコンテキストでは、繰り返し読み取りの処理時間の予測力がなく、ほぼゼロの予想外の推定値が得られます。
これらの発見は、人間と現在の言語モデルとの間のタスクと記憶の表現の不整合を指摘しており、認知的に関連する量を推定するためにそのようなモデルがどの程度使用できるかについて疑問を投げかけています。
これらの結果によってもたらされる理論的課題についてさらに議論します。

要約(オリジナル)

The effect of surprisal on processing difficulty has been a central topic of investigation in psycholinguistics. Here, we use eyetracking data to examine three language processing regimes that are common in daily life but have not been addressed with respect to this question: information seeking, repeated processing, and the combination of the two. Using standard regime-agnostic surprisal estimates we find that the prediction of surprisal theory regarding the presence of a linear effect of surprisal on processing times, extends to these regimes. However, when using surprisal estimates from regime-specific contexts that match the contexts and tasks given to humans, we find that in information seeking, such estimates do not improve the predictive power of processing times compared to standard surprisals. Further, regime-specific contexts yield near zero surprisal estimates with no predictive power for processing times in repeated reading. These findings point to misalignments of task and memory representations between humans and current language models, and question the extent to which such models can be used for estimating cognitively relevant quantities. We further discuss theoretical challenges posed by these results.

arxiv情報

著者 Keren Gruteke Klein,Yoav Meiri,Omer Shubi,Yevgeni Berzak
発行日 2024-10-10 17:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

要約

大規模言語モデル (LLM) は優れた機能を発揮しますが、人間の好みに注意深く合わせる必要があります。
従来のトレーニング時間の方法では、人間の好みのデータセットを使用して LLM を微調整しますが、多大なトレーニング コストがかかり、多様なユーザーの好みに対応するにはトレーニングを繰り返す必要があります。
テスト時の調整方法では、報酬モデル (RM) を使用してフリーズした LLM を再トレーニングせずにガイドすることでこの問題に対処します。
ただし、既存のテスト時のアプローチは、完全な応答を評価するように設計された軌跡レベルの RM に依存しているため、部分応答から次のトークンの報酬を計算する必要がある自己回帰テキスト生成には適していません。
これに対処するために、自己回帰報酬モデルを活用したテスト時調整アプローチである GenARM を導入します。これは、効率的かつ効果的な自己回帰生成のための次のトークン報酬を予測するように設計された新しい報酬パラメータ化です。
理論的には、このパラメータ化により、KL 正則化強化学習フレームワーク内で従来の RM によって達成可能な任意の分布にフリーズ LLM を誘導できることが証明できることを示します。
実験結果は、GenARM が以前のテスト時調整ベースラインを大幅に上回り、トレーニング時メソッドのパフォーマンスに匹敵することを示しています。
さらに、GenARM は、大規模なモデルのトレーニングにかかる​​高いコストを発生させることなく、効率的な弱から強へのガイダンスを可能にし、大規模な LLM と小規模な RM を調整します。
さらに、GenARM は多目的アライメントをサポートしており、好みの次元間のリアルタイムのトレードオフを可能にし、再トレーニングすることなく多様なユーザーの好みに対応します。

要約(オリジナル)

Large Language Models (LLMs) exhibit impressive capabilities but require careful alignment with human preferences. Traditional training-time methods finetune LLMs using human preference datasets but incur significant training costs and require repeated training to handle diverse user preferences. Test-time alignment methods address this by using reward models (RMs) to guide frozen LLMs without retraining. However, existing test-time approaches rely on trajectory-level RMs which are designed to evaluate complete responses, making them unsuitable for autoregressive text generation that requires computing next-token rewards from partial responses. To address this, we introduce GenARM, a test-time alignment approach that leverages the Autoregressive Reward Model–a novel reward parametrization designed to predict next-token rewards for efficient and effective autoregressive generation. Theoretically, we demonstrate that this parametrization can provably guide frozen LLMs toward any distribution achievable by traditional RMs within the KL-regularized reinforcement learning framework. Experimental results show that GenARM significantly outperforms prior test-time alignment baselines and matches the performance of training-time methods. Additionally, GenARM enables efficient weak-to-strong guidance, aligning larger LLMs with smaller RMs without the high costs of training larger models. Furthermore, GenARM supports multi-objective alignment, allowing real-time trade-offs between preference dimensions and catering to diverse user preferences without retraining.

arxiv情報

著者 Yuancheng Xu,Udari Madhushani Sehwag,Alec Koppel,Sicheng Zhu,Bang An,Furong Huang,Sumitra Ganesh
発行日 2024-10-10 17:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Knowledge-Aware Parsimony Learning: A Perspective from Relational Graphs

要約

スケーリング則は、トレーニング データセットと学習可能なパラメータの強引な拡張を伴い、より堅牢な学習モデルを開発するための一般的な戦略となっています。
しかし、データ、計算、信頼におけるボトルネックにより、スケーリング則の持続可能性はディープラーニングの将来にとって深刻な懸念事項となっています。
この論文では、倹約的な方法で次世代モデルを開発する (つまり、より単純なモデルでより大きな可能性を実現する) ことで、この問題に対処します。
重要なのは、スケーリング則に依存するのではなく、シンボル、ロジック、数式などのドメイン固有の知識を使用してモデルを駆動することです。
このアプローチにより、この知識を「構成要素」として使用して、モデルの設計、トレーニング、解釈の節約を実現するフレームワークを構築できます。
経験的な結果は、私たちの方法がスケーリング則に通常従う方法を上回っていることを示しています。
また、科学用 AI、特に薬物間相互作用予測の問題におけるフレームワークの応用も実証します。
私たちの研究が、基礎モデルの時代におけるより多様な技術ロードマップを促進できることを願っています。

要約(オリジナル)

The scaling law, which involves the brute-force expansion of training datasets and learnable parameters, has become a prevalent strategy for developing more robust learning models. However, due to bottlenecks in data, computation, and trust, the sustainability of the scaling law is a serious concern for the future of deep learning. In this paper, we address this issue by developing next-generation models in a parsimonious manner (i.e., achieving greater potential with simpler models). The key is to drive models using domain-specific knowledge, such as symbols, logic, and formulas, instead of relying on the scaling law. This approach allows us to build a framework that uses this knowledge as ‘building blocks’ to achieve parsimony in model design, training, and interpretation. Empirical results show that our methods surpass those that typically follow the scaling law. We also demonstrate the application of our framework in AI for science, specifically in the problem of drug-drug interaction prediction. We hope our research can foster more diverse technical roadmaps in the era of foundation models.

arxiv情報

著者 Quanming Yao,Yongqi Zhang,Yaqing Wang,Nan Yin,James Kwok,Qiang Yang
発行日 2024-10-10 15:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Contrastive Learning Via Equivariant Representation

要約

不変対照学習 (ICL) 手法は、さまざまなドメインにわたって優れたパフォーマンスを達成しました。
ただし、潜在空間内の歪み (拡張) 関連情報の潜在空間表現が欠如しているため、ICL は下流タスクでのトレーニング効率とロバスト性に関して最適ではありません。
最近の研究では、対照学習 (CL) に等分散性を導入すると、全体的なパフォーマンスが向上する可能性があることが示唆されています。
この論文では、CL の有効性向上における増強戦略と等分散の役割を再検討します。
我々は、さまざまな主流のCLバックボーンモデルに対する任意の複雑さの拡張戦略と互換性のある新しい等変対比学習フレームワークであるCLeVER(等変表現による対比学習)を提案します。
実験結果は、CLeVER が実用的な自然画像から等変情報を効果的に抽出して組み込むことで、下流タスクにおけるベースライン モデルのトレーニング効率と堅牢性を向上させ、最先端 (SOTA) パフォーマンスを達成できることを示しています。
さらに、CLeVER によって抽出された等変情報を活用すると、実験タスク全体での回転不変性と感度が同時に強化され、特に小規模なバックボーンを持つモデルの場合、複雑な拡張を処理するときにフレームワークの安定化に役立つことがわかりました。

要約(オリジナル)

Invariant Contrastive Learning (ICL) methods have achieved impressive performance across various domains. However, the absence of latent space representation for distortion (augmentation)-related information in the latent space makes ICL sub-optimal regarding training efficiency and robustness in downstream tasks. Recent studies suggest that introducing equivariance into Contrastive Learning (CL) can improve overall performance. In this paper, we revisit the roles of augmentation strategies and equivariance in improving CL’s efficacy. We propose CLeVER (Contrastive Learning Via Equivariant Representation), a novel equivariant contrastive learning framework compatible with augmentation strategies of arbitrary complexity for various mainstream CL backbone models. Experimental results demonstrate that CLeVER effectively extracts and incorporates equivariant information from practical natural images, thereby improving the training efficiency and robustness of baseline models in downstream tasks and achieving state-of-the-art (SOTA) performance. Moreover, we find that leveraging equivariant information extracted by CLeVER simultaneously enhances rotational invariance and sensitivity across experimental tasks, and helps stabilize the framework when handling complex augmentations, particularly for models with small-scale backbones.

arxiv情報

著者 Sifan Song,Jinfeng Wang,Qiaochu Zhao,Xiang Li,Dufan Wu,Angelos Stefanidis,Jionglong Su,S. Kevin Zhou,Quanzheng Li
発行日 2024-10-10 15:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする