Focused ReAct: Improving ReAct through Reiterate and Early Stop

要約

ReAct などのメソッドに見られるように、大規模言語モデル (LLM) は推論および意思決定の能力を大幅に向上させました。
しかし、ReAct は複雑なタスクに取り組む上では有効であるにもかかわらず、元の質問に焦点を合わせられなくなることと、アクション ループに陥ることという 2 つの主な課題に直面しています。
これらの問題に対処するために、反復と早期停止メカニズムを組み込んだ ReAct パラダイムの拡張バージョンである Focused ReAct を導入します。
これらの改善により、モデルは元のクエリに集中し続け、反復的な動作を回避することができます。
実験結果では、元の ReAct メソッドと比較して精度が 18% ~ 530% 向上し、実行時間が最大 34% 短縮されたことが示されています。

要約(オリジナル)

Large language models (LLMs) have significantly improved their reasoning and decision-making capabilities, as seen in methods like ReAct. However, despite its effectiveness in tackling complex tasks, ReAct faces two main challenges: losing focus on the original question and becoming stuck in action loops. To address these issues, we introduce Focused ReAct, an enhanced version of the ReAct paradigm that incorporates reiteration and early stop mechanisms. These improvements help the model stay focused on the original query and avoid repetitive behaviors. Experimental results show accuracy gains of 18% to 530% and a runtime reduction of up to 34% compared to the original ReAct method.

arxiv情報

著者 Shuoqiu Li,Han Xu,Haipeng Chen
発行日 2024-10-14 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Focused ReAct: Improving ReAct through Reiterate and Early Stop はコメントを受け付けていません

When Attention Sink Emerges in Language Models: An Empirical View

要約

言語モデル (LM) は、たとえ意味的に重要でなくても、最初のトークンに重要な注意を割り当てます。これはアテンション シンクとして知られています。
この現象は、ストリーミング/ロング コンテキストの生成、KV キャッシュの最適化、推論の高速化、モデルの量子化などのアプリケーションで広く採用されています。
広く使用されているにもかかわらず、LM における注意の低下についての深い理解はまだ不足しています。
この研究では、小さなモデルであっても、さまざまな入力を持つ LM にアテンション シンクが普遍的に存在することを初めて実証します。
さらに、LM 事前トレーニング中にアテンション シンクが出現することが観察されており、LM 事前トレーニングにおける最適化、データ分散、損失関数、モデル アーキテクチャがその出現にどのように影響するかを調査する動機となります。
十分なトレーニング データに対する効果的な最適化の後にアテンション シンクが現れることを強調します。
シンクの位置は、損失関数およびデータ分布と高い相関があります。
最も重要なことは、アテンション シンクはキー バイアスのように機能し、有益ではなく価値の計算に寄与しない可能性がある追加の注意スコアを保存することがわかりました。
また、この現象は (少なくとも部分的には) ソフトマックス正規化の結果としての注意スコアに対するトークンの内部依存に起因することも観察されています。
ソフトマックス アテンションを他のアテンション操作 (正規化なしのシグモイド アテンションなど) に置き換えることによってそのような依存性を緩和した後、1B パラメーターまでの LM ではアテンション シンクは出現しません。
コードは https://github.com/sail-sg/Attendance-Sink で入手できます。

要約(オリジナル)

Language Models (LMs) assign significant attention to the first token, even if it is not semantically important, which is known as attention sink. This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others. Despite its widespread use, a deep understanding of attention sink in LMs is still lacking. In this work, we first demonstrate that attention sinks exist universally in LMs with various inputs, even in small models. Furthermore, attention sink is observed to emerge during the LM pre-training, motivating us to investigate how optimization, data distribution, loss function, and model architecture in LM pre-training influence its emergence. We highlight that attention sink emerges after effective optimization on sufficient training data. The sink position is highly correlated with the loss function and data distribution. Most importantly, we find that attention sink acts more like key biases, storing extra attention scores, which could be non-informative and not contribute to the value computation. We also observe that this phenomenon (at least partially) stems from tokens’ inner dependence on attention scores as a result of softmax normalization. After relaxing such dependence by replacing softmax attention with other attention operations, such as sigmoid attention without normalization, attention sinks do not emerge in LMs up to 1B parameters. The code is available at https://github.com/sail-sg/Attention-Sink.

arxiv情報

著者 Xiangming Gu,Tianyu Pang,Chao Du,Qian Liu,Fengzhuo Zhang,Cunxiao Du,Ye Wang,Min Lin
発行日 2024-10-14 17:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | When Attention Sink Emerges in Language Models: An Empirical View はコメントを受け付けていません

On Information-Theoretic Measures of Predictive Uncertainty

要約

予測の不確実性の信頼性の高い推定は、機械学習アプリケーションにとって、特にリスクヘッジが不可欠な一か八かのシナリオにおいて非常に重要です。
その重要性にもかかわらず、予測の不確実性の正しい測定についてのコンセンサスは依然として得られていません。
この研究では、情報理論による予測不確実性測定の基本的な枠組みを開発するために第一原理に戻ります。
私たちが提案するフレームワークは、次の 2 つの要素に従って予測不確実性の尺度を分類します。(I) 予測モデル (II) 真の予測分布の近似。
これら 2 つの要因の考えられるすべての組み合わせを検討し、既知のものと新たに導入されたものの両方を含む一連の予測不確実性尺度を導き出します。
これらの尺度は、誤分類検出、選択的予測、分布外検出などの典型的な不確実性推定設定で経験的に評価されます。
結果は、単一の対策は普遍的ではなく、有効性は特定の設定に依存することを示しています。
したがって、私たちの研究は、暗黙の仮定と関係を明確にすることによって、予測不確実性尺度の適合性を明確にします。

要約(オリジナル)

Reliable estimation of predictive uncertainty is crucial for machine learning applications, particularly in high-stakes scenarios where hedging against risks is essential. Despite its significance, a consensus on the correct measurement of predictive uncertainty remains elusive. In this work, we return to first principles to develop a fundamental framework of information-theoretic predictive uncertainty measures. Our proposed framework categorizes predictive uncertainty measures according to two factors: (I) The predicting model (II) The approximation of the true predictive distribution. Examining all possible combinations of these two factors, we derive a set of predictive uncertainty measures that includes both known and newly introduced ones. We empirically evaluate these measures in typical uncertainty estimation settings, such as misclassification detection, selective prediction, and out-of-distribution detection. The results show that no single measure is universal, but the effectiveness depends on the specific setting. Thus, our work provides clarity about the suitability of predictive uncertainty measures by clarifying their implicit assumptions and relationships.

arxiv情報

著者 Kajetan Schweighofer,Lukas Aichberger,Mykyta Ielanskyi,Sepp Hochreiter
発行日 2024-10-14 17:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | On Information-Theoretic Measures of Predictive Uncertainty はコメントを受け付けていません

Learning Quadruped Locomotion Using Differentiable Simulation

要約

この研究では、四足歩行の学習に微分可能なシミュレーションを使用する可能性を探ります。
微分可能なシミュレーションは、ロボット ダイナミクスを使用して分散の低い一次勾配を計算することで、高速な収束と安定したトレーニングを約束します。
ただし、脚式ロボットの用途は依然としてシミュレーションに限定されています。
主な課題は、不連続なダイナミクスによるロボット タスクの複雑な最適化環境にあります。
この研究は、これらの課題を克服するための新しい微分可能なシミュレーション フレームワークを提案します。
私たちのアプローチは、順ダイナミクス用の高忠実度の非微分可能シミュレーターと、勾配逆伝播用の簡略化されたサロゲート モデルを組み合わせています。
このアプローチでは、サロゲート モデルのロボットの状態を正確な微分不可能なシミュレーターの状態と調整することで、シミュレーションの精度を維持します。
私たちのフレームワークでは、並列化を行わずにシミュレーションで四足歩行を数分で学習できます。
私たちのアプローチを GPU 並列化で強化すると、四足ロボットは困難な地形での多様な移動スキルを数分で習得できるようになります。
私たちは、微分可能シミュレーションが、大規模環境の処理における有効性を維持しながら、大幅に優れたサンプル効率を達成することにより、強化学習アルゴリズム (PPO) よりも優れたパフォーマンスを発揮することを実証します。
私たちの手法は、現実世界の四足歩行への微分可能シミュレーションの最初の成功した応用の 1 つであり、従来の RL 手法に代わる魅力的な手法を提供します。

要約(オリジナル)

This work explores the potential of using differentiable simulation for learning quadruped locomotion. Differentiable simulation promises fast convergence and stable training by computing low-variance first-order gradients using robot dynamics. However, its usage for legged robots is still limited to simulation. The main challenge lies in the complex optimization landscape of robotic tasks due to discontinuous dynamics. This work proposes a new differentiable simulation framework to overcome these challenges. Our approach combines a high-fidelity, non-differentiable simulator for forward dynamics with a simplified surrogate model for gradient backpropagation. This approach maintains simulation accuracy by aligning the robot states from the surrogate model with those of the precise, non-differentiable simulator. Our framework enables learning quadruped walking in simulation in minutes without parallelization. When augmented with GPU parallelization, our approach allows the quadruped robot to master diverse locomotion skills on challenging terrains in minutes. We demonstrate that differentiable simulation outperforms a reinforcement learning algorithm (PPO) by achieving significantly better sample efficiency while maintaining its effectiveness in handling large-scale environments. Our method represents one of the first successful applications of differentiable simulation to real-world quadruped locomotion, offering a compelling alternative to traditional RL methods.

arxiv情報

著者 Yunlong Song,Sangbae Kim,Davide Scaramuzza
発行日 2024-10-14 17:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Quadruped Locomotion Using Differentiable Simulation はコメントを受け付けていません

Hard-Constrained Neural Networks with Universal Approximation Guarantees

要約

入出力関係に関する事前の知識または仕様を機械学習モデルに組み込むことは、限られたデータからの一般化を強化し、適合する出力につながるため、大きな注目を集めています。
しかし、既存のアプローチのほとんどは、正則化を通じて違反にペナルティを与えることによってソフト制約を使用しており、安全性が重要なアプリケーションでは不可欠な要件である制約を満たす保証はありません。
一方で、ニューラル ネットワークに厳しい制約を課すと、その表現力が妨げられ、パフォーマンスに悪影響を及ぼす可能性があります。
これに対処するために、モデルの能力を犠牲にすることなく本質的にハード制約を満たすニューラル ネットワークを構築するための実用的なフレームワークである HardNet を提案します。
具体的には、微分可能な射影層をネットワークの出力に追加することにより、入力と出力の両方に依存するアフィンおよび凸のハード制約をエンコードします。
このアーキテクチャでは、構築による制約の満足を確保しながら、標準アルゴリズムを使用してネットワーク パラメータを制約なく最適化できます。
さらに、HardNet がニューラル ネットワークの普遍的な近似機能を保持していることを示します。
制約の下での関数のフィッティング、最適化ソルバーの学習、セーフティクリティカルなシステムにおける制御ポリシーの最適化、航空機システムの安全な決定ロジックの学習など、さまざまなアプリケーションにわたる HardNet の多用途性と有効性を実証します。

要約(オリジナル)

Incorporating prior knowledge or specifications of input-output relationships into machine learning models has gained significant attention, as it enhances generalization from limited data and leads to conforming outputs. However, most existing approaches use soft constraints by penalizing violations through regularization, which offers no guarantee of constraint satisfaction — an essential requirement in safety-critical applications. On the other hand, imposing hard constraints on neural networks may hinder their representational power, adversely affecting performance. To address this, we propose HardNet, a practical framework for constructing neural networks that inherently satisfy hard constraints without sacrificing model capacity. Specifically, we encode affine and convex hard constraints, dependent on both inputs and outputs, by appending a differentiable projection layer to the network’s output. This architecture allows unconstrained optimization of the network parameters using standard algorithms while ensuring constraint satisfaction by construction. Furthermore, we show that HardNet retains the universal approximation capabilities of neural networks. We demonstrate the versatility and effectiveness of HardNet across various applications: fitting functions under constraints, learning optimization solvers, optimizing control policies in safety-critical systems, and learning safe decision logic for aircraft systems.

arxiv情報

著者 Youngjae Min,Anoopkumar Sonar,Navid Azizan
発行日 2024-10-14 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Hard-Constrained Neural Networks with Universal Approximation Guarantees はコメントを受け付けていません

TopoFR: A Closer Look at Topology Alignment on Face Recognition

要約

顔認識 (FR) の分野は、ディープラーニングの台頭により大幅な進歩を遂げました。
最近、教師なし学習とグラフ ニューラル ネットワークの成功により、データ構造情報の有効性が実証されました。
FR タスクは本質的に重要な構造情報を含む大規模なトレーニング データを活用できることを考慮して、そのような重要な構造情報を潜在空間にエンコードする方法を調査することを目的としています。
私たちの観察から明らかになったように、入力空間と潜在空間の間で構造情報を直接位置合わせすると、必然的に過剰適合の問題が発生し、潜在空間での構造崩壊現象が発生します。
この問題に対処するために、我々は、PTSA と呼ばれるトポロジカル構造アライメント戦略と SDE と呼ばれるハード サンプル マイニング戦略を活用する新しい FR モデルである TopoFR を提案します。
具体的には、PTSA は永続的な相同性を使用して入力空間と潜在空間の位相構造を調整し、構造情報を効果的に保存し、FR モデルの汎化パフォーマンスを向上させます。
潜在空間構造に対する硬いサンプルの影響を軽減するために、SDE は各サンプルの構造損傷スコア (SDS) を自動的に計算することで硬いサンプルを正確に識別し、これらのサンプルの最適化を優先するようにモデルに指示します。
一般的な顔のベンチマークに関する実験結果は、最先端の方法よりも当社の TopoFR が優れていることを示しています。
コードとモデルは、https://github.com/modelscope/facechain/tree/main/face_module/TopoFR から入手できます。

要約(オリジナル)

The field of face recognition (FR) has undergone significant advancements with the rise of deep learning. Recently, the success of unsupervised learning and graph neural networks has demonstrated the effectiveness of data structure information. Considering that the FR task can leverage large-scale training data, which intrinsically contains significant structure information, we aim to investigate how to encode such critical structure information into the latent space. As revealed from our observations, directly aligning the structure information between the input and latent spaces inevitably suffers from an overfitting problem, leading to a structure collapse phenomenon in the latent space. To address this problem, we propose TopoFR, a novel FR model that leverages a topological structure alignment strategy called PTSA and a hard sample mining strategy named SDE. Concretely, PTSA uses persistent homology to align the topological structures of the input and latent spaces, effectively preserving the structure information and improving the generalization performance of FR model. To mitigate the impact of hard samples on the latent space structure, SDE accurately identifies hard samples by automatically computing structure damage score (SDS) for each sample, and directs the model to prioritize optimizing these samples. Experimental results on popular face benchmarks demonstrate the superiority of our TopoFR over the state-of-the-art methods. Code and models are available at: https://github.com/modelscope/facechain/tree/main/face_module/TopoFR.

arxiv情報

著者 Jun Dan,Yang Liu,Jiankang Deng,Haoyu Xie,Siyuan Li,Baigui Sun,Shan Luo
発行日 2024-10-14 14:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | TopoFR: A Closer Look at Topology Alignment on Face Recognition はコメントを受け付けていません

MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer

要約

ビデオ認識の大規模基礎モデルから視覚言語の知識を転送することが効果的であることが証明されています。
ドメインのギャップを埋めるために、追加のパラメトリック モジュールが追加され、時間情報を取得します。
ただし、ゼロショットの一般化は特殊な​​パラメーターの数が増加するにつれて減少し、既存の作品はゼロショットとクローズセットのパフォーマンスの間でトレードオフになります。
本稿では、1 つの統一モデル内で一般化と専門化のバランスをとることを可能にする新しいフレームワークである MoTE を紹介します。
私たちのアプローチは、時間的専門家の混合を調整して、さまざまな程度のデータフィッティングで複数のタスクビューを学習します。
各エキスパートの知識を最大限に保存するために、重み空間におけるエキスパートのマージ プロセスを正規化する \emph{Weight Merging Regularization} を提案します。
さらに、時間的特徴変調を使用して、テスト中に時間的特徴の寄与を正規化します。
私たちは、ゼロショットとクローズセットのビデオ認識タスクの間でサウンドバランスを実現し、Kinetics-400 \& 600、UCF、HMDB などのさまざまなデータセットで最先端の結果または競争力のある結果を取得します。
コードは \url{https://github.com/ZMHH-H/MoTE} で入手できます。

要約(オリジナル)

Transferring visual-language knowledge from large-scale foundation models for video recognition has proved to be effective. To bridge the domain gap, additional parametric modules are added to capture the temporal information. However, zero-shot generalization diminishes with the increase in the number of specialized parameters, making existing works a trade-off between zero-shot and close-set performance. In this paper, we present MoTE, a novel framework that enables generalization and specialization to be balanced in one unified model. Our approach tunes a mixture of temporal experts to learn multiple task views with various degrees of data fitting. To maximally preserve the knowledge of each expert, we propose \emph{Weight Merging Regularization}, which regularizes the merging process of experts in weight space. Additionally with temporal feature modulation to regularize the contribution of temporal feature during test. We achieve a sound balance between zero-shot and close-set video recognition tasks and obtain state-of-the-art or competitive results on various datasets, including Kinetics-400 \& 600, UCF, and HMDB. Code is available at \url{https://github.com/ZMHH-H/MoTE}.

arxiv情報

著者 Minghao Zhu,Zhengpu Wang,Mengxian Hu,Ronghao Dang,Xiao Lin,Xun Zhou,Chengju Liu,Qijun Chen
発行日 2024-10-14 15:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer はコメントを受け付けていません

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

要約

検索拡張生成 (RAG) は、大規模言語モデル (LLM) が外部の知識ソースを生成に利用できるようにする効果的な手法です。
しかし、現在の RAG システムはテキストのみに基づいているため、現実世界のマルチモダリティ ドキュメントで重要な役割を果たすレイアウトや画像などの視覚情報を利用することができません。
このペーパーでは、ビジョン言語モデル (VLM) ベースの RAG パイプラインを確立することでこの問題に取り組む VisRAG を紹介します。
このパイプラインでは、最初にドキュメントを解析してテキストを取得するのではなく、VLM を使用してドキュメントを画像として直接埋め込み、その後取得して VLM の生成を強化します。
従来のテキストベースの RAG と比較して、VisRAG は元のドキュメント内のデータ情報の保持と利用を最大限に高め、解析プロセス中に発生する情報損失を排除します。
VisRAG でレトリバーをトレーニングし、さまざまな生成方法を検討するために、オープンソース データと合成データの両方を収集します。
実験では、VisRAG が取得段階と生成段階の両方で従来の RAG を上回り、従来のテキストベースの RAG パイプラインと比較して 25 ~ 39\% のエンドツーエンドのパフォーマンス向上を達成することが実証されました。
さらなる分析により、VisRAG はトレーニング データの活用に効果的であり、強力な一般化機能を実証し、マルチモダリティ ドキュメントにおける RAG の有望なソリューションとして位置付けられていることが明らかになりました。
コードとデータは https://github.com/openbmb/visrag で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) is an effective technique that enables large language models (LLMs) to utilize external knowledge sources for generation. However, current RAG systems are solely based on text, rendering it impossible to utilize vision information like layout and images that play crucial roles in real-world multi-modality documents. In this paper, we introduce VisRAG, which tackles this issue by establishing a vision-language model (VLM)-based RAG pipeline. In this pipeline, instead of first parsing the document to obtain text, the document is directly embedded using a VLM as an image and then retrieved to enhance the generation of a VLM. Compared to traditional text-based RAG, VisRAG maximizes the retention and utilization of the data information in the original documents, eliminating the information loss introduced during the parsing process. We collect both open-source and synthetic data to train the retriever in VisRAG and explore a variety of generation methods. Experiments demonstrate that VisRAG outperforms traditional RAG in both the retrieval and generation stages, achieving a 25–39\% end-to-end performance gain over traditional text-based RAG pipeline. Further analysis reveals that VisRAG is effective in utilizing training data and demonstrates strong generalization capability, positioning it as a promising solution for RAG on multi-modality documents. Our code and data are available at https://github.com/openbmb/visrag .

arxiv情報

著者 Shi Yu,Chaoyue Tang,Bokai Xu,Junbo Cui,Junhao Ran,Yukun Yan,Zhenghao Liu,Shuo Wang,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-10-14 15:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents はコメントを受け付けていません

BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI

要約

脳異常の正確な診断は、相補的なマルチパラメトリック MRI 画像データを含めることによって大幅に強化されます。
画像モダリティやさまざまな臨床シナリオに迅速に適応できる普遍的な事前トレーニング モデルを開発する大きな可能性があります。
ただし、現在のモデルはユニモーダル画像データに依存することが多く、異なる画像モダリティ間のクロスモーダル相関を無視したり、モダリティ データが欠落している場合に事前トレーニングをスケールアップするのに苦労したりしています。
この論文では、マルチパラメトリック MRI スキャンを使用した脳画像解析のためのマルチモーダル視覚事前トレーニング フレームワークである BrainMVP を提案します。
まず、さまざまなセンターや機器から提供された 8 つの MRI モダリティを含む 16,022 件の脳 MRI スキャン (240 万枚以上の画像) を収集します。
次に、新しい事前トレーニング パラダイムがマルチモーダル MRI データに対して提案され、モダリティの欠落の問題に対処し、マルチモーダル情報融合を達成します。
クロスモーダル再構成は、特徴的な脳画像の埋め込みと効率的なモダリティ融合機能を学習するために研究されています。
モダリティごとのデータ蒸留モジュールは、事前トレーニングと下流アプリケーションの両方の目的で各 MR 画像モダリティの本質表現を抽出するために提案されています。
さらに、研究内のモダリティ間の関連性を強化するために、モダリティを意識した対照学習モジュールを導入します。
下流タスクに関する広範な実験により、医療分野の最先端の事前トレーニング方法と比較して優れたパフォーマンスが実証され、6 つのセグメンテーション ベンチマーク全体でダイス スコアが 0.28% ~ 14.47% 向上し、一貫して精度が 0.65% ~ 18.07 向上しました。
4 つの個別の分類タスクにおける %。

要約(オリジナル)

Accurate diagnosis of brain abnormalities is greatly enhanced by the inclusion of complementary multi-parametric MRI imaging data. There is significant potential to develop a universal pre-training model that can be quickly adapted for image modalities and various clinical scenarios. However, current models often rely on uni-modal image data, neglecting the cross-modal correlations among different image modalities or struggling to scale up pre-training in the presence of missing modality data. In this paper, we propose BrainMVP, a multi-modal vision pre-training framework for brain image analysis using multi-parametric MRI scans. First, we collect 16,022 brain MRI scans (over 2.4 million images), encompassing eight MRI modalities sourced from a diverse range of centers and devices. Then, a novel pre-training paradigm is proposed for the multi-modal MRI data, addressing the issue of missing modalities and achieving multi-modal information fusion. Cross-modal reconstruction is explored to learn distinctive brain image embeddings and efficient modality fusion capabilities. A modality-wise data distillation module is proposed to extract the essence representation of each MR image modality for both the pre-training and downstream application purposes. Furthermore, we introduce a modality-aware contrastive learning module to enhance the cross-modality association within a study. Extensive experiments on downstream tasks demonstrate superior performance compared to state-of-the-art pre-training methods in the medical domain, with Dice Score improvement of 0.28%-14.47% across six segmentation benchmarks and a consistent accuracy improvement of 0.65%-18.07% in four individual classification tasks.

arxiv情報

著者 Shaohao Rui,Lingzhi Chen,Zhenyu Tang,Lilong Wang,Mianxin Liu,Shaoting Zhang,Xiaosong Wang
発行日 2024-10-14 15:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI はコメントを受け付けていません

AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation

要約

テスト時の適応は、ソース モデルが監視なしでデータ分布の変化に適応できるようにする有望な研究の方向性です。
しかし、現在の手法は通常、現実世界のシナリオを単純化したものにすぎないベンチマークに基づいて評価されます。
そこで、最近導入された自動運転用データセット、つまり CLAD-C と SHIFT を使用してテスト時間適応方法を検証することを提案します。
現在のテスト時の適応方法は、さまざまな程度のドメイン シフトを効果的に処理するのに苦労しており、多くの場合、ソース モデルのパフォーマンスを下回るパフォーマンスの低下を招くことが観察されています。
私たちは、問題の根本は、ソース モデルの知識を保存できず、動的に変化し、時間的に相関するデータ ストリームに適応できないことにあることに気付きました。
したがって、モデルの安定性を高めると同時に、ドメイン シフトの強度に基づいて動的適応を実行するために、小さなメモリ バッファーを組み込むことで、確立された自己トレーニング フレームワークを強化します。
AR-TTA と名付けられた提案手法は、合成ベンチマークとより現実世界のベンチマークの両方で既存のアプローチを上回り、さまざまな TTA シナリオにわたって堅牢性を示します。
コードは https://github.com/dmn-sjk/AR-TTA で入手できます。

要約(オリジナル)

Test-time adaptation is a promising research direction that allows the source model to adapt itself to changes in data distribution without any supervision. Yet, current methods are usually evaluated on benchmarks that are only a simplification of real-world scenarios. Hence, we propose to validate test-time adaptation methods using the recently introduced datasets for autonomous driving, namely CLAD-C and SHIFT. We observe that current test-time adaptation methods struggle to effectively handle varying degrees of domain shift, often resulting in degraded performance that falls below that of the source model. We noticed that the root of the problem lies in the inability to preserve the knowledge of the source model and adapt to dynamically changing, temporally correlated data streams. Therefore, we enhance the well-established self-training framework by incorporating a small memory buffer to increase model stability and at the same time perform dynamic adaptation based on the intensity of domain shift. The proposed method, named AR-TTA, outperforms existing approaches on both synthetic and more real-world benchmarks and shows robustness across a variety of TTA scenarios. The code is available at https://github.com/dmn-sjk/AR-TTA.

arxiv情報

著者 Damian Sójka,Sebastian Cygert,Bartłomiej Twardowski,Tomasz Trzciński
発行日 2024-10-14 15:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation はコメントを受け付けていません