Multilingual Contextualization of Large Language Models for Document-Level Machine Translation

要約

大規模な言語モデル(LLMS)は、文レベルの機械翻訳で強力なパフォーマンスを実証していますが、特に文章や段落全体で長距離依存と談話現象のモデリングにおいて、ドキュメントレベルの翻訳へのスケーリングは依然として挑戦的です。
この作業では、高品質のドキュメントレベルデータでターゲットを絞った微調整を通じてLLMベースの長ドキュメント翻訳を改善する方法を提案します。
私たちのアプローチは、周囲のコンテキストの有無にかかわらず指示を統合することにより、直接文書からドキュメントへの文書への翻訳やチャンクレベルの翻訳を含む複数の翻訳パラダイムをサポートしています。
これにより、モデルは、強力な文レベルの翻訳パフォーマンスを維持しながら、横断的依存関係をより適切にキャプチャできます。
実験結果は、複数の翻訳パラダイムを組み込むことで、プロンプトおよびエージェントベースの方法と比較して、ドキュメントレベルの翻訳の品質と推論速度が向上することを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong performance in sentence-level machine translation, but scaling to document-level translation remains challenging, particularly in modeling long-range dependencies and discourse phenomena across sentences and paragraphs. In this work, we propose a method to improve LLM-based long-document translation through targeted fine-tuning on high-quality document-level data, which we curate and introduce as DocBlocks. Our approach supports multiple translation paradigms, including direct document-to-document and chunk-level translation, by integrating instructions both with and without surrounding context. This enables models to better capture cross-sentence dependencies while maintaining strong sentence-level translation performance. Experimental results show that incorporating multiple translation paradigms improves document-level translation quality and inference speed compared to prompting and agent-based methods.

arxiv情報

著者 Miguel Moura Ramos,Patrick Fernandes,Sweta Agrawal,André F. T. Martins
発行日 2025-04-16 14:52:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilingual Contextualization of Large Language Models for Document-Level Machine Translation はコメントを受け付けていません

FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

要約

トレーニング効率を改善することは、大規模な強化学習における最も重要な課題の1つです。
この論文では、モデルのコンテキストの長さとトレーニングデータセットの複雑さが、R1様モデルのトレーニングプロセスにどのように影響するかを調査します。
私たちの実験では、3つの重要な洞察が明らかになりました。(1)より長いコンテキストの長さを採用すると、必ずしもパフォーマンスが向上するとは限りません。
(2)適切なコンテキストの長さを選択すると、エントロピー崩壊を軽減するのに役立ちます。
(3)モデルのコンテキストの長さを適切に制御し、入力プロンプトの長さに基づいてトレーニングデータをキュレーションすると、RLトレーニング効率を効果的に改善し、より短い思考長でパフォーマンスを向上させることができます。
これらの洞察に触発されて、私たちは、プログレッシブコンテキスト拡張戦略を備えたカリキュラム強化学習フレームワークであるFastCurlを提案し、RLモデルのトレーニングプロセスを成功裏に加速します。
実験結果は、FastCurl-1.5B-Previewが5つのベンチマークすべてにわたってDeepscaler-1.5B-Previewを超えていることを示していますが、トレーニングステップの50 \%のみを利用しています。
さらに、FastCurl-1.5B-Previewのすべてのトレーニング段階は、8 GPUの単一ノードを使用して完了します。

要約(オリジナル)

Improving the training efficiency remains one of the most significant challenges in large-scale reinforcement learning. In this paper, we investigate how the model’s context length and the complexity of the training dataset influence the training process of R1-like models. Our experiments reveal three key insights: (1) adopting longer context lengths may not necessarily result in better performance; (2) selecting an appropriate context length helps mitigate entropy collapse; and (3) appropriately controlling the model’s context length and curating training data based on input prompt length can effectively improve RL training efficiency, achieving better performance with shorter thinking length. Inspired by these insights, we propose FastCuRL, a curriculum reinforcement learning framework with the progressive context extension strategy, and successfully accelerate the training process of RL models. Experimental results demonstrate that FastCuRL-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five benchmarks while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using a single node with 8 GPUs.

arxiv情報

著者 Mingyang Song,Mao Zheng,Zheng Li,Wenjie Yang,Xuan Luo,Yue Pan,Feng Zhang
発行日 2025-04-16 15:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models はコメントを受け付けていません

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

要約

最近の大規模な言語モデル(LLMS)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を実証しています。
これらの機能は、主に左から右への自己回帰(AR)世代のパラダイム内で実証されています。
対照的に、拡散に基づいた非自動性パラダイムは、粗から洗練された方法でテキストを生成します。
最近の拡散ベースの大手言語モデル(DLLM)は、ARの対応物と比較して競争力のある言語モデリングパフォーマンスを達成していますが、DLLMがLLM推論の最近の進歩を活用できるかどうかは不明のままです。
この目的のために、D1を提案します。D1を提案します。D1は、訓練されたマスクされたDLLMSを、監視されたFinetuning(SFT)とRLの組み合わせを介して推論モデルに適応させることを提案します。
具体的には、事前に処理されたDLLMの推論を改善するための手法を開発および拡張します。(a)マスクされたSFT技術を利用して、既存のデータセットから知識を蒸留し、自己改善の行動を直接浸透させ、(b)Diffu-Grpoと呼ばれる新しい批評家の勾配ベースのRLアルゴリズムを紹介します。
実証研究を通じて、複数の数学的および論理的推論ベンチマークに関するさまざまなトレーニング後のレシピのパフォーマンスを調査します。
D1が最高のパフォーマンスをもたらし、最先端のDLLMのパフォーマンスを大幅に向上させることがわかります。

要約(オリジナル)

Recent large language models (LLMs) have demonstrated strong reasoning capabilities that benefits from online reinforcement learning (RL). These capabilities have primarily been demonstrated within the left-to-right autoregressive (AR) generation paradigm. In contrast, non-autoregressive paradigms based on diffusion generate text in a coarse-to-fine manner. Although recent diffusion-based large language models (dLLMs) have achieved competitive language modeling performance compared to their AR counterparts, it remains unclear if dLLMs can also leverage recent advances in LLM reasoning. To this end, we propose d1, a framework to adapt pre-trained masked dLLMs into reasoning models via a combination of supervised finetuning (SFT) and RL. Specifically, we develop and extend techniques to improve reasoning in pretrained dLLMs: (a) we utilize a masked SFT technique to distill knowledge and instill self-improvement behavior directly from existing datasets, and (b) we introduce a novel critic-free, policy-gradient based RL algorithm called diffu-GRPO. Through empirical studies, we investigate the performance of different post-training recipes on multiple mathematical and logical reasoning benchmarks. We find that d1 yields the best performance and significantly improves performance of a state-of-the-art dLLM.

arxiv情報

著者 Siyan Zhao,Devaansh Gupta,Qinqing Zheng,Aditya Grover
発行日 2025-04-16 16:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning はコメントを受け付けていません

Watermarking Needs Input Repetition Masking

要約

大規模な言語モデル(LLMS)の最近の進歩は、誤った情報を広めるなど、潜在的な誤用に対する懸念を引き起こしました。
それに応じて、2つのカウンター測定が登場しました。テキストが合成であるかどうかを予測する機械学習ベースの検出器と、識別と属性のためにテキストを微妙にマークしたLLM透かしを使用します。
一方、人間は会話パートナーに言語を調整することが知られています。
含意により、人間または非顕著なLLMがLLM生成されたテキストの意図せずに特性を模倣し、カウンターメジャーを信頼できない可能性があります。
この作業では、そのような会話の適応が起こる程度を調査します。
コンセプト$ \ textIT {mimicry} $を呼び出し、人間とLLMの両方が、一見存在しない設定であっても透かしの​​信号を含め、最終的に模倣することを示しています。
これは現在の学術的仮定に挑戦し、長期的な透かしが信頼できるためには、誤った陽性の可能性が大幅に低くなる必要がありますが、透かし式メカニズムのシードには長い単語シーケンスを使用する必要があることを示唆しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) raised concerns over potential misuse, such as for spreading misinformation. In response two counter measures emerged: machine learning-based detectors that predict if text is synthetic, and LLM watermarking, which subtly marks generated text for identification and attribution. Meanwhile, humans are known to adjust language to their conversational partners both syntactically and lexically. By implication, it is possible that humans or unwatermarked LLMs could unintentionally mimic properties of LLM generated text, making counter measures unreliable. In this work we investigate the extent to which such conversational adaptation happens. We call the concept $\textit{mimicry}$ and demonstrate that both humans and LLMs end up mimicking, including the watermarking signal even in seemingly improbable settings. This challenges current academic assumptions and suggests that for long-term watermarking to be reliable, the likelihood of false positives needs to be significantly lower, while longer word sequences should be used for seeding watermarking mechanisms.

arxiv情報

著者 David Khachaturov,Robert Mullins,Ilia Shumailov,Sumanth Dathathri
発行日 2025-04-16 16:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG | Watermarking Needs Input Repetition Masking はコメントを受け付けていません

How Inclusively do LMs Perceive Social and Moral Norms?

要約

このペーパーでは、攻撃的なコンテンツについて説明し、含まれています。
言語モデル(LMS)は、意思決定システムおよびインタラクティブなアシスタントとして使用されます。
しかし、これらのモデルは、特に社会的および道徳的規範に関して、判断を人間の価値観の多様性とどの程度整合していますか?
この作業では、LMSが人口統計グループ(例えば、性別、年齢、収入など)にわたって規範をどのように認識するかを調査します。
経験ルール(ロット)で11 LMSを促し、それらの出力を100のヒトアノテーターの既存の応答と比較します。
絶対距離アライメントメトリック(ADA-MET)を導入して、順序の質問のアライメントを定量化します。
LM応答には顕著な格差が見られ、若い、高所得層グループがより密接に整合し、疎外された視点の表現について懸念を引き起こします。
私たちの調査結果は、LMSを多様な人間の価値をより包括的にするためのさらなる努力の重要性を強調しています。
コードとプロンプトは、CC BY-NC 4.0ライセンスの下でGitHubで利用できます。

要約(オリジナル)

This paper discusses and contains offensive content. Language models (LMs) are used in decision-making systems and as interactive assistants. However, how well do these models making judgements align with the diversity of human values, particularly regarding social and moral norms? In this work, we investigate how inclusively LMs perceive norms across demographic groups (e.g., gender, age, and income). We prompt 11 LMs on rules-of-thumb (RoTs) and compare their outputs with the existing responses of 100 human annotators. We introduce the Absolute Distance Alignment Metric (ADA-Met) to quantify alignment on ordinal questions. We find notable disparities in LM responses, with younger, higher-income groups showing closer alignment, raising concerns about the representation of marginalized perspectives. Our findings highlight the importance of further efforts to make LMs more inclusive of diverse human values. The code and prompts are available on GitHub under the CC BY-NC 4.0 license.

arxiv情報

著者 Michael Galarnyk,Agam Shah,Dipanwita Guhathakurta,Poojitha Nandigam,Sudheer Chava
発行日 2025-04-16 17:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Inclusively do LMs Perceive Social and Moral Norms? はコメントを受け付けていません

Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

要約

スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声を正規化するためのジオメトリ駆動型の方法を提示します。
時間、周波数、および振幅の歪みは、滑らかで反転可能な変形としてモデル化され、スカラーフィールドによってパラメーター化され、指数マップを介して適用されます。
ニューラルネットワークは、病理学的データを使用することなく、典型的な音声の合成歪みからこれらのフィールドを推測するように訓練されています。
テスト時に、モデルは、実際のダイサルトリック入力と実際の逆の逆を適用します。
ゼロショットの一般化にもかかわらず、クリーンな音声で劣化することなく、挑戦的なトーゴサンプルで最大16パーセントポイントの減少を含む、かなりのASRの利益が観察されます。
この作業は、運動言語障害の下で堅牢な音声認識のための原則的で解釈可能なアプローチを紹介します

要約(オリジナル)

We present a geometry-driven method for normalizing dysarthric speech using local Lie group transformations of spectrograms. Time, frequency, and amplitude distortions are modeled as smooth, invertible deformations, parameterized by scalar fields and applied via exponential maps. A neural network is trained to infer these fields from synthetic distortions of typical speech-without using any pathological data. At test time, the model applies an approximate inverse to real dysarthric inputs. Despite zero-shot generalization, we observe substantial ASR gains, including up to 16 percentage points WER reduction on challenging TORGO samples, with no degradation on clean speech. This work introduces a principled, interpretable approach for robust speech recognition under motor speech disorders

arxiv情報

著者 Mikhail Osipov
発行日 2025-04-16 17:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Dysarthria Normalization via Local Lie Group Transformations for Robust ASR はコメントを受け付けていません

ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

要約

明示的な推論の軌跡を備えたトレーニング後の大手言語モデル(LLMS)は、推論能力を高めることができます。
ただし、このような高品質の軌道データを取得するには、通常、人間または優れたモデルからの綿密な監督が必要です。これは、高価またはライセンス制約のいずれかです。
この論文では、LLMが、追加の監督なしでトレーニングデータとして、自己同様の推論パスによって推論をどの程度改善できるかを探ります。
星などの既存の自己同様の方法は、ドメイン外(OOD)の推論タスクへの一般化が不十分であることに苦しんでいます。
私たちは、彼らの自己合成された推論パスがタスク固有であるため、一般的なタスクに依存しない推論ガイダンスがないことを仮定しています。
これに対処するために、私たちは自己改善(再生)を介して推論ゼネラリストを提案します。これは、抽象的なものからコンクリートへと進むことにより、トレーニング後のデータとして推論後のパスを自己同意する方法です。
より具体的には、再生は、一般的な推論ガイドラインをタスク固有のガイドラインに変換し、推論構造を生成し、その後、既存の方法で使用されるタスク固有の例を必要とせずに、これらの構造を推論パスに変換することにより、推論パスを自己合成します。
再生は、既存の方法と比較してテストされたすべてのドメインおよびOOD設定で優れたパフォーマンスを達成することを示します。
特に6つのOODタスクでは、以前の方法ではトレーニング後の平均パフォーマンスが約4.6%の低下を示しましたが、再生は約6.1%のパフォーマンス改善をもたらします。
また、フレームワークの詳細な分析を実施し、さまざまなLLMと設計の選択にわたって効果的であることを示しています。

要約(オリジナル)

Post-training Large Language Models (LLMs) with explicit reasoning trajectories can enhance their reasoning abilities. However, acquiring such high-quality trajectory data typically demands meticulous supervision from humans or superior models, which can be either expensive or license-constrained. In this paper, we explore how far an LLM can improve its reasoning by self-synthesizing reasoning paths as training data without any additional supervision. Existing self-synthesizing methods, such as STaR, suffer from poor generalization to out-of-domain (OOD) reasoning tasks. We hypothesize it is due to that their self-synthesized reasoning paths are too task-specific, lacking general task-agnostic reasoning guidance. To address this, we propose Reasoning Generalist via Self-Improvement (ReGenesis), a method to self-synthesize reasoning paths as post-training data by progressing from abstract to concrete. More specifically, ReGenesis self-synthesizes reasoning paths by converting general reasoning guidelines into task-specific ones, generating reasoning structures, and subsequently transforming these structures into reasoning paths, without the need for human-designed task-specific examples used in existing methods. We show that ReGenesis achieves superior performance on all in-domain and OOD settings tested compared to existing methods. For six OOD tasks specifically, while previous methods exhibited an average performance decrease of approximately 4.6% after post training, ReGenesis delivers around 6.1% performance improvement. We also conduct in-depth analysis of our framework and show ReGenesis is effective across various LLMs and design choices.

arxiv情報

著者 Xiangyu Peng,Congying Xia,Xinyi Yang,Caiming Xiong,Chien-Sheng Wu,Chen Xing
発行日 2025-04-16 17:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement はコメントを受け付けていません

BitNet b1.58 2B4T Technical Report

要約

200億パラメータースケールで最初のオープンソース、ネイティブ1ビット大手言語モデル(LLM)であるBitnet B1.58 2B4Tを紹介します。
4兆トークンのコーパスで訓練されたこのモデルは、言語の理解、数学的推論、コーディングの習熟度、および会話能力をカバーするベンチマーク間で厳密に評価されています。
我々の結果は、Bitnet B1.58 2B4Tが、同様のサイズの主要なオープンウェイト、フルペリジョンLLMと同等のパフォーマンスを達成し、メモリフットプリント、エネルギー消費、デコードレイテンシを大幅に削減することを含む計算効率に大きな利点を提供することを示しています。
さらなる研究と採用を促進するために、モデルの重みは、GPUアーキテクチャとCPUアーキテクチャの両方のオープンソース推論の実装とともに、顔を抱きしめることを介してリリースされます。

要約(オリジナル)

We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4 trillion tokens, the model has been rigorously evaluated across benchmarks covering language understanding, mathematical reasoning, coding proficiency, and conversational ability. Our results demonstrate that BitNet b1.58 2B4T achieves performance on par with leading open-weight, full-precision LLMs of similar size, while offering significant advantages in computational efficiency, including substantially reduced memory footprint, energy consumption, and decoding latency. To facilitate further research and adoption, the model weights are released via Hugging Face along with open-source inference implementations for both GPU and CPU architectures.

arxiv情報

著者 Shuming Ma,Hongyu Wang,Shaohan Huang,Xingxing Zhang,Ying Hu,Ting Song,Yan Xia,Furu Wei
発行日 2025-04-16 17:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BitNet b1.58 2B4T Technical Report はコメントを受け付けていません

Attribute Inference Attacks for Federated Regression Tasks

要約

Federated Learning(FL)により、携帯電話やIoTデバイスなどの複数のクライアントが、データをローカライズしながら、グローバルな機械学習モデルを共同でトレーニングすることができます。
しかし、最近の研究により、FLのトレーニングフェーズは、属性推論攻撃(AIA)などの再建攻撃に対して脆弱であることが明らかになりました。敵は、ターゲットクライアントの機密属性を明らかにするために、敵が交換したメッセージや補助的な公開情報を活用しています。
これらの攻撃は分類タスクのコンテキストで広範囲に研究されていますが、回帰タスクへの影響はほとんど未開拓のままです。
この論文では、FL環境での回帰タスク用に特別に設計された新しいモデルベースのAIAを提案することにより、このギャップに対処します。
私たちのアプローチでは、敵が交換されたメッセージを盗聴できるか、トレーニングプロセスを直接妨害できるシナリオを検討します。
実際のデータセットを使用して、提案された最先端の方法に対する提案された攻撃をベンチマークします。
結果は、特にFLの一般的なシナリオである不均一なクライアントデータセットで、再構築の精度が大幅に増加していることを示しています。
モデルベースのAIAの有効性により、フェデレーション回帰タスクのプライバシー漏れを経験的に定量化するための候補者が優れています。

要約(オリジナル)

Federated Learning (FL) enables multiple clients, such as mobile phones and IoT devices, to collaboratively train a global machine learning model while keeping their data localized. However, recent studies have revealed that the training phase of FL is vulnerable to reconstruction attacks, such as attribute inference attacks (AIA), where adversaries exploit exchanged messages and auxiliary public information to uncover sensitive attributes of targeted clients. While these attacks have been extensively studied in the context of classification tasks, their impact on regression tasks remains largely unexplored. In this paper, we address this gap by proposing novel model-based AIAs specifically designed for regression tasks in FL environments. Our approach considers scenarios where adversaries can either eavesdrop on exchanged messages or directly interfere with the training process. We benchmark our proposed attacks against state-of-the-art methods using real-world datasets. The results demonstrate a significant increase in reconstruction accuracy, particularly in heterogeneous client datasets, a common scenario in FL. The efficacy of our model-based AIAs makes them better candidates for empirically quantifying privacy leakage for federated regression tasks.

arxiv情報

著者 Francesco Diana,Othmane Marfoq,Chuan Xu,Giovanni Neglia,Frédéric Giroire,Eoin Thomas
発行日 2025-04-16 12:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Attribute Inference Attacks for Federated Regression Tasks はコメントを受け付けていません

TS-ACL: Closed-Form Solution for Time Series-oriented Continual Learning

要約

時系列分類は、マルチメディアシナリオのヘルスケア診断やジェスチャー駆動型インタラクティブシステムなどの重要なアプリケーションを支えています。
ただし、時系列のクラスインクリメンタル学習(TSCIL)は、壊滅的な忘却とクラス内のバリエーションという2つの主要な課題に直面しています。
勾配ベースのパラメーター更新戦略が過去の知識を必然的に消去するため、壊滅的な忘却が発生します。
画像とは異なり、時系列データは、同じクラス内で観察されるパターンの違いを指すクラス内変動とも呼ばれる主題固有のパターンを示します。
模範ベースの方法は、限られたサンプルで多様な変動をカバーすることができませんが、既存の模範を含まない方法には、クラス内変動を処理する明示的なメカニズムがありません。
これらの2つの課題に対処するために、勾配ベースの最適化方法に固有の壊滅的な忘却問題を回避するために勾配のない閉じた閉形式ソリューションを活用するTS-ACLを提案し、同時にクラス内変動を解決するためのグローバルな分布を学習します。
さらに、プライバシーの保護と効率を提供します。
さまざまなセンサーのモダリティとタスクをカバーする5つのベンチマークデータセットでの広範な実験は、TS-ACLが4つのデータセットでの共同トレーニングに近いパフォーマンスを達成し、既存の方法を上回り、TSCILの新しい最先端(SOTA)を確立することを示しています。

要約(オリジナル)

Time series classification underpins critical applications such as healthcare diagnostics and gesture-driven interactive systems in multimedia scenarios. However, time series class-incremental learning (TSCIL) faces two major challenges: catastrophic forgetting and intra-class variations. Catastrophic forgetting occurs because gradient-based parameter update strategies inevitably erase past knowledge. And unlike images, time series data exhibits subject-specific patterns, also known as intra-class variations, which refer to differences in patterns observed within the same class. While exemplar-based methods fail to cover diverse variation with limited samples, existing exemplar-free methods lack explicit mechanisms to handle intra-class variations. To address these two challenges, we propose TS-ACL, which leverages a gradient-free closed-form solution to avoid the catastrophic forgetting problem inherent in gradient-based optimization methods while simultaneously learning global distributions to resolve intra-class variations. Additionally, it provides privacy protection and efficiency. Extensive experiments on five benchmark datasets covering various sensor modalities and tasks demonstrate that TS-ACL achieves performance close to joint training on four datasets, outperforming existing methods and establishing a new state-of-the-art (SOTA) for TSCIL.

arxiv情報

著者 Jiaxu Li,Kejia Fan,Songning Lai,Linpu Lv,Jinfeng Xu,Jianheng Tang,Anfeng Liu,Houbing Herbert Song,Yutao Yue,Yunhuai Liu,Huiping Zhuang
発行日 2025-04-16 12:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | TS-ACL: Closed-Form Solution for Time Series-oriented Continual Learning はコメントを受け付けていません