Generalizable Spacecraft Trajectory Generation via Multimodal Learning with Transformers

要約

効果的な軌道生成は、信頼性の高い宇宙船の自律性のために不可欠です。
数あるアプローチの中でも、学習ベースのウォームスタートは、最適化手法とデータ駆動型手法の利点を効果的に組み合わせて、軌道生成問題を解決するための魅力的なパラダイムを表しています。
学習ベースの軌道生成に対する現在のアプローチは、多くの場合、固定された単一シナリオ環境に焦点を当てており、障害物の位置や最終時間要件などの主要なシーン特性が問題インスタンス全体で一定のままです。
ただし、実際の軌道生成ではシナリオを頻繁に再構成する必要があるため、単一シナリオのアプローチは非現実的な解決策となる可能性があります。
この課題に対処するために、マルチモーダル データ ソースから学習できる大容量トランスフォーマー ニューラル ネットワークを活用することで、さまざまな問題構成を一般化する新しい軌道生成フレームワークを提案します。
具体的には、私たちのアプローチは、トランスベースのニューラルネットワークモデルを軌道最適化プロセスに統合し、シーンレベルの情報(障害物の位置、初期状態と目標状態など)と軌道レベルの制約(時間制限、燃料消費目標など)の両方をエンコードします。
マルチモーダルな表現。
次に、変換ネットワークは非凸最適化問題に対して最適に近い初期推定を生成し、収束速度とパフォーマンスを大幅に向上させます。
このフレームワークは、フリーフライヤー プラットフォームでの大規模なシミュレーションと実際の実験を通じて検証されており、従来のアプローチに対して最大 30% のコスト改善と実行不可能なケースの 80% 削減を達成し、多様なシナリオのバリエーションにわたって堅牢な一般化を実証しています。

要約(オリジナル)

Effective trajectory generation is essential for reliable on-board spacecraft autonomy. Among other approaches, learning-based warm-starting represents an appealing paradigm for solving the trajectory generation problem, effectively combining the benefits of optimization- and data-driven methods. Current approaches for learning-based trajectory generation often focus on fixed, single-scenario environments, where key scene characteristics, such as obstacle positions or final-time requirements, remain constant across problem instances. However, practical trajectory generation requires the scenario to be frequently reconfigured, making the single-scenario approach a potentially impractical solution. To address this challenge, we present a novel trajectory generation framework that generalizes across diverse problem configurations, by leveraging high-capacity transformer neural networks capable of learning from multimodal data sources. Specifically, our approach integrates transformer-based neural network models into the trajectory optimization process, encoding both scene-level information (e.g., obstacle locations, initial and goal states) and trajectory-level constraints (e.g., time bounds, fuel consumption targets) via multimodal representations. The transformer network then generates near-optimal initial guesses for non-convex optimization problems, significantly enhancing convergence speed and performance. The framework is validated through extensive simulations and real-world experiments on a free-flyer platform, achieving up to 30% cost improvement and 80% reduction in infeasible cases with respect to traditional approaches, and demonstrating robust generalization across diverse scenario variations.

arxiv情報

著者 Davide Celestini,Amirhossein Afsharrad,Daniele Gammelli,Tommaso Guffanti,Gioele Zardini,Sanjay Lall,Elisa Capello,Simone D’Amico,Marco Pavone
発行日 2024-10-15 15:55:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, math.OC | Generalizable Spacecraft Trajectory Generation via Multimodal Learning with Transformers はコメントを受け付けていません

Towards Supporting Legal Argumentation with NLP: Is More Data Really All You Need?

要約

訴訟における決定を正当化する法的推論と議論のモデル化は、常に AI と法律の中心でしたが、法的 NLP の現代の発展では、テキストから法的結論を統計的に分類することにますます重点が置かれています。
これらのアプローチは概念的には単純ですが、適切な法的概念に結び付けた使用可能な正当化を提供するという点では不十分であることがよくあります。
この論文では、AI と法律における伝統的な記号的取り組みと法的 NLP の最近の進歩の両方をレビューし、記号的アプローチとデータ駆動型のアプローチにおけるスケーラビリティと説明のバランスを取るために専門家の情報に基づいた知識を統合する可能性を抽出します。
私たちは未解決の課題を特定し、最新の NLP モデルとそれを統合する手法の可能性について議論します。

要約(オリジナル)

Modeling legal reasoning and argumentation justifying decisions in cases has always been central to AI & Law, yet contemporary developments in legal NLP have increasingly focused on statistically classifying legal conclusions from text. While conceptually simpler, these approaches often fall short in providing usable justifications connecting to appropriate legal concepts. This paper reviews both traditional symbolic works in AI & Law and recent advances in legal NLP, and distills possibilities of integrating expert-informed knowledge to strike a balance between scalability and explanation in symbolic vs. data-driven approaches. We identify open challenges and discuss the potential of modern NLP models and methods that integrate

arxiv情報

著者 T. Y. S. S Santosh,Kevin D. Ashley,Katie Atkinson,Matthias Grabmair
発行日 2024-10-15 15:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Supporting Legal Argumentation with NLP: Is More Data Really All You Need? はコメントを受け付けていません

LoRTA: Low Rank Tensor Adaptation of Large Language Models

要約

低ランク適応 (LoRA) は、下流のタスクに大規模な事前トレーニング済みモデルを効果的に適応させる、一般的なパラメーター効率微調整 (PEFT) 手法です。
LoRA は、各層で低ランクの行列を使用してモデルの更新をパラメータ化し、トレーニング可能なパラメータの数を大幅に削減し、その結果、微調整中のリソース要件を削減します。
ただし、低ランクの行列モデルを使用しているため、トレーニング可能なパラメーターの数の下限は依然として高いままです。
この論文では、モデルの更新に低ランクのテンソルパラメータ化を採用する新しいアプローチを提案することで、この制限に対処します。
提案された低ランク テンソル モデルは、トレーニング可能なパラメーターの数を大幅に削減できると同時に、アダプター サイズのよりきめ細かい制御も可能にします。
自然言語理解、命令チューニング、プリファレンスの最適化、およびタンパク質フォールディングのベンチマークに関する実験では、私たちの手法が大規模な言語モデルの微調整に効率的かつ効果的であり、同等のパフォーマンスを維持しながらパラメータ数の大幅な削減を達成できることが実証されました。

要約(オリジナル)

Low Rank Adaptation (LoRA) is a popular Parameter Efficient Fine Tuning (PEFT) method that effectively adapts large pre-trained models for downstream tasks. LoRA parameterizes model updates using low-rank matrices at each layer, significantly reducing the number of trainable parameters and, consequently, resource requirements during fine-tuning. However, the lower bound on the number of trainable parameters remains high due to the use of the low-rank matrix model. In this paper, we address this limitation by proposing a novel approach that employs a low rank tensor parametrization for model updates. The proposed low rank tensor model can significantly reduce the number of trainable parameters, while also allowing for finer-grained control over adapter size. Our experiments on Natural Language Understanding, Instruction Tuning, Preference Optimization and Protein Folding benchmarks demonstrate that our method is both efficient and effective for fine-tuning large language models, achieving a substantial reduction in the number of parameters while maintaining comparable performance.

arxiv情報

著者 Ignacio Hounie,Charilaos Kanatsoulis,Arnuv Tandon,Alejandro Ribeiro
発行日 2024-10-15 16:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LoRTA: Low Rank Tensor Adaptation of Large Language Models はコメントを受け付けていません

LLM-Based Robust Product Classification in Commerce and Compliance

要約

コンプライアンス規制が確認され、製品カテゴリに基づいて税金や関税が適用されるため、製品の分類は国際貿易において重要なタスクです。
製品の手動分類は時間がかかり、間違いが発生しやすく、輸出入される製品の量が膨大であるため、手動プロセスは実行不可能です。
その結果、電子商取引プラットフォームや国際貿易に関わる企業は、機械学習を使用した自動商品分類に目を向けるようになりました。
しかし、現在のアプローチでは、非常に省略された不完全な製品説明など、製品分類に関連する現実世界の課題が考慮されていません。
さらに、生成大規模言語モデル (LLM) とその推論機能の最近の進歩は、主に製品分類や電子商取引では活用されていません。
この研究では、産業分類の実際の課題を調査し、現実的なデータ シミュレーションを可能にするデータの摂動を提案します。
さらに、LLM ベースの製品分類を採用して、不完全なデータが存在する場合の予測の堅牢性を向上させます。
私たちの調査によると、コンテキスト内学習を行う LLM は、クリーンデータのシナリオにおいて教師ありアプローチよりも優れたパフォーマンスを発揮します。
さらに、データ攻撃が存在する場合、LLM は教師ありアプローチよりも大幅に堅牢であることを示します。

要約(オリジナル)

Product classification is a crucial task in international trade, as compliance regulations are verified and taxes and duties are applied based on product categories. Manual classification of products is time-consuming and error-prone, and the sheer volume of products imported and exported renders the manual process infeasible. Consequently, e-commerce platforms and enterprises involved in international trade have turned to automatic product classification using machine learning. However, current approaches do not consider the real-world challenges associated with product classification, such as very abbreviated and incomplete product descriptions. In addition, recent advancements in generative Large Language Models (LLMs) and their reasoning capabilities are mainly untapped in product classification and e-commerce. In this research, we explore the real-life challenges of industrial classification and we propose data perturbations that allow for realistic data simulation. Furthermore, we employ LLM-based product classification to improve the robustness of the prediction in presence of incomplete data. Our research shows that LLMs with in-context learning outperform the supervised approaches in the clean-data scenario. Additionally, we illustrate that LLMs are significantly more robust than the supervised approaches when data attacks are present.

arxiv情報

著者 Sina Gholamian,Gianfranco Romani,Bartosz Rudnikowicz,Stavroula Skylaki
発行日 2024-10-15 16:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLM-Based Robust Product Classification in Commerce and Compliance はコメントを受け付けていません

Toward Universal and Interpretable World Models for Open-ended Learning Agents

要約

オープンエンドの学習エージェントをサポートする、汎用的で構成的で解釈可能な生成世界モデルのクラスを導入します。
これは、広範囲の確率過程を近似できるベイジアン ネットワークの疎なクラスであり、解釈可能かつ計算的にスケーラブルな方法で世界モデルを学習する機能をエージェントに提供します。
ベイジアン構造学習と内発的動機付けによる (モデルベースの) 計画を統合するこのアプローチにより、エージェントは世界モデルを積極的に開発および洗練できるようになり、発達的な学習とより堅牢で適応的な行動につながる可能性があります。

要約(オリジナル)

We introduce a generic, compositional and interpretable class of generative world models that supports open-ended learning agents. This is a sparse class of Bayesian networks capable of approximating a broad range of stochastic processes, which provide agents with the ability to learn world models in a manner that may be both interpretable and computationally scalable. This approach integrating Bayesian structure learning and intrinsically motivated (model-based) planning enables agents to actively develop and refine their world models, which may lead to developmental learning and more robust, adaptive behavior.

arxiv情報

著者 Lancelot Da Costa
発行日 2024-10-15 16:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, q-bio.NC | Toward Universal and Interpretable World Models for Open-ended Learning Agents はコメントを受け付けていません

Evidence of Cognitive Deficits andDevelopmental Advances in Generative AI: A Clock Drawing Test Analysis

要約

生成 AI の急速な進歩により、特に言語理解やコード生成などのタスクの能力を考慮すると、その認知能力に対する関心が高まっています。
この研究では、いくつかの最近の GenAI モデルが、視空間計画と組織化の神経心理学的評価である Clock Drawing Test (CDT) でどのように機能するかを調査します。
モデルは時計のような図面を作成しますが、正確な時間を表現することに苦労し、軽度から重度の認知障害と同様の障害を示します (Wechsler、2009)。
エラーには、時計機能が正確にレンダリングされているにもかかわらず、数値シーケンスの問題、不正確な時計時間、無関係な追加などが含まれます。
GPT 4 Turbo と Gemini Pro 1.5 だけが正しい時間を記録し、健康な人と同じスコア (4/4) を記録しました。
フォローアップの時計読み取りテストでは、ソネット 3.5 のみが成功したことが判明し、数値概念の難しさから描画の欠陥が生じていることが示唆されました。
これらの発見は、視覚空間理解、作業記憶、または計算における弱点を反映している可能性があり、学習した知識における強みはあるものの推論における弱点を浮き彫りにしています。
人間と機械のパフォーマンスを比較することは、AI の認知能力を理解し、人間のような認知機能に向けて開発を導くために重要です。

要約(オリジナル)

Generative AI’s rapid advancement sparks interest in its cognitive abilities, especially given its capacity for tasks like language understanding and code generation. This study explores how several recent GenAI models perform on the Clock Drawing Test (CDT), a neuropsychological assessment of visuospatial planning and organization. While models create clock-like drawings, they struggle with accurate time representation, showing deficits similar to mild-severe cognitive impairment (Wechsler, 2009). Errors include numerical sequencing issues, incorrect clock times, and irrelevant additions, despite accurate rendering of clock features. Only GPT 4 Turbo and Gemini Pro 1.5 produced the correct time, scoring like healthy individuals (4/4). A follow-up clock-reading test revealed only Sonnet 3.5 succeeded, suggesting drawing deficits stem from difficulty with numerical concepts. These findings may reflect weaknesses in visual-spatial understanding, working memory, or calculation, highlighting strengths in learned knowledge but weaknesses in reasoning. Comparing human and machine performance is crucial for understanding AI’s cognitive capabilities and guiding development toward human-like cognitive functions.

arxiv情報

著者 Isaac R. Galatzer-Levy,Jed McGiffin,David Munday,Xin Liu,Danny Karmon,Ilia Labzovsky,Rivka Moroshko,Amir Zait,Daniel McDuff
発行日 2024-10-15 16:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Evidence of Cognitive Deficits andDevelopmental Advances in Generative AI: A Clock Drawing Test Analysis はコメントを受け付けていません

Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI

要約

自動運転車の進化する状況においては、堅牢な車載ネットワーク (IVN) セキュリティを確保することが最も重要です。
このペーパーでは、変分オートエンコーダー (VAE) ベースの知識蒸留アプローチを使用してパフォーマンスと効率の両方を向上させる、KD-XVAE と呼ばれる高度な侵入検知システム (IDS) を紹介します。
私たちのモデルは複雑さを大幅に軽減し、わずか 1669 個のパラメーターで動作し、バッチあたりの推論時間 0.3 ミリ秒を達成するため、リソースに制約のある自動車環境に非常に適しています。
HCRL カーハッキング データセットの評価では、DoS、ファジング、ギア スプーフィング、RPM スプーフィングなどの複数の攻撃タイプの下で完璧なスコア (再現率、精度、F1 スコア 100%、FNR 0%) を達成する優れた機能が実証されています。
CCIoV2024 データセットの比較分析により、従来の機械学習モデルに対するその優位性がさらに強調され、完璧な検出メトリクスが達成されます。
さらに、Explainable AI (XAI) 技術を統合して、モデルの決定における透明性を確保します。
VAE は、元の特徴空間を潜在空間に圧縮し、その上で蒸留されたモデルがトレーニングされます。
SHAP (SHapley Additive exPlanations) 値は、潜在的な各次元の重要性についての洞察を提供し、直感的な理解のために元の特徴にマッピングし直されます。
私たちの論文は、最先端の技術を統合することでこの分野を前進させ、自動運転車向けの効率的で信頼性の高い IDS の展開における重要な課題に対処し、新たなサイバー脅威に対する保護を強化します。

要約(オリジナル)

In the evolving landscape of autonomous vehicles, ensuring robust in-vehicle network (IVN) security is paramount. This paper introduces an advanced intrusion detection system (IDS) called KD-XVAE that uses a Variational Autoencoder (VAE)-based knowledge distillation approach to enhance both performance and efficiency. Our model significantly reduces complexity, operating with just 1669 parameters and achieving an inference time of 0.3 ms per batch, making it highly suitable for resource-constrained automotive environments. Evaluations in the HCRL Car-Hacking dataset demonstrate exceptional capabilities, attaining perfect scores (Recall, Precision, F1 Score of 100%, and FNR of 0%) under multiple attack types, including DoS, Fuzzing, Gear Spoofing, and RPM Spoofing. Comparative analysis on the CICIoV2024 dataset further underscores its superiority over traditional machine learning models, achieving perfect detection metrics. We furthermore integrate Explainable AI (XAI) techniques to ensure transparency in the model’s decisions. The VAE compresses the original feature space into a latent space, on which the distilled model is trained. SHAP(SHapley Additive exPlanations) values provide insights into the importance of each latent dimension, mapped back to original features for intuitive understanding. Our paper advances the field by integrating state-of-the-art techniques, addressing critical challenges in the deployment of efficient, trustworthy, and reliable IDSes for autonomous vehicles, ensuring enhanced protection against emerging cyber threats.

arxiv情報

著者 Muhammet Anil Yagiz,Pedram MohajerAnsari,Mert D. Pese,Polat Goktas
発行日 2024-10-15 16:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI はコメントを受け付けていません

Improving semantic understanding in speech language models via brain-tuning

要約

音声言語モデルは、自然言語に対する人間の脳の反応と驚くほど一致しています。
しかし、現在のモデルは低レベルの音声特徴に大きく依存しており、脳に関連した意味論が欠如しているため、脳内の意味論的処理のモデル生物としての有用性が制限されていることを示しています。
この研究では、自然の物語を聞いている人々の fMRI 記録を微調整することで、脳に関連するバイアスをモデルに直接導入することでこの制限に対処します。このプロセスをブレインチューニングと名付けます。
3つの異なる事前訓練済みモデルファミリーでテストした結果、脳チューニングは意味論的言語領域における新しい脳記録との全体的な整合性を改善するだけでなく、この整合性における低レベルの音声特徴への依存も軽減することを示しました。
興味深いことに、我々はさらに、脳のチューニングが 1) さまざまな下流タスクのパフォーマンスの一貫した改善、2) 意味論的優先度の増加を伴う表現空間につながることを示しました。
私たちの結果は、言語モデルのトレーニングに脳信号を組み込むことでモデルの意味理解が向上するという、まとまった証拠を初めて提供します。

要約(オリジナル)

Speech language models align with human brain responses to natural language to an impressive degree. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics which limits their utility as model organisms of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias directly into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we name brain-tuning. After testing it on 3 different pretrained model families, we show that brain-tuning not only improves overall alignment with new brain recordings in semantic language regions, but also reduces the reliance on low-level speech features for this alignment. Excitingly, we further show that brain-tuning leads to 1) consistent improvements in performance on a range of downstream tasks and 2) a representational space with increased semantic preference. Our results provide converging evidence, for the first time, that incorporating brain signals into the training of language models improves the models’ semantic understanding.

arxiv情報

著者 Omer Moussa,Dietrich Klakow,Mariya Toneva
発行日 2024-10-15 16:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving semantic understanding in speech language models via brain-tuning はコメントを受け付けていません

Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs?

要約

検索ベースのソフトウェア テスト (SBST) は、ディープ ラーニング対応 (DL 対応) システムなど、大きな入力スペースを持つ複雑なシステムをテストするために広く採用されている手法です。
多くの SBST 手法はパレートベースの最適化に焦点を当てており、複数の目標を並行して最適化して失敗を明らかにします。
ただし、特定された障害が検索ドメインの障害を引き起こす領域全体に分散しており、サブ領域に集中していないことを確認することが重要です。
これにより、特定された障害が意味的に多様であることが保証され、広範囲にわたる根本的な原因が明らかになります。
この論文では、パレート最適化に基づくテストが検索ドメイン内の障害を引き起こす領域をカバーするのに不十分である理由を説明する理論的議論を紹介します。
私たちは、広く使用されている 2 つのタイプのパレートベースの最適化手法、つまり NSGA-II (進化的アルゴリズム) と MOPSO (群ベースのアルゴリズム) を 2 つの DL 対応システムに適用して得られた経験的結果によってこの議論を裏付けています。
バレーパーキング (AVP) システムと手書き数字を分類するシステム。
カバレッジ反転距離品質指標と呼ばれるメトリクスを使用して、入力空間内の障害を明らかにするテスト入力のカバレッジを測定します。
私たちの結果は、NSGA-II と MOPSO が、障害を明らかにするテスト入力をカバーする上で、単純なランダム検索ベースラインよりも効果的ではないことを示しています。
この研究のレプリケーション パッケージは、GitHub リポジトリで入手できます。

要約(オリジナル)

Search-based software testing (SBST) is a widely adopted technique for testing complex systems with large input spaces, such as Deep Learning-enabled (DL-enabled) systems. Many SBST techniques focus on Pareto-based optimization, where multiple objectives are optimized in parallel to reveal failures. However, it is important to ensure that identified failures are spread throughout the entire failure-inducing area of a search domain and not clustered in a sub-region. This ensures that identified failures are semantically diverse and reveal a wide range of underlying causes. In this paper, we present a theoretical argument explaining why testing based on Pareto optimization is inadequate for covering failure-inducing areas within a search domain. We support our argument with empirical results obtained by applying two widely used types of Pareto-based optimization techniques, namely NSGA-II (an evolutionary algorithm) and MOPSO (a swarm-based algorithm), to two DL-enabled systems: an industrial Automated Valet Parking (AVP) system and a system for classifying handwritten digits. We measure the coverage of failure-revealing test inputs in the input space using a metric that we refer to as the Coverage Inverted Distance quality indicator. Our results show that NSGA-II and MOPSO are not more effective than a na\’ive random search baseline in covering test inputs that reveal failures. The replication package for this study is available in a GitHub repository.

arxiv情報

著者 Lev Sorokin,Damir Safin,Shiva Nejati
発行日 2024-10-15 16:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs? はコメントを受け付けていません

Time-Series Foundation Model for Value-at-Risk

要約

この研究は、VaR 推定のための時系列基礎モデルの適用を検討する最初の研究です。
膨大で多様なデータセットで事前トレーニングされた基礎モデルは、比較的最小限のデータを使用してゼロショット設定で使用することも、微調整によってさらに改善することもできます。
S\&P 100 指数とその構成銘柄の 19 年以上の日次リターンを使用して、TimesFM と呼ばれる Google のモデルのパフォーマンスを、GARCH、一般化自己回帰スコア (GAS)、経験的分位推定などの従来のパラメトリック モデルおよびノンパラメトリック モデルと比較します。
年。
バックテストの結果は、実際の期待以上の比率の点で、微調整された TimesFM モデルが従来の方法よりも一貫して優れていることを示しています。
分位点スコア損失関数に関しては、最高の計量経済学的アプローチである GAS モデルと同等のパフォーマンスを達成します。
全体として、基礎モデルは、0.01、0.025、0.05、および 0.1 VaR レベルにわたる VaR の予測において最高のパフォーマンスを発揮するか、トップのパフォーマンスを示します。
また、微調整すると結果が大幅に改善されるため、モデルをゼロショット設定で使用すべきではないこともわかりました。
全体として、基礎モデルは従来の計量経済手法に完全に代替するアプローチを提供できますが、取り組むべき課題もあります。

要約(オリジナル)

This study is the first to explore the application of a time-series foundation model for VaR estimation. Foundation models, pre-trained on vast and varied datasets, can be used in a zero-shot setting with relatively minimal data or further improved through finetuning. We compare the performance of Google’s model, called TimesFM, against conventional parametric and non-parametric models, including GARCH, Generalized Autoregressive Score (GAS), and empirical quantile estimates, using daily returns from the S\&P 100 index and its constituents over 19 years. Our backtesting results indicate that, in terms of the actual-over-expected ratio, the fine-tuned TimesFM model consistently outperforms traditional methods. Regarding the quantile score loss function, it achieves performance comparable to the best econometric approach, the GAS model. Overall, the foundation model is either the best or among the top performers in forecasting VaR across the 0.01, 0.025, 0.05, and 0.1 VaR levels. We also found that fine-tuning significantly improves the results, and the model should not be used in zero-shot settings. Overall, foundation models can provide completely alternative approaches to traditional econometric methods, yet there are challenges to be tackled.

arxiv情報

著者 Anubha Goel,Puneet Pasricha,Juho Kanniainen
発行日 2024-10-15 16:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.RM | Time-Series Foundation Model for Value-at-Risk はコメントを受け付けていません