On Training Data Influence of GPT Models

要約

生成言語モデルの急速な進歩の中で、学習データがGPTモデルの性能をどのように形成するかについての研究はまだ新しい。本論文では、GPTモデルの学習ダイナミクスに対する学習例の影響を評価するために、特徴化シミュレーションを活用した新しいアプローチであるGPTfluenceを紹介する。本アプローチは、個々の訓練例が、目標とするテストポイントにおける損失やその他の主要なメトリクスなどのパフォーマンス軌道に与える影響を追跡するだけでなく、1400万から28億のパラメータに及ぶGPTモデルの様々な訓練シナリオにおいて、下流タスクの範囲にわたって、既存の手法との包括的な比較を可能にする。GPTfluenceは、新しいデータへの汎化に苦戦する以前の手法とは対照的に、トレーニングダイナミクスのパラメータ化されたシミュレーションを導入し、未知のトレーニングデータへの頑健な汎化能力を実証しています。この適応性は、ファインチューニングとインストラクションチューニングの両方のシナリオにおいて、自然言語理解と生成のタスクにまたがって明らかである。我々のコードとデータは、https://github.com/ernie-research/gptfluence で公開されている。

要約(オリジナル)

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We make our code and data publicly available at https://github.com/ernie-research/gptfluence.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Shuohuan Wang,Yu Sun,Qiwei Peng,Hua Wu
発行日 2024-10-03 17:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Tokenization Falling Short: The Curse of Tokenization

要約

言語モデルは通常、生テキストを事前に定義された語彙からサブワード識別子のシーケンスにトークン化するが、このプロセスは本質的に誤字脱字や長さのばらつきに敏感であり、トークンの内部構造にはほとんど気づかない。本研究では、これらの欠点を掘り下げ、大規模言語モデル(LLM)が依然としてこれらの問題の影響を受けやすいことを実証する。本研究では、(1)複雑な問題解決、(2)トークン構造のプロービング、(3)タイポグラフィの変化への耐性という3つの重要な研究課題を通して、これらの課題とLLMへの影響を系統的に調査する。その結果、モデルパラメータをスケーリングすることで、トークン化の問題を軽減できることが明らかになった。しかし、LLMは依然として、誤字やその他のテキスト形式のバリエーションによって引き起こされるバイアスに悩まされている。我々の実験は、BPE-dropoutのようなサブワード正則化がこの問題を軽減できることを示している。評価コードとデータはhttps://github.com/FloatAI/TKEval。

要約(オリジナル)

Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens–issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We release our evaluation code and data at https://github.com/FloatAI/TKEval.

arxiv情報

著者 Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li
発行日 2024-10-03 17:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

要約

ソフトウェア・エンジニアは、主に既存のプログラムを編集してコードを書く。対照的に、大規模言語モデル(LLM)は、1回のパスでプログラムを自己回帰的に合成する。この理由の一つは、オープンソース化された編集データが少ないことである。コード合成のための高品質な命令データはすでに少ないが、高品質な編集データはさらに少ない。このギャップを埋めるために、我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発した。このアルゴリズムは、プログラムを逐次記述するために使用できるエラーのない挿入を手続き的にサンプリングするためにリンターを使用することにより、既存のコードをコード編集シーケンスにリファクタリングする。編集シーケンスは、連続するプログラムの差分からなるテキスト文字列として出力される。LintSeqをテストするために、命令+プログラムのペアのデータセットを命令+プログラム-差分-シーケンスのタプルにリファクタリングするために使用します。次に、このデータセットのリファクタリング版とオリジナル版の両方について、2.6Bから14Bのパラメータに及ぶ一連の小さなLLMをインストラクション・ファインチューニングし、コード合成ベンチマークにおけるゼロショット性能を比較する。繰り返しサンプリング中に、編集シーケンス微調整モデルはベースラインよりも多様なプログラムを生成することを示す。この結果、サンプルの関数として、ベンチマークカバレッジの推論時間のスケーリングが改善される。例えば、HumanEval pass@50では、合成編集配列でファインチューニングされた小さなLLMはGPT-4と競合し、ベースラインデータセットでファインチューニングされたモデルを絶対スコアで+20% (+/-3%) 上回った。最後に、コード理解のために、独自の小さなLMを事前学習する。合成コード編集で微小モデルを微調整することで、オンデバイスモデルクラスで最先端のコード合成が得られることを示す。我々の150Mパラメータ編集シーケンスLMは、CodexやAlphaCodeを含む、繰り返しサンプリングの有無にかかわらず、2倍のパラメータ数を持つコードモデルと一致するか、それを上回る。

要約(オリジナル)

Software engineers mainly write code by editing existing programs. In contrast, large language models (LLMs) autoregressively synthesize programs in a single pass. One explanation for this is the scarcity of open-sourced edit data. While high-quality instruction data for code synthesis is already scarce, high-quality edit data is even scarcer. To fill this gap, we develop a synthetic data generation algorithm called LintSeq. This algorithm refactors existing code into a sequence of code edits by using a linter to procedurally sample across the error-free insertions that can be used to sequentially write programs. It outputs edit sequences as text strings consisting of consecutive program diffs. To test LintSeq, we use it to refactor a dataset of instruction + program pairs into instruction + program-diff-sequence tuples. Then, we instruction finetune a series of smaller LLMs ranging from 2.6B to 14B parameters on both the re-factored and original versions of this dataset, comparing zero-shot performance on code synthesis benchmarks. We show that during repeated sampling, edit sequence finetuned models produce more diverse programs than baselines. This results in better inference-time scaling for benchmark coverage as a function of samples, i.e. the fraction of problems ‘pass@k’ solved by any attempt given ‘k’ tries. For example, on HumanEval pass@50, small LLMs finetuned on synthetic edit sequences are competitive with GPT-4 and outperform models finetuned on the baseline dataset by +20% (+/-3%) in absolute score. Finally, we also pretrain our own tiny LMs for code understanding. We show that finetuning tiny models on synthetic code edits results in state-of-the-art code synthesis for the on-device model class. Our 150M parameter edit sequence LM matches or outperforms code models with twice as many parameters, both with and without repeated sampling, including Codex and AlphaCode.

arxiv情報

著者 Ulyana Piterbarg,Lerrel Pinto,Rob Fergus
発行日 2024-10-03 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost

要約

特化した大規模言語モデルを作成するには、学習と微調整のために膨大な量のクリーンで特別な目的のデータが必要です。既存の大規模でドメイン固有のデータセットはほんの一握りであるため、ほとんどのアプリケーションでは新しいデータセットの作成が必要となる。このため、ウェブスケールデータのアプリケーション固有のフィルタリングを新たに開発する必要がある。GPT-4oのような高性能汎用LLMによるフィルタリングは非常に効果的であるが、ウェブスケールでは非常に高価である。本論文では、GPT-4oの精度に匹敵する軽量の代替手段であるSIEVEを提案する。SIEVEは、GPT-4oのフィルタリング呼び出し1回分のコストで、最大500回のフィルタリング処理を実行できる。SIEVEの鍵は、GPT-4oと軽量T5モデルのシームレスな統合であり、GPT-4oへの少ない呼び出し回数でバックグラウンドでT5を微調整するために能動学習を使用しています。一度学習すれば、GPT-4oと同程度の性能をわずかなコストで実現します。我々は、OpenWebTextデータセット上で、高品質でドメイン固有のコンテンツをターゲットとした、高度にカスタマイズされた5つのフィルタータスクを使用して、SIEVEを実験的に検証した。その結果、既存の手法よりも大幅に低いコスト(1%)で、言語モデル学習用の大規模で高品質なデータセットをキュレートする上で、本手法の有効性と効率性が実証された。SIEVEをさらに検証するため、実験ではSIEVEとGPT-4oが同程度の精度を達成し、人間の評価者はGPT-4oのフィルタリング結果よりもSIEVEのフィルタリング結果を好むことが示された。

要約(オリジナル)

Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE’s filtering results to those of GPT-4o.

arxiv情報

著者 Jifan Zhang,Robert Nowak
発行日 2024-10-03 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text

要約

CRAC 2024多言語共参照解決共有タスクの優勝作品であるCorPipe 24を発表する。この共有タスクの3回目の反復では、新たな目的として、ゼロの共参照言及に必要な空のノードも予測することである(一方、空のノードは例年入力で与えられる)。こうすることで、生のテキストに対して共参照解決を行うことができる。我々は2つのモデルバリエーションを評価した:~2段階アプローチ(空ノードは事前に訓練されたエンコーダーモデルを使用して最初に予測され、次に別の事前に訓練されたモデルによって文の単語と一緒に処理される)と1段階アプローチ(1つの事前に訓練されたエンコーダーモデルが空ノード、共参照の言及、共参照リンクを共同で生成する)。どちらの設定でも、CorPipeはそれぞれ3.9%、2.8%ポイントという大きな差で他の参加者を上回った。ソースコードと学習済みモデルは https://github.com/ufal/crac2024-corpipe で入手可能。

要約(オリジナル)

We present CorPipe 24, the winning entry to the CRAC 2024 Shared Task on Multilingual Coreference Resolution. In this third iteration of the shared task, a novel objective is to also predict empty nodes needed for zero coreference mentions (while the empty nodes were given on input in previous years). This way, coreference resolution can be performed on raw text. We evaluate two model variants: a~two-stage approach (where the empty nodes are predicted first using a pretrained encoder model and then processed together with sentence words by another pretrained model) and a single-stage approach (where a single pretrained encoder model generates empty nodes, coreference mentions, and coreference links jointly). In both settings, CorPipe surpasses other participants by a large margin of 3.9 and 2.8 percent points, respectively. The source code and the trained model are available at https://github.com/ufal/crac2024-corpipe .

arxiv情報

著者 Milan Straka
発行日 2024-10-03 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Erasing Conceptual Knowledge from Language Models

要約

言語モデルにおける概念消去は、従来、包括的な評価の枠組みを欠いていたため、消去手法の有効性の評価が不完全であった。我々は、3つの重要な基準、すなわち、イノセンス(完全な知識除去)、シームレス(条件付きの流暢な生成の維持)、特異性(無関係なタスク性能の維持)を中心とした評価パラダイムを提案する。この評価基準は、3つの次元すべてに対応するように設計された新しい手法である言語記憶の消去(ELM)の開発の動機付けとなる。ELMは、消去された概念に対する出力分布を変化させる一方で、消去された概念に対するプロンプト時の流暢さを含むモデル全体の能力を維持するために、ターゲットとなる低ランクの更新を用いる。ELMの有効性をバイオセキュリティ、サイバーセキュリティ、文学分野の消去タスクで実証する。比較分析により、ELMは、消去されたトピックの評価におけるランダムに近いスコア、生成の流暢さ、無関係なベンチマークにおける精度の維持、敵対的攻撃に対する頑健性など、提案した指標において優れた性能を達成することが示された。我々のコード、データ、学習済みモデルは、https://elm.baulab.info。

要約(オリジナル)

Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM’s efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

arxiv情報

著者 Rohit Gandikota,Sheridan Feucht,Samuel Marks,David Bau
発行日 2024-10-03 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Which questions should I answer? Salience Prediction of Inquisitive Questions

要約

探究的な質問(人が読書をする際にする、オープンエンドで好奇心主導の質問)は、談話処理(Kehler and Rohde, 2017; Onea, 2016)や理解(Prince, 2004)に不可欠な要素である。NLPの最近の研究では、LLMの質問生成機能を利用して、幅広いアプリケーションを強化している。しかし、詮索好きな質問の空間は広大で、与えられた文脈から多くの質問を呼び起こすことができる。では、どれを優先して答えを見つけるべきなのだろうか?言語理論は残念ながら、この問いに対する答えをまだ提供していない。本論文では、QSALIENCEを紹介する。QSALIENCEは、好奇心旺盛な質問のサリエンスを予測するものである。QSALIENCEは、1,766の(文脈と質問)ペアの言語学者注釈付きサリエンススコアのデータセットに対してインストラクションチューニングされている。その質問に答えることで、テキストの理解が大きく深まる場合、その質問はサリエンススコアが高くなる(Van Rooy, 2003)。我々は、潜在的な質問(Onea, 2016)と議論中の質問(Roberts, 2012)の橋渡しをすることで、顕著性の高い質問が同じ記事で回答される可能性が経験的に高いことを示す。さらに、顕著な質問に答えることがニュースにおける要約の質の指標であることを示すことで、我々の発見を検証する。

要約(オリジナル)

Inquisitive questions — open-ended, curiosity-driven questions people ask as they read — are an integral part of discourse processing (Kehler and Rohde, 2017; Onea, 2016) and comprehension (Prince, 2004). Recent work in NLP has taken advantage of question generation capabilities of LLMs to enhance a wide range of applications. But the space of inquisitive questions is vast: many questions can be evoked from a given context. So which of those should be prioritized to find answers? Linguistic theories, unfortunately, have not yet provided an answer to this question. This paper presents QSALIENCE, a salience predictor of inquisitive questions. QSALIENCE is instruction-tuned over our dataset of linguist-annotated salience scores of 1,766 (context, question) pairs. A question scores high on salience if answering it would greatly enhance the understanding of the text (Van Rooy, 2003). We show that highly salient questions are empirically more likely to be answered in the same article, bridging potential questions (Onea, 2016) with Questions Under Discussion (Roberts, 2012). We further validate our findings by showing that answering salient questions is an indicator of summarization quality in news.

arxiv情報

著者 Yating Wu,Ritika Mangla,Alexandros G. Dimakis,Greg Durrett,Junyi Jessy Li
発行日 2024-10-03 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Learning from Offline Foundation Features with Tensor Augmentations

要約

LOFF-TA(Learning from Offline Foundation Features with Tensor Augmentations)を紹介する。LOFF-TAは、直接的な開発が不可能な限られたリソース環境において、基礎モデルの能力を活用するために設計された効率的な学習スキームである。LOFF-TAは、凍結された基礎モデルからキャッシュされた特徴埋め込みでコンパクトな分類器を学習することで、学習が最大37倍速くなり、GPUメモリ使用量が最大26倍削減される。拡張された画像の埋め込みは、保存するには多すぎるが、拡張処理は学習に不可欠であるため、我々は、拡張されていない元の画像のキャッシュされた埋め込みにテンソル拡張を適用することを提案する。LOFF-TAは、計算能力の限られた環境において、そのサイズに関係なく、基礎モデルの力を活用することを可能にする。さらに、LOFF-TAは、計算量を増加させることなく、高解像度の画像に基礎モデルを適用するために用いることができる。特定のシナリオでは、LOFF-TAを用いたトレーニングは、基礎モデルを直接微調整するよりも良い結果をもたらすことがわかります。

要約(オリジナル)

We introduce Learning from Offline Foundation Features with Tensor Augmentations (LOFF-TA), an efficient training scheme designed to harness the capabilities of foundation models in limited resource settings where their direct development is not feasible. LOFF-TA involves training a compact classifier on cached feature embeddings from a frozen foundation model, resulting in up to $37\times$ faster training and up to $26\times$ reduced GPU memory usage. Because the embeddings of augmented images would be too numerous to store, yet the augmentation process is essential for training, we propose to apply tensor augmentations to the cached embeddings of the original non-augmented images. LOFF-TA makes it possible to leverage the power of foundation models, regardless of their size, in settings with limited computational capacity. Moreover, LOFF-TA can be used to apply foundation models to high-resolution images without increasing compute. In certain scenarios, we find that training with LOFF-TA yields better results than directly fine-tuning the foundation model.

arxiv情報

著者 Emir Konuk,Christos Matsoukas,Moein Sorkhei,Phitchapha Lertsiravaramet,Kevin Smith
発行日 2024-10-03 14:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer

要約

様々なコンピュータビジョンタスクにおいて、Vision Transformer(ViT)ベースの手法が高い性能を発揮することは、数多くの研究によって実証されている。しかし、ViTモデルは、特に複雑なシナリオにおいて、小さなターゲットを検出し、エッジの詳細を保持するために重要である、画像中の高周波数成分を効果的に捕捉するのに苦労することが多い。この限界は、大腸ポリープのセグメンテーションにおいて特に困難である。このような状況において、正確なセマンティックセグメンテーションを達成するためには、境界の詳細のような高周波の情報が不可欠である。このような課題に対処するため、我々は大腸ポリープのセグメンテーションのための新しいネットワークであるHiFiSegを提案する。HiFiSegは、グローバル-ローカル視覚変換フレームワークにより高周波数情報処理を強化する。HiFiSegは、ピラミッドビジョントランスフォーマー(PVT)をエンコーダーとして活用し、グローバル-ローカル相互作用モジュール(GLIM)と選択的集約モジュール(SAM)という2つの重要なモジュールを導入している。GLIMは並列構造を採用し、複数のスケールでグローバル情報とローカル情報を融合し、きめ細かい特徴を効果的に捉える。SAMは、低レベルの特徴から得られる境界の詳細と高レベルの特徴から得られる意味情報を選択的に統合し、ポリープを正確に検出してセグメント化するモデルの能力を大幅に向上させる。広く認識されている5つのベンチマークデータセットを用いた広範な実験により、ポリープのセグメンテーションにおけるHiFiSegの有効性が実証された。特に、難易度の高いCVC-ColonDBデータセットとETISデータセットのmDiceスコアは、それぞれ0.826と0.822に達し、このタスク特有の複雑性を処理するHiFiSegの優れた性能を強調しています。

要約(オリジナル)

Numerous studies have demonstrated the strong performance of Vision Transformer (ViT)-based methods across various computer vision tasks. However, ViT models often struggle to effectively capture high-frequency components in images, which are crucial for detecting small targets and preserving edge details, especially in complex scenarios. This limitation is particularly challenging in colon polyp segmentation, where polyps exhibit significant variability in structure, texture, and shape. High-frequency information, such as boundary details, is essential for achieving precise semantic segmentation in this context. To address these challenges, we propose HiFiSeg, a novel network for colon polyp segmentation that enhances high-frequency information processing through a global-local vision transformer framework. HiFiSeg leverages the pyramid vision transformer (PVT) as its encoder and introduces two key modules: the global-local interaction module (GLIM) and the selective aggregation module (SAM). GLIM employs a parallel structure to fuse global and local information at multiple scales, effectively capturing fine-grained features. SAM selectively integrates boundary details from low-level features with semantic information from high-level features, significantly improving the model’s ability to accurately detect and segment polyps. Extensive experiments on five widely recognized benchmark datasets demonstrate the effectiveness of HiFiSeg for polyp segmentation. Notably, the mDice scores on the challenging CVC-ColonDB and ETIS datasets reached 0.826 and 0.822, respectively, underscoring the superior performance of HiFiSeg in handling the specific complexities of this task.

arxiv情報

著者 Jingjing Ren,Xiaoyong Zhang,Lina Zhang
発行日 2024-10-03 14:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

A Foundation Model for the Solar Dynamics Observatory

要約

SDO-FMは、NASAの太陽観測衛星(SDO)のデータを利用した基礎モデルである。3つの別々の観測装置を統合し、太陽の複雑な物理的相互作用をマルチモーダル埋め込み空間にカプセル化する。このモデルは、太陽物理学研究のために膨大なデータセットをより計算しやすくし、機器融合を必要とする調査を可能にすることで、SDOを含む科学的調査を合理化するために使用することができる。機械学習準備の整ったデータセットを作成するための取り込みパイプライン、モデルのアーキテクチャと学習アプローチ、埋め込み結果と微調整可能なモデル、そして最終的に下流で微調整されたアプリケーションという4つの重要な構成要素について説明する。この努力の重要な構成要素は、開発の各段階で主題の専門家を参加させることであり、科学的価値をレビューし、モデルアーキテクチャ、データセット、およびトレーニングパラダイムの決定のためのガイダンスを提供することである。この論文は、Hugging Faceとsdofm.orgでコミュニティに公開されている、事前学習済みモデルと埋め込みデータセットのリリースを記念するものです。

要約(オリジナル)

SDO-FM is a foundation model using data from NASA’s Solar Dynamics Observatory (SDO) spacecraft; integrating three separate instruments to encapsulate the Sun’s complex physical interactions into a multi-modal embedding space. This model can be used to streamline scientific investigations involving SDO by making the enormous datasets more computationally accessible for heliophysics research and enable investigations that require instrument fusion. We discuss four key components: an ingestion pipeline to create machine learning ready datasets, the model architecture and training approach, resultant embeddings and fine-tunable models, and finally downstream fine-tuned applications. A key component of this effort has been to include subject matter specialists at each stage of development; reviewing the scientific value and providing guidance for model architecture, dataset, and training paradigm decisions. This paper marks release of our pretrained models and embedding datasets, available to the community on Hugging Face and sdofm.org.

arxiv情報

著者 James Walsh,Daniel G. Gass,Raul Ramos Pollan,Paul J. Wright,Richard Galvez,Noah Kasmanoff,Jason Naradowsky,Anne Spalding,James Parr,Atılım Güneş Baydin
発行日 2024-10-03 14:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: astro-ph.SR, cs.CV | コメントする