Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective

要約

大規模な言語モデル(LLM)は、多くの場合、訓練されているデータの結果として、社会的、人口統計学的、性別バイアスを示すことが知られています。
この作業では、GPT-2やLlama2などのモデル内で、そのようなバイアスがどのように構造的に表現されるかを分析するために、機械的解釈可能性アプローチを採用します。
人口統計学的および性別のバイアスに焦点を当て、さまざまな指標を探り、偏った動作の原因となる内部エッジを特定します。
次に、データセットと言語のバリエーション全体のこれらのコンポーネントの安定性、ローカリゼーション、および一般化可能性を評価します。
体系的なアブレーションを通じて、バイアス関連の計算は高度に局所化されており、多くの場合、層の小さなサブセットに集中していることを実証します。
さらに、特定されたコンポーネントは、バイアスとは関係のないものを含む微調整設定全体で変化します。
最後に、これらのコンポーネントを削除すると、偏った出力が減少するだけでなく、これらのタスクと重要なコンポーネントを共有するために、名前付きエンティティ認識や言語の受け入れ可能性判断など、他のNLPタスクにも影響することが示されます。

要約(オリジナル)

Large Language Models (LLMs) are known to exhibit social, demographic, and gender biases, often as a consequence of the data on which they are trained. In this work, we adopt a mechanistic interpretability approach to analyze how such biases are structurally represented within models such as GPT-2 and Llama2. Focusing on demographic and gender biases, we explore different metrics to identify the internal edges responsible for biased behavior. We then assess the stability, localization, and generalizability of these components across dataset and linguistic variations. Through systematic ablations, we demonstrate that bias-related computations are highly localized, often concentrated in a small subset of layers. Moreover, the identified components change across fine-tuning settings, including those unrelated to bias. Finally, we show that removing these components not only reduces biased outputs but also affects other NLP tasks, such as named entity recognition and linguistic acceptability judgment because of the sharing of important components with these tasks.

arxiv情報

著者 Bhavik Chandna,Zubair Bashir,Procheta Sen
発行日 2025-06-05 15:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective はコメントを受け付けていません

ECoRAG: Evidentiality-guided Compression for Long Context RAG

要約

大規模な言語モデル(LLMS)は、検索された生成(RAG)を通じて外部ドキュメントを活用することにより、オープンドメイン質問応答(ODQA)の顕著なパフォーマンスを示しています。
より長いコンテキストから、ぼろきれのオーバーヘッドを減らすには、コンテキスト圧縮が必要です。
ただし、以前の圧縮方法では、LLMベースのRAGのパフォーマンスを制限する非自明情報の除外に焦点を当てていません。
したがって、私たちは、証拠誘導ぼろきれ、または\ textBf {ecorag}フレームワークを提案します。
Ecoragは、証拠に基づいて検索されたドキュメントを圧縮し、回答生成が正しい証拠によってサポートされているかどうかを確認することにより、LLMのパフォーマンスを向上させます。
追加のステップとして、Ecoragは圧縮コンテンツが十分な証拠を提供するかどうかを反映しており、そうでない場合は、十分になるまでさらに検索します。
実験は、EcoragがODQAタスクのLLMパフォーマンスを改善し、既存の圧縮方法を上回ることを示しています。
さらに、ecoragは潜時を減らすだけでなく、正しい答えを生成するために必要な情報のみを保持することでトークンの使用を最小限に抑えるため、非常に費用対効率が高くなります。
コードはhttps://github.com/ldilab/ecoragで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable performance in Open-Domain Question Answering (ODQA) by leveraging external documents through Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer context, context compression is necessary. However, prior compression methods do not focus on filtering out non-evidential information, which limit the performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or \textbf{ECoRAG} framework. ECoRAG improves LLM performance by compressing retrieved documents based on evidentiality, ensuring whether answer generation is supported by the correct evidence. As an additional step, ECoRAG reflects whether the compressed content provides sufficient evidence, and if not, retrieves more until sufficient. Experiments show that ECoRAG improves LLM performance on ODQA tasks, outperforming existing compression methods. Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency but also minimizes token usage by retaining only the necessary information to generate the correct answer. Code is available at https://github.com/ldilab/ECoRAG.

arxiv情報

著者 Yeonseok Jeong,Jinsu Kim,Dohyeon Lee,Seung-won Hwang
発行日 2025-06-05 15:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | ECoRAG: Evidentiality-guided Compression for Long Context RAG はコメントを受け付けていません

SNaRe: Domain-aware Data Generation for Low-Resource Event Detection

要約

イベント検出(ED) – 自然言語テキストからイベントの言及を特定するタスクは、生物医学、法律、疫学などの高度に専門化されたドメインで推論を可能にするために重要です。
データ生成は、高価な専門家の注釈を必要とせずに、その有用性をより広いアプリケーションに拡大するのに効果的であることが証明されています。
ただし、既存の生成アプローチが特殊なドメインに適用されると、発生した文とターゲットドメインの間の分布の不一致を特徴とする、注釈が正しくないラベルノイズとドメインドリフトに苦労します。
これらの問題に対処するために、スカウト、ナレーター、リファイナーの3つのコンポーネントで構成されるドメイン認識の合成データ生成フレームワークであるSNAREを紹介します。
スカウト抽出物は、標的ドメインデータからトリガーをトリガーし、コーパスレベルの統計を使用して高品質のドメイン固有のトリガーリストをキュレートしてドメインドリフトを緩和します。
これらのトリガーに条件付けられたナレーターは、高品質のドメインに合わせた文を生成し、リファイナーは追加のイベントの言及を識別し、高い注釈の品質を確保します。
3つの多様なドメインEDデータセットでの実験により、SNAREが最良のベースラインよりも優れている方法が明らかになり、ゼロショット/少ないショット設定で平均F1ゲインが3〜7%、多言語生成の4-20%F1の改善が得られます。
生成されたトリガーヒット率と人間の評価を分析すると、Snareのより強い注釈の質とドメインドリフトの削減が実証されます。

要約(オリジナル)

Event Detection (ED) — the task of identifying event mentions from natural language text — is critical for enabling reasoning in highly specialized domains such as biomedicine, law, and epidemiology. Data generation has proven to be effective in broadening its utility to wider applications without requiring expensive expert annotations. However, when existing generation approaches are applied to specialized domains, they struggle with label noise, where annotations are incorrect, and domain drift, characterized by a distributional mismatch between generated sentences and the target domain. To address these issues, we introduce SNaRe, a domain-aware synthetic data generation framework composed of three components: Scout, Narrator, and Refiner. Scout extracts triggers from unlabeled target domain data and curates a high-quality domain-specific trigger list using corpus-level statistics to mitigate domain drift. Narrator, conditioned on these triggers, generates high-quality domain-aligned sentences, and Refiner identifies additional event mentions, ensuring high annotation quality. Experimentation on three diverse domain ED datasets reveals how SNaRe outperforms the best baseline, achieving average F1 gains of 3-7% in the zero-shot/few-shot settings and 4-20% F1 improvement for multilingual generation. Analyzing the generated trigger hit rate and human evaluation substantiates SNaRe’s stronger annotation quality and reduced domain drift.

arxiv情報

著者 Tanmay Parekh,Yuxuan Dong,Lucas Bandarkar,Artin Kim,I-Hung Hsu,Kai-Wei Chang,Nanyun Peng
発行日 2025-06-05 15:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SNaRe: Domain-aware Data Generation for Low-Resource Event Detection はコメントを受け付けていません

Can Large Language Models Understand Intermediate Representations in Compilers?

要約

中間表現(IRS)は、コンパイラの設計とプログラム分析に重要な役割を果たしますが、大規模な言語モデル(LLM)による理解は依存していないままです。
この論文では、IRSの理解において、6つの最先端のLLMS:GPT-4、GPT-3、DEEPSEEK、GEMMA 2、LLAMA 3、およびCODE LLAMAの能力を評価する探索的経験的研究を紹介します。
具体的には、コントロールフローグラフの再構築、逆コンパイル、コード要約、および実行推論の4つのコアタスクでモデルのパフォーマンスを評価します。
LLMは、IR構文を解析し、高レベルの構造を特定する能力を示しますが、特に制御フローの推論、ループ処理、動的実行において、指導レベルの推論と一貫して苦労しています。
一般的な障害モードには、分岐命令の誤解、重要な操作の省略、および正確な指導レベルのロジックではなく、ヒューリスティックな推論に依存することが含まれます。
私たちの調査結果は、LLM設計におけるIR固有の強化の必要性を強調しています。
構造化されたIRデータセットの微調整と、モデルの有効性を改善するために、コントロールフロー感受性アーキテクチャを統合することをお勧めします。
すべての実験データとソースコードは公開されています

要約(オリジナル)

Intermediate Representations (IRs) play a critical role in compiler design and program analysis, yet their comprehension by Large Language Models (LLMs) remains underexplored. In this paper, we present an explorative empirical study evaluating the capabilities of six state-of-the-art LLMs: GPT-4, GPT-3, DeepSeek, Gemma 2, Llama 3, and Code Llama, in understanding IRs. Specifically, we assess model performance across four core tasks: control flow graph reconstruction, decompilation, code summarization, and execution reasoning. While LLMs exhibit competence in parsing IR syntax and identifying high-level structures, they consistently struggle with instruction-level reasoning, especially in control flow reasoning, loop handling, and dynamic execution. Common failure modes include misinterpreting branching instructions, omitting critical operations, and relying on heuristic reasoning rather than precise instruction-level logic. Our findings highlight the need for IR-specific enhancements in LLM design. We recommend fine-tuning on structured IR datasets and integrating control-flow-sensitive architectures to improve model effectiveness. All experimental data and source code are publicly available at

arxiv情報

著者 Hailong Jiang,Jianfeng Zhu,Yao Wan,Bo Fang,Hongyu Zhang,Ruoming Jin,Qiang Guan
発行日 2025-06-05 15:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Can Large Language Models Understand Intermediate Representations in Compilers? はコメントを受け付けていません

Biased AI can Influence Political Decision-Making

要約

現代の大規模な言語モデル(LLM)が日常のタスクに不可欠になるにつれて、それらの固有のバイアスに関する懸念と、人間の意思決定への潜在的な影響が現れています。
モデルのバイアスは十分に文書化されていますが、これらのバイアスが人間の決定にどのように影響するかについてはあまり知られていません。
この論文では、LLMSにおける党派的なバイアスが政治的意見と意思決定に及ぼす影響を調査する2つのインタラクティブな実験を提示します。
参加者は、これらのタスクを完了しながら、偏ったリベラル、偏った保守的、または公平な制御モデルのいずれかと自由にやり取りしました。
党派の偏ったモデルにさらされた参加者は、意見を採用し、LLMのバイアスに合った決定を下す可能性が非常に高いことがわかりました。
さらに驚くべきことに、この影響は、参加者のモデルバイアスと個人的な政治的党派性が反対だったときに見られました。
しかし、AIの事前知識は、バイアスの影響の減少と弱く相関していることを発見し、バイアス効果の堅牢な緩和のためのAI教育の重要性の可能性を強調しました。
私たちの調査結果は、偏ったLLMと相互作用することの重要な影響と、公共の言説や政治的行動に影響を与える能力を強調するだけでなく、将来のこれらのリスクを緩和するための潜在的な技術を強調しています。

要約(オリジナル)

As modern large language models (LLMs) become integral to everyday tasks, concerns about their inherent biases and their potential impact on human decision-making have emerged. While bias in models are well-documented, less is known about how these biases influence human decisions. This paper presents two interactive experiments investigating the effects of partisan bias in LLMs on political opinions and decision-making. Participants interacted freely with either a biased liberal, biased conservative, or unbiased control model while completing these tasks. We found that participants exposed to partisan biased models were significantly more likely to adopt opinions and make decisions which matched the LLM’s bias. Even more surprising, this influence was seen when the model bias and personal political partisanship of the participant were opposite. However, we also discovered that prior knowledge of AI was weakly correlated with a reduction of the impact of the bias, highlighting the possible importance of AI education for robust mitigation of bias effects. Our findings not only highlight the critical effects of interacting with biased LLMs and its ability to impact public discourse and political conduct, but also highlights potential techniques for mitigating these risks in the future.

arxiv情報

著者 Jillian Fisher,Shangbin Feng,Robert Aron,Thomas Richardson,Yejin Choi,Daniel W. Fisher,Jennifer Pan,Yulia Tsvetkov,Katharina Reinecke
発行日 2025-06-05 15:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Biased AI can Influence Political Decision-Making はコメントを受け付けていません

TreeRPO: Tree Relative Policy Optimization

要約

大規模な言語モデル(LLM)は、検証可能な報酬(RLVR)方法による強化学習を通じて、顕著な推論能力を示しています。
ただし、既存のアプローチの重要な制限は、完全な軌道レベルで定義された報酬が、推論プロセスの中間ステップを最適化するための不十分なガイダンスを提供することです。
これに対処するために、ツリーサンプリングを使用したさまざまな推論ステップでの報酬の数学的期待を推定する新しい方法である\ textBf {\ name}を紹介します。
別のステップ報酬モデルに依存する以前の方法とは異なり、\ nameはこのサンプリングプロセスを通じてこれらの報酬を直接推定します。
GRPOのグループ相関報酬トレーニングメカニズムに基づいて、\ Nameは、ツリーサンプリング中に生成されたステップレベルグループに基づいて革新的に報酬を計算します。
この進歩により、\名はきめ細かい報酬信号を生成することができ、LLMの学習プロセスと全体的なパフォーマンスを大幅に向上させることができます。
実験結果は、\ Nameアルゴリズムがテストベンチマーク上のQWEN-2.5-MATHの平均パス@1精度を大幅に改善し、19.0 \%から35.5 \%に増加することを示しています。
さらに、\名はパフォーマンスでGRPOを2.9%上回ると同時に平均応答長を18.1 \%削減し、その有効性と効率を紹介します。
私たちのコードは、\ href {https://github.com/yangzhch6/treeerpo} {https://github.com/yangzhch6/treerpo}で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable reasoning capabilities through Reinforcement Learning with Verifiable Rewards (RLVR) methods. However, a key limitation of existing approaches is that rewards defined at the full trajectory level provide insufficient guidance for optimizing the intermediate steps of a reasoning process. To address this, we introduce \textbf{\name}, a novel method that estimates the mathematical expectations of rewards at various reasoning steps using tree sampling. Unlike prior methods that rely on a separate step reward model, \name directly estimates these rewards through this sampling process. Building on the group-relative reward training mechanism of GRPO, \name innovatively computes rewards based on step-level groups generated during tree sampling. This advancement allows \name to produce fine-grained and dense reward signals, significantly enhancing the learning process and overall performance of LLMs. Experimental results demonstrate that our \name algorithm substantially improves the average Pass@1 accuracy of Qwen-2.5-Math on test benchmarks, increasing it from 19.0\% to 35.5\%. Furthermore, \name significantly outperforms GRPO by 2.9\% in performance while simultaneously reducing the average response length by 18.1\%, showcasing its effectiveness and efficiency. Our code will be available at \href{https://github.com/yangzhch6/TreeRPO}{https://github.com/yangzhch6/TreeRPO}.

arxiv情報

著者 Zhicheng Yang,Zhijiang Guo,Yinya Huang,Xiaodan Liang,Yiwei Wang,Jing Tang
発行日 2025-06-05 15:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TreeRPO: Tree Relative Policy Optimization はコメントを受け付けていません

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

要約

検索拡張生成(RAG)は、LLMコンテキストにドキュメントの検索を可能にして、より正確で関連性のある応答を提供することにより、大規模な言語モデル(LLM)の能力を高めます。
既存のRAGソリューションでは、実質的に異なるコンテンツを持つ複数のドキュメントを取得する必要があるクエリに焦点を当てていません。
このようなクエリは頻繁に発生しますが、これらのドキュメントの埋め込みが埋め込みスペースに遠くにある可能性があり、それらすべてを取得するのが難しくなる可能性があるため、困難です。
このペーパーでは、このギャップに対処するために設計された新しいスキームであるマルチヘッドラグ(MRAG)を紹介します。これは、デコーダー層の代わりにトランスのマルチヘッド注意層のアクティブ化を、マルチアセプタードキュメントを取得するためのキーとして活性化することです。
駆動観察は、さまざまな注意ヘッドがさまざまなデータの側面をキャプチャすることを学ぶことです。
対応するアクティベーションを活用すると、データ項目やクエリのさまざまなファセットを表す埋め込みが生じ、複雑なクエリの検索精度が向上します。
MRAGの有効性を実証するために、評価方法とメトリック、マルチアスペクトデータセット、および実際のユースケースを提供します。
MRAGの設計上の18のラグベースライン、検索成功率の最大20%の経験的改善、および下流のLLM世代の利点を示しています。
MRAGは、既存のRAGフレームワークやベンチマークとシームレスに統合できます。

要約(オリジナル)

Retrieval Augmented Generation (RAG) enhances the abilities of Large Language Models (LLMs) by enabling the retrieval of documents into the LLM context to provide more accurate and relevant responses. Existing RAG solutions do not focus on queries that may require fetching multiple documents with substantially different contents. Such queries occur frequently, but are challenging because the embeddings of these documents may be distant in the embedding space, making it hard to retrieve them all. This paper introduces Multi-Head RAG (MRAG), a novel scheme designed to address this gap with a simple yet powerful idea: leveraging activations of Transformer’s multi-head attention layer, instead of the decoder layer, as keys for fetching multi-aspect documents. The driving observation is that different attention heads learn to capture different data aspects. Harnessing the corresponding activations results in embeddings that represent various facets of data items and queries, improving the retrieval accuracy for complex queries. We provide an evaluation methodology and metrics, multi-aspect datasets, and real-world use cases to demonstrate MRAG’s effectiveness. We show MRAG’s design advantages over 18 RAG baselines, empirical improvements of up to 20% in retrieval success ratios, and benefits for downstream LLM generation. MRAG can be seamlessly integrated with existing RAG frameworks and benchmarks.

arxiv情報

著者 Maciej Besta,Ales Kubicek,Robert Gerstenberger,Marcin Chrapek,Roman Niggli,Patrik Okanovic,Yi Zhu,Patrick Iff,Michal Podstawski,Lucas Weitzendorf,Mingyuan Chi,Joanna Gajda,Piotr Nyczyk,Jürgen Müller,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-06-05 15:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Multi-Head RAG: Solving Multi-Aspect Problems with LLMs はコメントを受け付けていません

Counterfactual reasoning: an analysis of in-context emergence

要約

大規模なニューラル言語モデル(LMS)は、コンテキスト内学習において顕著なパフォーマンスを示します。パラメーターの更新なしで、飛行機の入力コンテキストを学習し、推論する能力。
この作業は、言語モデルにおけるコンテキスト内の反事実的推論、つまり、仮説シナリオでの変化の結果を予測するためのコンテキスト内の反事実的推論を研究しています。
明確に定義された合成セットアップの研究に焦点を当てています。正確な予測は、事実の観察からの文脈的ノイズの推測とコピーに基づいているノイズ誘導を必要とする線形回帰タスクです。
言語モデルは、この制御されたセットアップで反事実的な推論が可能であることを示し、広範な機能の反事実的推論がコンテキスト内観察の変換に還元できるという洞察を提供します。
変圧器におけるトレーニング前のドライブパフォーマンスにおいて、自己関節、モデルの深さ、およびデータの多様性が見られます。
さらに興味深いことに、私たちの調査結果は回帰タスクを超えて拡張され、変圧器が連続データにノイズ誘導を実行できることを示しており、反事実的なストーリー生成の可能性に関する予備的な証拠を提供します。
私たちのコードは、https://github.com/moxmiller/counterfactual-rasinoning.gitで入手できます。

要約(オリジナル)

Large-scale neural language models (LMs) exhibit remarkable performance in in-context learning: the ability to learn and reason the input context on the fly without parameter update. This work studies in-context counterfactual reasoning in language models, that is, to predict the consequences of changes under hypothetical scenarios. We focus on studying a well-defined synthetic setup: a linear regression task that requires noise abduction, where accurate prediction is based on inferring and copying the contextual noise from factual observations. We show that language models are capable of counterfactual reasoning in this controlled setup and provide insights that counterfactual reasoning for a broad class of functions can be reduced to a transformation on in-context observations; we find self-attention, model depth, and data diversity in pre-training drive performance in Transformers. More interestingly, our findings extend beyond regression tasks and show that Transformers can perform noise abduction on sequential data, providing preliminary evidence on the potential for counterfactual story generation. Our code is available under https://github.com/moXmiller/counterfactual-reasoning.git .

arxiv情報

著者 Moritz Miller,Bernhard Schölkopf,Siyuan Guo
発行日 2025-06-05 16:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.ST, stat.TH | Counterfactual reasoning: an analysis of in-context emergence はコメントを受け付けていません

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

要約

機能の属性方法は、モデルの決定に影響を与える入力機能を識別することにより、深いニューラルネットワークの透明性を改善することを目的としています。
ピクセルベースのヒートマップは、画像、オーディオ表現、ボリュームなどの高次元の入力に特徴を帰属させる標準となっています。
直感的で便利ですが、これらのピクセルベースの属性は、データの基礎となる構造をキャプチャできません。
さらに、コンピューティング属性のドメインの選択はしばしば見落とされています。
この作業は、ウェーブレットドメインが有益で意味のある帰属を可能にすることを示しています。
入力ディメンションを処理し、属性を特徴とする統一アプローチを提供します。
私たちの方法であるウェーブレット属性法(WAM)は、ウェーブレット係数の空間的およびスケール局在化された特性を活用して、モデルの意思決定プロセスの場所と内容の両方をキャプチャする説明を提供します。
WAMは、オーディオ、画像、ボリュームなど、複数のモダリティにわたって既存の勾配ベースのメソッドと一致したり、アウトパフォームしたりすることを示します。
さらに、Modelの堅牢性と透明性のより広い側面を備えたWAMブリッジズの帰属方法について説明します。
プロジェクトページ:https://gabrielkasmi.github.io/wam/

要約(オリジナル)

Feature attribution methods aim to improve the transparency of deep neural networks by identifying the input features that influence a model’s decision. Pixel-based heatmaps have become the standard for attributing features to high-dimensional inputs, such as images, audio representations, and volumes. While intuitive and convenient, these pixel-based attributions fail to capture the underlying structure of the data. Moreover, the choice of domain for computing attributions has often been overlooked. This work demonstrates that the wavelet domain allows for informative and meaningful attributions. It handles any input dimension and offers a unified approach to feature attribution. Our method, the Wavelet Attribution Method (WAM), leverages the spatial and scale-localized properties of wavelet coefficients to provide explanations that capture both the where and what of a model’s decision-making process. We show that WAM quantitatively matches or outperforms existing gradient-based methods across multiple modalities, including audio, images, and volumes. Additionally, we discuss how WAM bridges attribution with broader aspects of model robustness and transparency. Project page: https://gabrielkasmi.github.io/wam/

arxiv情報

著者 Gabriel Kasmi,Amandine Brunetto,Thomas Fel,Jayneel Parekh
発行日 2025-06-05 16:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | One Wave To Explain Them All: A Unifying Perspective On Feature Attribution はコメントを受け付けていません

Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series

要約

ChatGPTなどの事前に訓練された言語モデル(PLMS)は、自然言語処理の分野を大幅に進めています。
この進歩は、PLMSの時系列分析への適応を探求する一連の革新的な研究に影響を与え、さまざまな時系列分析タスクに対処する統一された基礎モデルを作成することを目的としています。
ただし、これらの取り組みは、主に定期的にサンプリングされた時系列(RSTS)に焦点を当てており、不均一なサンプリング間隔と一般的な欠落データを特徴とする不規則にサンプリングされた時系列(IST)によってもたらされる固有の課題を無視しています。
このギャップを埋めるために、この作業は、ISTS分析のためのPLMSの可能性を調査するための第一歩を踏み出します。
まず、ISTを表現するためのさまざまな方法の効果を調査し、分析におけるPLMSの有効性を最大化することを目指しています。
さらに、ISTS-PLMという名前の統一されたPLMベースのフレームワークを提案して、多様なISTS分析タスクに対処します。
ISTSでの扱いにくい時間内およびインタータイムシリーズモデリングに取り組むように調整された、新しい時間認識と可変のPLMSを統合します。
最後に、包括的なベンチマークでの広範な実験は、ISTSの構造化された効果的なシリーズベースの表現を利用しているISTS-PLMが、分類、補間、外挿、外挿、少数のショット、ゼロショット学習シナリオなど、分類、補間、外挿、ゼロショット学習など、さまざまな分析タスクにわたって一貫して最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Pre-trained Language Models (PLMs), such as ChatGPT, have significantly advanced the field of natural language processing. This progress has inspired a series of innovative studies that explore the adaptation of PLMs to time series analysis, intending to create a unified foundation model that addresses various time series analytical tasks. However, these efforts predominantly focus on Regularly Sampled Time Series (RSTS), neglecting the unique challenges posed by Irregularly Sampled Time Series (ISTS), which are characterized by uneven sampling intervals and prevalent missing data. To bridge this gap, this work takes the first step in exploring the potential of PLMs for ISTS analysis. We begin by investigating the effect of various methods for representing ISTS, aiming to maximize the efficacy of PLMs in the analysis. Furthermore, we propose a unified PLM-based framework, named ISTS-PLM, to address diverse ISTS analytical tasks. It integrates novel time-aware and variable-aware PLMs tailored to tackle the intractable intra- and inter-time series modeling in ISTS. Finally, extensive experiments on a comprehensive benchmark demonstrate that the ISTS-PLM, utilizing a structured and effective series-based representation for ISTS, consistently achieves state-of-the-art performance across various analytical tasks, such as classification, interpolation, extrapolation, few-shot and zero-shot learning scenarios, spanning scientific domains like healthcare, biomechanics, and climate science.

arxiv情報

著者 Weijia Zhang,Chenlong Yin,Hao Liu,Hui Xiong
発行日 2025-06-05 16:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP | Unleashing The Power of Pre-Trained Language Models for Irregularly Sampled Time Series はコメントを受け付けていません