Spatial Audio Processing with Large Language Model on Wearable Devices

要約

空間的コンテキストを大規模な言語モデル(LLM)に統合することは、特にウェアラブルデバイスで、人間のコンピューターの相互作用に革命をもたらす可能性があります。
この作業では、LLMに空間的な音声理解を組み込んだ新しいシステムアーキテクチャを提示し、ウェアラブルテクノロジーのコンテキスト的に認識し、適応的なアプリケーションを可能にします。
私たちのアプローチは、微細構造ベースの空間センシングを活用して、モノラルマイクを使用して正確な到着方向(DOA)情報を抽出します。
微細構造支援音声録音の既存のデータセットの欠如に対処するために、Librispeechデータセットを使用してOmnitalkと呼ばれるデータセットを合成的に作成します。
この空間情報は、Openaiのささやきモデルからの言語埋め込みと融合されており、各モダリティが補完的なコンテキスト表現を学習できるようにします。
融合した埋め込みは、llama-3.2 3bモデルの入力空間と整列し、軽量適応技術LORAで微調整され、デバイス処理を最適化します。
Singは、空間的に認識された自動音声認識(ASR)をサポートし、25.72^\ cir $の平均誤差を達成します。
Singは、たとえば、何人の人が話しているか、その方向性を推論し、最大5人と16 $^\ circ $のDOAエラーの中央値を推論します。
私たちのシステムは、電力効率、プライバシー、ハードウェアの制約の課題に対処しながら、空間的な音声理解における優れたパフォーマンスを実証し、拡張現実、アクセシビリティ、没入型の体験における高度なアプリケーションへの道を開いています。

要約(オリジナル)

Integrating spatial context into large language models (LLMs) has the potential to revolutionize human-computer interaction, particularly in wearable devices. In this work, we present a novel system architecture that incorporates spatial speech understanding into LLMs, enabling contextually aware and adaptive applications for wearable technologies. Our approach leverages microstructure-based spatial sensing to extract precise Direction of Arrival (DoA) information using a monaural microphone. To address the lack of existing dataset for microstructure-assisted speech recordings, we synthetically create a dataset called OmniTalk by using the LibriSpeech dataset. This spatial information is fused with linguistic embeddings from OpenAI’s Whisper model, allowing each modality to learn complementary contextual representations. The fused embeddings are aligned with the input space of LLaMA-3.2 3B model and fine-tuned with lightweight adaptation technique LoRA to optimize for on-device processing. SING supports spatially-aware automatic speech recognition (ASR), achieving a mean error of $25.72^\circ$-a substantial improvement compared to the 88.52$^\circ$ median error in existing work-with a word error rate (WER) of 5.3. SING also supports soundscaping, for example, inference how many people were talking and their directions, with up to 5 people and a median DoA error of 16$^\circ$. Our system demonstrates superior performance in spatial speech understanding while addressing the challenges of power efficiency, privacy, and hardware constraints, paving the way for advanced applications in augmented reality, accessibility, and immersive experiences.

arxiv情報

著者 Ayushi Mishra,Yang Bai,Priyadarshan Narayanasamy,Nakul Garg,Nirupam Roy
発行日 2025-04-25 15:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Spatial Audio Processing with Large Language Model on Wearable Devices はコメントを受け付けていません

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

要約

このペーパーでは、18の言語と4つの難易度レベルをカバーする多言語の数学的推論ベンチマークであるPolymathを紹介します。
当社のベンチマークは、困難な包括性、言語の多様性、高品質の翻訳を保証し、LLMSの推論時代における非常に差別的な多言語の数学的ベンチマークとなっています。
高度なLLMSの包括的な評価を実施し、DeepSeek-R1-671BおよびQWEN-QWQ-32Bでさえ、最高レベルで30%未満の精度で43.4および41.8のベンチマークスコアのみを達成することがわかります。
言語の観点から見ると、私たちのベンチマークは、多言語の推論におけるLLMのいくつかの重要な課題を明らかにしています。(1)推論パフォーマンスは、現在のLLMの言語によって大きく異なります。
(2)入出力言語の一貫性は、LLMSの推論では低く、パフォーマンスと相関する可能性があります。
(3)思考長は、現在のLLMの言語によって大きく異なります。
さらに、指示で出力言語を制御することは、特にいくつかの低リソース言語で推論パフォーマンスに影響を与える可能性があることを実証し、LLMSの多言語機能を改善するための有望な方向性を示唆しています。

要約(オリジナル)

In this paper, we introduce PolyMath, a multilingual mathematical reasoning benchmark covering 18 languages and 4 easy-to-hard difficulty levels. Our benchmark ensures difficulty comprehensiveness, language diversity, and high-quality translation, making it a highly discriminative multilingual mathematical benchmark in the era of reasoning LLMs. We conduct a comprehensive evaluation for advanced LLMs and find that even Deepseek-R1-671B and Qwen-QwQ-32B, achieve only 43.4 and 41.8 benchmark scores, with less than 30% accuracy under the highest level. From a language perspective, our benchmark reveals several key challenges of LLMs in multilingual reasoning: (1) Reasoning performance varies widely across languages for current LLMs; (2) Input-output language consistency is low in reasoning LLMs and may be correlated with performance; (3) The thinking length differs significantly by language for current LLMs. Additionally, we demonstrate that controlling the output language in the instructions has the potential to affect reasoning performance, especially for some low-resource languages, suggesting a promising direction for improving multilingual capabilities in LLMs.

arxiv情報

著者 Yiming Wang,Pei Zhang,Jialong Tang,Haoran Wei,Baosong Yang,Rui Wang,Chenshu Sun,Feitong Sun,Jiran Zhang,Junxuan Wu,Qiqian Cang,Yichang Zhang,Fei Huang,Junyang Lin,Fei Huang,Jingren Zhou
発行日 2025-04-25 15:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts はコメントを受け付けていません

Generative Induction of Dialogue Task Schemas with Streaming Refinement and Simulated Interactions

要約

タスク指向のダイアログ(TOD)システムでは、スロットスキーマ誘導(SSI)が、手動介入なしにダイアログデータからキー情報スロットを自動的に識別するために不可欠です。
このペーパーでは、言語モデルがダイアログデータのストリーム上でスロットスキーマを徐々に構築および改良するテキスト生成タスクとしてSSIを定式化する新しい最先端(SOTA)アプローチを紹介します。
このアプローチを開発するために、新しいタスクドメインの高品質の状態ラベルを持つデータを作成する完全に自動LLMベースのTODシミュレーション方法を提示します。
さらに、データの漏れと人間の判断とのメトリックの整合が不十分なため、SSI評価の問題を特定します。
人間のガイダンスと修正を使用して、シミュレーション方法を使用して新しい評価データを作成し、改善された評価メトリックを設計することにより、これらを解決します。
これらの貢献は、将来のSSI研究の基盤を確立し、対話の理解とシステム開発におけるSOTAを促進します。

要約(オリジナル)

In task-oriented dialogue (TOD) systems, Slot Schema Induction (SSI) is essential for automatically identifying key information slots from dialogue data without manual intervention. This paper presents a novel state-of-the-art (SoTA) approach that formulates SSI as a text generation task, where a language model incrementally constructs and refines a slot schema over a stream of dialogue data. To develop this approach, we present a fully automatic LLM-based TOD simulation method that creates data with high-quality state labels for novel task domains. Furthermore, we identify issues in SSI evaluation due to data leakage and poor metric alignment with human judgment. We resolve these by creating new evaluation data using our simulation method with human guidance and correction, as well as designing improved evaluation metrics. These contributions establish a foundation for future SSI research and advance the SoTA in dialogue understanding and system development.

arxiv情報

著者 James D. Finch,Yasasvi Josyula,Jinho D. Choi
発行日 2025-04-25 16:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Generative Induction of Dialogue Task Schemas with Streaming Refinement and Simulated Interactions はコメントを受け付けていません

Investigating Co-Constructive Behavior of Large Language Models in Explanation Dialogues

要約

説明者によって理解される説明を生成する能力は、説明可能な人工知能の典型です。
理解は説明者の背景とニーズに依存しているため、最近の研究では、説明者が説明者の理解を継続的に監視し、説明を動的に適応させる共同建設的な説明対話に焦点を当てています。
大規模な言語モデル(LLM)が、共同建設的な説明対話の説明者として関与する能力を調査します。
特に、説明者がLLMと相互作用するユーザー研究を提示します。このユーザーは、事前に定義されたトピックを共同で説明するように指示されている人もいます。
対話の前後に説明者の理解と、LLMSの共同建設行動に対する認識を評価します。
我々の結果は、現在のLLMが、説明の質問をするなど、説明者の関与を促進し、トピックの理解を深めることができるような共構築行動を示していることを示しています。
ただし、現在の理解を効果的に監視し、それに応じて説明を足場にする能力は限られたままです。

要約(オリジナル)

The ability to generate explanations that are understood by explainees is the quintessence of explainable artificial intelligence. Since understanding depends on the explainee’s background and needs, recent research has focused on co-constructive explanation dialogues, where the explainer continuously monitors the explainee’s understanding and adapts explanations dynamically. We investigate the ability of large language models (LLMs) to engage as explainers in co-constructive explanation dialogues. In particular, we present a user study in which explainees interact with LLMs, of which some have been instructed to explain a predefined topic co-constructively. We evaluate the explainees’ understanding before and after the dialogue, as well as their perception of the LLMs’ co-constructive behavior. Our results indicate that current LLMs show some co-constructive behaviors, such as asking verification questions, that foster the explainees’ engagement and can improve understanding of a topic. However, their ability to effectively monitor the current understanding and scaffold the explanations accordingly remains limited.

arxiv情報

著者 Leandra Fichtel,Maximilian Spliethöver,Eyke Hüllermeier,Patricia Jimenez,Nils Klowait,Stefan Kopp,Axel-Cyrille Ngonga Ngomo,Amelie Robrecht,Ingrid Scharlau,Lutz Terfloth,Anna-Lisa Vollmer,Henning Wachsmuth
発行日 2025-04-25 16:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating Co-Constructive Behavior of Large Language Models in Explanation Dialogues はコメントを受け付けていません

Machine-generated text detection prevents language model collapse

要約

大規模な言語モデル(LLM)がますます普及するにつれて、生成された出力がWeb全体で増殖し、機械で生成されたコンテンツが人間の著作テキストを希釈する未来を危険にさらしています。
オンラインデータはLLMプリトレーニングの主要なリソースであるため、その後のモデルは合成サンプルの未知の部分でトレーニングできます。
これにより、モデルの崩壊につながります。これにより、LLMSが独自のエラーを強化し、最終的にパフォーマンスが低下する変性プロセスになります。
この研究では、モデルの崩壊に対するデコード戦略の影響を調査し、各モデル生成でのテキストの特性、人間の参照との類似性、および結果として生じるモデルのパフォーマンスを調査します。
最も重要な劣化につながるデコード戦略を使用して、データの起源(人間または合成)が不明であるより現実的なシナリオでモデル崩壊を評価します。
機械で生成されたテキスト検出器を訓練し、モデルの崩壊を軽減するための重要なサンプリングアプローチを提案します。
私たちの方法は、オープンエンドのテキスト生成タスクで2つのLLMバリアント(GPT-2およびSMOLLM2)で検証されています。
私たちは、モデルの崩壊を防ぐだけでなく、十分なヒト執筆サンプルが存在する場合にパフォーマンスを向上させることができることを実証します。
https://github.com/georgedreayson/model_collapseでコードをリリースします。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly prevalent, their generated outputs are proliferating across the web, risking a future where machine-generated content dilutes human-authored text. Since online data is the primary resource for LLM pre-training, subsequent models could be trained on an unknown portion of synthetic samples. This will lead to model collapse, a degenerative process whereby LLMs reinforce their own errors, and ultimately yield a declining performance. In this study, we investigate the impact of decoding strategy on model collapse, analysing the characteristics of text at each model generation, the similarity to human references, and the resulting model performance. Using the decoding strategies that lead to the most significant degradation, we evaluate model collapse in more realistic scenarios where the origin of the data (human or synthetic) is unknown. We train a machine-generated text detector and propose an importance sampling approach to alleviate model collapse. Our method is validated on two LLM variants (GPT-2 and SmolLM2) on the open-ended text generation task. We demonstrate that it can not only prevent model collapse but also improve performance when sufficient human-authored samples are present. We release our code at https://github.com/GeorgeDrayson/model_collapse.

arxiv情報

著者 George Drayson,Emine Yilmaz,Vasileios Lampos
発行日 2025-04-25 16:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Machine-generated text detection prevents language model collapse はコメントを受け付けていません

TRACE Back from the Future: A Probabilistic Reasoning Approach to Controllable Language Generation

要約

大規模な言語モデル(LMS)が進むにつれて、人間の価値(たとえば、解毒)または望ましい属性(パーソナライズ、トピックなど)に合わせて出力を制御する必要性が高まっています。
ただし、自動回帰モデルは、次のトークンの予測に焦点を当て、先を見据えたグローバルな特性と闘っています。
既存のソリューション新しい属性(高価で柔軟性のない各属性)のチューニングまたはポストトレインLMSのいずれか – または、サンプリングまたはトレーニングにより、将来のシーケンスの予想される属性確率(EAP)を近似します。
EAPを効率的に計算し、扱いやすい確率的推論と軽量制御を介して新しい属性に適応する新しいフレームワークであるTrace(適応可能な制御可能な生成のための扱いやすい確率的推論)を紹介します。
Traceは、LMから隠されたマルコフモデル(HMM)を蒸留し、小さな分類器とペアにして属性確率を推定し、HMMの予測された先物で正確なEAP計算を可能にします。
このEAPは、グローバルに準拠した継続のためのLMの次のトークン確率を再計量するために使用されます。
経験的に、TRACEは、オーバーヘッドが10%だけデコードされているだけで最先端の結果を達成し、数秒以内に76の低リソースのパーソナライズされたLLMに適応し、シームレスに複合属性に拡張されます。

要約(オリジナル)

As large language models (LMs) advance, there is an increasing need to control their outputs to align with human values (e.g., detoxification) or desired attributes (e.g., personalization, topic). However, autoregressive models focus on next-token predictions and struggle with global properties that require looking ahead. Existing solutions either tune or post-train LMs for each new attribute – expensive and inflexible – or approximate the Expected Attribute Probability (EAP) of future sequences by sampling or training, which is slow and unreliable for rare attributes. We introduce TRACE (Tractable Probabilistic Reasoning for Adaptable Controllable gEneration), a novel framework that efficiently computes EAP and adapts to new attributes through tractable probabilistic reasoning and lightweight control. TRACE distills a Hidden Markov Model (HMM) from an LM and pairs it with a small classifier to estimate attribute probabilities, enabling exact EAP computation over the HMM’s predicted futures. This EAP is then used to reweigh the LM’s next-token probabilities for globally compliant continuations. Empirically, TRACE achieves state-of-the-art results in detoxification with only 10% decoding overhead, adapts to 76 low-resource personalized LLMs within seconds, and seamlessly extends to composite attributes.

arxiv情報

著者 Gwen Yidou Weng,Benjie Wang,Guy Van den Broeck
発行日 2025-04-25 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TRACE Back from the Future: A Probabilistic Reasoning Approach to Controllable Language Generation はコメントを受け付けていません

Generative Evaluation of Complex Reasoning in Large Language Models

要約

強力な大規模な言語モデル(LLM)が超人的な推論能力を実証しているため、重要な疑問が生じます。LLMSは真に推論しますか、それとも広範囲にわたるWebスクレイプのトレーニングデータセットから答えを思い出しますか?
公的にリリースされたベンチマークは、その後のLLMトレーニングセットに組み込まれると必然的に汚染され、信頼性を忠実な評価として損ないます。
これに対処するために、LLMSの推論を評価するために特別に設計された生成評価フレームワークであるKumoを紹介します。
Kumoは、LLMSとシンボリックエンジンを相乗的に組み合わせて、部分的に観察可能で困難な調整可能な多様な多ターン推論タスクを動的に生成します。
自動化されたパイプラインを通じて、クモはオープンエンドのドメイン全体で新しいタスクを継続的に生成し、記憶よりも純粋な一般化を実証するために魅力的なモデルを生成します。
Kumoによって作成された100のドメインにわたって5,000のタスクで23の最先端のLLMを評価し、大学生に対する推論能力をベンチマークしました。
私たちの調査結果は、多くのLLMが簡単な推論タスクに関する大学レベルのパフォーマンスを上回っていることを明らかにしており、推論されたLLMSが複雑な推論の課題で大学レベルのパフォーマンスに到達しています。
さらに、KumoタスクのLLMパフォーマンスは、新しくリリースされた現実世界の推論ベンチマークの結果と強く相関しており、クモの価値を真のLLM推論機能の堅牢で永続的な評価ツールとして強調しています。

要約(オリジナル)

With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO’s value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.

arxiv情報

著者 Haowei Lin,Xiangyu Wang,Ruilin Yan,Baizhou Huang,Haotian Ye,Jianhua Zhu,Zihao Wang,James Zou,Jianzhu Ma,Yitao Liang
発行日 2025-04-25 12:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Generative Evaluation of Complex Reasoning in Large Language Models はコメントを受け付けていません

Artificial Intelligence health advice accuracy varies across languages and contexts

要約

英国およびEUのレジスターによって承認された基本的な健康声明を使用し、中絶、Covid-19、政府のアドバイザリーからソーシャルメディアや政府のアドバイザリーから政治的なスペクトルのニュースに至るまで、9,100人のジャーナリストが介したジャーナリストによる公的健康アサーション、および政治的なアドバイザリーからの政治的なアドバイシックから、21の主要な大規模な言語からの大規模な言語を主要な大規模な言語に至るまでのベンチマークである大規模な言語を見つけることができます。
トピックとソースによって非ヨーロッパの言語と変動し、グローバルな健康コミュニケーションにAIを展開する前に、包括的な多言語のドメイン対応検証の緊急性を強調します。

要約(オリジナル)

Using basic health statements authorized by UK and EU registers and 9,100 journalist-vetted public-health assertions on topics such as abortion, COVID-19 and politics from sources ranging from peer-reviewed journals and government advisories to social media and news across the political spectrum, we benchmark six leading large language models from in 21 languages, finding that, despite high accuracy on English-centric textbook claims, performance falls in multiple non-European languages and fluctuates by topic and source, highlighting the urgency of comprehensive multilingual, domain-aware validation before deploying AI in global health communication.

arxiv情報

著者 Prashant Garg,Thiemo Fetzer
発行日 2025-04-25 12:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG, econ.GN, q-fin.EC | Artificial Intelligence health advice accuracy varies across languages and contexts はコメントを受け付けていません

Towards Adaptive Software Agents for Debugging

要約

複数のエージェントを使用すると、大規模な言語モデルのデバッグ機能が改善されました。
ただし、LLMエージェントの数を増やすと、ランニングコストの増加やエージェントが集中力を失うリスクを高めるなど、いくつかの欠点があります。
この作業では、適応エージェント設計を提案します。この設計では、エージェントの数とその役割が達成されるタスクの特性に基づいて動的に決定されます。
この設計では、エージェントの役割は事前に定義されていませんが、解決する問題を分析した後に生成されます。
私たちの最初の評価は、適応設計により、生成されるエージェントの数はバギーコードの複雑さに依存することを示しています。
実際、単なる構文の問題を抱える単純なコードの場合、問題は通常1つのエージェントのみを使用して修正されました。
ただし、より複雑な問題については、より多くのエージェントの作成に気付きました。
修正の有効性に関して、ワンショットプロンプトと比較して、平均11%の改善に気付きました。
これらの有望な結果を考慮して、将来の研究の方向性を概説して、ソフトウェアの目標を自律的に計画および実施できる適応ソフトウェアエージェントの設計を改善します。

要約(オリジナル)

Using multiple agents was found to improve the debugging capabilities of Large Language Models. However, increasing the number of LLM-agents has several drawbacks such as increasing the running costs and rising the risk for the agents to lose focus. In this work, we propose an adaptive agentic design, where the number of agents and their roles are determined dynamically based on the characteristics of the task to be achieved. In this design, the agents roles are not predefined, but are generated after analyzing the problem to be solved. Our initial evaluation shows that, with the adaptive design, the number of agents that are generated depends on the complexity of the buggy code. In fact, for simple code with mere syntax issues, the problem was usually fixed using one agent only. However, for more complex problems, we noticed the creation of a higher number of agents. Regarding the effectiveness of the fix, we noticed an average improvement of 11% compared to the one-shot prompting. Given these promising results, we outline future research directions to improve our design for adaptive software agents that can autonomously plan and conduct their software goals.

arxiv情報

著者 Yacine Majdoub,Eya Ben Charrada,Haifa Touati
発行日 2025-04-25 12:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Towards Adaptive Software Agents for Debugging はコメントを受け付けていません

PHEATPRUNER: Interpretable Data-centric Feature Selection for Multivariate Time Series Classification through Persistent Homology

要約

多変量時系列分類におけるパフォーマンスと解釈性のバランスは、データの複雑さと高次元のために重要な課題です。
このペーパーでは、PheatPrunerを紹介します。PheatPrunerは、これらの課題に対処するために永続的な相同性と束理論を統合する方法です。
永続的な相同性は、ランダムフォレスト、キャットブースト、XGBoost、LightGBMなどのモデルの精度を維持または強化しながら、適用された変数の最大45%の剪定を促進します。
同時に、SHEAF理論は、データの構造ニュアンスに対するより深い洞察を提供する説明ベクターに寄与します。
このアプローチは、乳牛のUEAアーカイブと乳房炎検出データセットを使用して検証されました。
結果は、PheatPrunerがモデルの精度を効果的に保持することを示しています。
さらに、私たちの結果は、PheatPrunerの主要な機能を強調しています。つまり、複雑なデータを簡素化し、処理時間や複雑さを増やすことなく実用的な洞察を提供します。
この方法は、複雑さの削減と解釈可能性の間のギャップを橋渡しし、さまざまな分野での有望なアプリケーションを示唆しています。

要約(オリジナル)

Balancing performance and interpretability in multivariate time series classification is a significant challenge due to data complexity and high dimensionality. This paper introduces PHeatPruner, a method integrating persistent homology and sheaf theory to address these challenges. Persistent homology facilitates the pruning of up to 45% of the applied variables while maintaining or enhancing the accuracy of models such as Random Forest, CatBoost, XGBoost, and LightGBM, all without depending on posterior probabilities or supervised optimization algorithms. Concurrently, sheaf theory contributes explanatory vectors that provide deeper insights into the data’s structural nuances. The approach was validated using the UEA Archive and a mastitis detection dataset for dairy cows. The results demonstrate that PHeatPruner effectively preserves model accuracy. Furthermore, our results highlight PHeatPruner’s key features, i.e. simplifying complex data and offering actionable insights without increasing processing time or complexity. This method bridges the gap between complexity reduction and interpretability, suggesting promising applications in various fields.

arxiv情報

著者 Anh-Duy Pham,Olivier Basole Kashongwe,Martin Atzmueller,Tim Römer
発行日 2025-04-25 13:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PHEATPRUNER: Interpretable Data-centric Feature Selection for Multivariate Time Series Classification through Persistent Homology はコメントを受け付けていません