Neuro-Symbolic Generation of Explanations for Robot Policies with Weighted Signal Temporal Logic

要約

ニューラルネットワークベースのポリシーは、多くのロボットアプリケーションで成功を実証していますが、多くの場合、人間の実現可能性が欠けており、安全性の高い展開に課題をもたらします。
これに対処するために、ロボットポリシーを解釈可能な形式で説明するために、加重信号時間論的論理(WSTL)仕様を生成するニューロシンボリック説明フレームワークを提案します。
既存の方法は通常、冗長で一貫性のない説明を生成します。これは、説明可能性とゆるいことを妨げます。これは、基礎となるポリシーについて意味のある洞察を与えません。
述語フィルタリング、正則化、および反復剪定からなる単純化プロセスを導入することにより、これらの問題に対処します。
また、従来の分類メトリックを超えた説明の品質を評価するために、3つの新しい説明可能性評価メトリック(簡潔さ、一貫性、厳格さ)も紹介します。
私たちの方法は、3つのシミュレートされたロボット環境で検証されており、分類の精度を犠牲にすることなく、簡潔で一貫した、厳格なWSTL説明を生成するベースラインを上回ります。
この作業は、ロボット工学におけるより安全で透明性のある意思決定に貢献して、正式な方法で政策学習を橋渡しします。

要約(オリジナル)

Neural network-based policies have demonstrated success in many robotic applications, but often lack human-explanability, which poses challenges in safety-critical deployments. To address this, we propose a neuro-symbolic explanation framework that generates a weighted signal temporal logic (wSTL) specification to describe a robot policy in a interpretable form. Existing methods typically produce explanations that are verbose and inconsistent, which hinders explainability, and loose, which do not give meaningful insights into the underlying policy. We address these issues by introducing a simplification process consisting of predicate filtering, regularization, and iterative pruning. We also introduce three novel explainability evaluation metrics — conciseness, consistency, and strictness — to assess explanation quality beyond conventional classification metrics. Our method is validated in three simulated robotic environments, where it outperforms baselines in generating concise, consistent, and strict wSTL explanations without sacrificing classification accuracy. This work bridges policy learning with formal methods, contributing to safer and more transparent decision-making in robotics.

arxiv情報

著者 Mikihisa Yuasa,Ramavarapu S. Sreenivas,Huy T. Tran
発行日 2025-04-30 17:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.FL, cs.RO | Neuro-Symbolic Generation of Explanations for Robot Policies with Weighted Signal Temporal Logic はコメントを受け付けていません

Beyond Winning Strategies: Admissible and Admissible Winning Strategies for Quantitative Reachability Games

要約

古典的な反応性合成アプローチは、特定の仕様を常に満たすリアクティブシステムを合成することを目的としています。
これらのアプローチは、多くの場合、勝利戦略を統合することを目標とする2人のゼロサムゲームをプレイすることに減少します。
ただし、ロボット工学などの多くの実用的なドメインでは、勝利戦略が常に存在するとは限りませんが、システムが「あきらめる」のではなく、要件を満たす努力をすることが望ましいです。
この目的のために、このペーパーでは、定量的な到達可能性ゲームにおいて「ベストを実行する」ことを正式化する許容戦略の概念を調査します。
定性的なケースとは異なり、定量的許容戦略は有限のペイオフ関数であっても履歴依存であり、合成が困難なタスクになることを示しています。
さらに、許容可能な戦略は常に存在するが、望ましくない楽観的な行動を生み出す可能性があることを証明します。
これを緩和するために、私たちは許容される勝利戦略を提案します。
両方の戦略が常に存在しますが、記憶がないことを示しています。
両方の戦略の存在に必要かつ十分な条件を提供し、合成アルゴリズムを提案します。
最後に、GridWorldおよびRobotマニピュレータードメインの戦略を説明します。

要約(オリジナル)

Classical reactive synthesis approaches aim to synthesize a reactive system that always satisfies a given specifications. These approaches often reduce to playing a two-player zero-sum game where the goal is to synthesize a winning strategy. However, in many pragmatic domains, such as robotics, a winning strategy does not always exist, yet it is desirable for the system to make an effort to satisfy its requirements instead of ‘giving up’. To this end, this paper investigates the notion of admissible strategies, which formalize ‘doing-your-best’, in quantitative reachability games. We show that, unlike the qualitative case, quantitative admissible strategies are history-dependent even for finite payoff functions, making synthesis a challenging task. In addition, we prove that admissible strategies always exist but may produce undesirable optimistic behaviors. To mitigate this, we propose admissible winning strategies, which enforce the best possible outcome while being admissible. We show that both strategies always exist but are not memoryless. We provide necessary and sufficient conditions for the existence of both strategies and propose synthesis algorithms. Finally, we illustrate the strategies on gridworld and robot manipulator domains.

arxiv情報

著者 Karan Muvvala,Qi Heng Ho,Morteza Lahijanian
発行日 2025-04-30 17:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.FL, cs.GT, cs.LO, cs.RO, D.2.4 | Beyond Winning Strategies: Admissible and Admissible Winning Strategies for Quantitative Reachability Games はコメントを受け付けていません

xEEGNet: Towards Explainable AI in EEG Dementia Classification

要約

この作業は、EEGデータ分析のための斬新でコンパクトで説明可能なニューラルネットワークであるXeegnetを提示します。
それは完全に解釈可能であり、主要なパラメーターの削減を通じて過剰適合を減らします。
アプリケーションのユースケースとして、一般的な認知症の状態、アルツハイマー病および前頭側頭型認知症、対照の分類に焦点を当てました。
Xeegnetは、スペクトルの変化を伴う他の神経学的状態に広く適用できます。
最初に、Eegnet-Familyのシンプルで人気のあるモデルであるShallownetを使用しました。
その構造を分析し、徐々に修正して、パフォーマンスを損なうことなく、「ブラックボックス」からより透明なモデルに移動しました。
学習したカーネルとウェイトは、医療関連を評価するために臨床的観点から調べられました。
Shallownetおよび最終Xeegnetを含むモデルバリアントは、不偏パフォーマンスの推定値のために、堅牢なネストされた葉n-subjects-Out Cross-validationを使用して評価されました。
データスプリット間の変動性は、グループの区別を定量化するためにペアワイズ分離性を使用して、クラスとセットによってグループ化された埋め込み式EEG表現を使用して説明されました。
過剰適合は、トレーニング検証損失の相関とトレーニング速度を通じて評価されました。
Xeegnetは168のパラメーターのみを使用し、Shallownetの200倍少なくなりますが、解釈可能性を保持し、過度に抵抗し、同等の中央値パフォーマンス(-1.5%)を達成し、分割全体の変動を低下させます。
この変動性は、埋め込まれたEEG表現によって説明されます。より高い精度は、テストセットコントロールとアルツハイマー病の症例との間のより大きな分離と相関し、トレーニングデータから大きな影響を与えません。
特定のEEGバンドをフィルタリングし、バンド固有の地形を学習し、関連するスペクトル機能を使用するXeegnetの機能は、その解釈可能性を示しています。
大規模な深い学習モデルはパフォーマンスのために優先順位を付けることがよくありますが、この研究では、Xeegnetのような小さなアーキテクチャがEEG病理学の分類に等しく効果的であることを示しています。

要約(オリジナル)

This work presents xEEGNet, a novel, compact, and explainable neural network for EEG data analysis. It is fully interpretable and reduces overfitting through major parameter reduction. As an applicative use case, we focused on classifying common dementia conditions, Alzheimer’s and frontotemporal dementia, versus controls. xEEGNet is broadly applicable to other neurological conditions involving spectral alterations. We initially used ShallowNet, a simple and popular model from the EEGNet-family. Its structure was analyzed and gradually modified to move from a ‘black box’ to a more transparent model, without compromising performance. The learned kernels and weights were examined from a clinical standpoint to assess medical relevance. Model variants, including ShallowNet and the final xEEGNet, were evaluated using robust Nested-Leave-N-Subjects-Out cross-validation for unbiased performance estimates. Variability across data splits was explained using embedded EEG representations, grouped by class and set, with pairwise separability to quantify group distinction. Overfitting was assessed through training-validation loss correlation and training speed. xEEGNet uses only 168 parameters, 200 times fewer than ShallowNet, yet retains interpretability, resists overfitting, achieves comparable median performance (-1.5%), and reduces variability across splits. This variability is explained by embedded EEG representations: higher accuracy correlates with greater separation between test set controls and Alzheimer’s cases, without significant influence from training data. xEEGNet’s ability to filter specific EEG bands, learn band-specific topographies, and use relevant spectral features demonstrates its interpretability. While large deep learning models are often prioritized for performance, this study shows smaller architectures like xEEGNet can be equally effective in EEG pathology classification.

arxiv情報

著者 Andrea Zanola,Louis Fabrice Tshimanga,Federico Del Pup,Marco Baiesi,Manfredo Atzori
発行日 2025-04-30 09:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | xEEGNet: Towards Explainable AI in EEG Dementia Classification はコメントを受け付けていません

SAGE: A Framework of Precise Retrieval for RAG

要約

検索された生成(RAG)は、指定されたコーパス内で質問分配(QA)タスクを実施する際に重要な習熟度を示しています。
それにもかかわらず、QAのRAGの多くの故障インスタンスはまだ存在しています。
これらの障害は、大規模な言語モデル(LLM)の制限にのみ起因するものではありません。
代わりに、2つの制限により、主にLLMSの不正確な情報の検索から生じます。(1)現在のRAGメソッドは、セマンティクスを考慮せずにコーパスをセグメント化し、質問とセグメントの間の相関障害のために関連するコンテキストを見つけることを困難にします。
(2)取得されたコンテキストが少ない不足している重要なコンテキストと、より多くのコンテキストが取得された無関係なコンテキストを取得することとの間にはトレードオフがあります。
この論文では、これらの制限を克服するために、RAGフレームワーク(SAGE)を紹介します。
まず、セマンティクスを考慮せずにセグメンテーションの問題に対処するために、セマンティックセグメンテーションモデルをトレーニングすることを提案します。
このモデルは、コーパスを意味的に完全なチャンクに分割するように訓練されています。
第二に、無関係なものが無視されている間に最も関連性の高いチャンクのみが取得されるようにするために、関連スコアの速度の低下に基づいてチャンクを動的に選択し、より関連性の高い選択につながるチャンク選択アルゴリズムを設計します。
第三に、検索されたチャンクの精度をさらに確保するために、検索されたチャンクが過剰か不足しているかどうかをLLMに評価し、それに応じてコンテキストの量を調整させることを提案します。
実験では、Sageが平均してQAの品質において61.25%を上回ることが示されています。
さらに、ノイズの多いコンテキストを取得することを避けることにより、SageはLLM推論で消費されるトークンのコストを削減し、平均してコスト効率の49.41%の向上を達成します。
さらに、私たちの作品は、ぼろを高めるための貴重な洞察を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

arxiv情報

著者 Jintao Zhang,Guoliang Li,Jinyang Su
発行日 2025-04-30 09:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR, cs.LG | SAGE: A Framework of Precise Retrieval for RAG はコメントを受け付けていません

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

要約

拡散モデルの最近の進歩により、微妙な表現と鮮やかなヘッドの動きを備えたトーキングヘッド合成が恵まれていますが、推論の速度が遅く、生成された結果を不十分に制御することにもつながりました。
これらの問題に対処するために、微調整されたコントロールとリアルタイムの推論を可能にする拡散ベースのトーキングヘッドフレームワークであるDittoを提案します。
具体的には、既製のモーション抽出器を利用し、拡散トランスを考案して、特定のモーション空間で表現を生成します。
モデルアーキテクチャとトレーニング戦略を最適化して、モーションとアイデンティティの間の不十分な解体や表現内の大規模な内部矛盾など、モーション表現の生成における問題に対処します。
また、モーション表現と顔面セマンティクスの間のマッピングを確立しながら、さまざまな条件付きシグナルを使用し、生成プロセスと結果の修正を制御できます。
さらに、総合的なフレームワークを共同で最適化して、ストリーミング処理、リアルタイム推論、および低いフレーム遅延を可能にし、AIアシスタントなどのインタラクティブアプリケーションに重要な機能を提供します。
広範な実験結果は、Dittoが説得力のあるトーキングヘッドビデオを生成し、制御可能性とリアルタイムのパフォーマンスの両方で優位性を示すことを示しています。

要約(オリジナル)

Recent advances in diffusion models have endowed talking head synthesis with subtle expressions and vivid head movements, but have also led to slow inference speed and insufficient control over generated results. To address these issues, we propose Ditto, a diffusion-based talking head framework that enables fine-grained controls and real-time inference. Specifically, we utilize an off-the-shelf motion extractor and devise a diffusion transformer to generate representations in a specific motion space. We optimize the model architecture and training strategy to address the issues in generating motion representations, including insufficient disentanglement between motion and identity, and large internal discrepancies within the representation. Besides, we employ diverse conditional signals while establishing a mapping between motion representation and facial semantics, enabling control over the generation process and correction of the results. Moreover, we jointly optimize the holistic framework to enable streaming processing, real-time inference, and low first-frame delay, offering functionalities crucial for interactive applications such as AI assistants. Extensive experimental results demonstrate that Ditto generates compelling talking head videos and exhibits superiority in both controllability and real-time performance.

arxiv情報

著者 Tianqi Li,Ruobing Zheng,Minghui Yang,Jingdong Chen,Ming Yang
発行日 2025-04-30 09:42:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis はコメントを受け付けていません

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination Methods

要約

インスタンスの識別に基づいた自己教師の学習アルゴリズム(SSL)は、いくつかのダウンストリームタスクで競争力のあるまたはパフォーマンスの監督された学習カウンターパートを競争的にまたはパフォーマンスすることさえも実行している有望な結果を示しています。
このようなアプローチでは、データの増強を使用して、同じインスタンスの2つのビュー(つまり、正のペア)を作成し、些細なソリューションに崩壊することなく、埋め込み空間でこれらのビューをより近くに引き付けることにより、モデルが適切な表現を学習することを奨励します。
ただし、データの増強は正のペアを表す際に制限されており、対照学習中のインスタンス間の反発プロセスは、同様のカテゴリを持つインスタンスの重要な機能を破棄する可能性があります。
この問題に対処するために、これらの画像を類似したセマンティックコンテンツを識別し、それらをポジティブなインスタンスとして扱うアプローチを提案し、それにより、表現学習中に重要な特徴を破棄し、潜在的な表現の豊かさを高める可能性を減らします。
私たちのアプローチは一般的であり、MocoやSimsiamなどの自己監視されたインスタンス差別フレームワークで動作する可能性があります。
この方法を評価するために、Imagenet、STL-10、CIFAR-10の3つのベンチマークデータセットで実験を実行し、異なるインスタンス識別SSLアプローチを使用します。
実験結果は、私たちのアプローチが3つのデータセットすべてにわたってベースラインメソッドを常に上回ることを示しています。
たとえば、800エポックを超える線形評価プロトコルの下で、イメージネットでバニラモコ-V2を4.1%改善します。
また、半教師の学習、下流タスクの転送学習、およびオブジェクト検出に関する結果を報告します。

要約(オリジナル)

Self-supervised learning algorithms (SSL) based on instance discrimination have shown promising results, performing competitively or even outperforming supervised learning counterparts in some downstream tasks. Such approaches employ data augmentation to create two views of the same instance (i.e., positive pairs) and encourage the model to learn good representations by attracting these views closer in the embedding space without collapsing to the trivial solution. However, data augmentation is limited in representing positive pairs, and the repulsion process between the instances during contrastive learning may discard important features for instances that have similar categories. To address this issue, we propose an approach to identify those images with similar semantic content and treat them as positive instances, thereby reducing the chance of discarding important features during representation learning and increasing the richness of the latent representation. Our approach is generic and could work with any self-supervised instance discrimination frameworks such as MoCo and SimSiam. To evaluate our method, we run experiments on three benchmark datasets: ImageNet, STL-10 and CIFAR-10 with different instance discrimination SSL approaches. The experimental results show that our approach consistently outperforms the baseline methods across all three datasets; for instance, we improve upon the vanilla MoCo-v2 by 4.1% on ImageNet under a linear evaluation protocol over 800 epochs. We also report results on semi-supervised learning, transfer learning on downstream tasks, and object detection.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2025-04-30 09:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination Methods はコメントを受け付けていません

Comparative Analysis of FPGA and GPU Performance for Machine Learning-Based Track Reconstruction at LHCb

要約

高エネルギー物理学では、大規模なハドロンコリダーでの光度と検出器の粒度の増加により、より効率的なデータ処理ソリューションの必要性が促進されています。
機械学習は、検出器のヒットを伴う潜在的に線形計算スケーリングのため、荷電粒子トラックを再構築するための有望なツールとして浮上しています。
GPUのLHCB実験の最初のレベルトリガーにおけるグラフニューラルネットワークベースのトラック再構築パイプラインの最近の実装は、高エネルギー物理学のコンテキストでの計算アーキテクチャ間の比較研究のためのプラットフォームとして機能します。
このホワイトペーパーでは、FPGAとGPUの間のMLモデル推論のスループットの新しい比較を示し、トラック再構成パイプライン$ \ Unicode {x2013} $の最初のステップに焦点を当てて、マルチレイヤーパーセプトロンの実装です。
FPGA展開にHLS4MLを使用して、GPUの実装に対するパフォーマンスをベンチマークし、FPGA開発の専門知識を必要とせずに、高スループットの低遅延性推論のFPGAの可能性を実証します。

要約(オリジナル)

In high-energy physics, the increasing luminosity and detector granularity at the Large Hadron Collider are driving the need for more efficient data processing solutions. Machine Learning has emerged as a promising tool for reconstructing charged particle tracks, due to its potentially linear computational scaling with detector hits. The recent implementation of a graph neural network-based track reconstruction pipeline in the first level trigger of the LHCb experiment on GPUs serves as a platform for comparative studies between computational architectures in the context of high-energy physics. This paper presents a novel comparison of the throughput of ML model inference between FPGAs and GPUs, focusing on the first step of the track reconstruction pipeline$\unicode{x2013}$an implementation of a multilayer perceptron. Using HLS4ML for FPGA deployment, we benchmark its performance against the GPU implementation and demonstrate the potential of FPGAs for high-throughput, low-latency inference without the need for an expertise in FPGA development and while consuming significantly less power.

arxiv情報

著者 Fotis I. Giasemis,Vladimir Lončar,Bertrand Granado,Vladimir Vava Gligorov
発行日 2025-04-30 10:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, hep-ex, physics.ins-det | Comparative Analysis of FPGA and GPU Performance for Machine Learning-Based Track Reconstruction at LHCb はコメントを受け付けていません

ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery

要約

ClassWise-CRFと呼ばれる結果レベルのカテゴリ固有の融合アーキテクチャを提案します。
このアーキテクチャは2段階のプロセスを採用しています。まず、貪欲なアルゴリズムを使用して候補ネットワークのプールから特定のカテゴリでうまく機能するエキスパートネットワークを選択します。
第二に、各カテゴリでのセグメンテーションパフォーマンスに基づいて、これらの選択されたネットワークのセグメンテーション予測を統合します。
条件付きランダムフィールド(CRF)に触発されたClassWise-CRFアーキテクチャは、複数のネットワークからのセグメンテーション予測を信頼ベクトルフィールドとして扱います。
これは、検証セットからのセグメンテーションメトリック(組合の交差点など)をPriorsとして活用し、各ネットワークによって予測されるカテゴリ固有の信頼スコアを融合するための指数関数的な重み付け戦略を採用しています。
この融合法は、各ネットワークの重みを異なるカテゴリに対して動的に調整し、カテゴリ固有の最適化を実現します。
これに基づいて、このアーキテクチャは、CRFの単一およびペアワイズポテンシャルを使用して融合結果をさらに最適化し、空間的な一貫性と境界の精度を確保します。
ClassWise-CRFの有効性を検証するために、8つのクラシックおよび高度なセマンティックセグメンテーションネットワークを使用して、2つのリモートセンシングデータセット、LovedaとVaihingenで実験を実施しました。
結果は、ClassWise-CRFアーキテクチャがセグメンテーションのパフォーマンスを大幅に改善することを示しています。Lovedaデータセットでは、ユニオン(MIOU)の平均交差点が検証セットで1.00%増加し、テストセットで0.68%増加しました。
Vaihingenデータセットでは、MIOUは検証セットで0.87%、テストセットで0.91%改善されました。
これらの結果は、リモートセンシング画像のセマンティックセグメンテーションにおけるクラスワイズCRFアーキテクチャの有効性と一般性を完全に示しています。
完全なコードは、https://github.com/zhuqinfeng1999/classwise-crfで入手できます。

要約(オリジナル)

We propose a result-level category-specific fusion architecture called ClassWise-CRF. This architecture employs a two-stage process: first, it selects expert networks that perform well in specific categories from a pool of candidate networks using a greedy algorithm; second, it integrates the segmentation predictions of these selected networks by adaptively weighting their contributions based on their segmentation performance in each category. Inspired by Conditional Random Field (CRF), the ClassWise-CRF architecture treats the segmentation predictions from multiple networks as confidence vector fields. It leverages segmentation metrics (such as Intersection over Union) from the validation set as priors and employs an exponential weighting strategy to fuse the category-specific confidence scores predicted by each network. This fusion method dynamically adjusts the weights of each network for different categories, achieving category-specific optimization. Building on this, the architecture further optimizes the fused results using unary and pairwise potentials in CRF to ensure spatial consistency and boundary accuracy. To validate the effectiveness of ClassWise-CRF, we conducted experiments on two remote sensing datasets, LoveDA and Vaihingen, using eight classic and advanced semantic segmentation networks. The results show that the ClassWise-CRF architecture significantly improves segmentation performance: on the LoveDA dataset, the mean Intersection over Union (mIoU) metric increased by 1.00% on the validation set and by 0.68% on the test set; on the Vaihingen dataset, the mIoU improved by 0.87% on the validation set and by 0.91% on the test set. These results fully demonstrate the effectiveness and generality of the ClassWise-CRF architecture in semantic segmentation of remote sensing images. The full code is available at https://github.com/zhuqinfeng1999/ClassWise-CRF.

arxiv情報

著者 Qinfeng Zhu,Yunxi Jiang,Lei Fan
発行日 2025-04-30 10:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery はコメントを受け付けていません

Toward Automated Algorithm Design: A Survey and Practical Guide to Meta-Black-Box-Optimization

要約

この調査では、自動化されたアルゴリズムの設計を支援するメタラーニングアプローチを組み込んだ進化的計算〜(EC)コミュニティ内の新興通りとして、メタブラックボックスオプチミー化〜(Metabbo)を紹介します。
Metabboの成功にもかかわらず、現在の文献はその重要な側面の不十分な要約を提供し、実装のための実用的なガイダンスが欠けています。
このギャップを埋めるために、メタボの最近の進歩の包括的なレビューを提供し、その主要な開発の詳細な調査を提供します。
メタボパラダイムの統一された定義から始め、その後、アルゴリズムの選択、アルゴリズムの構成、ソリューション操作、アルゴリズム生成など、さまざまなアルゴリズム設計タスクの体系的な分類法が続きます。
さらに、補強学習、監視された学習、神経進化、大規模な言語モデルを使用したコンテキスト学習など、現在のメタボ作業の背後にあるさまざまな学習方法論を概念的に要約します。
その後、最適化パフォーマンス、計算効率、および一般化能力の実験的分析とともに、最新の代表的なメタボ法の包括的な評価が実行されます。
評価結果に基づいて、Metabboの一般化と学習の有効性を高めるコアデザインのセットを細心の注意を払って特定します。
最後に、最新のトレンドと潜在的な将来の方向性についての洞察を提供することにより、フィールドのビジョンの概要を説明します。
関連する文献は、https://github.com/metaevo/awesome-metabboで継続的に収集および更新されます。

要約(オリジナル)

In this survey, we introduce Meta-Black-Box-Optimization~(MetaBBO) as an emerging avenue within the Evolutionary Computation~(EC) community, which incorporates Meta-learning approaches to assist automated algorithm design. Despite the success of MetaBBO, the current literature provides insufficient summaries of its key aspects and lacks practical guidance for implementation. To bridge this gap, we offer a comprehensive review of recent advances in MetaBBO, providing an in-depth examination of its key developments. We begin with a unified definition of the MetaBBO paradigm, followed by a systematic taxonomy of various algorithm design tasks, including algorithm selection, algorithm configuration, solution manipulation, and algorithm generation. Further, we conceptually summarize different learning methodologies behind current MetaBBO works, including reinforcement learning, supervised learning, neuroevolution, and in-context learning with Large Language Models. A comprehensive evaluation of the latest representative MetaBBO methods is then carried out, alongside an experimental analysis of their optimization performance, computational efficiency, and generalization ability. Based on the evaluation results, we meticulously identify a set of core designs that enhance the generalization and learning effectiveness of MetaBBO. Finally, we outline the vision for the field by providing insight into the latest trends and potential future directions. Relevant literature will be continuously collected and updated at https://github.com/MetaEvo/Awesome-MetaBBO.

arxiv情報

著者 Zeyuan Ma,Hongshu Guo,Yue-Jiao Gong,Jun Zhang,Kay Chen Tan
発行日 2025-04-30 10:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE | Toward Automated Algorithm Design: A Survey and Practical Guide to Meta-Black-Box-Optimization はコメントを受け付けていません

SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

要約

トランスアーキテクチャは、さまざまなモデルで優勢です。
トランスの心臓の心臓は、線形変換の場合、$ o(n)$と比較して、$ o(n^2)$の計算の複雑さを持っています。
大きなシーケンスの長さを処理するとき、注意が主要な時間式コンポーネントになります。
量子化はモデル推論を加速するための効果的な方法であることが証明されていますが、既存の量子化方法は主に線形層の最適化に焦点を当てています。
これに応じて、最初に注意の量子化の実現可能性を詳細に分析します。
それに続いて、私たちは、注意のための非常に効率的で正確な量子化方法であるSageattentionを提案します。
アプローチのOPS(1秒あたりの操作)は、Flashattention2とXFormersをそれぞれ約2.1倍および2.7倍上回ります。
Sageattentionはまた、フラッシュ放送よりも優れた精度パフォーマンスを達成します3。
包括的な実験では、私たちのアプローチが、大規模な言語処理、画像生成、ビデオ生成を含む多様なモデル全体で、エンドツーエンドのメトリックの損失をほとんど発生しないことを確認しています。
コードはhttps://github.com/thu-ml/sageattentionで入手できます。

要約(オリジナル)

The transformer architecture predominates across various models. As the heart of the transformer, attention has a computational complexity of $O(N^2)$, compared to $O(N)$ for linear transformations. When handling large sequence lengths, attention becomes the primary time-consuming component. Although quantization has proven to be an effective method for accelerating model inference, existing quantization methods primarily focus on optimizing the linear layer. In response, we first analyze the feasibility of quantization in attention detailedly. Following that, we propose SageAttention, a highly efficient and accurate quantization method for attention. The OPS (operations per second) of our approach outperforms FlashAttention2 and xformers by about 2.1 times and 2.7 times, respectively. SageAttention also achieves superior accuracy performance over FlashAttention3. Comprehensive experiments confirm that our approach incurs almost no end-to-end metrics loss across diverse models, including those for large language processing, image generation, and video generation. The codes are available at https://github.com/thu-ml/SageAttention.

arxiv情報

著者 Jintao Zhang,Jia wei,Haofeng Huang,Pengle Zhang,Jun Zhu,Jianfei Chen
発行日 2025-04-30 10:31:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration はコメントを受け付けていません