Hammer: Robust Function-Calling for On-Device Language Models via Function Masking

要約

大規模な言語モデルは、外部ツールや API 呼び出しを備えた場合に自律エージェントとして実行する際に優れた価値を実証しています。
それにもかかわらず、複雑なタスクを実行する潜在能力を効果的に活用するには、関数呼び出し機能の強化が不可欠です。
このペーパーでは、既存の関数呼び出しモデルの重大なギャップを特定します。このギャップでは、多くの場合、特定の命名規則によって誤解されることが原因で、ベンチマーク間でパフォーマンスが大幅に異なります。
このような問題に対処するために、オンデバイス関数呼び出し用に特別に設計された新しい基盤モデル ファミリである Hammer を紹介します。
Hammer は、無関係な関数に対するモデルの感度を高め、誤解を招くことを最小限に抑えるために関数マスキング技術を組み込む拡張データセットを採用しています。
私たちの経験的評価により、Hammer が大規模なモデルよりも優れたパフォーマンスを発揮するだけでなく、さまざまなベンチマークにわたって堅牢な一般化を示し、sota 結果を達成できることが明らかになりました。
私たちのオープンソースへの貢献には、無関係性検出のための特殊なデータセット、強化された一般化のためのチューニング フレームワーク、および関数呼び出しパフォーマンスの新しい標準を確立する Hammer モデルが含まれます。

要約(オリジナル)

Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models’ sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.

arxiv情報

著者 Qiqiang Lin,Muning Wen,Qiuying Peng,Guanyu Nie,Junwei Liao,Jun Wang,Xiaoyun Mo,Jiamu Zhou,Cheng Cheng,Yin Zhao,Jun Wang,Weinan Zhang
発行日 2024-10-10 17:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | コメントする

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) の品質を合理的に向上させました。
しかし、MT-LLM に関する現在の研究のほとんどは、文書全体を処理する際に翻訳の一貫性と精度を維持するという大きな課題に依然として直面しています。
このホワイトペーパーでは、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントである DelTA を紹介します。
DelTA は、固有名詞レコード、対訳要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたる情報を格納するマルチレベル メモリ構造を備えており、これらは補助的な LLM ベースのコンポーネントによって継続的に取得および更新されます。
実験結果は、4 つのオープン/クローズドソース LLM と 2 つの代表的な文書翻訳データセットにわたる翻訳の一貫性と品質の点で、DelTA が強力なベースラインを大幅に上回っており、一貫性スコアで最大 4.58 パーセント ポイント、COMET スコアで最大 5 の向上を達成していることを示しています。
平均3.16点。
DelTA は文ごとの翻訳戦略を採用しており、文の省略がないことを保証し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、DelTA により代名詞の翻訳精度が向上し、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして期待されます。
コードとデータは https://github.com/YutongWang1216/DocMTAgent でリリースされています。

要約(オリジナル)

Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.

arxiv情報

著者 Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang
発行日 2024-10-10 17:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Asynchronous Graph Generator

要約

マルチチャネル時系列の代入と予測のための新しいグラフ アテンション ネットワークである非同期グラフ ジェネレーター (AGG) を紹介します。
AGG は、反復コンポーネントや時間的/空間的規則性に関する仮定から解放され、学習可能な埋め込みを介して測定値、タイムスタンプ、チャネル固有の特徴をノードに直接エンコードします。
これらの埋め込みにより、アテンション メカニズムを通じて、均質なグラフの形式で対象の変数間の表現的な関係を発見することができます。
トレーニングが完了すると、AGG は \emph{条件付きアテンション生成} によって代入を実行します。つまり、指定されたタイムスタンプとチャネル仕様を条件とした新しいノードを作成します。
提案された AGG は文献内の関連手法と比較され、そのパフォーマンスがデータ拡張の観点から分析されます。
私たちの実験により、AGG がベンチマーク データセット \emph{北京大気質}、\emph{PhysioNet ICU 2012}、\emph{UCI ローカリゼーション} の時系列代入、分類、予測において最先端の結果を達成し、優れたパフォーマンスを達成したことが明らかになりました。
その他の最近のアテンションベースのネットワーク。

要約(オリジナル)

We introduce the asynchronous graph generator (AGG), a novel graph attention network for imputation and prediction of multi-channel time series. Free from recurrent components or assumptions about temporal/spatial regularity, AGG encodes measurements, timestamps and channel-specific features directly in the nodes via learnable embeddings. Through an attention mechanism, these embeddings allow for discovering expressive relationships among the variables of interest in the form of a homogeneous graph. Once trained, AGG performs imputation by \emph{conditional attention generation}, i.e., by creating a new node conditioned on given timestamps and channel specification. The proposed AGG is compared to related methods in the literature and its performance is analysed from a data augmentation perspective. Our experiments reveal that AGG achieved state-of-the-art results in time series imputation, classification and prediction for the benchmark datasets \emph{Beijing Air Quality}, \emph{PhysioNet ICU 2012} and \emph{UCI localisation}, outperforming other recent attention-based networks.

arxiv情報

著者 Christopher P. Ley,Felipe Tobar
発行日 2024-10-10 17:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまなタスクにわたって有望な進歩を示していますが、依然として重大な信頼性の問題に直面しています。
以前の研究では、言語モデリングに分割共形予測 (SCP) を適用して、統計的保証のある予測セットを構築しました。
ただし、これらの方法は通常、内部モデルのロジットに依存するか、複数選択の設定に制限されるため、動的で制限のない環境での汎用性と適応性が妨げられます。
このペーパーでは、オープンエンドとクローズドエンドの両方のシナリオでサンプリングをサポートするあらゆる MLLM に適用できる、リスク管理と評価のための 2 段階のフレームワークである TRON を紹介します。
TRON は 2 つの主なコンポーネントで構成されます: (1) 最小サイズの応答セットをサンプルする新しい等角スコア、および (2) 自己無撞着理論に基づいて高品質の応答を特定し、2 つの特定のリスク レベルでエラー率を制御する不適合スコア

さらに、オープンエンドのコンテキスト内の予測セットの意味的冗長性を初めて調査し、平均セットサイズに基づく MLLM の有望な評価指標につながります。
8 つの MLLM を利用した 4 つのビデオ質問応答 (VideoQA) データセットにわたる包括的な実験により、TRON はユーザーが指定した 2 つのリスク レベルの範囲内で望ましいエラー率を達成できることがわかりました。
さらに、重複排除された予測セットは適応性を維持しながら、さまざまなリスク レベルでのリスク評価の効率と安定性を高めます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.

arxiv情報

著者 Qingni Wang,Tiantian Geng,Zhiyuan Wang,Teng Wang,Bo Fu,Feng Zheng
発行日 2024-10-10 17:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | コメントする

$\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

要約

優先学習は、正しいコードと間違ったコードを区別するようにモデルが明示的にトレーニングされていない、コード言語モデルの教師あり微調整 (SFT) の制限に対処する有望なソリューションを提供します。
最近の調査結果は、ポリシー上のデータが優先学習の成功の鍵であることを示しており、優先データはトレーニングされている同じポリシー LM を使用して収集されます。
これに触発されて、コード L$\textbf{M} のテスト ケースを備えたオンポリシー $\textbf{P}$reference $\textbf{L}$獲得フレームワーク A$\textbf{u}$gmented PLUM を提案します。
$s。
このフレームワークは 3 つの主要な段階で動作します: (1) 自然言語命令からのテスト ケースの自動生成、(2) ポリシーからサンプリングされた候補コード ソリューションを評価することによる優先データの作成。その後、そのデータは (3) トレーニングに使用できます。
政策LM。
PLUM を使用すると、報酬モデルをトレーニングする必要性がなくなり、ポリシーに基づいた大規模なデータ照合やオンライン嗜好データの照合が可能になります。
PLUM は、標準的なベンチマーク (HumanEval、MBPP) とより困難なベンチマーク (LiveCodeBench) の両方で評価され、元の SFT モデルやその他の実行フィードバック主導のアプローチに比べて大幅な改善を実現します。
PLUM の利点は、SFT で十分にトレーニングされている場合でも、広く使用されているさまざまなコード LM にわたって一貫していることを示します。
たとえば、PLUM は、標準ベンチマークでは平均で最大 4.8%、LiveCodeBench では 11.8% 合格率を向上させ、その有効性と汎用性を実証しています。
また、包括的な実験により、ポリシーに基づく学習とオンラインの好みの学習の利点も実証します。

要約(オリジナル)

Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT’ed models and other execution-feedback-driven approaches. We show PLUM’s benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.

arxiv情報

著者 Dylan Zhang,Shizhe Diao,Xueyan Zou,Hao Peng
発行日 2024-10-10 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントする

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions

要約

ツール学習により、大規模言語モデル (LLM) はツールを呼び出して外部環境と対話できるようになり、トレーニング前のデータに固有の制限を軽減する効果的な戦略として機能します。
このプロセスでは、LLM の使用手順を提供するツールのドキュメントが重要な役割を果たし、それによってツールの効果的な利用が促進されます。
このホワイトペーパーでは、既存の人間中心のツールのドキュメントに内在する不備や不正確さによる、LLM と外部ツールとの間の理解のギャップを埋めるという重要な課題に焦点を当てます。
私たちは、LLM と外部ツールとの相互作用から生じるフィードバックと軌跡の分析を通じて、ツールのドキュメントを動的に洗練することを目的とした新しいフレームワークである DRAFT を提案します。
この方法論は革新的な試行錯誤のアプローチを軸にしており、経験の収集、経験からの学習、ドキュメントの書き換えという 3 つの異なる学習フェーズで構成され、ツールのドキュメントを繰り返し強化します。
このプロセスは、多様性を促進する探索戦略を実装して探索の多様性を確保し、ツール適応型終了メカニズムを実装することでさらに最適化され、効率を高めながら過剰適合を防止します。
複数のデータセットに対する広範な実験により、DRAFT の反復的なフィードバックベースの改良によりドキュメントの品質が大幅に改善され、LLM によるツールのより深い理解とより効果的な利用が促進されることが実証されました。
特に、私たちの分析により、私たちのアプローチによって洗練されたツールのドキュメントが堅牢なクロスモデル一般化機能を実証していることが明らかになりました。

要約(オリジナル)

Tool learning enables Large Language Models (LLMs) to interact with external environments by invoking tools, serving as an effective strategy to mitigate the limitations inherent in their pre-training data. In this process, tool documentation plays a crucial role by providing usage instructions for LLMs, thereby facilitating effective tool utilization. This paper concentrates on the critical challenge of bridging the comprehension gap between LLMs and external tools due to the inadequacies and inaccuracies inherent in existing human-centric tool documentation. We propose a novel framework, DRAFT, aimed at Dynamically Refining tool documentation through the Analysis of Feedback and Trails emanating from LLMs’ interactions with external tools. This methodology pivots on an innovative trial-and-error approach, consisting of three distinct learning phases: experience gathering, learning from experience, and documentation rewriting, to iteratively enhance the tool documentation. This process is further optimized by implementing a diversity-promoting exploration strategy to ensure explorative diversity and a tool-adaptive termination mechanism to prevent overfitting while enhancing efficiency. Extensive experiments on multiple datasets demonstrate that DRAFT’s iterative, feedback-based refinement significantly ameliorates documentation quality, fostering a deeper comprehension and more effective utilization of tools by LLMs. Notably, our analysis reveals that the tool documentation refined via our approach demonstrates robust cross-model generalization capabilities.

arxiv情報

著者 Changle Qu,Sunhao Dai,Xiaochi Wei,Hengyi Cai,Shuaiqiang Wang,Dawei Yin,Jun Xu,Ji-Rong Wen
発行日 2024-10-10 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

要約

この論文では、最新の畳み込みニューラル ネットワーク (ConvNet) の設計における大規模畳み込みカーネルのパラダイムを提案します。
私たちは、複数の小さなカーネルを積み重ねる代わりに、いくつかの大きなカーネルを採用することが優れた設計戦略となり得ることを証明しています。
私たちの取り組みでは、大規模カーネル ConvNet の効率とパフォーマンスを最適化する一連のアーキテクチャ設計ガイドラインを導入しています。
私たちは UniRepLKNet アーキテクチャを提案します。これは、大規模カーネル ConvNet 向けに特別に作成された体系的なアーキテクチャ設計原則を提供し、深い層のスタッキングを行わずに広範な空間情報をキャプチャする独自の機能を強調します。
その結果、ImageNet 精度 88.0%、ADE20K mIoU 55.6%、COCO box AP 56.4% という以前のモデルを上回るだけでなく、時系列予測などのさまざまなモダリティで優れたスケーラビリティとパフォーマンスを実証するモデルが実現しました。
、オーディオ、点群、ビデオ認識。
これらの結果は、ビジョン トランスフォーマーと比較して推論速度が速い大規模カーネル ConvNet の汎用モデリング能力を示しています。
私たちの調査結果は、大きなカーネルの ConvNet はより大きな有効受容野とより高い形状バイアスを持ち、小さなカーネルの CNN に典型的なテクスチャ バイアスから離れていることを明らかにしています。
すべてのコードとモデルは https://github.com/AILab-CVC/UniRepLKNet で公開されており、コミュニティでのさらなる研究開発が促進されます。

要約(オリジナル)

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

arxiv情報

著者 Yiyuan Zhang,Xiaohan Ding,Xiangyu Yue
発行日 2024-10-10 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

A framework for compressing unstructured scientific data via serialization

要約

既知のローカル接続を使用して非構造化科学データを圧縮するための一般的なフレームワークを紹介します。
一般的なアプリケーションは、任意の有限要素メッシュ上に定義されたシミュレーション データです。
このフレームワークは、元のノードの並べ替えを維持する貪欲なトポロジを採用しており、既存のデータ処理パイプラインへのシームレスな統合を可能にします。
この並べ替えプロセスはメッシュ接続のみに依存しており、最適な効率を得るためにオフラインで実行できます。
ただし、アルゴリズムの貪欲な性質により、オンザフライ実装もサポートされます。
提案された方法は、データ内の空間相関を利用するあらゆる圧縮アルゴリズムと互換性があります。
このアプローチの有効性は、MGARD、SZ、ZFP などのいくつかの圧縮方法を使用して、大規模な実際のデータセットで実証されています。

要約(オリジナル)

We present a general framework for compressing unstructured scientific data with known local connectivity. A common application is simulation data defined on arbitrary finite element meshes. The framework employs a greedy topology preserving reordering of original nodes which allows for seamless integration into existing data processing pipelines. This reordering process depends solely on mesh connectivity and can be performed offline for optimal efficiency. However, the algorithm’s greedy nature also supports on-the-fly implementation. The proposed method is compatible with any compression algorithm that leverages spatial correlations within the data. The effectiveness of this approach is demonstrated on a large-scale real dataset using several compression methods, including MGARD, SZ, and ZFP.

arxiv情報

著者 Viktor Reshniak,Qian Gong,Rick Archibald,Scott Klasky,Norbert Podhorszki
発行日 2024-10-10 15:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Reversible Decoupling Network for Single Image Reflection Removal

要約

単一画像の反射除去に対する最近の深層学習ベースのアプローチは、主に 2 つの理由により、有望な進歩を示しています。1) 認識事前学習済みの特徴を入力として利用すること、2) デュアルストリーム インタラクション ネットワークの設計。
ただし、情報ボトルネックの原則によれば、高レベルの意味論的な手がかりは、レイヤーごとの伝播中に圧縮または破棄される傾向があります。
さらに、デュアルストリーム ネットワークでのインタラクションはさまざまなレイヤー間で固定パターンに従い、全体的なパフォーマンスが制限されます。
これらの制限に対処するために、私たちは可逆デカップリング ネットワーク (RDNet) と呼ばれる新しいアーキテクチャを提案します。このアーキテクチャは、可逆エンコーダを採用して貴重な情報を保護しながら、転送パス中に送信および反射関連の機能を柔軟にデカップリングします。
さらに、伝送速度を考慮したプロンプト ジェネレーターをカスタマイズして機能を動的に調整し、パフォーマンスをさらに向上させます。
広範な実験により、広く採用されている 5 つのベンチマーク データセットにおける既存の SOTA 手法に対する RDNet の優位性が実証されています。
私たちのコードは公開されます。

要約(オリジナル)

Recent deep-learning-based approaches to single-image reflection removal have shown promising advances, primarily for two reasons: 1) the utilization of recognition-pretrained features as inputs, and 2) the design of dual-stream interaction networks. However, according to the Information Bottleneck principle, high-level semantic clues tend to be compressed or discarded during layer-by-layer propagation. Additionally, interactions in dual-stream networks follow a fixed pattern across different layers, limiting overall performance. To address these limitations, we propose a novel architecture called Reversible Decoupling Network (RDNet), which employs a reversible encoder to secure valuable information while flexibly decoupling transmission- and reflection-relevant features during the forward pass. Furthermore, we customize a transmission-rate-aware prompt generator to dynamically calibrate features, further boosting performance. Extensive experiments demonstrate the superiority of RDNet over existing SOTA methods on five widely-adopted benchmark datasets. Our code will be made publicly available.

arxiv情報

著者 Hao Zhao,Mingjia Li,Qiming Hu,Xiaojie Guo
発行日 2024-10-10 15:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Unlearning-based Neural Interpretations

要約

勾配ベースの解釈では、多くの場合、特徴量の重要性の計算における飽和を避けるために、比較のアンカー ポイントが必要になります。
静的関数 (一定のマッピング、平均化、ぼかしなど) を使用して定義された現在のベースラインが、モデルの動作から逸脱する有害な色、テクスチャ、または周波数の仮定を注入することを示します。
これにより、不規則な勾配が蓄積され、偏り、脆弱で、操作可能なアトリビューション マップが生成されます。
静的なアプローチから離れて、最も急な上昇の非学習方向に向かって入力を摂動させることによって、(非)学習可能で偏りのない適応ベースラインを計算する UNI を提案します。
私たちの方法は信頼できるベースラインを発見し、顕著な特徴を消去することに成功し、それによって高曲率の決定境界を局所的に平滑化します。
私たちの分析では、忠実で効率的かつ堅牢な解釈を生成するための有望な手段としてアンラーニングが指摘されています。

要約(オリジナル)

Gradient-based interpretations often require an anchor point of comparison to avoid saturation in computing feature importance. We show that current baselines defined using static functions–constant mapping, averaging or blurring–inject harmful colour, texture or frequency assumptions that deviate from model behaviour. This leads to accumulation of irregular gradients, resulting in attribution maps that are biased, fragile and manipulable. Departing from the static approach, we propose UNI to compute an (un)learnable, debiased and adaptive baseline by perturbing the input towards an unlearning direction of steepest ascent. Our method discovers reliable baselines and succeeds in erasing salient features, which in turn locally smooths the high-curvature decision boundaries. Our analyses point to unlearning as a promising avenue for generating faithful, efficient and robust interpretations.

arxiv情報

著者 Ching Lam Choi,Alexandre Duplessis,Serge Belongie
発行日 2024-10-10 16:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする