FedCC: Robust Federated Learning against Model Poisoning Attacks

要約

Federated Learningは、プライバシーの懸念に対処するために設計された分散フレームワークです。
ただし、新しい攻撃面を導入します。これは、データが非依存的で同一に分布している場合に特に傾向があります。
既存のアプローチは、この設定における悪意のある影響を効果的に軽減できません。
以前のアプローチは、多くの場合、非IIDデータと中毒攻撃に個別に取り組んでいます。
両方の課題に同時に対処するために、モデル中毒攻撃に対するシンプルで効果的な新規防衛アルゴリズムであるFEDCCを提示します。
クラスタリング用の最後から2番目の層表現の中心的なカーネルアライメントの類似性を活用し、非IIDデータ設定であっても、悪意のあるクライアントの識別とろ過を可能にします。
後のレイヤーはローカルデータ分布により敏感であり、悪意のあるクライアントのより良い検出を可能にするため、最後から2番目の層の表現は意味があります。
レイヤーごとの中心のカーネルアライメントの類似性の洗練された利用により、攻撃緩和が得られ、得られた有用な知識を活用できます。
私たちの広範な実験は、ターゲットモデル中毒とターゲットを絞ったバックドア攻撃の両方を緩和する際のFEDCCの有効性を示しています。
既存の外れ値検出ベースおよび1次統計ベースの方法と比較して、FEDCCは攻撃信頼をゼロに一貫して減らします。
具体的には、グローバルパフォーマンスの平均劣化を65.5 \%で大幅に最小化します。
集約に関するこの新しい視点は、FLモデルのセキュリティとプライバシーの分野への貴重な貢献であると考えています。
コードは、受け入れられると利用可能になります。

要約(オリジナル)

Federated learning is a distributed framework designed to address privacy concerns. However, it introduces new attack surfaces, which are especially prone when data is non-Independently and Identically Distributed. Existing approaches fail to effectively mitigate the malicious influence in this setting; previous approaches often tackle non-IID data and poisoning attacks separately. To address both challenges simultaneously, we present FedCC, a simple yet effective novel defense algorithm against model poisoning attacks. It leverages the Centered Kernel Alignment similarity of Penultimate Layer Representations for clustering, allowing the identification and filtration of malicious clients, even in non-IID data settings. The penultimate layer representations are meaningful since the later layers are more sensitive to local data distributions, which allows better detection of malicious clients. The sophisticated utilization of layer-wise Centered Kernel Alignment similarity allows attack mitigation while leveraging useful knowledge obtained. Our extensive experiments demonstrate the effectiveness of FedCC in mitigating both untargeted model poisoning and targeted backdoor attacks. Compared to existing outlier detection-based and first-order statistics-based methods, FedCC consistently reduces attack confidence to zero. Specifically, it significantly minimizes the average degradation of global performance by 65.5\%. We believe that this new perspective on aggregation makes it a valuable contribution to the field of FL model security and privacy. The code will be made available upon acceptance.

arxiv情報

著者 Hyejun Jeong,Hamin Son,Seohu Lee,Jayun Hyun,Tai-Myoung Chung
発行日 2025-02-19 15:48:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | FedCC: Robust Federated Learning against Model Poisoning Attacks はコメントを受け付けていません

Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning

要約

大規模な言語モデル(LLMS)は、証明システム内で証明ステップ(\ textit {a.k.a。}戦術)を生成することにより、数学的定理を正式に証明できます。
ただし、可能な戦術のスペースは広大で複雑ですが、正式な証明のための利用可能なトレーニングデータは限られており、LLMベースの戦術生成に大きな課題を抱えています。
これに対処するために、象徴的な方法によってエンコードされたドメイン固有の洞察を使用して、LLMSによって学習された数学的直観を相乗化するニューロシンボリック戦術ジェネレーターを紹介します。
この統合の重要な側面は、数学的推論のどの部分がLLMSに最適であり、どの部分に象徴的な方法に適しているかを特定することです。
この論文では、神経 – 神経系統合の高レベルのアイデアはさまざまな数学的問題に広く適用されますが、特にオリンピックの不平等に焦点を当てています(図〜1)。
人間がこれらの問題を解決する方法を分析し、技術を2種類の戦術に蒸留する方法を分析します。(1)象徴的な方法で処理されるスケーリング、(2)LLMSによって処理される書き換え。
さらに、シンボリックツールとLLMSを組み合わせて、効率的な証明検索の証明目標を剪定してランク付けします。
複数の数学競争からの161の挑戦的な不平等に関するフレームワークを評価し、最先端のパフォーマンスを達成し、追加のトレーニングデータを必要とせずに既存のLLMと象徴的なアプローチを大幅に上回ります。

要約(オリジナル)

Large language models (LLMs) can prove mathematical theorems formally by generating proof steps (\textit{a.k.a.} tactics) within a proof system. However, the space of possible tactics is vast and complex, while the available training data for formal proofs is limited, posing a significant challenge to LLM-based tactic generation. To address this, we introduce a neuro-symbolic tactic generator that synergizes the mathematical intuition learned by LLMs with domain-specific insights encoded by symbolic methods. The key aspect of this integration is identifying which parts of mathematical reasoning are best suited to LLMs and which to symbolic methods. While the high-level idea of neuro-symbolic integration is broadly applicable to various mathematical problems, in this paper, we focus specifically on Olympiad inequalities (Figure~1). We analyze how humans solve these problems and distill the techniques into two types of tactics: (1) scaling, handled by symbolic methods, and (2) rewriting, handled by LLMs. In addition, we combine symbolic tools with LLMs to prune and rank the proof goals for efficient proof search. We evaluate our framework on 161 challenging inequalities from multiple mathematics competitions, achieving state-of-the-art performance and significantly outperforming existing LLM and symbolic approaches without requiring additional training data.

arxiv情報

著者 Zenan Li,Zhaoyu Li,Wen Tang,Xian Zhang,Yuan Yao,Xujie Si,Fan Yang,Kaiyu Yang,Xiaoxing Ma
発行日 2025-02-19 15:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning はコメントを受け付けていません

Quantifying Memorization and Retriever Performance in Retrieval-Augmented Vision-Language Models

要約

大規模な言語モデル(LLMS)は、質問応答(QA)で顕著な能力を示していますが、記憶と検索への依存を評価するためのメトリックは未発達のままです。
さらに、Finetunedモデルはクローズドドメインタスクの最先端ですが、GPT-4Oのような汎用モデルは強力なゼロショットパフォーマンスを示します。
これにより、暗記、一般化、取得の間のトレードオフに関する疑問が生じます。
この作業では、ベースラインVLMと比較して、マルチモーダル検索されたAugmented VLMがトレーニングデータを記憶する程度を分析します。
WebQAベンチマークを使用して、MultiHOPの取得と質問応答のベースラインVLMとFintunedモデルを対比し、データの記憶に対する微調整の影響を調べます。
エンドツーエンドの検索およびQAシステムの暗記を定量化するために、検索が失敗したにもかかわらずQAが成功するインスタンスを調査することにより、いくつかのプロキシメトリックを提案します。
我々の結果は、微調ューされたモデルが暗記に依存している程度を明らかにしています。
対照的に、検索された高級VLMは、精度の犠牲を払って記憶スコアが低くなります(WebQAテストセットでは72%対52%)。
そのため、私たちの措置は、オープンドメインQAと共同検索QAタスクの両方で暗記と一般化を調和させるための将来の作業にとって課題をもたらします。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable capabilities in question answering (QA), but metrics for assessing their reliance on memorization versus retrieval remain underdeveloped. Moreover, while finetuned models are state-of-the-art on closed-domain tasks, general-purpose models like GPT-4o exhibit strong zero-shot performance. This raises questions about the trade-offs between memorization, generalization, and retrieval. In this work, we analyze the extent to which multimodal retrieval-augmented VLMs memorize training data compared to baseline VLMs. Using the WebQA benchmark, we contrast finetuned models with baseline VLMs on multihop retrieval and question answering, examining the impact of finetuning on data memorization. To quantify memorization in end-to-end retrieval and QA systems, we propose several proxy metrics by investigating instances where QA succeeds despite retrieval failing. Our results reveal the extent to which finetuned models rely on memorization. In contrast, retrieval-augmented VLMs have lower memorization scores, at the cost of accuracy (72% vs 52% on WebQA test set). As such, our measures pose a challenge for future work to reconcile memorization and generalization in both Open-Domain QA and joint Retrieval-QA tasks.

arxiv情報

著者 Peter Carragher,Abhinand Jha,R Raghav,Kathleen M. Carley
発行日 2025-02-19 15:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Quantifying Memorization and Retriever Performance in Retrieval-Augmented Vision-Language Models はコメントを受け付けていません

Mitigating Popularity Bias in Collaborative Filtering through Fair Sampling

要約

推奨システムは、多くの場合、人気バイアスに悩まされます。このバイアスでは、頻繁に相互作用するアイテムが推奨事項で過剰に表現されています。
このバイアスは、トレーニングデータに影響を与える傾向要因に起因し、不均衡な暴露につながります。
このホワイトペーパーでは、ユーザーとアイテムの両方がポジティブおよびネガティブなインスタンスとして同等の確率で選択されるようにすることにより、この問題に対処するための公正なサンプリング(FS)アプローチを紹介します。
従来の逆傾向スコア(IPS)メソッドとは異なり、FSは傾向の推定を必要とせず、不正確な計算に関連するエラーを排除します。
私たちの理論分析は、FSが傾向因子の影響を効果的に中和し、偏りのない学習を達成することを示しています。
実験結果は、FSがポイントごとの推奨タスクとペアごとの推奨タスクの両方で最先端の方法を上回り、精度を犠牲にすることなく推奨公平性を高めることを検証します。
実装はhttps://anonymous.4open.science/r/fair-samplingで入手できます。

要約(オリジナル)

Recommender systems often suffer from popularity bias, where frequently interacted items are overrepresented in recommendations. This bias stems from propensity factors influencing training data, leading to imbalanced exposure. In this paper, we introduce a Fair Sampling (FS) approach to address this issue by ensuring that both users and items are selected with equal probability as positive and negative instances. Unlike traditional inverse propensity score (IPS) methods, FS does not require propensity estimation, eliminating errors associated with inaccurate calculations. Our theoretical analysis demonstrates that FS effectively neutralizes the influence of propensity factors, achieving unbiased learning. Experimental results validate that FS outperforms state-of-the-art methods in both point-wise and pair-wise recommendation tasks, enhancing recommendation fairness without sacrificing accuracy. The implementation is available at https://anonymous.4open.science/r/Fair-Sampling.

arxiv情報

著者 Jiahao Liu,Dongsheng Li,Hansu Gu,Peng Zhang,Tun Lu,Li Shang,Ning Gu
発行日 2025-02-19 15:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Mitigating Popularity Bias in Collaborative Filtering through Fair Sampling はコメントを受け付けていません

Enhancing Cross-Domain Recommendations with Memory-Optimized LLM-Based User Agents

要約

大規模な言語モデル(LLM)ベースのユーザーエージェントは、ユーザーインタラクションをシミュレートすることにより、推奨システムを改善するための強力なツールとして浮上しています。
ただし、既存の方法は、非効率的なメモリ構造によるクロスドメインシナリオと闘い、無関係な情報保持と人気などの社会的影響要因を説明できないことにつながります。
これらの制限に対処するために、デュアルレイヤーメモリアーキテクチャとドメイン固有の好みを効果的にフィルタリングする2段階の融合メカニズムを特徴とする新しいフレームワークであるAgentCF ++を紹介します。
さらに、共有メモリを持つ利益団体を提案し、モデルが同様の関心を持つユーザーに対する人気トレンドの影響をキャプチャできるようにします。
複数のクロスドメインデータセットでの広範な実験を通じて、AgentCF ++はベースラインモデルよりも優れたパフォーマンスを示し、推奨システムのユーザー行動シミュレーションを改善する効果を強調しています。
私たちのコードは、https://anonymous.4open.science/r/agentcf-plusで入手できます。

要約(オリジナル)

Large Language Model (LLM)-based user agents have emerged as a powerful tool for improving recommender systems by simulating user interactions. However, existing methods struggle with cross-domain scenarios due to inefficient memory structures, leading to irrelevant information retention and failure to account for social influence factors such as popularity. To address these limitations, we introduce AgentCF++, a novel framework featuring a dual-layer memory architecture and a two-step fusion mechanism to filter domain-specific preferences effectively. Additionally, we propose interest groups with shared memory, allowing the model to capture the impact of popularity trends on users with similar interests. Through extensive experiments on multiple cross-domain datasets, AgentCF++ demonstrates superior performance over baseline models, highlighting its effectiveness in refining user behavior simulation for recommender systems. Our code is available at https://anonymous.4open.science/r/AgentCF-plus.

arxiv情報

著者 Jiahao Liu,Shengkang Gu,Dongsheng Li,Guangping Zhang,Mingzhe Han,Hansu Gu,Peng Zhang,Tun Lu,Li Shang,Ning Gu
発行日 2025-02-19 16:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Enhancing Cross-Domain Recommendations with Memory-Optimized LLM-Based User Agents はコメントを受け付けていません

Enhancing LLM-Based Recommendations Through Personalized Reasoning

要約

大規模な言語モデル(LLM)を搭載した現在の推奨システムは、明示的な論理構造が不足しているため、多くの場合、推論機能を十分に活用していません。
この制限に対処するために、2つの重要なプロセスの2つの重要なプロセスを組み込むことにより、LLM主導の推奨事項にチェーン(COT)推論を統合するフレームワークであるCOT-RECを紹介します。
COT-RECは、2つの重要なフェーズで動作します。(1)パーソナライズされたデータ抽出、ユーザーの好みとアイテムの認識が特定されている場合、および(2)この情報を活用して推奨事項を改善するためにレバレッジされています。
実験分析は、COT-RECがLLMSの推論の可能性をより適切に使用することにより、推奨の精度を向上させることを示しています。
実装は、https://anonymous.4open.science/r/cot-recで公開されています。

要約(オリジナル)

Current recommendation systems powered by large language models (LLMs) often underutilize their reasoning capabilities due to a lack of explicit logical structuring. To address this limitation, we introduce CoT-Rec, a framework that integrates Chain-of-Thought (CoT) reasoning into LLM-driven recommendations by incorporating two crucial processes: user preference analysis and item perception evaluation. CoT-Rec operates in two key phases: (1) personalized data extraction, where user preferences and item perceptions are identified, and (2) personalized data application, where this information is leveraged to refine recommendations. Our experimental analysis demonstrates that CoT-Rec improves recommendation accuracy by making better use of LLMs’ reasoning potential. The implementation is publicly available at https://anonymous.4open.science/r/CoT-Rec.

arxiv情報

著者 Jiahao Liu,Xueshuo Yan,Dongsheng Li,Guangping Zhang,Hansu Gu,Peng Zhang,Tun Lu,Li Shang,Ning Gu
発行日 2025-02-19 16:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Enhancing LLM-Based Recommendations Through Personalized Reasoning はコメントを受け付けていません

DH-RAG: A Dynamic Historical Context-Powered Retrieval-Augmented Generation Method for Multi-Turn Dialogue

要約

検索された生成(RAG)システムは、質問応答やマルチターンダイアログ\ citep {lewis2020retrieval}などのアプリケーションで大きな利点を示しています。
ただし、静的な知識ベースを活用しながら、従来のRAGメソッドは、進行中の会話における動的な歴史的情報の可能性を見落としていることがよくあります。
このギャップを埋めるために、マルチターンダイアログのための動的な歴史的コンテキスト駆動の検索された検索された生成方法であるDH-RAGを紹介します。
DH-RAGは、会話型応答に長期的な記憶と即時の歴史的背景の両方を利用する人間の認知プロセスに触発されています\ citep {stafford1987Conversational}。
DH-RAGは、2つの主要なコンポーネントを中心に構成されています。履歴学習ベースのクエリ再構築モジュール。現在および以前の相互作用を合成することにより効果的なクエリを生成するように設計されており、モジュールを継続的に対話全体に継続的に再ルエシングする動的履歴情報更新モジュールです。
DH-RAGの中心は動的な履歴情報データベースであり、クエリ再構成モジュール内の3つの戦略によってさらに洗練されています:履歴クエリクラスタリング、階層的マッチング、および思考追跡チェーン。
実験的評価は、DH-RAGがいくつかのベンチマークで従来のモデルを大幅に上回り、応答の関連性、一貫性、および対話の質を高めることを示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) systems have shown substantial benefits in applications such as question answering and multi-turn dialogue \citep{lewis2020retrieval}. However, traditional RAG methods, while leveraging static knowledge bases, often overlook the potential of dynamic historical information in ongoing conversations. To bridge this gap, we introduce DH-RAG, a Dynamic Historical Context-Powered Retrieval-Augmented Generation Method for Multi-Turn Dialogue. DH-RAG is inspired by human cognitive processes that utilize both long-term memory and immediate historical context in conversational responses \citep{stafford1987conversational}. DH-RAG is structured around two principal components: a History-Learning based Query Reconstruction Module, designed to generate effective queries by synthesizing current and prior interactions, and a Dynamic History Information Updating Module, which continually refreshes historical context throughout the dialogue. The center of DH-RAG is a Dynamic Historical Information database, which is further refined by three strategies within the Query Reconstruction Module: Historical Query Clustering, Hierarchical Matching, and Chain of Thought Tracking. Experimental evaluations show that DH-RAG significantly surpasses conventional models on several benchmarks, enhancing response relevance, coherence, and dialogue quality.

arxiv情報

著者 Feiyuan Zhang,Dezhi Zhu,James Ming,Yilun Jin,Di Chai,Liu Yang,Han Tian,Zhaoxin Fan,Kai Chen
発行日 2025-02-19 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DH-RAG: A Dynamic Historical Context-Powered Retrieval-Augmented Generation Method for Multi-Turn Dialogue はコメントを受け付けていません

Agentic Information Retrieval

要約

1970年代以来、情報検索(IR)は、ユーザー情報のニーズを満たすために、事前に定義されたコーパスから関連情報項目を取得するプロセスとして長い間定義されてきました。
従来のIRシステムは、Web検索などのドメインで効果的ですが、静的な事前定義された情報項目への依存によって制約されています。
この目的のために、このペーパーでは、大規模な言語モデル(LLMS)およびAIエージェントによって駆動されるIRの変革的な次世代パラダイムであるエージェント情報検索(エージェントIR)を紹介します。
エージェントIRの中心的な変化は、静的な事前定義された情報項目から動的なコンテキスト依存情報状態への「情報」の進化する定義です。
情報状態とは、ユーザーが動的な環境内にいるという特定の情報コンテキストを指し、取得した情報項目だけでなく、リアルタイムのユーザー設定、コンテキスト要因、意思決定プロセスも含まれます。
このような方法では、ユーザークエリに基づいて関連する情報項目の取得に焦点を当てた従来の情報検索は、ユーザーの命令を考慮してターゲット情報状態を達成するために自然に拡張でき、それによってエージェント情報の検索が定義されます。
さまざまな側面、つまりタスクの策定、アーキテクチャ、評価、ケーススタディ、課題と将来の見通しからエージェントIRを体系的に議論します。
このペーパーで導入されたエージェントIRの概念は、情報検索研究の範囲を広げるだけでなく、より適応性があり、インタラクティブで、インテリジェントな次世代IRパラダイムの基礎を築くと考えています。

要約(オリジナル)

Since the 1970s, information retrieval (IR) has long been defined as the process of acquiring relevant information items from a pre-defined corpus to satisfy user information needs. Traditional IR systems, while effective in domains like web search, are constrained by their reliance on static, pre-defined information items. To this end, this paper introduces agentic information retrieval (Agentic IR), a transformative next-generation paradigm for IR driven by large language models (LLMs) and AI agents. The central shift in agentic IR is the evolving definition of “information” from static, pre-defined information items to dynamic, context-dependent information states. Information state refers to a particular information context that the user is right in within a dynamic environment, encompassing not only the acquired information items but also real-time user preferences, contextual factors, and decision-making processes. In such a way, traditional information retrieval, focused on acquiring relevant information items based on user queries, can be naturally extended to achieving the target information state given the user instruction, which thereby defines the agentic information retrieval. We systematically discuss agentic IR from various aspects, i.e., task formulation, architecture, evaluation, case studies, as well as challenges and future prospects. We believe that the concept of agentic IR introduced in this paper not only broadens the scope of information retrieval research but also lays the foundation for a more adaptive, interactive, and intelligent next-generation IR paradigm.

arxiv情報

著者 Weinan Zhang,Junwei Liao,Ning Li,Kounianhua Du,Jianghao Lin
発行日 2025-02-19 16:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Agentic Information Retrieval はコメントを受け付けていません

One Size doesn’t Fit All: A Personalized Conversational Tutoring Agent for Mathematics Instruction

要約

大規模な言語モデル(LLM)は、さまざまなインテリジェントな教育システムでますます採用されており、効果的なヒューマンマシン相互作用を促進するためにヒトチューターをシミュレートしています。
ただし、以前の研究は、個々の学習者の特性を認識して適応することの重要性を見落としていることがよくあります。
このような適応は、特に多様な学習スタイルが理解と熱意を促進するためにパーソナライズされた戦略を必要とする数学の指導において、学生の関与と学習効率を高めるために重要です。
この論文では、数学指導のためにa \ textbf {p} erson \ textbf {a} lized \ textbf {c} ag \ textbf {e} nt(pace)(pace)を提案します。
Paceは、各生徒のペルソナと協力して、FelderおよびSilverman Learning Styleモデルに基づいて、学生の学習スタイルをシミュレートします。
このようにして、私たちのペースは学生の性格を効果的に評価し、独自の学習スタイルに共鳴する個別の教育戦略を開発することができます。
学生の理解をさらに高めるために、PACEはソクラテス教育方法を採用して、即座のフィードバックを提供し、深い思考を奨励しています。
パーソナライズされた教育データとトレーニングモデルを構築することにより、PACEは各学生の独自のニーズを特定し、適応する能力を実証し、全体的な学習体験と結果を大幅に改善します。
さらに、マルチアスペクト評価基準を確立し、パーソナライズされた教育のパフォーマンスを評価するために広範な分析を実施します。
実験結果は、既存の方法と比較して、教育経験をパーソナライズし、学生をやる気にさせる際のモデルの優位性を示しています。

要約(オリジナル)

Large language models (LLMs) have been increasingly employed in various intelligent educational systems, simulating human tutors to facilitate effective human-machine interaction. However, previous studies often overlook the significance of recognizing and adapting to individual learner characteristics. Such adaptation is crucial for enhancing student engagement and learning efficiency, particularly in mathematics instruction, where diverse learning styles require personalized strategies to promote comprehension and enthusiasm. In this paper, we propose a \textbf{P}erson\textbf{A}lized \textbf{C}onversational tutoring ag\textbf{E}nt (PACE) for mathematics instruction. PACE simulates students’ learning styles based on the Felder and Silverman learning style model, aligning with each student’s persona. In this way, our PACE can effectively assess the personality of students, allowing to develop individualized teaching strategies that resonate with their unique learning styles. To further enhance students’ comprehension, PACE employs the Socratic teaching method to provide instant feedback and encourage deep thinking. By constructing personalized teaching data and training models, PACE demonstrates the ability to identify and adapt to the unique needs of each student, significantly improving the overall learning experience and outcomes. Moreover, we establish multi-aspect evaluation criteria and conduct extensive analysis to assess the performance of personalized teaching. Experimental results demonstrate the superiority of our model in personalizing the educational experience and motivating students compared to existing methods.

arxiv情報

著者 Ben Liu,Jihan Zhang,Fangquan Lin,Xu Jia,Min Peng
発行日 2025-02-19 16:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | One Size doesn’t Fit All: A Personalized Conversational Tutoring Agent for Mathematics Instruction はコメントを受け付けていません

SPEX: Scaling Feature Interaction Explanations for LLMs

要約

大規模な言語モデル(LLM)は、入力機能間の複雑な相互作用をキャプチャする能力により、機械学習に革命をもたらしました。
Shapのような一般的な事後説明方法は、限界機能の帰属を提供しますが、相互作用の重要性への拡張は、入力長($ \約20 $)にのみスケーリングします。
Spectral Excouler(SPEX)を提案します。これは、大きな入力長($ \約1000)$に効率的にスケーリングするモデルと依存の相互作用属性アルゴリズムを提案します。
SPEXは、相互作用の間の自然なスパースの根底にある(実際のデータで一般的なもの)を悪用し、チャネルデコードアルゴリズムを使用してスパースフーリエ変換を適用して、重要な相互作用を効率的に識別します。
LLMSが入力間の相互作用を利用してタスクを完了する必要がある3つの困難なロングコンテキストデータセットで実験を実行します。
大規模な入力の場合、SPEXは、LLM出力を忠実に再構築するという点で、限界属性法を最大20%上回ることができます。
さらに、SPEXは、モデルの出力に強く影響する主要な機能と相互作用を正常に識別します。
データセットの1つであるHotpotqaの場合、SPEXは人間の注釈と整合する相互作用を提供します。
最後に、モデルと存在するアプローチを使用して説明を生成して、クローズドソースLLMS(GPT-4O MINI)の抽象的な推論とビジョン言語モデルの構成推論を実証します。

要約(オリジナル)

Large language models (LLMs) have revolutionized machine learning due to their ability to capture complex interactions between input features. Popular post-hoc explanation methods like SHAP provide marginal feature attributions, while their extensions to interaction importances only scale to small input lengths ($\approx 20$). We propose Spectral Explainer (SPEX), a model-agnostic interaction attribution algorithm that efficiently scales to large input lengths ($\approx 1000)$. SPEX exploits underlying natural sparsity among interactions — common in real-world data — and applies a sparse Fourier transform using a channel decoding algorithm to efficiently identify important interactions. We perform experiments across three difficult long-context datasets that require LLMs to utilize interactions between inputs to complete the task. For large inputs, SPEX outperforms marginal attribution methods by up to 20% in terms of faithfully reconstructing LLM outputs. Further, SPEX successfully identifies key features and interactions that strongly influence model output. For one of our datasets, HotpotQA, SPEX provides interactions that align with human annotations. Finally, we use our model-agnostic approach to generate explanations to demonstrate abstract reasoning in closed-source LLMs (GPT-4o mini) and compositional reasoning in vision-language models.

arxiv情報

著者 Justin Singh Kang,Landon Butler,Abhineet Agarwal,Yigit Efe Erginbas,Ramtin Pedarsani,Kannan Ramchandran,Bin Yu
発行日 2025-02-19 16:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT | SPEX: Scaling Feature Interaction Explanations for LLMs はコメントを受け付けていません