Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

要約

大規模な言語モデル(LLMS)のプロンプトチューニング(PT)は、トレーニング可能なパラメーターが大幅に少ないさまざまな従来のNLPタスクのパフォーマンスを促進できます。
しかし、私たちの調査により、PTは限られた改善をもたらし、複雑な推論タスクでLLMの原始的なパフォーマンスを低下させる可能性さえあることが明らかになりました。
このような現象は、ソフトプロンプトが特定のインスタンスにプラスの影響を与えると同時に、特に推論の後期段階で他のインスタンスに悪影響を与える可能性があることを示唆しています。
これらの課題に対処するために、最初にソフトプロンプト内の情報蓄積を特定します。
詳細な分析を通じて、この現象にはしばしばモデルのより深い層に誤った情報フローパターンが伴い、最終的に誤った推論結果につながることを実証します。
複雑な推論タスクでソフトプロンプトをより適切に活用するために、動的プロンプト腐敗(DPC)と呼ばれる新しい方法を提案します。これは、推論プロセスへの影響に基づいてソフトプロンプトの影響を動的に調整します。
具体的には、DPCは、動的トリガーと動的腐敗の2つの段階で構成されています。
第一に、動的トリガーはソフトプロンプトの影響を測定し、有益か有害かを特定します。
次に、動的な腐敗は、推論プロセスを妨げるキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の影響を軽減します。
GSM8K、Math、Aquaなど、さまざまなLLMSおよび推論タスクに関する広範な実験を通じて提案されたアプローチを検証します。
実験結果は、DPCがPTのパフォーマンスを一貫して向上させ、バニラの迅速な調整と比較して4%〜8%の精度の向上を達成できることを示しており、アプローチの有効性とLLMSの複雑な推論を強化する可能性を強調しています。

要約(オリジナル)

Prompt-tuning (PT) for large language models (LLMs) can facilitate the performance on various conventional NLP tasks with significantly fewer trainable parameters. However, our investigation reveals that PT provides limited improvement and may even degrade the primitive performance of LLMs on complex reasoning tasks. Such a phenomenon suggests that soft prompts can positively impact certain instances while negatively affecting others, particularly during the later phases of reasoning. To address these challenges, We first identify an information accumulation within the soft prompts. Through detailed analysis, we demonstrate that this phenomenon is often accompanied by erroneous information flow patterns in the deeper layers of the model, which ultimately lead to incorrect reasoning outcomes. we propose a novel method called Dynamic Prompt Corruption (DPC) to take better advantage of soft prompts in complex reasoning tasks, which dynamically adjusts the influence of soft prompts based on their impact on the reasoning process. Specifically, DPC consists of two stages: Dynamic Trigger and Dynamic Corruption. First, Dynamic Trigger measures the impact of soft prompts, identifying whether beneficial or detrimental. Then, Dynamic Corruption mitigates the negative effects of soft prompts by selectively masking key tokens that interfere with the reasoning process. We validate the proposed approach through extensive experiments on various LLMs and reasoning tasks, including GSM8K, MATH, and AQuA. Experimental results demonstrate that DPC can consistently enhance the performance of PT, achieving 4%-8% accuracy gains compared to vanilla prompt tuning, highlighting the effectiveness of our approach and its potential to enhance complex reasoning in LLMs.

arxiv情報

著者 Sinan Fan,Liang Xie,Chen Shen,Ge Teng,Xiaosong Yuan,Xiaofeng Zhang,Chenxi Huang,Wenxiao Wang,Xiaofei He,Jieping Ye
発行日 2025-04-01 07:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach はコメントを受け付けていません

A Clustering Method with Graph Maximum Decoding Information

要約

グラフモデルに基づくクラスタリング方法は、さまざまな知識ドメインにわたる広範な適用性に対する注意の高まりを示しています。
他の関連アプリケーションとシームレスに統合するための適応性は、データセット内で「自然関連」または「グラフ構造」を堅牢に抽出する機能を備えたグラフモデルベースのクラスタリング分析を延期し、データポイント間の関係のモデリングを促進します。
その有効性にもかかわらず、グラフベースのモデルを利用する現在のクラスタリング方法は、ノード間のランダムウォークアクセスとデータに組み込まれた構造情報に関連する不確実性を見落とします。
このギャップに対処するために、CMDIという名前のグラフベースモデル内で情報をデコードするための新しいクラスタリング方法を提示します。
CMDIは、グラフ構造抽出とグラフ頂点分割の2つのフェーズで構成されるクラスタリングプロセスに2次元構造情報理論を革新的に組み込みます。
CMDI内では、グラフパーティション化は抽象的なクラスタリングの問題として再定式化され、最大デコード情報を活用して、頂点へのランダムな訪問に関連する不確実性を最小限に抑えます。
3つの実際のデータセットの経験的評価は、CMDIが優れたデコード情報比(DI-R)を示す古典的なベースラインメソッドを上回ることを示しています。
さらに、CMDIは、特に事前知識(PK)を検討する場合、効率の向上を示しています。
これらの調査結果は、情報の品質と計算効率のデコードの強化におけるCMDIの有効性を強調し、グラフベースのクラスタリング分析の貴重なツールとして配置します。

要約(オリジナル)

The clustering method based on graph models has garnered increased attention for its widespread applicability across various knowledge domains. Its adaptability to integrate seamlessly with other relevant applications endows the graph model-based clustering analysis with the ability to robustly extract ‘natural associations’ or ‘graph structures’ within datasets, facilitating the modelling of relationships between data points. Despite its efficacy, the current clustering method utilizing the graph-based model overlooks the uncertainty associated with random walk access between nodes and the embedded structural information in the data. To address this gap, we present a novel Clustering method for Maximizing Decoding Information within graph-based models, named CMDI. CMDI innovatively incorporates two-dimensional structural information theory into the clustering process, consisting of two phases: graph structure extraction and graph vertex partitioning. Within CMDI, graph partitioning is reformulated as an abstract clustering problem, leveraging maximum decoding information to minimize uncertainty associated with random visits to vertices. Empirical evaluations on three real-world datasets demonstrate that CMDI outperforms classical baseline methods, exhibiting a superior decoding information ratio (DI-R). Furthermore, CMDI showcases heightened efficiency, particularly when considering prior knowledge (PK). These findings underscore the effectiveness of CMDI in enhancing decoding information quality and computational efficiency, positioning it as a valuable tool in graph-based clustering analyses.

arxiv情報

著者 Xinrun Xu,Manying Lv,Zhanbiao Lian,Yurong Wu,Jin Yan,Shan Jiang,Zhiming Ding
発行日 2025-04-01 08:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Clustering Method with Graph Maximum Decoding Information はコメントを受け付けていません

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

要約

タスクオートメーションは、ソフトウェアエンジニアリング開発から汎用推論に至るまでのタスクがあるPythonコードを介して、最近の大規模な言語モデル(LLMS)の最近の進歩によって大幅に権限を与えられています。
現在のベンチマークは、LLMが人間の開発者などのプログラムを使用してタスクを解決できることを示していますが、評価の大部分は短くて自己完結型のアルゴリズムタスクまたはスタンドアロン関数呼び出しに限定されています。
挑戦的で実用的なタスクを解決するには、データ分析やWeb開発などの機能を効率的に実装するためのツールとして、多様な関数呼び出しを利用する機能が必要です。
さらに、複数のツールを使用してタスクを解決する必要があります。複雑な命令を正確に理解することにより、構成の推論が必要です。
これらの両方の特性を満たすことは、LLMSがプログラムを介して挑戦的で実用的なタスクをどの程度解決できるかを評価するためにLLMに大きな課題をもたらす可能性があります。BigCodeBenchを導入します。これは、LLMSが1,140の繊細なタスクの139ライブラリと7つのドメインからのツールとして複数の関数呼び出しを呼び出すように挑戦するベンチマークを導入します。
LLMを厳密に評価するために、各タスクには、平均支店カバレッジが99%の5.6テストケースが含まれます。
さらに、元のドキュメントを不可欠な情報でのみ短い指示に自動的に変換するBigCodebench、BigCodebench-Instructの自然言語指向のバリアントを提案します。
60 LLMSの広範な評価は、LLMSがまだ複雑な指示に従って機能コールを正確に使用することができないことを示しています。スコアは最大60%で、人間のパフォーマンスが97%よりも大幅に低くなっています。
結果は、この分野でのさらなる進歩の必要性を強調しています。

要約(オリジナル)

Task automation has been greatly empowered by the recent advances in Large Language Models (LLMs) via Python code, where the tasks ranging from software engineering development to general-purpose reasoning. While current benchmarks have shown that LLMs can solve tasks using programs like human developers, the majority of their evaluations are limited to short and self-contained algorithmic tasks or standalone function calls. Solving challenging and practical tasks requires the capability of utilizing diverse function calls as tools to efficiently implement functionalities like data analysis and web development. In addition, using multiple tools to solve a task needs compositional reasoning by accurately understanding complex instructions. Fulfilling both of these characteristics can pose a great challenge for LLMs.To assess how well LLMs can solve challenging and practical tasks via programs, we introduce BigCodeBench, a benchmark that challenges LLMs to invoke multiple function calls as tools from 139 libraries and 7 domains for 1,140 fine-grained tasks. To evaluate LLMs rigorously, each task encompasses 5.6 test cases with an average branch coverage of 99%. In addition, we propose a natural-language-oriented variant of BigCodeBench, BigCodeBench-Instruct, that automatically transforms the original docstrings into short instructions only with essential information. Our extensive evaluation of 60 LLMs shows that LLMs are not yet capable of following complex instructions to use function calls precisely, with scores up to 60%, significantly lower than the human performance of 97%. The results underscore the need for further advancements in this area.

arxiv情報

著者 Terry Yue Zhuo,Minh Chien Vu,Jenny Chim,Han Hu,Wenhao Yu,Ratnadira Widyasari,Imam Nur Bani Yusuf,Haolan Zhan,Junda He,Indraneil Paul,Simon Brunner,Chen Gong,Thong Hoang,Armel Randy Zebaze,Xiaoheng Hong,Wen-Ding Li,Jean Kaddour,Ming Xu,Zhihan Zhang,Prateek Yadav,Naman Jain,Alex Gu,Zhoujun Cheng,Jiawei Liu,Qian Liu,Zijian Wang,Binyuan Hui,Niklas Muennighoff,David Lo,Daniel Fried,Xiaoning Du,Harm de Vries,Leandro Von Werra
発行日 2025-04-01 08:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions はコメントを受け付けていません

When Counterfactual Reasoning Fails: Chaos and Real-World Complexity

要約

人間の認知と意思決定の基礎である反事実上の推論は、多くの場合、機械学習モデルの解釈からアルゴリズムの公平性の促進に至るまでのアプリケーションで、因果学習の「聖杯」と見なされます。
反事実的推論は、基礎となる因果モデルが明確に定義されているコンテキストで広く研究されていますが、現実世界の因果モデリングは、モデルとパラメーターの不確実性、観測ノイズ、およびカオス挙動によってしばしば妨げられます。
このような設定における反事実分析の信頼性は、ほとんど未踏のままです。
この作業では、構造因果モデルの枠組み内で反事実的推論の制限を調査します。
具体的には、\ emphing {counteractualシーケンス推定}を経験的に調査し、ますます信頼できなくなるケースを強調します。
モデルの不確実性の程度や混oticとしたダイナミクスの程度などの現実的な仮定は、予測された軌跡と真の反事実的軌跡の間の劇的な逸脱を含む直感に反する結果をもたらす可能性があることがわかります。
この作業は、カオスと不確実性を特徴とする設定に反事実的な推論を適用する際に注意を促します。
さらに、特定のシステムが、行動に関する反事実的な質問に答える能力に基本的な制限をもたらす可能性があるかどうかという問題を提起します。

要約(オリジナル)

Counterfactual reasoning, a cornerstone of human cognition and decision-making, is often seen as the ‘holy grail’ of causal learning, with applications ranging from interpreting machine learning models to promoting algorithmic fairness. While counterfactual reasoning has been extensively studied in contexts where the underlying causal model is well-defined, real-world causal modeling is often hindered by model and parameter uncertainty, observational noise, and chaotic behavior. The reliability of counterfactual analysis in such settings remains largely unexplored. In this work, we investigate the limitations of counterfactual reasoning within the framework of Structural Causal Models. Specifically, we empirically investigate \emph{counterfactual sequence estimation} and highlight cases where it becomes increasingly unreliable. We find that realistic assumptions, such as low degrees of model uncertainty or chaotic dynamics, can result in counterintuitive outcomes, including dramatic deviations between predicted and true counterfactual trajectories. This work urges caution when applying counterfactual reasoning in settings characterized by chaos and uncertainty. Furthermore, it raises the question of whether certain systems may pose fundamental limitations on the ability to answer counterfactual questions about their behavior.

arxiv情報

著者 Yahya Aalaila,Gerrit Großmann,Sumantrak Mukherjee,Jonas Wahl,Sebastian Vollmer
発行日 2025-04-01 08:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | When Counterfactual Reasoning Fails: Chaos and Real-World Complexity はコメントを受け付けていません

GameVibe: A Multimodal Affective Game Corpus

要約

オンラインビデオとストリーミングプラットフォームが成長し続けるにつれて、感情的なコンピューティング研究は、複数のモダリティを含むより複雑な研究​​への移行を受けています。
ただし、高品質の視聴覚刺激を備えた容易に利用可能なデータセットがまだ不足しています。
この論文では、ゲーム内の行動観測やサードパーソンが視聴者エンゲージメントの痕跡を含むマルチモーダルの視聴覚刺激で構成される小説であるGameVibeを紹介します。
コーパスは、30ゲームで公開されている多様なゲームプレイセッションのセットのビデオで構成されており、特に視聴覚とゲームプレイの多様性を備えた高品質の刺激を確保することに特に注意してください。
さらに、アノテーター間合意の観点から、アノテーターの信頼性に関する分析を提示します。

要約(オリジナル)

As online video and streaming platforms continue to grow, affective computing research has undergone a shift towards more complex studies involving multiple modalities. However, there is still a lack of readily available datasets with high-quality audiovisual stimuli. In this paper, we present GameVibe, a novel affect corpus which consists of multimodal audiovisual stimuli, including in-game behavioural observations and third-person affect traces for viewer engagement. The corpus consists of videos from a diverse set of publicly available gameplay sessions across 30 games, with particular attention to ensure high-quality stimuli with good audiovisual and gameplay diversity. Furthermore, we present an analysis on the reliability of the annotators in terms of inter-annotator agreement.

arxiv情報

著者 Matthew Barthet,Maria Kaselimi,Kosmas Pinitas,Konstantinos Makantasis,Antonios Liapis,Georgios N. Yannakakis
発行日 2025-04-01 09:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | GameVibe: A Multimodal Affective Game Corpus はコメントを受け付けていません

FastRM: An efficient and automatic explainability framework for multimodal generative models

要約

大規模なビジョン言語モデル(LVLMS)は、テキストおよび視覚入力よりも顕著な推論能力を実証しています。
ただし、これらのモデルは誤った情報を生成する傾向があります。
信頼できるAIを開発するには、接地されていない応答を特定して軽減することが重要です。
グラデーションベースの関連性マップなどの従来の説明可能性方法は、モデルの決定プロセスに関する洞察を提供しますが、多くの場合、リアルタイムの出力検証には計算上の高価で不適切です。
この作業では、LVLMの説明可能な関連性マップを予測するための効率的な方法であるFastrMを紹介します。
さらに、FASTRMは、モデル信頼の定量的評価と定性的評価の両方を提供します。
実験結果は、FASTRMが計算時間の99.8%の短縮を達成し、従来の関連マップ生成と比較してメモリフットプリントが44.4%減少することを示しています。
FASTRMは、説明可能なAIがより実用的でスケーラブルであるため、実際のアプリケーションでの展開を促進し、ユーザーがモデル出力の信頼性をより効果的に評価できるようにします。

要約(オリジナル)

Large Vision Language Models (LVLMs) have demonstrated remarkable reasoning capabilities over textual and visual inputs. However, these models remain prone to generating misinformation. Identifying and mitigating ungrounded responses is crucial for developing trustworthy AI. Traditional explainability methods such as gradient-based relevancy maps, offer insight into the decision process of models, but are often computationally expensive and unsuitable for real-time output validation. In this work, we introduce FastRM, an efficient method for predicting explainable Relevancy Maps of LVLMs. Furthermore, FastRM provides both quantitative and qualitative assessment of model confidence. Experimental results demonstrate that FastRM achieves a 99.8% reduction in computation time and a 44.4% reduction in memory footprint compared to traditional relevancy map generation. FastRM allows explainable AI to be more practical and scalable, thereby promoting its deployment in real-world applications and enabling users to more effectively evaluate the reliability of model outputs.

arxiv情報

著者 Gabriela Ben-Melech Stan,Estelle Aflalo,Man Luo,Shachar Rosenman,Tiep Le,Sayak Paul,Shao-Yen Tseng,Vasudev Lal
発行日 2025-04-01 09:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | FastRM: An efficient and automatic explainability framework for multimodal generative models はコメントを受け付けていません

Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories

要約

複数の言語と主題カテゴリにまたがる多様な物理学コンセプトインベントリのセットを使用して、大規模な言語モデルベースの人工知能(AI)システムGPT-4Oの多言語およびマルチモーダルパフォーマンスを調査します。
PhysportのWebサイトから調達されたインベントリは、メカニック、電磁気、光学、熱力学などの古典的な物理学のトピック、および相対性、量子力学、天文学、数学、および実験室スキルをカバーしています。
以前のテキストのみの研究とは異なり、インベントリを画像としてアップロードして、学生が紙に見えるものを反映し、それによってシステムのマルチモーダル機能を評価しました。
我々の結果は、被験者間のパフォーマンスの変動を示しており、実験室のスキルは最も弱いと際立っています。
また、言語間の違いも観察され、英語とヨーロッパの言語は最も強いパフォーマンスを示しています。
特に、在庫アイテムの相対的な難易度は、調査の言語に大きく依存していません。
AIの結果を学生のパフォーマンスに関する既存の文献と比較すると、AIシステムは、実験室のスキルを除くすべての科目カテゴリの平均的な導入後の学部生を上回ることがわかります。
さらに、AIは、純粋にテキストベースのものよりも、画像の視覚的な解釈を必要とするアイテムで悪化します。

要約(オリジナル)

We investigate the multilingual and multimodal performance of a large language model-based artificial intelligence (AI) system, GPT-4o, using a diverse set of physics concept inventories spanning multiple languages and subject categories. The inventories, sourced from the PhysPort website, cover classical physics topics such as mechanics, electromagnetism, optics, and thermodynamics, as well as relativity, quantum mechanics, astronomy, mathematics, and laboratory skills. Unlike previous text-only studies, we uploaded the inventories as images to reflect what a student would see on paper, thereby assessing the system’s multimodal functionality. Our results indicate variation in performance across subjects, with laboratory skills standing out as the weakest. We also observe differences across languages, with English and European languages showing the strongest performance. Notably, the relative difficulty of an inventory item is largely independent of the language of the survey. When comparing AI results to existing literature on student performance, we find that the AI system outperforms average post-instruction undergraduate students in all subject categories except laboratory skills. Furthermore, the AI performs worse on items requiring visual interpretation of images than on those that are purely text-based.

arxiv情報

著者 Gerd Kortemeyer,Marina Babayeva,Giulia Polverini,Ralf Widenhorn,Bor Gregorcic
発行日 2025-04-01 10:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.ed-ph | Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories はコメントを受け付けていません

MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning

要約

パラメーター効率の高い微調整(PEFT)は、ドメインの適応に広く採用されており、ロラはそのシンプルさと有効性のために最も顕著な方法の1つです。
ただし、マルチタスクラーニング(MTL)シナリオでは、LORAは、異なるタスクからまばらな高次元の特徴を同じ密度の低次元の固有空間に投影することにより、タスク間の区別を曖昧にする傾向があります。
これにより、LORAとそのバリアントのタスク干渉と最適ではないパフォーマンスが発生します。
この課題に取り組むために、MTL-LORAを提案します。これは、低ランク適応の利点を保持しながら、MTL機能を大幅に向上させます。
MTL-LORAは、タスク固有の情報を区別する追加のタスク適応パラメーターを組み込み、低次元スペース内のさまざまなタスクで共有知識をキャプチャすることにより、LORAを補強します。
このアプローチにより、事前に訓練されたモデルは、限られた数のトレーニング可能なパラメーターを持つさまざまなターゲットドメインに共同で適応することができます。
自然言語の理解、常識的な推論、画像テキストの理解、および現実世界の産業テキスト広告関連データセットのための公開アカデミックベンチマークに関する評価を含む包括的な実験結果は、MTL-LORAがMTL設定で同等または学習可能なパラメーターを比較可能またはさらに少ないさまざまなバリエーションを上回ることを示しています。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) has been widely employed for domain adaptation, with LoRA being one of the most prominent methods due to its simplicity and effectiveness. However, in multi-task learning (MTL) scenarios, LoRA tends to obscure the distinction between tasks by projecting sparse high-dimensional features from different tasks into the same dense low-dimensional intrinsic space. This leads to task interference and suboptimal performance for LoRA and its variants. To tackle this challenge, we propose MTL-LoRA, which retains the advantages of low-rank adaptation while significantly enhancing MTL capabilities. MTL-LoRA augments LoRA by incorporating additional task-adaptive parameters that differentiate task-specific information and capture shared knowledge across various tasks within low-dimensional spaces. This approach enables pre-trained models to jointly adapt to different target domains with a limited number of trainable parameters. Comprehensive experimental results, including evaluations on public academic benchmarks for natural language understanding, commonsense reasoning, and image-text understanding, as well as real-world industrial text Ads relevance datasets, demonstrate that MTL-LoRA outperforms LoRA and its various variants with comparable or even fewer learnable parameters in MTL setting.

arxiv情報

著者 Yaming Yang,Dilxat Muhtar,Yelong Shen,Yuefeng Zhan,Jianfeng Liu,Yujing Wang,Hao Sun,Denvy Deng,Feng Sun,Qi Zhang,Weizhu Chen,Yunhai Tong
発行日 2025-04-01 10:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning はコメントを受け付けていません

Decomposition of one-layer neural networks via the infinite sum of reproducing kernel Banach spaces

要約

この論文では、RKBSSの特性評価定理を使用してRKBSの合計を定義し、RKBSの合計がフィーチャスペースの直接的な合計と互換性があることを示します。
さらに、積分RKBを$ p $ -Norm RKBSの合計に分解します。
最後に、積分RKBSクラスの構造的理解のためのアプリケーションを提供します。

要約(オリジナル)

In this paper, we define the sum of RKBSs using the characterization theorem of RKBSs and show that the sum of RKBSs is compatible with the direct sum of feature spaces. Moreover, we decompose the integral RKBS into the sum of $p$-norm RKBSs. Finally, we provide applications for the structural understanding of the integral RKBS class.

arxiv情報

著者 Seungcheol Shin,Myungjoo Kang
発行日 2025-04-01 10:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.FA | Decomposition of one-layer neural networks via the infinite sum of reproducing kernel Banach spaces はコメントを受け付けていません

Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning

要約

グラフ表現の学習は、ノード分類やリンク予測などのタスクの基礎として浮上していますが、一般的な自己監視学習(SSL)方法は、計算の非効率性、対照的な目的への依存、表現崩壊などの課題に直面しています。
既存のアプローチは、多くの場合、機能の再構築、否定的なサンプリング、または複雑なデコーダーに依存し、トレーニングのオーバーヘッドを導入し、一般化を妨げます。
さらに、このような制限に対処する現在の手法では、ラベル付きノードがない場合、特定の予測へのノード埋め込みの寄与を説明できません。
これらの制限に対処するために、セマンティックおよび構造情報を保持しながら、対照的な目的と否定的なサンプリングを排除するグラフSSLの予測フレームワークを埋め込む新しいジョイント埋め込みを提案します。
さらに、ガウス混合モデル(GMM)から派生した擬似ラベルを組み込んだセマンティックアウェアの目的用語を導入し、潜在的な特徴の貢献を評価することでノード識別性を高めます。
広範な実験は、私たちのフレームワークがベンチマーク全体で最先端のグラフSSLメソッドを上回り、対照的な損失や複雑なデコーダーなしで優れたパフォーマンスを達成することを示しています。
主要なイノベーションには、(1)非矛盾した、ビュー不変の関節埋め込み予測アーキテクチャ、(2)サブグラフ間の単一コンテキストと複数のターゲット関係を活用すること、および(3)セマンティック貢献をキャプチャするためのGMMベースの擬似ラベルスコアリングが含まれます。
この作業は、下流タスクの空間的およびセマンティックグラフ機能を橋渡しする計算効率の良い崩壊耐性パラダイムを提供することにより、グラフSSLを進めます。
私たちの論文のコードはhttps://github.com/deceptrax123/jpeb-gsslにあります

要約(オリジナル)

Graph representation learning has emerged as a cornerstone for tasks like node classification and link prediction, yet prevailing self-supervised learning (SSL) methods face challenges such as computational inefficiency, reliance on contrastive objectives, and representation collapse. Existing approaches often depend on feature reconstruction, negative sampling, or complex decoders, which introduce training overhead and hinder generalization. Further, current techniques which address such limitations fail to account for the contribution of node embeddings to a certain prediction in the absence of labeled nodes. To address these limitations, we propose a novel joint embedding predictive framework for graph SSL that eliminates contrastive objectives and negative sampling while preserving semantic and structural information. Additionally, we introduce a semantic-aware objective term that incorporates pseudo-labels derived from Gaussian Mixture Models (GMMs), enhancing node discriminability by evaluating latent feature contributions. Extensive experiments demonstrate that our framework outperforms state-of-the-art graph SSL methods across benchmarks, achieving superior performance without contrastive loss or complex decoders. Key innovations include (1) a non-contrastive, view-invariant joint embedding predictive architecture, (2) Leveraging single context and multiple targets relationship between subgraphs, and (3) GMM-based pseudo-label scoring to capture semantic contributions. This work advances graph SSL by offering a computationally efficient, collapse-resistant paradigm that bridges spatial and semantic graph features for downstream tasks. The code for our paper can be found at https://github.com/Deceptrax123/JPEB-GSSL

arxiv情報

著者 Srinitish Srinivasan,Omkumar CU
発行日 2025-04-01 10:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI | Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning はコメントを受け付けていません