Preference Elicitation for Multi-objective Combinatorial Optimization with Active Learning and Maximum Likelihood Estimation

要約

現実の組み合わせの最適化の問題には、多くの場合、価格、製品の品質、持続可能性など、いくつかの矛盾する目標が含まれます。
複数の目的に取り組む計算効率の良い方法は、それらを線形の組み合わせなどの単一の容認関数に集約することです。
ただし、線形の組み合わせの重みを事前に定義するのは難しいです。
あるいは、ユーザーに候補ソリューションを比較するように求めるインタラクティブな学習方法の使用は非常に有望です。
重要な課題は、候補者を迅速に生成し、高品質のソリューションにつながる客観的な関数を学び、ユーザーのやり取りが少ないことでそうすることです。
建設的な好みの誘発フレームワークに基づいて、3つのプロパティのそれぞれがどのように改善できるかを示します。相互作用速度を向上させる(リラックスした)ソリューションのプールを使用して調査するために、Bradley-Terry Preference Modelの最尤推定を採用する学習を改善するため。
また、ユーザーインタラクションの数を減らすために、アクティブ学習からインスピレーションを受けたアンサンブルベースの取得関数と比較する候補者のペアを選択します。
私たちの慎重な実験では、これらのそれぞれの改善が実証されています。PC構成タスクと現実的なマルチインスタンスルーティングの問題について、この方法はクエリをより速く選択し、クエリを必要とし、以前のCPEメソッドよりも高品質の組み合わせソリューションを合成します。

要約(オリジナル)

Real-life combinatorial optimization problems often involve several conflicting objectives, such as price, product quality and sustainability. A computationally-efficient way to tackle multiple objectives is to aggregate them into a single-objective function, such as a linear combination. However, defining the weights of the linear combination upfront is hard; alternatively, the use of interactive learning methods that ask users to compare candidate solutions is highly promising. The key challenges are to generate candidates quickly, to learn an objective function that leads to high-quality solutions and to do so with few user interactions. We build upon the Constructive Preference Elicitation framework and show how each of the three properties can be improved: to increase the interaction speed we investigate using pools of (relaxed) solutions, to improve the learning we adopt Maximum Likelihood Estimation of a Bradley-Terry preference model; and to reduce the number of user interactions, we select the pair of candidates to compare with an ensemble-based acquisition function inspired from Active Learning. Our careful experimentation demonstrates each of these improvements: on a PC configuration task and a realistic multi-instance routing problem, our method selects queries faster, needs fewer queries and synthesizes higher-quality combinatorial solutions than previous CPE methods.

arxiv情報

著者 Marianne Defresne,Jayanta Mandi,Tias Guns
発行日 2025-03-14 14:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Preference Elicitation for Multi-objective Combinatorial Optimization with Active Learning and Maximum Likelihood Estimation はコメントを受け付けていません

Diverse Projection Ensembles for Distributional Reinforcement Learning

要約

古典的な強化学習(RL)とは対照的に、分布RLアルゴリズムは、期待値ではなくリターンの分布を学習することを目的としています。
リターン分布の性質は一般に先験的または任意の複雑ではないため、一般的なアプローチでは、表現可能なパラメトリック分布のセット内で近似を見つけます。
通常、これには、単純化された分布のセットへの制約のない分布の投影が含まれます。
この投影ステップは、ニューラルネットワークと勾配降下と組み合わせると、学習モデルの一般化挙動に深く影響を与える場合、強力な誘導バイアスを伴うと主張します。
多様性を通じて信頼できる不確実性の推定を促進するために、分布アンサンブルのいくつかの異なる投影と表現の組み合わせを研究します。
このような投影アンサンブルの理論的特性を確立し、深い探査のボーナスとして、平均1ワセルタイン距離で測定されたアンサンブルの意見の不一致を使用するアルゴリズムを導き出します。
Behavior Suite BenchmarkとVizdoomのアルゴリズムを評価し、多様な投影アンサンブルが、指示された探査問題で最も顕著な利益をもたらすさまざまなタスクの既存の方法よりも大幅なパフォーマンスの改善につながることを発見しました。

要約(オリジナル)

In contrast to classical reinforcement learning (RL), distributional RL algorithms aim to learn the distribution of returns rather than their expected value. Since the nature of the return distribution is generally unknown a priori or arbitrarily complex, a common approach finds approximations within a set of representable, parametric distributions. Typically, this involves a projection of the unconstrained distribution onto the set of simplified distributions. We argue that this projection step entails a strong inductive bias when coupled with neural networks and gradient descent, thereby profoundly impacting the generalization behavior of learned models. In order to facilitate reliable uncertainty estimation through diversity, we study the combination of several different projections and representations in a distributional ensemble. We establish theoretical properties of such projection ensembles and derive an algorithm that uses ensemble disagreement, measured by the average 1-Wasserstein distance, as a bonus for deep exploration. We evaluate our algorithm on the behavior suite benchmark and VizDoom and find that diverse projection ensembles lead to significant performance improvements over existing methods on a variety of tasks with the most pronounced gains in directed exploration problems.

arxiv情報

著者 Moritz A. Zanger,Wendelin Böhmer,Matthijs T. J. Spaan
発行日 2025-03-14 14:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Diverse Projection Ensembles for Distributional Reinforcement Learning はコメントを受け付けていません

Cerebrum (AIOS SDK): A Platform for Agent Development, Deployment, Distribution, and Discovery

要約

自律LLMベースのエージェントは、複雑なタスク実行の強力なパラダイムとして浮上していますが、フィールドには、エージェントの開発、展開、配布、発見のための標準化されたツールがありません。
3つの重要なコンポーネントを介してこのギャップに対処するAIOSのエージェントSDKであるCerebrumを提示します。(1)エージェント開発のためのモジュール式4層アーキテクチャを特徴とする包括的なSDK、LLM、メモリ、ストレージ、およびツール管理を網羅しています。
(2)エージェントを共有および発見するためのコミュニティ主導のエージェントハブ、バージョン制御と依存関係の管理を備えています。
(3)エージェントをテストおよび評価するためのインタラクティブなWebインターフェイス。
プラットフォームの有効性は、Chain of Thound(COT)、React、Tooluse Agentを含むさまざまなエージェントアーキテクチャの実装を通じて実証されています。
大脳は、研究者と開発者がエージェントを革新および配布するための柔軟性を維持しながら、エージェント開発を標準化する統一されたフレームワークを提供することにより、分野を前進させます。
ライブWebサイトはhttps://app.aios.foundationで、コードはhttps://github.com/agiresearch/cerebrumにあり、ビデオはhttps://app.aios.foundation/video-demoにあります。

要約(オリジナル)

Autonomous LLM-based agents have emerged as a powerful paradigm for complex task execution, yet the field lacks standardized tools for development, deployment, distribution and discovery of agents. We present Cerebrum, an Agent SDK for AIOS that addresses this gap through three key components: (1) a comprehensive SDK featuring a modular four-layer architecture for agent development, encompassing LLM, memory, storage, and tool management; (2) a community-driven Agent Hub for sharing and discovering agents, complete with version control and dependency management; (3) an interactive web interface for testing and evaluating agents. The platform’s effectiveness is demonstrated through implementations of various agent architectures, including Chain of Thought (CoT), ReAct, and tool-use agents. Cerebrum advances the field by providing a unified framework that standardizes agent development while maintaining flexibility for researchers and developers to innovate and distribute their agents. The live website is at https://app.aios.foundation, the code is at https://github.com/agiresearch/Cerebrum, and video is at https://app.aios.foundation/video-demo.

arxiv情報

著者 Balaji Rama,Kai Mei,Yongfeng Zhang
発行日 2025-03-14 14:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, cs.OS | Cerebrum (AIOS SDK): A Platform for Agent Development, Deployment, Distribution, and Discovery はコメントを受け付けていません

Integrating LLMs in Gamified Systems

要約

この作業では、大規模な言語モデル(LLMS)をGameifiedシステムに組み込むための徹底的な数学的枠組みが、タスクのダイナミクス、ユーザーエンゲージメント、報酬システムの改善に重点を置いて提示されます。
パーソナライズされたフィードバック、適応学習、および動的コンテンツの作成はすべて、LLMを統合することにより可能になり、ユーザーのエンゲージメントとシステムのパフォーマンスを改善するために重要です。
シミュレートされた環境は、フレームワークの適応性をテストし、ビジネス、ヘルスケア、教育を含むさまざまな業界での現実世界のアプリケーションの可能性を示しています。
調査結果は、LLMSがシステムの有効性とユーザー保持を高めるカスタマイズされたエクスペリエンスをどのように提供できるかを示しています。
この研究では、このフレームワークが解決することを目的としている困難も検討し、関与を最大化し、さまざまなセクターの持続的な行動変化を促進することにおけるその重要性を強調しています。

要約(オリジナル)

In this work, a thorough mathematical framework for incorporating Large Language Models (LLMs) into gamified systems is presented with an emphasis on improving task dynamics, user engagement, and reward systems. Personalized feedback, adaptive learning, and dynamic content creation are all made possible by integrating LLMs and are crucial for improving user engagement and system performance. A simulated environment tests the framework’s adaptability and demonstrates its potential for real-world applications in various industries, including business, healthcare, and education. The findings demonstrate how LLMs can offer customized experiences that raise system effectiveness and user retention. This study also examines the difficulties this framework aims to solve, highlighting its importance in maximizing involvement and encouraging sustained behavioral change in a range of sectors.

arxiv情報

著者 Carlos J. Costa
発行日 2025-03-14 14:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Integrating LLMs in Gamified Systems はコメントを受け付けていません

Research Vision: Multi-Agent Path Planning for Cops And Robbers Via Reactive Synthesis

要約

リアクティブ合成を介して、古典的な警官と強盗ゲームの一般化のためのマルチエージェントパス計画の問題を提案します。
具体的には、LTLTと調整合成の適用を通じて、さまざまな警官や強盗ゲームが実現可能かどうかを確認することを目指しています(強盗を捕まえることを保証する警官には戦略が存在します)。
さらに、この戦略は、ゲーム内の複数のシステムプレーヤーのための実行可能ファイルプログラムとして構築します。
この論文では、問題の空間を正式に形式化し、ソリューションの潜在的な方向を提案します。
また、この一般化された警官と強盗ゲームの形式化が、リアクティブプログラム合成スペースの幅広い他の問題にどのようにマッピングできるかを示します。

要約(オリジナル)

We propose the problem of multi-agent path planning for a generalization of the classic Cops and Robbers game via reactive synthesis. Specifically, through the application of LTLt and Coordination Synthesis, we aim to check whether various Cops and Robbers games are realizable (a strategy exists for the cops which guarantees they catch the robbers). Additionally, we construct this strategy as an executable program for the multiple system players in our games. In this paper we formalize the problem space, and propose potential directions for solutions. We also show how our formalization of this generalized cops and robbers game can be mapped to a broad range of other problems in the reactive program synthesis space.

arxiv情報

著者 William Fishell,Andoni Rodriguez,Mark Santolucito
発行日 2025-03-14 15:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | Research Vision: Multi-Agent Path Planning for Cops And Robbers Via Reactive Synthesis はコメントを受け付けていません

Instance Temperature Knowledge Distillation

要約

知識蒸留(KD)は、教師ネットワークから転送された知識を段階的に学習できるようにすることにより、学生ネットワークのパフォーマンスを向上させます。
既存の方法は、学生ネットワークがKDのさまざまな学習段階でさまざまな学習困難に適応できるように温度を動的に調整します。
KDは継続的なプロセスですが、温度を調整する場合、これらの方法は現在の学習段階での操作の即時の利点のみを考慮し、将来のリターンを考慮に入れることができません。
この問題に対処するために、温度の調整を順次意思決定タスクとして策定し、RLKDと呼ばれる補強学習に基づいた方法を提案します。
重要なことに、エージェントがより多くの情報に基づいたアクション(つまり、インスタンスの温度調整)を可能にするために、新しい状態表現を設計します。
KD設定により、メソッドの遅延報酬の問題を処理するために、インスタンス報酬キャリブレーションアプローチを検討します。
さらに、エージェントが貴重なインスタンス温度調整ポリシーをより効率的に学習できるようにする効率的な探索戦略を考案します。
私たちのフレームワークは、さまざまなKDメソッドに簡単に挿入するプラグアンドプレイ手法として機能し、画像分類とオブジェクト検出タスクの両方でその効果を検証します。
私たちのプロジェクトはhttps://www.zayx.me/itkd.github.io/にあります。

要約(オリジナル)

Knowledge distillation (KD) enhances the performance of a student network by allowing it to learn the knowledge transferred from a teacher network incrementally. Existing methods dynamically adjust the temperature to enable the student network to adapt to the varying learning difficulties at different learning stages of KD. KD is a continuous process, but when adjusting the temperature, these methods consider only the immediate benefits of the operation in the current learning phase and fail to take into account its future returns. To address this issue, we formulate the adjustment of temperature as a sequential decision-making task and propose a method based on reinforcement learning, termed RLKD. Importantly, we design a novel state representation to enable the agent to make more informed action (i.e. instance temperature adjustment). To handle the problem of delayed rewards in our method due to the KD setting, we explore an instance reward calibration approach. In addition,we devise an efficient exploration strategy that enables the agent to learn valuable instance temperature adjustment policy more efficiently. Our framework can serve as a plug-and-play technique to be inserted into various KD methods easily, and we validate its effectiveness on both image classification and object detection tasks. Our project is at https://www.zayx.me/ITKD.github.io/.

arxiv情報

著者 Zhengbo Zhang,Yuxi Zhou,Jia Gong,Jun Liu,Zhigang Tu
発行日 2025-03-14 15:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.4.0 | Instance Temperature Knowledge Distillation はコメントを受け付けていません

It’s complicated. The relationship of algorithmic fairness and non-discrimination regulations in the EU AI Act

要約

公正な決定を構成するものは何ですか?
この質問は、人間にとって難しいだけでなく、人工知能(AI)モデルを使用するとより困難になります。
差別的なアルゴリズム行動に照らして、EUは最近、AIモデルの特定の規則を義務付けているAI法を最近可決し、従来の法的非差別規制と機械学習に基づくアルゴリズムの公平性概念の両方を組み込みました。
このペーパーは、AI法におけるこれら2つの異なる概念を埋めることを目的としています。1つ目は、法的およびコンピューター科学志向の学者を対象とした両方の概念の高レベルの導入と、2つ目は、法的非差別規制とアルゴリズムの公平性とのAI法の関係の詳細な分析です。
分析では、3つの重要な調査結果が明らかになりました。(1。)、ほとんどの非差別規制は、高リスクのAIシステムのみを対象としています。
(2.)、高リスクシステムの規制には、データ入力要件と出力モニタリングの両方を網羅していますが、これらの規制はしばしば一貫性がなく、計算の実現可能性の疑問を提起します。
(3.)高リスクシステムとして同時に分類されていない大規模な言語モデルなど、汎用AIモデルの規制は、現在、他の規制と比較して特異性がありません。
これらの調査結果に基づいて、AIシステムのより具体的な監査およびテスト方法を開発することをお勧めします。
この論文は、AIシステムの差別を研究している法律学者とコンピューター科学指向の機械学習研究者との間の将来の学際的な協力の基盤として機能することを目的としています。

要約(オリジナル)

What constitutes a fair decision? This question is not only difficult for humans but becomes more challenging when Artificial Intelligence (AI) models are used. In light of discriminatory algorithmic behaviors, the EU has recently passed the AI Act, which mandates specific rules for AI models, incorporating both traditional legal non-discrimination regulations and machine learning based algorithmic fairness concepts. This paper aims to bridge these two different concepts in the AI Act through: First a high-level introduction of both concepts targeting legal and computer science-oriented scholars, and second an in-depth analysis of the AI Act’s relationship between legal non-discrimination regulations and algorithmic fairness. Our analysis reveals three key findings: (1.), most non-discrimination regulations target only high-risk AI systems. (2.), the regulation of high-risk systems encompasses both data input requirements and output monitoring, though these regulations are often inconsistent and raise questions of computational feasibility. (3.) Regulations for General Purpose AI Models, such as Large Language Models that are not simultaneously classified as high-risk systems, currently lack specificity compared to other regulations. Based on these findings, we recommend developing more specific auditing and testing methodologies for AI systems. This paper aims to serve as a foundation for future interdisciplinary collaboration between legal scholars and computer science-oriented machine learning researchers studying discrimination in AI systems.

arxiv情報

著者 Kristof Meding
発行日 2025-03-14 15:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | It’s complicated. The relationship of algorithmic fairness and non-discrimination regulations in the EU AI Act はコメントを受け付けていません

Heterogeneous Causal Discovery of Repeated Undesirable Health Outcomes

要約

患者の亜集団全体で望ましくない健康転帰を引き起こすまたは予防することを理解することは、標的介入を設計するために不可欠です。
ランダム化比較試験と専門家主導の患者インタビューは、これらの要因を特定するための標準的な方法ですが、それらは時間がかかり、実行不可能です。
因果発見は、観察データから因果関係仮説を生成することにより、従来のアプローチに代わるものを提供します。
ただし、多くの場合、実用的なアプリケーションを制限することができる強力なまたは非テスト不可能な仮定に依存しています。
この作業の目的は、複数の仮定を検討し、不均一な効果を特定することにより、因果発見をより実用的にすることです。
結果の原因と効果の修飾子を発見する問題を定式化します。ここでは、効果修飾子が異種の因果効果を持つコンテキスト(年齢層など)です。
次に、因果発見アルゴリズムのアンサンブルを組み込んだ新しいエンドツーエンドのフレームワークを提示し、結果をトリガーまたは阻害する原因と効果修飾子を発見するために不均一な効果の推定を提示します。
アンサンブルアプローチは、精度を維持しながら因果要因のリコールを強化することにより、堅牢性を改善することを実証します。
私たちの研究では、糖尿病患者の緊急治療室の繰り返しの訪問とICU患者の病院再入院の原因を調べます。
私たちのフレームワークは、既存の文献と一致する因果仮説を生成し、実務家が潜在的な介入と患者の亜集団を特定するのに役立ちます。

要約(オリジナル)

Understanding factors triggering or preventing undesirable health outcomes across patient subpopulations is essential for designing targeted interventions. While randomized controlled trials and expert-led patient interviews are standard methods for identifying these factors, they can be time-consuming and infeasible. Causal discovery offers an alternative to conventional approaches by generating cause-and-effect hypotheses from observational data. However, it often relies on strong or untestable assumptions, which can limit its practical application. This work aims to make causal discovery more practical by considering multiple assumptions and identifying heterogeneous effects. We formulate the problem of discovering causes and effect modifiers of an outcome, where effect modifiers are contexts (e.g., age groups) with heterogeneous causal effects. Then, we present a novel, end-to-end framework that incorporates an ensemble of causal discovery algorithms and estimation of heterogeneous effects to discover causes and effect modifiers that trigger or inhibit the outcome. We demonstrate that the ensemble approach improves robustness by enhancing recall of causal factors while maintaining precision. Our study examines the causes of repeat emergency room visits for diabetic patients and hospital readmissions for ICU patients. Our framework generates causal hypotheses consistent with existing literature and can help practitioners identify potential interventions and patient subpopulations to focus on.

arxiv情報

著者 Shishir Adhikari,Guido Muscioni,Mark Shapiro,Plamen Petrov,Elena Zheleva
発行日 2025-03-14 15:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Heterogeneous Causal Discovery of Repeated Undesirable Health Outcomes はコメントを受け付けていません

Unicorn: A Universal and Collaborative Reinforcement Learning Approach Towards Generalizable Network-Wide Traffic Signal Control

要約

適応型交通信号制御(ATSC)は、混雑を減らし、スループットを最大化し、急速に成長している都市部のモビリティを改善する上で重要です。
パラメーター共有マルチエージェント補強学習(MARL)の最近の進歩により、大規模な同質ネットワークにおける複雑で動的な流れのスケーラブルで適応的な最適化が大幅に向上しました。
ただし、さまざまな交差トポロジと相互作用のダイナミクスを備えた、実際のトラフィックネットワークの固有の不均一性は、さまざまなトラフィックシナリオでスケーラブルで効果的なATSCを達成するための大きな課題をもたらします。
これらの課題に対処するために、効率的で適応性のあるネットワーク全体のATSC向けに設計された普遍的で協力的なMARLフレームワークであるUnicornを提示します。
具体的には、最初に、交通運動に基づいた状態とさまざまなトポロジーを持つ状態と交差点の行動をマッピングする統一アプローチを提案します。
次に、一般的な特徴抽出用のデコーダーのみのネットワークを備えたユニバーサルトラフィック表現(UTR)モジュールを設計し、多様なトラフィックシナリオに対するモデルの適応性を高めます。
さらに、交差点の詳細表現(ISR)モジュールを組み込みます。これは、変分推論技術を通じて一意の交差点のトポロジーとトラフィックのダイナミクスを表す主要な潜在ベクトルを識別するように設計されています。
これらの潜在的な表現をさらに洗練するために、交差点固有の特徴をより適切に区別できる自己監視方法で対照的な学習アプローチを採用します。
さらに、隣接するエージェントの状態依存関係を政策最適化に統合し、動的なエージェントの相互作用を効果的に捉え、効率的な地域のコラボレーションを促進します。
私たちの結果は、ユニコーンがさまざまな評価メトリックにわたって他の方法を上回ることを示しており、複雑で動的なトラフィックネットワークにおけるその可能性を強調しています。

要約(オリジナル)

Adaptive traffic signal control (ATSC) is crucial in reducing congestion, maximizing throughput, and improving mobility in rapidly growing urban areas. Recent advancements in parameter-sharing multi-agent reinforcement learning (MARL) have greatly enhanced the scalable and adaptive optimization of complex, dynamic flows in large-scale homogeneous networks. However, the inherent heterogeneity of real-world traffic networks, with their varied intersection topologies and interaction dynamics, poses substantial challenges to achieving scalable and effective ATSC across different traffic scenarios. To address these challenges, we present Unicorn, a universal and collaborative MARL framework designed for efficient and adaptable network-wide ATSC. Specifically, we first propose a unified approach to map the states and actions of intersections with varying topologies into a common structure based on traffic movements. Next, we design a Universal Traffic Representation (UTR) module with a decoder-only network for general feature extraction, enhancing the model’s adaptability to diverse traffic scenarios. Additionally, we incorporate an Intersection Specifics Representation (ISR) module, designed to identify key latent vectors that represent the unique intersection’s topology and traffic dynamics through variational inference techniques. To further refine these latent representations, we employ a contrastive learning approach in a self-supervised manner, which enables better differentiation of intersection-specific features. Moreover, we integrate the state-action dependencies of neighboring agents into policy optimization, which effectively captures dynamic agent interactions and facilitates efficient regional collaboration. Our results show that Unicorn outperforms other methods across various evaluation metrics, highlighting its potential in complex, dynamic traffic networks.

arxiv情報

著者 Yifeng Zhang,Yilin Liu,Ping Gong,Peizhuo Li,Mingfeng Fan,Guillaume Sartoretti
発行日 2025-03-14 15:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Unicorn: A Universal and Collaborative Reinforcement Learning Approach Towards Generalizable Network-Wide Traffic Signal Control はコメントを受け付けていません

Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning

要約

高品質のマルチモーダルエンティティ表現の学習は、MMKG完了(MMKGC)などのMMKG内の推論タスクを強化できるマルチモーダルナレッジグラフ(MMKG)表現学習の重要な目標です。
主な課題は、大規模なトリプルとエンティティのマルチモーダル機能に隠された構造情報を共同モデル化することです。
既存の方法は、エレガントなエンティティごとのマルチモーダル融合戦略の作成に焦点を当てていますが、多様なリレーショナルコンテキストの下でモダリティ内で隠されたマルチパース視点機能の利用を見落としています。
この問題に対処するために、MODALITY知識の専門家(略してMomok)の混合を備えた新しいフレームワークを紹介して、より良いMMKGCの適応的マルチモーダルエンティティ表現を学びます。
関係ガイド付きモダリティ知識の専門家を設計して、関係認識モダリティの埋め込みを取得し、多数性から予測を統合して共同決定を達成します。
さらに、専門家の相互情報を最小限に抑えることで、専門家を解くことになります。
4つのパブリックMMKGベンチマークでの実験は、複雑なシナリオでMomokの優れたパフォーマンスを示しています。

要約(オリジナル)

Learning high-quality multi-modal entity representations is an important goal of multi-modal knowledge graph (MMKG) representation learning, which can enhance reasoning tasks within the MMKGs, such as MMKG completion (MMKGC). The main challenge is to collaboratively model the structural information concealed in massive triples and the multi-modal features of the entities. Existing methods focus on crafting elegant entity-wise multi-modal fusion strategies, yet they overlook the utilization of multi-perspective features concealed within the modalities under diverse relational contexts. To address this issue, we introduce a novel framework with Mixture of Modality Knowledge experts (MoMoK for short) to learn adaptive multi-modal entity representations for better MMKGC. We design relation-guided modality knowledge experts to acquire relation-aware modality embeddings and integrate the predictions from multi-modalities to achieve joint decisions. Additionally, we disentangle the experts by minimizing their mutual information. Experiments on four public MMKG benchmarks demonstrate the outstanding performance of MoMoK under complex scenarios.

arxiv情報

著者 Yichi Zhang,Zhuo Chen,Lingbing Guo,Yajing Xu,Binbin Hu,Ziqi Liu,Wen Zhang,Huajun Chen
発行日 2025-03-14 15:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning はコメントを受け付けていません