Causal Concept Graph Models: Beyond Causal Opacity in Deep Learning

要約

因果不透明度は、ディープニューラルネットワーク(DNN)モデルの決定の根底にある「隠された」因果構造を理解するのが難しいことを示します。
これにより、特にハイステークスシナリオで、最先端のDNNベースのシステムに依存して検証できなくなります。
このため、DNNSの因果不透明度を回避することは、深い学習、解釈可能性、因果関係の交差点での重要なオープンな課題を表しています。
この作業は、意思決定プロセスが設計により因果的に透明である解釈可能なモデルのクラスである因果概念グラフモデル(因果CGM)を導入することにより、このギャップに対処します。
私たちの実験は、因果CGMが次のことを示しています。(i)因果的に不透明モデルの一般化パフォーマンスと一致し、(ii)誤って予測された中間推論ステップにループの補正を可能にし、補正後の下流の精度だけでなく、信頼性も高めます。
特定のインスタンスに提供された説明は、(iii)介入的および反事実的なシナリオの分析をサポートし、それによりモデルの因果解釈可能性を改善し、その信頼性と公平性の効果的な検証をサポートします。

要約(オリジナル)

Causal opacity denotes the difficulty in understanding the ‘hidden’ causal structure underlying the decisions of deep neural network (DNN) models. This leads to the inability to rely on and verify state-of-the-art DNN-based systems, especially in high-stakes scenarios. For this reason, circumventing causal opacity in DNNs represents a key open challenge at the intersection of deep learning, interpretability, and causality. This work addresses this gap by introducing Causal Concept Graph Models (Causal CGMs), a class of interpretable models whose decision-making process is causally transparent by design. Our experiments show that Causal CGMs can: (i) match the generalisation performance of causally opaque models, (ii) enable human-in-the-loop corrections to mispredicted intermediate reasoning steps, boosting not just downstream accuracy after corrections but also the reliability of the explanations provided for specific instances, and (iii) support the analysis of interventional and counterfactual scenarios, thereby improving the model’s causal interpretability and supporting the effective verification of its reliability and fairness.

arxiv情報

著者 Gabriele Dominici,Pietro Barbiero,Mateo Espinosa Zarlenga,Alberto Termine,Martin Gjoreski,Giuseppe Marra,Marc Langheinrich
発行日 2025-02-06 14:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Causal Concept Graph Models: Beyond Causal Opacity in Deep Learning はコメントを受け付けていません

VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output

要約

大規模な言語モデル(LLMS)の急速な進化は、ヒューマンコンピューターの相互作用(HCI)を変換しましたが、LLMとの相互作用は現在主にテキストベースの相互作用に焦点を当てていますが、他のマルチモデルアプローチは未調査のままです。
このペーパーでは、生成AIと高度なアニメーションテクノロジーを組み合わせたオープンソースソフトウェア開発キット(SDK)であるVtutorを紹介し、Human-AIマルチメディアの相互作用に魅力的で適応性のある現実的なAPAを作成します。
Vtutorは、リアルタイムのパーソナライズされたフィードバック、自然な音声アライメントのための高度なリップ同期、およびシームレスなWeb統合のためのWebGLレンダリングのためにLLMを活用します。
さまざまな2Dおよび3DキャラクターモデルをサポートするVtutorは、研究者と開発者が感情的に共鳴する、文脈的に適応性のある学習エージェントを設計できるようにします。
このツールキットは、教育における信頼できるAIの原則を促進しながら、学習者のエンゲージメント、フィードバック受容性、および人間との相互作用を強化します。
Vtutorは、次世代APAの新しい基準を設定し、意味のある没入感のある人間との相互作用体験を促進するためのアクセス可能でスケーラブルなソリューションを提供します。
Vtutorプロジェクトはオープンソースであり、コミュニティ主導の貢献とショーケースを歓迎します。

要約(オリジナル)

The rapid evolution of large language models (LLMs) has transformed human-computer interaction (HCI), but the interaction with LLMs is currently mainly focused on text-based interactions, while other multi-model approaches remain under-explored. This paper introduces VTutor, an open-source Software Development Kit (SDK) that combines generative AI with advanced animation technologies to create engaging, adaptable, and realistic APAs for human-AI multi-media interactions. VTutor leverages LLMs for real-time personalized feedback, advanced lip synchronization for natural speech alignment, and WebGL rendering for seamless web integration. Supporting various 2D and 3D character models, VTutor enables researchers and developers to design emotionally resonant, contextually adaptive learning agents. This toolkit enhances learner engagement, feedback receptivity, and human-AI interaction while promoting trustworthy AI principles in education. VTutor sets a new standard for next-generation APAs, offering an accessible, scalable solution for fostering meaningful and immersive human-AI interaction experiences. The VTutor project is open-sourced and welcomes community-driven contributions and showcases.

arxiv情報

著者 Eason Chen,Chengyu Lin,Xinyi Tang,Aprille Xi,Canwen Wang,Jionghao Lin,Kenneth R Koedinger
発行日 2025-02-06 14:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE | VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output はコメントを受け付けていません

Ancient Greek Technology: An Immersive Learning Use Case Described Using a Co-Intelligent Custom ChatGPT Assistant

要約

没入型の学習ケースの説明の一貫性を達成することは不可欠ですが、研究の焦点、方法論、研究者の背景の変動のために挑戦的です。
VRChatの古代ギリシャ技術の没入型学習ケースに適用した、ケースの説明を標準化する方法論的機器である没入型学習ケースシート(ILCS)を活用することにより、これらの課題に対処します。
研究チームのメンバーは、ILCとケースコンテンツに精通しているレベルが異なるため、チーム全体で一貫した用語とプロセスの調整を促進するカスタムChatGPTアシスタントを開発しました。
この論文は、構造化された症例報告が没入型の学習文献への斬新な貢献となる方法の例を構成しています。
私たちの調査結果は、ILCSが症例の構造化された反射と解釈をどのようにサポートするかを示しています。
さらに、CHATGPTアシスタントの使用は、最終ILCのチームメンバー開発の一貫性と品質を大幅に提供することを報告します。
これにより、AI駆動型ツールを採用して、定性的な教育研究における研究実践の協力と標準化を強化する可能性が明らかになります。
ただし、解釈タスクのAIへの依存や、チーム内のさまざまなレベルの専門知識の管理など、制限と課題についても説明します。
したがって、この研究は、没入型学習研究プロセスの標準化におけるAIの実用的な応用に関する洞察を提供します。

要約(オリジナル)

Achieving consistency in immersive learning case descriptions is essential but challenging due to variations in research focus, methodology, and researchers’ background. We address these challenges by leveraging the Immersive Learning Case Sheet (ILCS), a methodological instrument to standardize case descriptions, that we applied to an immersive learning case on ancient Greek technology in VRChat. Research team members had differing levels of familiarity with the ILCS and the case content, so we developed a custom ChatGPT assistant to facilitate consistent terminology and process alignment across the team. This paper constitutes an example of how structured case reports can be a novel contribution to immersive learning literature. Our findings demonstrate how the ILCS supports structured reflection and interpretation of the case. Further we report that the use of a ChatGPT assistant significantly sup-ports the coherence and quality of the team members development of the final ILCS. This exposes the potential of employing AI-driven tools to enhance collaboration and standardization of research practices in qualitative educational research. However, we also discuss the limitations and challenges, including reliance on AI for interpretive tasks and managing varied levels of expertise within the team. This study thus provides insights into the practical application of AI in standardizing immersive learning research processes.

arxiv情報

著者 Vlasis Kasapakis,Leonel Morgado
発行日 2025-02-06 14:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, I.2.1 | Ancient Greek Technology: An Immersive Learning Use Case Described Using a Co-Intelligent Custom ChatGPT Assistant はコメントを受け付けていません

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification

要約

検索結果の多様化(SRD)は、ランキングリストのドキュメントが幅広いサブトピックをカバーすることを保証することを目的としており、情報検索とWeb検索で重要かつ広く研究されている問題です。
既存の方法は、主に「貪欲な選択」のパラダイムを利用します。つまり、一度に最高の多様性スコアを持つ1つのドキュメントを選択するか、目的関数の近似を最適化します。
これらのアプローチは非効率的である傾向があり、最適ではない状態に簡単に閉じ込められます。
これらの課題に対処するために、MA4DIVと呼ばれる検索結果の多様性のためにマルチエージェント強化学習(MARL)を紹介します。
このアプローチでは、各ドキュメントはエージェントであり、検索結果の多様化は複数のエージェント間の協同タスクとしてモデル化されています。
SRDランキングの問題を協同組合のMARL問題としてモデル化することにより、このアプローチにより、$ \ alpha $ -NDCGなどの多様性メトリックを直接最適化し、高いトレーニング効率を達成します。
公開TRECデータセットで実験と、産業環境で大規模なデータセットを実施しました。
経験界は、MA4DIVが既存のベースライン、特に産業データセットよりも有効性と効率の両方を大幅に改善していることを示しています。
MA4DIVのコードは、https://github.com/chenyiqun/ma4divで見ることができます。

要約(オリジナル)

Search result diversification (SRD), which aims to ensure that documents in a ranking list cover a broad range of subtopics, is a significant and widely studied problem in Information Retrieval and Web Search. Existing methods primarily utilize a paradigm of ‘greedy selection’, i.e., selecting one document with the highest diversity score at a time or optimize an approximation of the objective function. These approaches tend to be inefficient and are easily trapped in a suboptimal state. To address these challenges, we introduce Multi-Agent reinforcement learning (MARL) for search result DIVersity, which called MA4DIV. In this approach, each document is an agent and the search result diversification is modeled as a cooperative task among multiple agents. By modeling the SRD ranking problem as a cooperative MARL problem, this approach allows for directly optimizing the diversity metrics, such as $\alpha$-NDCG, while achieving high training efficiency. We conducted experiments on public TREC datasets and a larger scale dataset in the industrial setting. The experiemnts show that MA4DIV achieves substantial improvements in both effectiveness and efficiency than existing baselines, especially on the industrial dataset. The code of MA4DIV can be seen on https://github.com/chenyiqun/MA4DIV.

arxiv情報

著者 Yiqun Chen,Jiaxin Mao,Yi Zhang,Dehong Ma,Long Xia,Jun Fan,Daiting Shi,Zhicong Cheng,Simiu Gu,Dawei Yin
発行日 2025-02-06 14:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification はコメントを受け付けていません

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

要約

直接選好最適化(DPO)とそのバリアントは、言語モデルを人間の好みに合わせるためにますます使用されています。
これらの方法は、分散した応答と比較して優先応答をより頻繁に生成するためにモデルを教えるように設計されていますが、以前の研究では、トレーニング中に好ましい応答の可能性がしばしば減少することが観察されています。
現在の作業は、このカウンターに反する現象の原因と意味に光を当てており、これは尤度変位と呼ばれています。
尤度の変位は、好ましい応答から反対の意味を持つ応答に対する壊滅的でシフト確率の質量である可能性があることを実証します。
簡単な例として、$ \ texttt {no} $ over $ \ texttt {never} $を好むようにモデルをトレーニングすることは、$ \ texttt {yes} $の確率を大幅に増やすことができます。
さらに、モデルを整合させて安全でないプロンプトを拒否する場合、そのような変位は、有効な拒否反応から有害な反応への確率の質量をシフトすることにより(例えば、74.4.4.4.4.4.4からの拒否率を減らすことにより、無意識につながる可能性があることを示します。
%〜33.4%)。
私たちは、尤度の変位は、中心的な隠された埋め込み類似性(CHES)スコアによって測定されるように、同様の埋め込みを誘導する好みによって駆動されることを理論的に特徴づけています。
経験的には、CHESスコアにより、どのトレーニングサンプルが特定のデータセットで尤度変位に最も寄与するかを特定できます。
これらのサンプルをフィルタリングすると、実験における意図しない不整合を効果的に軽減しました。
さらに広く言えば、私たちの結果は、CHESのスコアが価値があると思われる十分に明確な好みでデータをキュレートすることの重要性を強調しています。

要約(オリジナル)

Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.

arxiv情報

著者 Noam Razin,Sadhika Malladi,Adithya Bhaskar,Danqi Chen,Sanjeev Arora,Boris Hanin
発行日 2025-02-06 14:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization はコメントを受け付けていません

Relational decomposition for program synthesis

要約

プログラム統合へのリレーショナルアプローチを紹介します。
重要なアイデアは、合成タスクを単純なリレーショナル合成サブタスクに分解することです。
具体的には、私たちの表現は、トレーニングの入出力の例をそれぞれ入力ファクトと出力ファクトのセットに分解します。
次に、入力と出力の事実との関係を学びます。
4つの挑戦的な合成データセットで既製の誘導論理プログラミング(ILP)システムを使用してアプローチを実証します。
私たちの結果は、(i)私たちの表現が標準のものよりも優れている可能性があることを示しています。

要約(オリジナル)

We introduce a relational approach to program synthesis. The key idea is to decompose synthesis tasks into simpler relational synthesis subtasks. Specifically, our representation decomposes a training input-output example into sets of input and output facts respectively. We then learn relations between the input and output facts. We demonstrate our approach using an off-the-shelf inductive logic programming (ILP) system on four challenging synthesis datasets. Our results show that (i) our representation can outperform a standard one, and (ii) an off-the-shelf ILP system with our representation can outperform domain-specific approaches.

arxiv情報

著者 Céline Hocquette,Andrew Cropper
発行日 2025-02-06 14:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Relational decomposition for program synthesis はコメントを受け付けていません

Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

要約

特にGPTシリーズとO1モデルで、テキストベースの大手言語モデル(LLMS)の最近の進歩は、トレーニング時間と推論時間計算の両方をスケーリングする有効性を実証しています。
ただし、LLMSを活用する現在の最先端のTTSシステムは、多くの場合マルチステージであり、個別のモデル(LLM後の拡散モデルなど)が必要であり、トレーニングまたはテスト中に特定のモデルを拡張するかどうかの決定を複雑にします。
この作業は次の貢献をします。まず、音声合成のためのトレインタイムと推論時間計算のスケーリングを調べます。
第二に、単一層のベクター量子化器(VQ)コーデックを使用して、Llamaなどの標準LLMと完全に整合する単一の変圧器アーキテクチャを使用する音声合成のための簡単なフレームワークLLASAを提案します。
私たちの実験は、LLASAのスケーリングトレインタイム計算により、合成された音声の自然性が一貫して改善され、より複雑で正確な韻律パターンの生成が可能になることが明らかになりました。
さらに、スケーリングの推論時間計算の観点から、検索中にスピーチ理解モデルを検証剤として使用し、スケーリング推論時間計算により、サンプリングモードが特定の検証剤の好みに向かってシフトし、それによって感情的な表現性、音色の一貫性、および
コンテンツの精度。
さらに、TTSモデル(1b、3b、8b)のチェックポイントとトレーニングコードをリリースし、コーデックモデルを公開しています。

要約(オリジナル)

Recent advances in text-based large language models (LLMs), particularly in the GPT series and the o1 model, have demonstrated the effectiveness of scaling both training-time and inference-time compute. However, current state-of-the-art TTS systems leveraging LLMs are often multi-stage, requiring separate models (e.g., diffusion models after LLM), complicating the decision of whether to scale a particular model during training or testing. This work makes the following contributions: First, we explore the scaling of train-time and inference-time compute for speech synthesis. Second, we propose a simple framework Llasa for speech synthesis that employs a single-layer vector quantizer (VQ) codec and a single Transformer architecture to fully align with standard LLMs such as Llama. Our experiments reveal that scaling train-time compute for Llasa consistently improves the naturalness of synthesized speech and enables the generation of more complex and accurate prosody patterns. Furthermore, from the perspective of scaling inference-time compute, we employ speech understanding models as verifiers during the search, finding that scaling inference-time compute shifts the sampling modes toward the preferences of specific verifiers, thereby improving emotional expressiveness, timbre consistency, and content accuracy. In addition, we released the checkpoint and training code for our TTS model (1B, 3B, 8B) and codec model publicly available.

arxiv情報

著者 Zhen Ye,Xinfa Zhu,Chi-Min Chan,Xinsheng Wang,Xu Tan,Jiahe Lei,Yi Peng,Haohe Liu,Yizhu Jin,Zheqi DAI,Hongzhan Lin,Jianyi Chen,Xingjian Du,Liumeng Xue,Yunlin Chen,Zhifei Li,Lei Xie,Qiuqiang Kong,Yike Guo,Wei Xue
発行日 2025-02-06 15:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis はコメントを受け付けていません

Synthetic Datasets for Machine Learning on Spatio-Temporal Graphs using PDEs

要約

多くの物理的プロセスは、部分微分方程式(PDE)によって表現できます。
このようなプロセスの実際の測定は、多くの場合、スペース内の不規則に分布したポイントで収集され、グラフとして効果的に表現できます。
ただし、現在、既存のデータセットはごくわずかです。
私たちの仕事の目的は、PDEに基づいてデータセットを作成および利用することにより、データ不足の問題に対処しながら、PDEモデリングの分野でPDEモデリングの分野でアクセスできるようにすることを目的としています。
この作業では、PDESに基づいて合成データセットを作成および使用して、さまざまなアプリケーションの機械学習における時空間グラフモデリングをサポートします。
より正確には、疫学、大気粒子、津波の波の分野でのさまざまなタイプの災害と危険をモデル化するための3つの方程式を紹介します。
さらに、疫学データセットでいくつかの機械学習モデルをベンチマークすることで、このような作成されたデータセットをどのように使用できるかを示します。
さらに、このデータセットでの事前トレーニングが、実際の疫学データのモデルパフォーマンスをどのように改善できるかを示します。
提示された方法により、他の人は個々の要件に合わせてカスタマイズされたデータセットとベンチマークを作成できます。
方法論のソースコードと3つの作成されたデータセットは、https://github.com/github-usr-ano/temporal_graph_data_pdesにあります。

要約(オリジナル)

Many physical processes can be expressed through partial differential equations (PDEs). Real-world measurements of such processes are often collected at irregularly distributed points in space, which can be effectively represented as graphs; however, there are currently only a few existing datasets. Our work aims to make advancements in the field of PDE-modeling accessible to the temporal graph machine learning community, while addressing the data scarcity problem, by creating and utilizing datasets based on PDEs. In this work, we create and use synthetic datasets based on PDEs to support spatio-temporal graph modeling in machine learning for different applications. More precisely, we showcase three equations to model different types of disasters and hazards in the fields of epidemiology, atmospheric particles, and tsunami waves. Further, we show how such created datasets can be used by benchmarking several machine learning models on the epidemiological dataset. Additionally, we show how pre-training on this dataset can improve model performance on real-world epidemiological data. The presented methods enable others to create datasets and benchmarks customized to individual requirements. The source code for our methodology and the three created datasets can be found on https://github.com/github-usr-ano/Temporal_Graph_Data_PDEs.

arxiv情報

著者 Jost Arndt,Utku Isil,Michael Detzel,Wojciech Samek,Jackie Ma
発行日 2025-02-06 15:20:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Synthetic Datasets for Machine Learning on Spatio-Temporal Graphs using PDEs はコメントを受け付けていません

GraphGPT: Generative Pre-trained Graph Eulerian Transformer

要約

グラフのオイラートランス(GET)に基づいたグラフ学習のための新しい自己監督の生成事前訓練モデルであるGraphgptを紹介します。
まず、標準のトランスエンコーダーまたはデコーダーアーキテクチャを革新的なグラフからシーケンス変換法と組み合わせたGETを提案します。
このメソッドは、グラフまたはサンプリングされたサブグラフを、オイラーパスを使用して、ノード、エッジ、属性を可逆的に表すトークンのシーケンスに変換します。
2つの自己監視されたタスクのいずれかを使用して、次のトークン予測(NTP)とスケジュールされたマスクトークン予測(SMTP)のいずれかを使用します。
事前に訓練されたモデルは、グラフ、エッジ、ノードレベルの予測などの下流のタスクに対して微調整されます。
そのシンプルさにもかかわらず、GraphGPTは、複数の大規模なオープングラフベンチマーク(OGB)データセットで最先端の方法に匹敵する、または上回るパフォーマンスを実現します。
分子特性予測データセットPCQM4MV2およびタンパク質間相互作用データセットOGBL-PPAで例外的な結果を示しています。
特に、生成プリトレーニングにより、グラフGPTを20億パラメーターにスケーリングしながら、パフォーマンスの向上を維持します。これは、従来のグラフニューラルネットワーク(GNNS)および以前のグラフトランス(GT)のスケーラビリティ制限を克服するブレークスルーです。
グラフファンデーションモデルの研究を進め、化学、材料科学、および関連分野の科学的発見を促進するために、ソースコード(https://github.com/alibaba/graph-gpt)および事前に訓練されたチェックポイントをリリースします。

要約(オリジナル)

We introduceGraphGPT, a novel self-supervised generative pre-trained model for graph learning based on the Graph Eulerian Transformer (GET). First, we propose GET, which combines a standard transformer encoder or decoder architecture with an innovative graph-to-sequence transformation method. This method converts graphs or sampled subgraphs into sequences of tokens representing nodes, edges, and attributes in a reversible manner using Eulerian paths. We pre-train GET using either of the two self-supervised tasks: next-token prediction (NTP) and scheduled masked-token prediction (SMTP). The pre-trained model is then fine-tuned for downstream tasks such as graph-, edge-, and node-level prediction. Despite its simplicity, GraphGPT achieves performance comparable to or surpassing state-of-the-art methods on multiple large-scale Open Graph Benchmark (OGB) datasets. It demonstrates exceptional results on the molecular property prediction dataset PCQM4Mv2 and the protein-protein interaction dataset ogbl-ppa. Notably, generative pre-training enables scaling GraphGPT to 2 billion parameters while maintaining performance gains – a breakthrough that overcomes the scalability limitations of traditional Graph Neural Networks (GNNs) and prior graph transformers (GTs). To advance research in graph foundation models and facilitate scientific discovery in chemistry, materials science, and related fields, we will release the source code (https://github.com/alibaba/graph-gpt) and pre-trained checkpoints.

arxiv情報

著者 Qifang Zhao,Weidong Ren,Tianyu Li,Hong Liu,Xingsheng He,Xiaoxiao Xu
発行日 2025-02-06 15:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GraphGPT: Generative Pre-trained Graph Eulerian Transformer はコメントを受け付けていません

Unpicking Data at the Seams: Understanding Disentanglement in VAEs

要約

解体、またはデータの統計的に独立した要因を特定することは、制御されたデータ生成と堅牢な分類から、データ自体の理解と効率的なエンコードと改善まで、多くの機械学習に関連しています。
分析は、変分自動エンコーダー(VAE)、生成的敵対的ネットワーク、拡散モデルなど、いくつかの生成パラダイムで発生します。
最近の進歩がvaesの解体を理解する際に行われています。そこでは、デコーダーのヤコビアンの柱間の相互直交性を促進することが示されています。
これに基づいて、幾何学的な特性であるそのような直交性が、統計的特性である解き分析にどのように変換され、VAEがデータの独立したコンポーネントまたは解き伸びをどのように識別するかについての理解をさらに促進することを示します。

要約(オリジナル)

Disentanglement, or identifying statistically independent factors of the data, is relevant to much of machine learning, from controlled data generation and robust classification to efficient encoding and improving our understanding of the data itself. Disentanglement arises in several generative paradigms including Variational Autoencoders (VAEs), Generative Adversarial Networks and diffusion models. Recent progress has been made in understanding disentanglement in VAEs, where a choice of diagonal posterior covariance matrices is shown to promote mutual orthogonality between columns of the decoder’s Jacobian. We build on this to show how such orthogonality, a geometric property, translates to disentanglement, a statistical property, furthering our understanding of how a VAE identifies independent components of, or disentangles, the data.

arxiv情報

著者 Carl Allen
発行日 2025-02-06 15:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Unpicking Data at the Seams: Understanding Disentanglement in VAEs はコメントを受け付けていません