Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations

要約

メンタルヘルスケアへのアクセスが制限され、待ち時間の延長、大規模な言語モデル(LLMS)の能力の向上により、個人はメンタルヘルスのニーズを満たすためにLLMSに頼るようになりました。
ただし、LLMSのマルチターンメンタルヘルスの会話機能を調べることは、依然として推奨されていません。
既存の評価フレームワークは通常、診断の正確さと勝利に焦点を当てており、多くの場合、意味のある会話に必要な患者固有の目標、価値、性格との調整を見落とします。
これに対処するために、現実的でマルチターンメンタルヘルスセンスメイキングの会話を合成するための新しいフレームワークであるMedagentを紹介し、それを使用して、2,200を超える患者-LLM会話を含むメンタルヘルスセンスメイキングダイアログ(MHSD)データセットを作成します。
さらに、人間中心の基準を使用して、ヘルスケア設定におけるLLMSのマルチターン会話能力を評価するための全体的な枠組みである多senseevalを提示します。
私たちの調査結果は、フロンティアの推論モデルが患者中心のコミュニケーションのPAR以下のパフォーマンスをもたらし、平均スコアが31%の高度な診断能力での闘争をもたらすことを明らかにしています。
さらに、患者のペルソナとパフォーマンスの低下に基づいたモデルパフォーマンスの変動が、会話のターンの増加に伴い観察されました。
私たちの仕事は、包括的な合成データ生成フレームワーク、マルチターンメンタルヘルス会話におけるLLMを評価するためのデータセットおよび評価フレームワークを提供します。

要約(オリジナル)

Limited access to mental healthcare, extended wait times, and increasing capabilities of Large Language Models (LLMs) has led individuals to turn to LLMs for fulfilling their mental health needs. However, examining the multi-turn mental health conversation capabilities of LLMs remains under-explored. Existing evaluation frameworks typically focus on diagnostic accuracy and win-rates and often overlook alignment with patient-specific goals, values, and personalities required for meaningful conversations. To address this, we introduce MedAgent, a novel framework for synthetically generating realistic, multi-turn mental health sensemaking conversations and use it to create the Mental Health Sensemaking Dialogue (MHSD) dataset, comprising over 2,200 patient-LLM conversations. Additionally, we present MultiSenseEval, a holistic framework to evaluate the multi-turn conversation abilities of LLMs in healthcare settings using human-centric criteria. Our findings reveal that frontier reasoning models yield below-par performance for patient-centric communication and struggle at advanced diagnostic capabilities with average score of 31%. Additionally, we observed variation in model performance based on patient’s persona and performance drop with increasing turns in the conversation. Our work provides a comprehensive synthetic data generation framework, a dataset and evaluation framework for assessing LLMs in multi-turn mental health conversations.

arxiv情報

著者 Mohit Chandra,Siddharth Sriraman,Harneet Singh Khanuja,Yiqiao Jin,Munmun De Choudhury
発行日 2025-05-26 16:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations はコメントを受け付けていません

How to Improve the Robustness of Closed-Source Models on NLI

要約

クローズドソースの大規模な言語モデル(LLM)はますます人気が高まっており、幅広い自然言語のタスクにわたって印象的なパフォーマンスがあります。
これらのモデルは、パフォーマンスをさらに向上させるために微調整できますが、これにより、分散分布(OOD)データに対する堅牢性を低下させるデータセット固有のヒューリスティックからモデルが学習することがよくあります。
堅牢性を改善するための既存の方法は、モデルの内部へのアクセスやモデルのトレーニング手順を変更する能力を想定しているため、パフォーマンスが低下するか、閉鎖モデルに適用できません。
この作業では、モデルの内部へのアクセスを必要としないデータ中心の方法を介して、クローズドソースLLMの堅牢性を改善するための戦略を調査します。
最適な戦略は、OODデータの複雑さに依存することがわかります。
非常に複雑なOODデータセットの場合、より挑戦的なトレーニングの例をアップサンプリングすると、堅牢性が最大1.5%向上する可能性があります。
あまり複雑ではないOODデータセットの場合、トレーニングセットの一部をLLMで生成した例に置き換えると、堅牢性が3.7%向上する可能性があります。
より広く言うと、大規模なクローズドソースのオートルーリングLLMは、一般的に使用されるエンコーダーモデルよりも実質的に堅牢であり、今後のベースラインのより適切な選択であることがわかります。

要約(オリジナル)

Closed-source Large Language Models (LLMs) have become increasingly popular, with impressive performance across a wide range of natural language tasks. These models can be fine-tuned to further improve performance, but this often results in the models learning from dataset-specific heuristics that reduce their robustness on out-of-distribution (OOD) data. Existing methods to improve robustness either perform poorly, or are non-applicable to closed-source models because they assume access to model internals, or the ability to change the model’s training procedure. In this work, we investigate strategies to improve the robustness of closed-source LLMs through data-centric methods that do not require access to model internals. We find that the optimal strategy depends on the complexity of the OOD data. For highly complex OOD datasets, upsampling more challenging training examples can improve robustness by up to 1.5%. For less complex OOD datasets, replacing a portion of the training set with LLM-generated examples can improve robustness by 3.7%. More broadly, we find that large-scale closed-source autoregressive LLMs are substantially more robust than commonly used encoder models, and are a more appropriate choice of baseline going forward.

arxiv情報

著者 Joe Stacey,Lisa Alazraki,Aran Ubhi,Beyza Ermis,Aaron Mueller,Marek Rei
発行日 2025-05-26 16:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | How to Improve the Robustness of Closed-Source Models on NLI はコメントを受け付けていません

Dependency Parsing is More Parameter-Efficient with Normalization

要約

依存関係解析は、自然言語構造を推測するタスクであり、しばしばBiaffineスコアリングを介して注意を払って単語の相互作用をモデル化することによってアプローチされます。
このメカニズムは、変圧器の自己関節のように機能します。ここでは、文の単語のペアごとにスコアが計算されます。
ただし、変圧器の注意とは異なり、Biaffineスコアリングは、スコアのソフトマックスを取得する前に正規化を使用しません。
このホワイトペーパーでは、正規化の欠如が必然的にオーバーパラメーター化されたパーサーモデルをもたらすことを明らかにする理論的証拠と経験的結果を提供します。ここでは、追加のパラメーターがバイフィーフィンスコアリング機能への高い分散入力によって生成されるシャープなソフトマックス出力を補正します。
スコアの正規化を実行することにより、Biaffineスコアリングを実質的に効率的にすることができると主張します。
1つのホップパーサーを使用して、セマンティックおよび構文の依存関係解析のために、6つのデータセットで実験を実施します。
n-layerの積み重ねられたbilstmsを訓練し、二倍性スコアを正規化する場合とそれなしでパーサーのパフォーマンスを評価します。
正規化により、2つのデータセットで最先端を打ち負かすことができ、サンプルが少なく、トレーニング可能なパラメーターが少なくなります。
コード:https://anonymous.4open.science/r/efficientsdp-70c1

要約(オリジナル)

Dependency parsing is the task of inferring natural language structure, often approached by modeling word interactions via attention through biaffine scoring. This mechanism works like self-attention in Transformers, where scores are calculated for every pair of words in a sentence. However, unlike Transformer attention, biaffine scoring does not use normalization prior to taking the softmax of the scores. In this paper, we provide theoretical evidence and empirical results revealing that a lack of normalization necessarily results in overparameterized parser models, where the extra parameters compensate for the sharp softmax outputs produced by high variance inputs to the biaffine scoring function. We argue that biaffine scoring can be made substantially more efficient by performing score normalization. We conduct experiments on six datasets for semantic and syntactic dependency parsing using a one-hop parser. We train N-layer stacked BiLSTMs and evaluate the parser’s performance with and without normalizing biaffine scores. Normalizing allows us to beat the state of the art on two datasets, with fewer samples and trainable parameters. Code: https://anonymous.4open.science/r/EfficientSDP-70C1

arxiv情報

著者 Paolo Gajo,Domenic Rosati,Hassan Sajjad,Alberto Barrón-Cedeño
発行日 2025-05-26 16:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Dependency Parsing is More Parameter-Efficient with Normalization はコメントを受け付けていません

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

要約

Gemini-1.5、Deepseek-V3、Llama-4などの最近の大規模な言語モデルは、トークンごとのモデルの一部のみをアクティブにすることで、強力な効率性能トレードオフを提供する強力な効率性能トレードオフを提供します。
しかし、学術研究者は、スケーリング、ルーティング、専門家の行動を調査するための完全にオープンなエンドツーエンドのMOEプラットフォームをまだ欠いています。
38mから1.7bのアクティブパラメーターの範囲の7つのデコーダーのみのモデルで構成される完全にオープンソースの研究スイートであるFlame-Moeをリリースします。
すべてのトレーニングデータパイプライン、スクリプト、ログ、およびチェックポイントは、再現可能な実験を可能にするために公開されています。
6つの評価タスクで、Flame-Moeは、同一のフロップで訓練された密なベースラインよりも最大3.4ポイントの平均精度を向上させます。
完全なトレーニングトレースの透明度を活用して、(i)専門家が異なるトークンサブセットにますます専門化することを示す初期分析を提示します。
すべてのコード、トレーニングログ、およびモデルチェックポイントは、https://github.com/cmu-flame/flame-moeで入手できます。

要約(オリジナル)

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture–64 experts with top-8 gating and 2 shared experts–closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

arxiv情報

著者 Hao Kang,Zichun Yu,Chenyan Xiong
発行日 2025-05-26 17:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models はコメントを受け付けていません

Bridging the Long-Term Gap: A Memory-Active Policy for Multi-Session Task-Oriented Dialogue

要約

既存のタスク指向ダイアログ(TOD)システムは、主に単一セッションの対話に焦点を当てており、長期的なメモリ増強における有効性を制限します。
この課題に対処するために、セッション全体で長期的なメモリを保持するように設計された最初のマルチセッションTODデータセットであるMS-Todデータセットを導入し、より少ないターンとより効率的なタスク完了を可能にします。
これは、マルチセッションTODの長期メモリを評価するための新しいベンチマークタスクを定義します。
この新しいデータセットに基づいて、2段階のアプローチを通じてマルチセッションの対話効率を向上させるメモリ活動ポリシー(MAP)を提案します。
1)メモリガイド付きダイアログ計画意図に合わせた履歴を取得し、メモリジャッジを介して主要なQAユニットを識別し、冗長な質問を削除してそれらを改良し、再構築されたメモリに基づいて応答を生成します。
2)プロアクティブな応答戦略は、エラーまたは不作為を検出および修正し、効率的かつ正確なタスクの完了を確保します。
MS-Todデータセットのマップを評価し、プロアクティブ戦略の応答の品質と有効性に焦点を当てています。
MS-TODの実験は、マップがタスクの成功を大幅に改善し、マルチセッションシナリオの効率を大幅に改善し、従来のシングルセッションタスクで競争力のあるパフォーマンスを維持することを示しています。

要約(オリジナル)

Existing Task-Oriented Dialogue (TOD) systems primarily focus on single-session dialogues, limiting their effectiveness in long-term memory augmentation. To address this challenge, we introduce a MS-TOD dataset, the first multi-session TOD dataset designed to retain long-term memory across sessions, enabling fewer turns and more efficient task completion. This defines a new benchmark task for evaluating long-term memory in multi-session TOD. Based on this new dataset, we propose a Memory-Active Policy (MAP) that improves multi-session dialogue efficiency through a two-stage approach. 1) Memory-Guided Dialogue Planning retrieves intent-aligned history, identifies key QA units via a memory judger, refines them by removing redundant questions, and generates responses based on the reconstructed memory. 2) Proactive Response Strategy detects and correct errors or omissions, ensuring efficient and accurate task completion. We evaluate MAP on MS-TOD dataset, focusing on response quality and effectiveness of the proactive strategy. Experiments on MS-TOD demonstrate that MAP significantly improves task success and turn efficiency in multi-session scenarios, while maintaining competitive performance on conventional single-session tasks.

arxiv情報

著者 Yiming Du,Bingbing Wang,Yang He,Bin Liang,Baojun Wang,Zhongyang Li,Lin Gui,Jeff Z. Pan,Ruifeng Xu,Kam-Fai Wong
発行日 2025-05-26 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Bridging the Long-Term Gap: A Memory-Active Policy for Multi-Session Task-Oriented Dialogue はコメントを受け付けていません

Efficient Speech Translation through Model Compression and Knowledge Distillation

要約

音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要件のために依然として困難です。
このホワイトペーパーでは、この課題は、音声言語翻訳に関する国際会議(IWSLT 2025)での「モデル圧縮」トラックへのシステムの提出を通じて対処します。
層の重要性評価、4ビット量子化による低ランク適応(Qlora)、および知識の蒸留に基づいた反復層剪定などのアプローチの組み合わせを実験します。
私たちの実験では、ドイツ語と中国語への音声翻訳には、QWEN2-Audio-7B-Instructを使用しています。
剪定された(学生)モデルは、モデルパラメーターとストレージフットプリントの両方を最大50%削減し、領域内(教師)モデルの翻訳品質の97〜100%を保持しています。

要約(オリジナル)

Efficient deployment of large audio-language models for speech translation remains challenging due to their significant computational requirements. In this paper, we address this challenge through our system submissions to the ‘Model Compression’ track at the International Conference on Spoken Language Translation (IWSLT 2025). We experiment with a combination of approaches including iterative layer pruning based on layer importance evaluation, low-rank adaptation with 4-bit quantization (QLoRA), and knowledge distillation. In our experiments, we use Qwen2-Audio-7B-Instruct for speech translation into German and Chinese. Our pruned (student) models achieve up to a 50% reduction in both model parameters and storage footprint, while retaining 97-100% of the translation quality of the in-domain (teacher) models.

arxiv情報

著者 Yasmin Moslem
発行日 2025-05-26 17:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Speech Translation through Model Compression and Knowledge Distillation はコメントを受け付けていません

Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models

要約

多様な言語モデルの応答は、クリエイティブ生成、オープンエンドのタスク、自己改善トレーニングに不可欠です。
一般的な多様性メトリック、さらには好みの最適化に使用される報酬モデル、さらにはより短い出力に向けてモデルを体系的にバイアスし、表現力を制限することを示します。
これに対処するために、長さのパリティを維持しながら応答の多様性を改善する長さ制御された自己学習フレームワークである、短い(多様なns)ではなく、多様な多様なものを紹介します。
多様性、品質、長さのバランスをとる優先データを生成およびフィルタリングすることにより、多様なNSを使用すると、3,000の優先ペアのみを使用して効果的なトレーニングが可能になります。
Llama-3.1-8bおよびOlmo-2ファミリーに適用されると、多様なNSは語彙とセマンティックの多様性を大幅に向上させます。
多様性の一貫した改善は、多様性の削減または4つのクリエイティブジェネレーションタスクの対応品質の利益を示しています:Divergent Associations、Persona Generation、Alternate使用、および創造的な執筆。
驚くべきことに、OLMO-2モデルファミリー(7B、および13B)を使用した実験は、OLMO-2-7Bのような小さなモデルが、より大きなモデルの効果的な「多様性教師」として役立つことを示しています。
長さのバイアスに明示的に対処することにより、この方法はモデルをより多様で表現力のある出力に効率的に押し進めます。

要約(オリジナル)

Diverse language model responses are crucial for creative generation, open-ended tasks, and self-improvement training. We show that common diversity metrics, and even reward models used for preference optimization, systematically bias models toward shorter outputs, limiting expressiveness. To address this, we introduce Diverse, not Short (Diverse-NS), a length-controlled self-learning framework that improves response diversity while maintaining length parity. By generating and filtering preference data that balances diversity, quality, and length, Diverse-NS enables effective training using only 3,000 preference pairs. Applied to LLaMA-3.1-8B and the Olmo-2 family, Diverse-NS substantially enhances lexical and semantic diversity. We show consistent improvement in diversity with minor reduction or gains in response quality on four creative generation tasks: Divergent Associations, Persona Generation, Alternate Uses, and Creative Writing. Surprisingly, experiments with the Olmo-2 model family (7B, and 13B) show that smaller models like Olmo-2-7B can serve as effective ‘diversity teachers’ for larger models. By explicitly addressing length bias, our method efficiently pushes models toward more diverse and expressive outputs.

arxiv情報

著者 Vijeta Deshpande,Debasmita Ghose,John D. Patterson,Roger Beaty,Anna Rumshisky
発行日 2025-05-26 17:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models はコメントを受け付けていません

It’s High Time: A Survey of Temporal Information Retrieval and Question Answering

要約

時間は、情報の生成、取得、解釈の方法において重要な役割を果たします。
この調査では、時間に敏感な情報の取り扱いと理解を目的とした2つの研究分野である、一時的な情報の検索と時間的質問の回答の包括的な概要を説明します。
ニュース記事、Webアーカイブ、知識ベースなどのソースからのタイムスタンプコンテンツの量が増加するため、システムは時間的意図の検出、時間式の正規化、イベントの順序付け、進化またはあいまいな事実よりも推論などの課題に対処する必要があります。
これらの課題は、ニュースや百科事典から科学、歴史、ソーシャルメディアまで、多くのダイナミックで時間に敏感なドメインにわたって重要です。
トランスモデルと大型言語モデル(LLM)を使用するものを含む、従来のアプローチと最新のニューラル法の両方をレビューします。
また、時間的堅牢性、最新性の認識、一般化をテストするベンチマークデータセットと評価戦略に加えて、一時的な言語モデリング、マルチホップ推論、および検索の高性能発電(RAG)の最近の進歩をレビューします。

要約(オリジナル)

Time plays a critical role in how information is generated, retrieved, and interpreted. In this survey, we provide a comprehensive overview of Temporal Information Retrieval and Temporal Question Answering, two research areas aimed at handling and understanding time-sensitive information. As the amount of time-stamped content from sources like news articles, web archives, and knowledge bases increases, systems must address challenges such as detecting temporal intent, normalizing time expressions, ordering events, and reasoning over evolving or ambiguous facts. These challenges are critical across many dynamic and time-sensitive domains, from news and encyclopedias to science, history, and social media. We review both traditional approaches and modern neural methods, including those that use transformer models and Large Language Models (LLMs). We also review recent advances in temporal language modeling, multi-hop reasoning, and retrieval-augmented generation (RAG), alongside benchmark datasets and evaluation strategies that test temporal robustness, recency awareness, and generalization.

arxiv情報

著者 Bhawna Piryani,Abdelrahman Abdullah,Jamshid Mozafari,Avishek Anand,Adam Jatowt
発行日 2025-05-26 17:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | It’s High Time: A Survey of Temporal Information Retrieval and Question Answering はコメントを受け付けていません

Safety Through Reasoning: An Empirical Study of Reasoning Guardrail Models

要約

推論ベースの言語モデルは、さまざまなドメインで強力なパフォーマンスを実証しており、数学的およびコーディングタスクで最も顕著な利益が見られます。
最近の研究では、推論がLLMの安全性とガードレールアプリケーションにも大きな利点を提供することが示されています。
この作業では、推論時にカスタム安全ポリシーへの一般化に重点を置いて、コンテンツモデレートのためのトレーニング推論ベースのガードレールモデルの包括的な分析を実施します。
私たちの研究は、データの効率と推論効率という2つの重要な側面に焦点を当てています。
データの面では、推論ベースのモデルが強力なサンプル効率を示し、競争力のないパフォーマンスを達成し、非合理的なカウンターパートよりもかなり少ないトレーニング例を達成していることがわかります。
これにより、モデルのパフォーマンスをさらに向上させる高価値の困難なサンプルをマイニングするために、残りのデータを再利用する可能性が解除されます。
推論側では、推論予算を導入し、推論の長さが遅延と精度に与える影響を調べ、デュアルモードトレーニングを調査して、合理的な動作を実行するためのデュアルモードトレーニングを調査することにより、実用的なトレードオフを評価します。
私たちの調査結果は、研究者と開発者が現実世界のシステムで推論ベースのガードレールモデルを効果的かつ効率的に訓練および展開するための実用的な洞察を提供します。

要約(オリジナル)

Reasoning-based language models have demonstrated strong performance across various domains, with the most notable gains seen in mathematical and coding tasks. Recent research has shown that reasoning also offers significant benefits for LLM safety and guardrail applications. In this work, we conduct a comprehensive analysis of training reasoning-based guardrail models for content moderation, with an emphasis on generalization to custom safety policies at inference time. Our study focuses on two key dimensions: data efficiency and inference efficiency. On the data front, we find that reasoning-based models exhibit strong sample efficiency, achieving competitive performance with significantly fewer training examples than their non-reasoning counterparts. This unlocks the potential to repurpose the remaining data for mining high-value, difficult samples that further enhance model performance. On the inference side, we evaluate practical trade-offs by introducing reasoning budgets, examining the impact of reasoning length on latency and accuracy, and exploring dual-mode training to allow runtime control over reasoning behavior. Our findings will provide practical insights for researchers and developers to effectively and efficiently train and deploy reasoning-based guardrails models in real-world systems.

arxiv情報

著者 Makesh Narsimhan Sreedhar,Traian Rebedea,Christopher Parisien
発行日 2025-05-26 15:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Safety Through Reasoning: An Empirical Study of Reasoning Guardrail Models はコメントを受け付けていません

Homophily Enhanced Graph Domain Adaptation

要約

グラフドメインの適応(GDA)は、ラベルのあるソースグラフからラベルの希少性の課題に対処するラベルのあるソースグラフから非標識ターゲットグラフに転送します。
この論文では、グラフドメインアライメントの極めて重要な要因であるグラフ同性愛の重要性を強調していますが、既存のアプローチでは長い間見落とされてきました。
具体的には、私たちの分析では、最初に同性愛の矛盾がベンチマークに存在することが明らかになりました。
さらに、同性愛の矛盾がGDAのパフォーマンスを経験的側面と理論的側面の両方から分解し、GDAにおける同性愛の整合の重要性をさらに強調することを示しています。
この発見に触発されて、私たちは、グラフ信号を滑らかにするために混合フィルターを使用して、グラフ間の同性愛の矛盾を効果的にキャプチャして軽減する新しい同性愛アライメントアルゴリズムを提案します。
さまざまなベンチマークでの実験結果は、当社の方法の有効性を検証します。

要約(オリジナル)

Graph Domain Adaptation (GDA) transfers knowledge from labeled source graphs to unlabeled target graphs, addressing the challenge of label scarcity. In this paper, we highlight the significance of graph homophily, a pivotal factor for graph domain alignment, which, however, has long been overlooked in existing approaches. Specifically, our analysis first reveals that homophily discrepancies exist in benchmarks. Moreover, we also show that homophily discrepancies degrade GDA performance from both empirical and theoretical aspects, which further underscores the importance of homophily alignment in GDA. Inspired by this finding, we propose a novel homophily alignment algorithm that employs mixed filters to smooth graph signals, thereby effectively capturing and mitigating homophily discrepancies between graphs. Experimental results on a variety of benchmarks verify the effectiveness of our method.

arxiv情報

著者 Ruiyi Fang,Bingheng Li,Jingyu Zhao,Ruizhi Pu,Qiuhao Zeng,Gezheng Xu,Charles Ling,Boyu Wang
発行日 2025-05-26 15:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI | Homophily Enhanced Graph Domain Adaptation はコメントを受け付けていません