ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

要約

推論が強化された大規模な言語モデル(LLMS)とマルチモーダルLLMS(MLLM)の最近の進歩により、複雑なタスクのパフォーマンスが大幅に向上しましたが、医療AIモデルはしばしば臨床診療に固有の構造化された推論プロセスを見落としています。
この作業では、ChestX-Reasonerを提示します。これは、臨床報告から直接採掘されたプロセス監督を活用するように設計された放射線科診断MLLMであり、段階的な推論とそれに続く放射線科医が反映しています。
日常的な放射線レポートから推論チェーンを抽出および改良することにより、大きなデータセットを構築します。
2段階のトレーニングフレームワークは、モデルの推論を臨床基準とより適切に調整するために、プロセスの報酬によって導かれた監視された微調整と強化の学習を組み合わせています。
Radrbench-CXRを紹介します。これは、301kの臨床的に検証された推論ステップを備えた59kの視覚的質問サンプルを特徴とする包括的なベンチマークを紹介し、Radrscoreを提案します。
Chestx-Reasonerは、診断精度と推論能力の両方で既存の医療および一般的なドメインMLLMを上回り、それぞれ最高の医療MLLM、最高の一般MLLM、およびその基本モデルと比較して、16%、5.9%、および18%の改善を達成します。
すべてのリソースは、MLLMSの医学的推論に関するさらなる研究を促進するためにオープンソーリングされています。

要約(オリジナル)

Recent advances in reasoning-enhanced large language models (LLMs) and multimodal LLMs (MLLMs) have significantly improved performance in complex tasks, yet medical AI models often overlook the structured reasoning processes inherent in clinical practice. In this work, we present ChestX-Reasoner, a radiology diagnosis MLLM designed to leverage process supervision mined directly from clinical reports, reflecting the step-by-step reasoning followed by radiologists. We construct a large dataset by extracting and refining reasoning chains from routine radiology reports. Our two-stage training framework combines supervised fine-tuning and reinforcement learning guided by process rewards to better align model reasoning with clinical standards. We introduce RadRBench-CXR, a comprehensive benchmark featuring 59K visual question answering samples with 301K clinically validated reasoning steps, and propose RadRScore, a metric evaluating reasoning factuality, completeness, and effectiveness. ChestX-Reasoner outperforms existing medical and general-domain MLLMs in both diagnostic accuracy and reasoning ability, achieving 16%, 5.9%, and 18% improvements in reasoning ability compared to the best medical MLLM, the best general MLLM, and its base model, respectively, as well as 3.3%, 24%, and 27% improvements in outcome accuracy. All resources are open-sourced to facilitate further research in medical reasoning MLLMs.

arxiv情報

著者 Ziqing Fan,Cheng Liang,Chaoyi Wu,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-04-29 16:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification はコメントを受け付けていません

DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition

要約

経済作物の世界的な成長の安全性に直面している深刻な課題を考えると、植物疾患の正確な特定と予防は、人工知能対応農業技術の重要な問題として浮上しています。
小型サンプルの学習、葉の閉塞、照明のバリエーション、クラス間の類似性などの植物疾患の認識における技術的課題に対処するために、この研究は動的なデュアルストリーム融合ネットワーク(DS_FusionNet)を革新的に提案しています。
ネットワークは、デュアルバックボーンアーキテクチャ、変形可能な動的融合モジュール、および双方向の知識蒸留戦略を統合し、認識の精度を大幅に向上させます。
実験結果は、DS_FusionNetがPlantDiseaseとCIFAR-10データセットの10%のみを使用して90%を超える分類精度を達成し、複雑なPlantwild Datasetの85%の精度を維持し、例外的な一般化機能を示していることを示しています。
この研究は、きめ細かい画像分類のための新しい技術的洞察を提供するだけでなく、農業疾患の正確な識別と管理のための堅牢な基盤も確立しています。

要約(オリジナル)

Given the severe challenges confronting the global growth security of economic crops, precise identification and prevention of plant diseases has emerged as a critical issue in artificial intelligence-enabled agricultural technology. To address the technical challenges in plant disease recognition, including small-sample learning, leaf occlusion, illumination variations, and high inter-class similarity, this study innovatively proposes a Dynamic Dual-Stream Fusion Network (DS_FusionNet). The network integrates a dual-backbone architecture, deformable dynamic fusion modules, and bidirectional knowledge distillation strategy, significantly enhancing recognition accuracy. Experimental results demonstrate that DS_FusionNet achieves classification accuracies exceeding 90% using only 10% of the PlantDisease and CIFAR-10 datasets, while maintaining 85% accuracy on the complex PlantWild dataset, exhibiting exceptional generalization capabilities. This research not only provides novel technical insights for fine-grained image classification but also establishes a robust foundation for precise identification and management of agricultural diseases.

arxiv情報

著者 Yanghui Song,Chengfu Yang
発行日 2025-04-29 17:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition はコメントを受け付けていません

SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features

要約

X線イメージングによる肺炎の正確かつ早期診断は、効果的な治療と患者の転帰の改善に不可欠です。
機械学習における最近の進歩により、放射線科医がより信頼性が高く効率的な決定を下すのを支援する自動化された診断ツールが可能になりました。
この作業では、マルチクラスの肺炎分類のための特異値分解ベースの最小二乗(SVD-LS)フレームワークを提案し、最先端の自己監督および転送学習モデルからの強力な特徴表現を活用します。
計算上の高価なグラデーションベースの微調整に依存するのではなく、精度を損なうことなく効率を保証する閉じた型の非適格分類アプローチを採用しています。
実験結果は、SVD-LSが競争力のあるパフォーマンスを達成しながら、計算コストを大幅に削減し、リアルタイムの医療イメージングアプリケーションの実行可能な代替手段となることを示しています。

要約(オリジナル)

Accurate and early diagnosis of pneumonia through X-ray imaging is essential for effective treatment and improved patient outcomes. Recent advancements in machine learning have enabled automated diagnostic tools that assist radiologists in making more reliable and efficient decisions. In this work, we propose a Singular Value Decomposition-based Least Squares (SVD-LS) framework for multi-class pneumonia classification, leveraging powerful feature representations from state-of-the-art self-supervised and transfer learning models. Rather than relying on computationally expensive gradient based fine-tuning, we employ a closed-form, non-iterative classification approach that ensures efficiency without compromising accuracy. Experimental results demonstrate that SVD-LS achieves competitive performance while offering significantly reduced computational costs, making it a viable alternative for real-time medical imaging applications.

arxiv情報

著者 Mete Erdogan,Sebnem Demirtas
発行日 2025-04-29 17:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features はコメントを受け付けていません

TesserAct: Learning 4D Embodied World Models

要約

この論文は、具体化されたエージェントの行動に応じて3Dシーンの動的進化を予測し、空間的および時間的一貫性の両方を提供する新しい4D具体化された世界モデルを学習するための効果的なアプローチを提示します。
RGB-DN(RGB、深さ、および通常の)ビデオをトレーニングすることにより、4Dワールドモデルを学ぶことを提案します。
これにより、詳細な形状、構成、および時間的変化を予測に組み込むことにより、従来の2Dモデルを上回るだけでなく、具体化されたエージェントの正確な逆動的モデルを効果的に学習することもできます。
具体的には、最初に既存のロボット操作ビデオデータセットを、既製のモデルを活用する深さと通常の情報を使用して拡張します。
次に、この注釈付きデータセットでビデオ生成モデルを微調整します。このデータセットは、各フレームのRGB-DN(RGB、深さ、および通常)を共同で予測します。
次に、アルゴリズムを提示して、生成されたRGB、深さ、および通常のビデオを世界の高品質の4Dシーンに直接変換します。
私たちの方法は、具体化されたシナリオからの4Dシーンの予測における時間的および空間的な一貫性を保証し、具体化された環境の新しいビューの合成を可能にし、以前のビデオベースの世界モデルから派生したものを大幅に上回る政策学習を促進します。

要約(オリジナル)

This paper presents an effective approach for learning novel 4D embodied world models, which predict the dynamic evolution of 3D scenes over time in response to an embodied agent’s actions, providing both spatial and temporal consistency. We propose to learn a 4D world model by training on RGB-DN (RGB, Depth, and Normal) videos. This not only surpasses traditional 2D models by incorporating detailed shape, configuration, and temporal changes into their predictions, but also allows us to effectively learn accurate inverse dynamic models for an embodied agent. Specifically, we first extend existing robotic manipulation video datasets with depth and normal information leveraging off-the-shelf models. Next, we fine-tune a video generation model on this annotated dataset, which jointly predicts RGB-DN (RGB, Depth, and Normal) for each frame. We then present an algorithm to directly convert generated RGB, Depth, and Normal videos into a high-quality 4D scene of the world. Our method ensures temporal and spatial coherence in 4D scene predictions from embodied scenarios, enables novel view synthesis for embodied environments, and facilitates policy learning that significantly outperforms those derived from prior video-based world models.

arxiv情報

著者 Haoyu Zhen,Qiao Sun,Hongxin Zhang,Junyan Li,Siyuan Zhou,Yilun Du,Chuang Gan
発行日 2025-04-29 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | TesserAct: Learning 4D Embodied World Models はコメントを受け付けていません

X-Fusion: Introducing New Modality to Frozen Large Language Models

要約

X-Fusionを提案します。これは、言語機能を維持しながら、マルチモーダルタスクの前提条件の大規模な言語モデル(LLM)を拡張するフレームワークです。
X-Fusionは、モダリティ固有の重みを備えたデュアルタワーデザインを採用しており、LLMのパラメーターを凍結しながら、理解と生成の両方に視力固有の情報を統合します。
私たちの実験は、X融合が、画像間およびテキストから画像への両方のタスクの両方の代替アーキテクチャを常に上回ることを示しています。
理解に焦点を当てたデータを組み込むと、生成の品質が向上し、画像データノイズが低下すると全体的なパフォーマンスが向上し、特徴のアライメントが小規模なモデルの収束を加速しますが、大きなモデルには最小限の影響を与えることがわかります。
私たちの調査結果は、効率的な統一マルチモーダルモデルを構築するための貴重な洞察を提供します。

要約(オリジナル)

We propose X-Fusion, a framework that extends pretrained Large Language Models (LLMs) for multimodal tasks while preserving their language capabilities. X-Fusion employs a dual-tower design with modality-specific weights, keeping the LLM’s parameters frozen while integrating vision-specific information for both understanding and generation. Our experiments demonstrate that X-Fusion consistently outperforms alternative architectures on both image-to-text and text-to-image tasks. We find that incorporating understanding-focused data improves generation quality, reducing image data noise enhances overall performance, and feature alignment accelerates convergence for smaller models but has minimal impact on larger ones. Our findings provide valuable insights into building efficient unified multimodal models.

arxiv情報

著者 Sicheng Mo,Thao Nguyen,Xun Huang,Siddharth Srinivasan Iyer,Yijun Li,Yuchen Liu,Abhishek Tandon,Eli Shechtman,Krishna Kumar Singh,Yong Jae Lee,Bolei Zhou,Yuheng Li
発行日 2025-04-29 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X-Fusion: Introducing New Modality to Frozen Large Language Models はコメントを受け付けていません

YoChameleon: Personalized Vision and Language Generation

要約

大規模なマルチモーダルモデル(GPT-4、ジェミニ、カメレオンなど)は、何百万人ものユーザーとの強力なツールに進化しました。
ただし、一般的なモデルのままであり、特定のユーザー概念に関するパーソナライズされた知識がありません。
以前の研究では、テキスト生成のパーソナライズを調査していましたが、これらの方法を画像生成などの新しいモダリティにどのように適合させることができるかは不明のままです。
この論文では、大規模なマルチモーダルモデルのパーソナライズを研究する最初の試みであるYo’Chameleonを紹介します。
特定の概念の3-5の画像を考慮して、Yo’Chameleonはソフトプロムプトチューニングをレバレッジしてサブジェクト固有の情報を埋め込み、(i)被写体に関する質問に答え、(ii)ピクセルレベルの詳細を再現して、新しいコンテキストで主題の画像を作成します。
Yo’Chameleonには、(i)複数のモダリティにわたってパフォーマンスのバランスをとる自己促進最適化メカニズムと、(ii)少数のショット設定で画質を高める「ソフトポジティブな」画像生成アプローチで訓練されています。

要約(オリジナル)

Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into powerful tools with millions of users. However, they remain generic models and lack personalized knowledge of specific user concepts. Previous work has explored personalization for text generation, yet it remains unclear how these methods can be adapted to new modalities, such as image generation. In this paper, we introduce Yo’Chameleon, the first attempt to study personalization for large multimodal models. Given 3-5 images of a particular concept, Yo’Chameleon leverages soft-prompt tuning to embed subject-specific information to (i) answer questions about the subject and (ii) recreate pixel-level details to produce images of the subject in new contexts. Yo’Chameleon is trained with (i) a self-prompting optimization mechanism to balance performance across multiple modalities, and (ii) a “soft-positive’ image generation approach to enhance image quality in a few-shot setting.

arxiv情報

著者 Thao Nguyen,Krishna Kumar Singh,Jing Shi,Trung Bui,Yong Jae Lee,Yuheng Li
発行日 2025-04-29 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | YoChameleon: Personalized Vision and Language Generation はコメントを受け付けていません

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

要約

Multi-Modal Entity Alignment(MMEA)は、重要な情報検索タスクであるさまざまなマルチモーダルナレッジグラフ(MMKG)から同等のエンティティを取得することを目的としています。
既存の研究では、さまざまな融合パラダイムと一貫性の制約を調査して、同等のエンティティの整合性を改善し、視覚的モダリティが常にプラスに貢献するとは限らないと考えています。
経験的には、類似画像が低いエンティティは通常、不十分なパフォーマンスを生成し、視覚的な機能に過度に依存することの制限を強調します。
モデルは視覚的モダリティに偏って、ショートカット画像マッチングタスクにつながると考えています。
これに対処するために、因果的な観点から視覚モダリティバイアスを調査するCDMEAと呼ばれるMMEAの反事実的な紛争フレームワークを提案します。
私たちのアプローチの目的は、視覚モダリティとグラフの両方のモダリティを活用してMMEAを強化しながら、モデル予測に対する視覚モダリティの直接的な因果効果を抑制することを目的としています。
両方のモダリティの合計効果(TE)を推定し、視覚モダリティの自然直接効果(NDE)を除外することにより、モデルが合計間接効果(TIE)に基づいて予測し、モダリティの両方を効果的に利用し、視覚モダリティバイアスの両方を低下させることを確認します。
9つのベンチマークデータセットでの広範な実験では、CDMEAが、特に類似性の低い、高ノイズ、および低リソースのデータシナリオで、14の最先端の方法を上回ることが示されています。

要約(オリジナル)

Multi-Modal Entity Alignment (MMEA) aims to retrieve equivalent entities from different Multi-Modal Knowledge Graphs (MMKGs), a critical information retrieval task. Existing studies have explored various fusion paradigms and consistency constraints to improve the alignment of equivalent entities, while overlooking that the visual modality may not always contribute positively. Empirically, entities with low-similarity images usually generate unsatisfactory performance, highlighting the limitation of overly relying on visual features. We believe the model can be biased toward the visual modality, leading to a shortcut image-matching task. To address this, we propose a counterfactual debiasing framework for MMEA, termed CDMEA, which investigates visual modality bias from a causal perspective. Our approach aims to leverage both visual and graph modalities to enhance MMEA while suppressing the direct causal effect of the visual modality on model predictions. By estimating the Total Effect (TE) of both modalities and excluding the Natural Direct Effect (NDE) of the visual modality, we ensure that the model predicts based on the Total Indirect Effect (TIE), effectively utilizing both modalities and reducing visual modality bias. Extensive experiments on 9 benchmark datasets show that CDMEA outperforms 14 state-of-the-art methods, especially in low-similarity, high-noise, and low-resource data scenarios.

arxiv情報

著者 Taoyu Su,Jiawei Sheng,Duohe Ma,Xiaodong Li,Juwei Yue,Mengxiao Song,Yingkai Tang,Tingwen Liu
発行日 2025-04-29 13:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.MM | Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective はコメントを受け付けていません

LLM-Generated Fake News Induces Truth Decay in News Ecosystem: A Case Study on Neural News Recommendation

要約

オンラインの偽のニュースモデレートは、偽のニュース制作における大規模な言語モデル(LLMS)の悪意のある使用によってもたらされる新しい課題に直面しています。
既存の作品は、LLMが生成した偽のニュースを個々の側面から検出するのが難しいことを示していますが、その大規模なリリースがニュースエコシステムにどのように影響するかは依然として不足しています。
この研究では、ニューラルニュース推奨システム内のLLMで生成された偽のニュースの効果を調査するために、多様な種類の〜56K生成ニュースを備えたシミュレーションパイプラインとデータセットを開発します。
私たちの調査結果は、LLMが生成したニュースがニュースの推奨に関与しているため、偽のニュースに対するニュースランキングで徐々に有利な立場を失っている真実の崩壊現象を明らかにしています。
さらに、真実の崩壊が親しみやすさから発生する理由について説明し、困惑とニュースランキングの間の正の相関関係を示します。
最後に、LLMが生成した偽のニュースの脅威について議論し、可能な対策を提供します。
利害関係者に、ニュースエコシステムの完全性を維持するために、この新たな課題に対処するよう促します。

要約(オリジナル)

Online fake news moderation now faces a new challenge brought by the malicious use of large language models (LLMs) in fake news production. Though existing works have shown LLM-generated fake news is hard to detect from an individual aspect, it remains underexplored how its large-scale release will impact the news ecosystem. In this study, we develop a simulation pipeline and a dataset with ~56k generated news of diverse types to investigate the effects of LLM-generated fake news within neural news recommendation systems. Our findings expose a truth decay phenomenon, where real news is gradually losing its advantageous position in news ranking against fake news as LLM-generated news is involved in news recommendation. We further provide an explanation about why truth decay occurs from a familiarity perspective and show the positive correlation between perplexity and news ranking. Finally, we discuss the threats of LLM-generated fake news and provide possible countermeasures. We urge stakeholders to address this emerging challenge to preserve the integrity of news ecosystems.

arxiv情報

著者 Beizhe Hu,Qiang Sheng,Juan Cao,Yang Li,Danding Wang
発行日 2025-04-29 13:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.IR | LLM-Generated Fake News Induces Truth Decay in News Ecosystem: A Case Study on Neural News Recommendation はコメントを受け付けていません

Feelbert: A Feedback Linearization-based Embedded Real-Time Quadrupedal Locomotion Framework

要約

四足動物は、一般的な不均一な地形に移動を適応させる能力で非常に人気があります。
このため、時間が経つにつれて、四角形の移動のためのいくつかのフレームワークが提案されていますが、コントローラーの予測可能なタイミング動作を確保することにはほとんど注意が払われていません。
この問題に対処するために、この作業は、ハードリアルタイムの実行制約の下で組み込みシステムの実行に適した四骨運動のモジュール制御フレームワークであるFeelbertを提示します。
フィードバック線形化制御手法を活用して、ロボットのすべての構成に有効なボディの閉形型制御法則を取得します。
制御法は、推定接触力の代わりに、足の加速を制御変数として使用する適切な剛体モデルを定義した後に導き出されました。
また、この作業は、架空の車輪の概念を使用して足場と歩行時間パラメーターを計算する新しいアルゴリズムと、現在の速度コマンドの最適な歩行スケジュールを選択するためのヒューリスティックアルゴリズムを提供します。
提案されたフレームワークは、予測可能性とリアルタイムパフォーマンスを確保するために、サードパーティライブラリに依存関係がなく、動的なメモリ割り当てがなく、C ++で完全に開発されています。
その実装により、Feelbertは、重要なアプリケーション用の組み込みシステムでコンパイルおよび実行され、ロボットオペレーティングシステム2(ROS 2)などの大規模なシステムに統合されます。
このため、Feelbertは両方のシナリオでテストされており、ROS 2に統合されているか、Raspberry Pi 5のスタンドアロンアプリケーションとしてコンパイルされているかどうかにかかわらず、参照追跡と時間的予測可能性の両方の観点から満足のいく結果を示しています。

要約(オリジナル)

Quadruped robots have become quite popular for their ability to adapt their locomotion to generic uneven terrains. For this reason, over time, several frameworks for quadrupedal locomotion have been proposed, but with little attention to ensuring a predictable timing behavior of the controller. To address this issue, this work presents Feelbert, a modular control framework for quadrupedal locomotion suitable for execution on an embedded system under hard real-time execution constraints. It leverages the feedback linearization control technique to obtain a closed-form control law for the body, valid for all configurations of the robot. The control law was derived after defining an appropriate rigid body model that uses the accelerations of the feet as control variables, instead of the estimated contact forces. This work also provides a novel algorithm to compute footholds and gait temporal parameters using the concept of imaginary wheels, and a heuristic algorithm to select the best gait schedule for the current velocity commands. The proposed framework is developed entirely in C++, with no dependencies on third-party libraries and no dynamic memory allocation, to ensure predictability and real-time performance. Its implementation allows Feelbert to be both compiled and executed on an embedded system for critical applications, as well as integrated into larger systems such as Robot Operating System 2 (ROS 2). For this reason, Feelbert has been tested in both scenarios, demonstrating satisfactory results both in terms of reference tracking and temporal predictability, whether integrated into ROS 2 or compiled as a standalone application on a Raspberry Pi 5.

arxiv情報

著者 Aristide Emanuele Casucci,Federico Nesti,Mauro Marinoni,Giorgio Buttazzo
発行日 2025-04-29 09:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Feelbert: A Feedback Linearization-based Embedded Real-Time Quadrupedal Locomotion Framework はコメントを受け付けていません

Transfer Learning Under High-Dimensional Network Convolutional Regression Model

要約

転送学習は、特にラベル付きデータが不足している場合、関連ドメインからの知識を利用することにより、モデルのパフォーマンスを向上させます。
既存の研究は、独立した設定のさまざまな分布シフトの下での転送学習に対処していますが、ネットワーク化されたデータの依存関係の処理は依然として困難です。
この課題に対処するために、グラフ畳み込みネットワーク(GCNS)の成功に触発されたネットワーク畳み込み回帰(NCR)に基づいた高次元転送学習フレームワークを提案します。
NCRモデルには、各ノードの応答が近隣の機能と集計された機能に依存し、ローカルの依存関係を効果的にキャプチャすることを可能にすることにより、ランダムネットワーク構造を組み込みます。
私たちの方法論には、ソースネットワークとターゲットネットワーク間のドメインシフトに対処する2段階の転送学習アルゴリズムと、有益なドメインを特定するためのソース検出メカニズムが含まれます。
理論的には、Erdos-Renyiモデルの仮定に基づいたランダムグラフのコンテキストでラッソ推定器を分析し、伝達学習が有益なソースが存在するときに収束速度を改善することを示しています。
Sina Weiboデータを使用したシミュレーションや実際のアプリケーションを含む経験的評価は、特にターゲットドメインのラベルデータが限られている場合、予測精度の大幅な改善を示しています。

要約(オリジナル)

Transfer learning enhances model performance by utilizing knowledge from related domains, particularly when labeled data is scarce. While existing research addresses transfer learning under various distribution shifts in independent settings, handling dependencies in networked data remains challenging. To address this challenge, we propose a high-dimensional transfer learning framework based on network convolutional regression (NCR), inspired by the success of graph convolutional networks (GCNs). The NCR model incorporates random network structure by allowing each node’s response to depend on its features and the aggregated features of its neighbors, capturing local dependencies effectively. Our methodology includes a two-step transfer learning algorithm that addresses domain shift between source and target networks, along with a source detection mechanism to identify informative domains. Theoretically, we analyze the lasso estimator in the context of a random graph based on the Erdos-Renyi model assumption, demonstrating that transfer learning improves convergence rates when informative sources are present. Empirical evaluations, including simulations and a real-world application using Sina Weibo data, demonstrate substantial improvements in prediction accuracy, particularly when labeled data in the target domain is limited.

arxiv情報

著者 Liyuan Wang,Jiachen Chen,Kathryn L. Lunetta,Danyang Huang,Huimin Cheng,Debarghya Mukherjee
発行日 2025-04-29 04:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Transfer Learning Under High-Dimensional Network Convolutional Regression Model はコメントを受け付けていません