Temporally Consistent Referring Video Object Segmentation with Hybrid Memory

要約

参照ビデオ オブジェクト セグメンテーション (R-VOS) 手法は、時間的なコンテキストの変動や視覚的に類似した他のオブジェクトの存在により、一貫したオブジェクト セグメンテーションを維持するという課題に直面しています。
私たちは、参照セグメンテーションとともに一時的なインスタンスの一貫性を明示的にモデル化するエンドツーエンドの R-VOS パラダイムを提案します。
具体的には、堅牢な時空間マッチングと伝播のためのフレーム間のコラボレーションを容易にする新しいハイブリッド メモリを導入します。
自動的に生成された高品質の参照マスクを持つフレームの特徴は、多重粒度の関連付けに基づいて残りのフレームをセグメント化するために伝播され、時間的に一貫した R-VOS を実現します。
さらに、ビデオセグメンテーションの時間的一貫性を評価するための新しいマスク一貫性スコア(MCS)メトリックを提案します。
広範な実験により、私たちのアプローチにより時間的一貫性が大幅に向上し、一般的な R-VOS ベンチマーク、つまり Ref-YouTube-VOS (67.1%) および Ref-DAVIS17 (65.6%) でトップランクのパフォーマンスが得られることが実証されました。
コードは https://github.com/bo-miao/HTR で入手できます。

要約(オリジナル)

Referring Video Object Segmentation (R-VOS) methods face challenges in maintaining consistent object segmentation due to temporal context variability and the presence of other visually similar objects. We propose an end-to-end R-VOS paradigm that explicitly models temporal instance consistency alongside the referring segmentation. Specifically, we introduce a novel hybrid memory that facilitates inter-frame collaboration for robust spatio-temporal matching and propagation. Features of frames with automatically generated high-quality reference masks are propagated to segment the remaining frames based on multi-granularity association to achieve temporally consistent R-VOS. Furthermore, we propose a new Mask Consistency Score (MCS) metric to evaluate the temporal consistency of video segmentation. Extensive experiments demonstrate that our approach enhances temporal consistency by a significant margin, leading to top-ranked performance on popular R-VOS benchmarks, i.e., Ref-YouTube-VOS (67.1%) and Ref-DAVIS17 (65.6%). The code is available at https://github.com/bo-miao/HTR.

arxiv情報

著者 Bo Miao,Mohammed Bennamoun,Yongsheng Gao,Mubarak Shah,Ajmal Mian
発行日 2024-10-11 14:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Temporally Consistent Referring Video Object Segmentation with Hybrid Memory はコメントを受け付けていません

A Lightweight Generative Model for Interpretable Subject-level Prediction

要約

近年、対象者の診断などの未知の関心変数を、その解剖学的機能的影響を表す医用画像から予測する方法に対する関心が高まっている。
識別モデリングに基づく方法は、正確な予測を行うことに優れていますが、その決定を解剖学的に意味のある用語で説明する能力に課題があります。
この論文では、本質的に解釈可能な単一被験者の予測のための簡単な手法を提案します。
これは、根底にある因果関係をエンコードできる古典的な人間の脳マッピング技術で使用される生成モデルを、支配的な空間相関を捕捉する多変量ノイズ モデルで強化します。
実験では、結果として得られるモデルを効率的に反転して正確な被験者レベルの予測を行うことができると同時に、内部の仕組みを直感的に視覚的に説明できることが実証されています。
この方法は使いやすいです。一般的なトレーニング セット サイズではトレーニングが高速であり、ユーザーが設定する必要があるのは 1 つのハイパーパラメータだけです。
私たちのコードは https://github.com/chiara-mauri/Interpretable-subject-level-prediction で入手できます。

要約(オリジナル)

Recent years have seen a growing interest in methods for predicting an unknown variable of interest, such as a subject’s diagnosis, from medical images depicting its anatomical-functional effects. Methods based on discriminative modeling excel at making accurate predictions, but are challenged in their ability to explain their decisions in anatomically meaningful terms. In this paper, we propose a simple technique for single-subject prediction that is inherently interpretable. It augments the generative models used in classical human brain mapping techniques, in which the underlying cause-effect relations can be encoded, with a multivariate noise model that captures dominant spatial correlations. Experiments demonstrate that the resulting model can be efficiently inverted to make accurate subject-level predictions, while at the same time offering intuitive visual explanations of its inner workings. The method is easy to use: training is fast for typical training set sizes, and only a single hyperparameter needs to be set by the user. Our code is available at https://github.com/chiara-mauri/Interpretable-subject-level-prediction.

arxiv情報

著者 Chiara Mauri,Stefano Cerri,Oula Puonti,Mark Mühlau,Koen Van Leemput
発行日 2024-10-11 14:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Lightweight Generative Model for Interpretable Subject-level Prediction はコメントを受け付けていません

TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy

要約

テーブルには、機械の理解に課題をもたらすさまざまな構造や内容を伴う事実および定量的なデータが含まれています。
従来の方法では一般に、タスク固有のアーキテクチャと個々のタスクの目標を設計しており、その結果、モーダルな分離と複雑なワークフローが生じていました。
本稿では、概念相乗メカニズムを備えた新しい大規模視覚言語モデル TabPedia を紹介します。
このメカニズムでは、関連するすべての多様なビジュアル テーブル理解 (VTU) タスクとマルチソース ビジュアル エンベディングが概念として抽象化されます。
この統合フレームワークにより、TabPedia は、大規模言語モデル (LLM) の機能を活用して、テーブル検出、テーブル構造認識、テーブル クエリ、テーブル質問応答などの VTU タスクをシームレスに統合できます。
さらに、概念相乗メカニズムにより、対応するソース認識埋め込みから必要な手がかりを効果的に活用できるため、表認識関連タスクと理解関連タスクが調和して機能することが可能になります。
さらに、現実のシナリオにおける VTU タスクをより適切に評価するために、約 9,000 の QA ペアを特徴とする新しい包括的なテーブル VQA ベンチマークである ComTQA を確立しました。
表の認識と理解の両方のタスクに関する広範な定量的および定性的な実験が、さまざまな公開ベンチマークにわたって実施され、TabPedia の有効性が検証されました。
優れたパフォーマンスは、すべての概念が相乗効果で機能する場合、視覚的なテーブルを理解するために LLM を使用することが可能であることをさらに裏付けます。
ベンチマーク ComTQA は、https://huggingface.co/datasets/ByteDance/ComTQA でオープンソース化されています。
ソース コードとモデルは https://github.com/zhaowc-ustc/TabPedia でも公開されています。

要約(オリジナル)

Tables contain factual and quantitative data accompanied by various structures and contents that pose challenges for machine comprehension. Previous methods generally design task-specific architectures and objectives for individual tasks, resulting in modal isolation and intricate workflows. In this paper, we present a novel large vision-language model, TabPedia, equipped with a concept synergy mechanism. In this mechanism, all the involved diverse visual table understanding (VTU) tasks and multi-source visual embeddings are abstracted as concepts. This unified framework allows TabPedia to seamlessly integrate VTU tasks, such as table detection, table structure recognition, table querying, and table question answering, by leveraging the capabilities of large language models (LLMs). Moreover, the concept synergy mechanism enables table perception-related and comprehension-related tasks to work in harmony, as they can effectively leverage the needed clues from the corresponding source perception embeddings. Furthermore, to better evaluate the VTU task in real-world scenarios, we establish a new and comprehensive table VQA benchmark, ComTQA, featuring approximately 9,000 QA pairs. Extensive quantitative and qualitative experiments on both table perception and comprehension tasks, conducted across various public benchmarks, validate the effectiveness of our TabPedia. The superior performance further confirms the feasibility of using LLMs for understanding visual tables when all concepts work in synergy. The benchmark ComTQA has been open-sourced at https://huggingface.co/datasets/ByteDance/ComTQA. The source code and model also have been released athttps://github.com/zhaowc-ustc/TabPedia.

arxiv情報

著者 Weichao Zhao,Hao Feng,Qi Liu,Jingqun Tang,Shu Wei,Binghong Wu,Lei Liao,Yongjie Ye,Hao Liu,Wengang Zhou,Houqiang Li,Can Huang
発行日 2024-10-11 14:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy はコメントを受け付けていません

Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies

要約

音声解説 (AD) は、視覚障害者や視覚障害者がテレビや映画などのデジタル メディア コンテンツにアクセスするのを支援するように設計された音響解説として機能します。
アクセシビリティ サービスは通常、訓練を受けた AD 専門家によって提供されるため、AD の生成には多大な人的労力が必要となり、プロセスに時間とコストがかかります。
自然言語処理 (NLP) とコンピューター ビジョン (CV)、特に大規模言語モデル (LLM) とビジョン言語モデル (VLM) の最近の進歩により、自動 AD 生成に一歩近づくことが可能になりました。
この論文では、LLM および VLM の時代における AD 生成に関連するテクノロジーをレビューします。最先端の NLP および CV テクノロジーを AD の生成にどのように適用できるかについて説明し、将来に向けた重要な研究の方向性を特定します。

要約(オリジナル)

Audio descriptions (ADs) function as acoustic commentaries designed to assist blind persons and persons with visual impairments in accessing digital media content on television and in movies, among other settings. As an accessibility service typically provided by trained AD professionals, the generation of ADs demands significant human effort, making the process both time-consuming and costly. Recent advancements in natural language processing (NLP) and computer vision (CV), particularly in large language models (LLMs) and vision-language models (VLMs), have allowed for getting a step closer to automatic AD generation. This paper reviews the technologies pertinent to AD generation in the era of LLMs and VLMs: we discuss how state-of-the-art NLP and CV technologies can be applied to generate ADs and identify essential research directions for the future.

arxiv情報

著者 Yingqiang Gao,Lukas Fischer,Alexa Lintner,Sarah Ebling
発行日 2024-10-11 14:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI Technologies はコメントを受け付けていません

A foundation model for generalizable disease diagnosis in chest X-ray images

要約

医療用人工知能 (AI) は、疾患診断のための強力なツールを提供することにより、胸部 X 線 (CXR) 画像の解釈に革命をもたらしています。
ただし、これらの AI モデルの有効性は、タスク固有のラベル付けされた大量のデータに依存していることと、多様な臨床設定にわたって一般化できないことによって制限されることがよくあります。
これらの課題に対処するために、ラベルのない CXR 画像から多様な表現を学習し、さまざまな臨床タスクへの効率的な適応を促進するように設計された基礎モデルである CXRBase を導入します。
CXRBase は、最初に、自己教師あり学習手法を使用して、104 万枚のラベルなし CXR 画像の実質的なデータセットでトレーニングされます。
このアプローチにより、モデルは明示的なラベルを必要とせずに意味のあるパターンを識別できるようになります。
この初期段階の後、CXRBase はラベル付けされたデータを使用して微調整され、疾患検出のパフォーマンスが向上し、胸部疾患の正確な分類が可能になります。
CXRBase は、モデルのパフォーマンスを向上させ、専門家のアノテーション作業負荷を軽減する汎用化可能なソリューションを提供し、胸部画像からの広範な臨床 AI アプリケーションを可能にします。

要約(オリジナル)

Medical artificial intelligence (AI) is revolutionizing the interpretation of chest X-ray (CXR) images by providing robust tools for disease diagnosis. However, the effectiveness of these AI models is often limited by their reliance on large amounts of task-specific labeled data and their inability to generalize across diverse clinical settings. To address these challenges, we introduce CXRBase, a foundational model designed to learn versatile representations from unlabelled CXR images, facilitating efficient adaptation to various clinical tasks. CXRBase is initially trained on a substantial dataset of 1.04 million unlabelled CXR images using self-supervised learning methods. This approach allows the model to discern meaningful patterns without the need for explicit labels. After this initial phase, CXRBase is fine-tuned with labeled data to enhance its performance in disease detection, enabling accurate classification of chest diseases. CXRBase provides a generalizable solution to improve model performance and alleviate the annotation workload of experts to enable broad clinical AI applications from chest imaging.

arxiv情報

著者 Lijian Xu,Ziyu Ni,Hao Sun,Hongsheng Li,Shaoting Zhang
発行日 2024-10-11 14:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A foundation model for generalizable disease diagnosis in chest X-ray images はコメントを受け付けていません

EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

要約

教師なしドメイン適応は、セマンティック セグメンテーション モデルをデータ分散全体に転送するための効率的なアプローチです。
一方、大規模なビジョン言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット環境で効果的です。
しかしながら、これらの従来の方法は、ビューを横断する幾何学的モデリングが欠如しているため、異なるカメラビューにわたって一般化することができない。
現時点では、クロスビュー学習を分析する研究は限られています。
この問題に対処するために、意味論的シーン理解におけるビュー間の幾何学的構造変化をモデル化する新しい教師なしクロスビュー適応学習アプローチを導入します。
まず、不対データに対する新しいクロスビュー幾何制約を導入して、カメラ全体の画像とセグメンテーション マスクの構造変化をモデル化します。
2 番目に、カメラ ビュー全体の幾何学的構造の変化を効率的に測定するための、新しい測地線フロー ベースの相関メトリックを提示します。
第三に、クロスビュー適応学習におけるオープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するための、新しいビュー条件プロンプトメカニズムを導入します。
さまざまなクロスビュー適応ベンチマークの実験では、クロスビュー モデリングにおける私たちのアプローチの有効性が示され、以前の教師なしドメイン適応やオープン語彙セマンティック セグメンテーション手法と比較して最先端 (SOTA) パフォーマンスを達成できることが実証されました。

要約(オリジナル)

Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.

arxiv情報

著者 Thanh-Dat Truong,Utsav Prabhu,Dongyi Wang,Bhiksha Raj,Susan Gauch,Jeyamkondan Subbiah,Khoa Luu
発行日 2024-10-11 14:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding はコメントを受け付けていません

Fast Feedforward 3D Gaussian Splatting Compression

要約

3D ガウス スプラッティング (3DGS) は、斬新なビュー合成のためのリアルタイムかつ高忠実度のレンダリングを進歩させるため、ストレージ要件がその広範な導入に課題をもたらしています。
さまざまな圧縮技術が提案されていますが、従来技術には共通の制限があります。既存の 3DGS では、圧縮を実現するにはシーンごとの最適化が必要であり、圧縮が遅く遅くなります。
この問題に対処するために、1 回のフィードフォワード パスで 3DGS 表現を迅速に圧縮できる最適化不要のモデルである 3D ガウス スプラッティングの高速圧縮 (FCGS) を導入しました。これにより、圧縮時間が数分から数秒に大幅に短縮されます。
圧縮効率を高めるために、サイズと忠実度のバランスをとるためにガウス属性をさまざまなエントロピー制約パスに割り当てるマルチパス エントロピー モジュールを提案します。
また、非構造化ガウス ブロブ間の冗長性を除去するために、ガウス間コンテキスト モデルとガウス内コンテキスト モデルの両方を慎重に設計します。
全体として、FCGS は忠実度を維持しながら 20 倍を超える圧縮率を達成し、ほとんどのシーンごとの SOTA 最適化ベースの手法を上回ります。
私たちのコードは https://github.com/YihangChen-ee/FCGS で入手できます。

要約(オリジナル)

With 3D Gaussian Splatting (3DGS) advancing real-time and high-fidelity rendering for novel view synthesis, storage requirements pose challenges for their widespread adoption. Although various compression techniques have been proposed, previous art suffers from a common limitation: for any existing 3DGS, per-scene optimization is needed to achieve compression, making the compression sluggish and slow. To address this issue, we introduce Fast Compression of 3D Gaussian Splatting (FCGS), an optimization-free model that can compress 3DGS representations rapidly in a single feed-forward pass, which significantly reduces compression time from minutes to seconds. To enhance compression efficiency, we propose a multi-path entropy module that assigns Gaussian attributes to different entropy constraint paths for balance between size and fidelity. We also carefully design both inter- and intra-Gaussian context models to remove redundancies among the unstructured Gaussian blobs. Overall, FCGS achieves a compression ratio of over 20X while maintaining fidelity, surpassing most per-scene SOTA optimization-based methods. Our code is available at: https://github.com/YihangChen-ee/FCGS.

arxiv情報

著者 Yihang Chen,Qianyi Wu,Mengyao Li,Weiyao Lin,Mehrtash Harandi,Jianfei Cai
発行日 2024-10-11 14:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fast Feedforward 3D Gaussian Splatting Compression はコメントを受け付けていません

Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning

要約

マスクされた自動エンコーディングと生成的事前トレーニングは、コンピューター ビジョンと自然言語処理で目覚ましい成功を収めており、さらに最近では点群ドメインにも拡張されています。
それにもかかわらず、既存の点群モデルは、中心点の事前サンプリングによる情報漏洩の問題を抱えており、これによりモデルの簡単なプロキシ タスクが発生します。
これらのアプローチは主に局所的な特徴の再構成に焦点を当てており、点群内のグローバル パターンをキャプチャする能力が制限されています。
この論文では、口実タスクの難易度の低下により、表現表現を学習するモデルの能力が妨げられると主張します。
これらの制限に対処するために、Differentiable Center Sampling Network (DCS-Net) と呼ばれる新しいソリューションを導入します。
グローバル フィーチャの再構成とローカル フィーチャの再構成の両方を重要なプロキシ タスクとして組み込むことで情報漏洩の問題に取り組み、点群内のグローバル パターンとローカル パターンの両方を同時に学習できるようにします。
実験結果は、私たちの方法が既存の点群モデルの表現能力を強化し、情報漏洩の問題に効果的に対処することを示しています。

要約(オリジナル)

Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model’s capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.

arxiv情報

著者 Zhe Li,Ziyang Zhang,Jinglin Zhao,Zheng Wang,Bocheng Ren,Debin Liu,Laurence T. Yang
発行日 2024-10-11 14:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning はコメントを受け付けていません

Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It

要約

ラベル スムージング (LS) は、テスト精度の向上に効果的であり、実装が簡単であるため、ニューラル ネットワークをトレーニングするための一般的な正則化方法です。
ハード ワンホット ラベルは、確率質量を他のクラスに均一に分配することで平滑化され、過剰適合が軽減されます。
これまでの研究では、場合によっては LS が選択的分類 (SC) を低下させる可能性があることが示唆されており、その目的はモデルの不確実性を使用して誤分類を拒否することです。
この研究では、LS が一貫して SC を低下させることを、広範な大規模タスクおよびアーキテクチャにわたって初めて実証します。
次に、既存の知識のギャップに対処し、ロジットレベルの勾配を分析することでこの動作の説明を提供します。LS は、予測が正しい可能性が高い場合は最大ロジットをより正則化し、そうでない場合は最大ロジットを正規化することにより、正しい予測と誤った予測の不確実性ランク順序を低下させます。
間違いそうなとき。
これは、強力な分類器が SC でパフォーマンスを下回るという以前に報告された実験結果を解明します。
次に、LS によって失われた SC パフォーマンスを回復するための事後ロジット正規化の経験的有効性を実証します。
さらに、勾配解析に戻って、なぜそのような正規化が効果的であるのかについても説明します。

要約(オリジナル)

Label smoothing (LS) is a popular regularisation method for training neural networks as it is effective in improving test accuracy and is simple to implement. Hard one-hot labels are smoothed by uniformly distributing probability mass to other classes, reducing overfitting. Prior work has suggested that in some cases LS can degrade selective classification (SC) — where the aim is to reject misclassifications using a model’s uncertainty. In this work, we first demonstrate empirically across an extended range of large-scale tasks and architectures that LS consistently degrades SC. We then address a gap in existing knowledge, providing an explanation for this behaviour by analysing logit-level gradients: LS degrades the uncertainty rank ordering of correct vs incorrect predictions by regularising the max logit more when a prediction is likely to be correct, and less when it is likely to be wrong. This elucidates previously reported experimental results where strong classifiers underperform in SC. We then demonstrate the empirical effectiveness of post-hoc logit normalisation for recovering lost SC performance caused by LS. Furthermore, linking back to our gradient analysis, we again provide an explanation for why such normalisation is effective.

arxiv情報

著者 Guoxuan Xia,Olivier Laurent,Gianni Franchi,Christos-Savvas Bouganis
発行日 2024-10-11 14:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It はコメントを受け付けていません

Multi-modal Fusion based Q-distribution Prediction for Controlled Nuclear Fusion

要約

Q 分布予測は制御核融合における重要な研究の方向性であり、予測の課題を解決するための重要なアプローチとしてディープラーニングが台頭しています。
この論文では、深層学習技術を活用して、Q 分布予測の複雑さに取り組みます。
具体的には、2D ライン画像データを元の 1D データと統合してバイモーダル入力を形成する、コンピューター ビジョンにおけるマルチモーダル フュージョン手法を研究します。
さらに、特徴抽出とバイモーダル情報のインタラクティブな融合のために、Transformer のアテンション メカニズムを採用しています。
広範な実験により、私たちのアプローチの有効性が検証され、Q 分布の予測誤差が大幅に減少しました。

要約(オリジナル)

Q-distribution prediction is a crucial research direction in controlled nuclear fusion, with deep learning emerging as a key approach to solving prediction challenges. In this paper, we leverage deep learning techniques to tackle the complexities of Q-distribution prediction. Specifically, we explore multimodal fusion methods in computer vision, integrating 2D line image data with the original 1D data to form a bimodal input. Additionally, we employ the Transformer’s attention mechanism for feature extraction and the interactive fusion of bimodal information. Extensive experiments validate the effectiveness of our approach, significantly reducing prediction errors in Q-distribution.

arxiv情報

著者 Shiao Wang,Yifeng Wang,Qingchuan Ma,Xiao Wang,Ning Yan,Qingquan Yang,Guosheng Xu,Jin Tang
発行日 2024-10-11 14:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-modal Fusion based Q-distribution Prediction for Controlled Nuclear Fusion はコメントを受け付けていません