Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology

要約

この論文では、基礎ビジョン言語モデル(VLM)とスライドレベルの迅速な学習を利用することにより、組織病理学全体のスライド画像(WSI)における少数のショット分類の課題に対処します。
WSIのギガピクセルスケールを考えると、従来の複数インスタンス学習(MIL)メソッドは集約関数に依存して、トレーニングに広範なバッグレベルのラベルが必要なパッチ表現からスライドレベル(バッグレベル)予測を導き出します。
対照的に、VLMベースのアプローチは、パッチの視覚的な埋め込みを候補クラスのテキストプロンプトと整合させることに優れていますが、本質的な病理学的事前知識がありません。
私たちの方法は、言語モデルから病理学的事前知識を利用して、WSI分類のための重要な局所組織タイプ(パッチ)を特定し、VLMベースのMILフレームワーク内に統合することにより、それ自体を区別します。
当社のアプローチは、パッチ画像を組織タイプに効果的に揃えており、カテゴリごとにいくつかのラベル付けされたWSIのみを使用して、迅速な学習を介してモデルを微調整します。
実際の病理学的WSIデータセットとアブレーション研究に関する実験は、少ないショットWSI分類タスクでの既存のMILおよびVLMベースの方法よりも優れたパフォーマンスを強調しています。
私たちのコードは、https://github.com/lts5/slipで公開されています。

要約(オリジナル)

In this paper, we address the challenge of few-shot classification in histopathology whole slide images (WSIs) by utilizing foundational vision-language models (VLMs) and slide-level prompt learning. Given the gigapixel scale of WSIs, conventional multiple instance learning (MIL) methods rely on aggregation functions to derive slide-level (bag-level) predictions from patch representations, which require extensive bag-level labels for training. In contrast, VLM-based approaches excel at aligning visual embeddings of patches with candidate class text prompts but lack essential pathological prior knowledge. Our method distinguishes itself by utilizing pathological prior knowledge from language models to identify crucial local tissue types (patches) for WSI classification, integrating this within a VLM-based MIL framework. Our approach effectively aligns patch images with tissue types, and we fine-tune our model via prompt learning using only a few labeled WSIs per category. Experimentation on real-world pathological WSI datasets and ablation studies highlight our method’s superior performance over existing MIL- and VLM-based methods in few-shot WSI classification tasks. Our code is publicly available at https://github.com/LTS5/SLIP.

arxiv情報

著者 Devavrat Tomar,Guillaume Vray,Dwarikanath Mahapatra,Sudipta Roy,Jean-Philippe Thiran,Behzad Bozorgtabar
発行日 2025-03-21 15:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology はコメントを受け付けていません

RadioActive: 3D Radiological Interactive Segmentation Benchmark

要約

臨床医の努力を最小限に抑えた楽で正確なセグメンテーションは、臨床ワークフローを大幅に合理化できます。
Metasセグメントに触発された最近のインタラクティブセグメンテーションモデルは、3D放射線学の重要な制限に直面していますが、大きな進歩を遂げました。
これらには、3Dデータ上の2Dモデルのスライスごとの操作や反復改良の欠如など、非実用的な人間の相互作用要件が含まれます。
不十分な評価プロトコルによって以前の研究が妨げられており、その結果、信頼できないパフォーマンス評価と研究全体の一貫性のない結果が生じています。
放射性ベンチマークは、臨床的に関連するシナリオでインタラクティブなセグメンテーション方法の厳密で再現可能な評価フレームワークを提供することにより、これらの課題に対処します。
多様なデータセット、幅広いターゲット構造、および最もインパクトのある2Dおよび3Dインタラクティブセグメンテーション方法を備えており、すべて柔軟で拡張可能なコードベース内にあります。
また、相互作用ステップを削減し、2Dモデルと3Dモデル間の公正な比較を可能にする高度なプロンプト技術も導入します。
驚くべきことに、SAM2は、3Dボリュームのプロンプトを生成するためにいくつかの相互作用のみを必要とする設定で、すべての専門的な医療2Dおよび3Dモデルよりも優れています。
この課題は一般的な仮定に挑戦し、汎用モデルが特殊な医療アプローチを上回ることを示しています。
オープンソーシング放射能により、研究者にモデルの統合とプロンプトテクニックを統合し、3D医療インタラクティブモデルの継続的かつ透明な評価を確保するよう招待します。

要約(オリジナル)

Effortless and precise segmentation with minimal clinician effort could greatly streamline clinical workflows. Recent interactive segmentation models, inspired by METAs Segment Anything, have made significant progress but face critical limitations in 3D radiology. These include impractical human interaction requirements such as slice-by-slice operations for 2D models on 3D data and a lack of iterative refinement. Prior studies have been hindered by inadequate evaluation protocols, resulting in unreliable performance assessments and inconsistent findings across studies. The RadioActive benchmark addresses these challenges by providing a rigorous and reproducible evaluation framework for interactive segmentation methods in clinically relevant scenarios. It features diverse datasets, a wide range of target structures, and the most impactful 2D and 3D interactive segmentation methods, all within a flexible and extensible codebase. We also introduce advanced prompting techniques that reduce interaction steps, enabling fair comparisons between 2D and 3D models. Surprisingly, SAM2 outperforms all specialized medical 2D and 3D models in a setting requiring only a few interactions to generate prompts for a 3D volume. This challenges prevailing assumptions and demonstrates that general-purpose models surpass specialized medical approaches. By open-sourcing RadioActive, we invite researchers to integrate their models and prompting techniques, ensuring continuous and transparent evaluation of 3D medical interactive models.

arxiv情報

著者 Constantin Ulrich,Tassilo Wald,Emily Tempus,Maximilian Rokuss,Paul F. Jaeger,Klaus Maier-Hein
発行日 2025-03-21 15:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | RadioActive: 3D Radiological Interactive Segmentation Benchmark はコメントを受け付けていません

Deep End-to-End Posterior ENergy (DEEPEN) for image recovery

要約

現在のエンドツーエンド(E2E)およびプラグアンドプレイ(PNP)画像再構成アルゴリズムは、事後(MAP)推定値を概算しますが、拡散モデルのような後部分布からサンプリングを提供することはできません。
対照的に、拡散モデルがE2Eファッションで訓練されることは困難です。
このペーパーでは、地図の推定とサンプリングを可能にする深いエンドツーエンドの後部エネルギー(深い)フレームワークを紹介します。
E2Eファッションでの最尤最適化を使用して、データの一貫性エラーと負の対数分布の合計である後部のパラメーターを学習します。
提案されたアプローチでは、アルゴリズムの展開を必要とせず、したがって、現在のE2Eメソッドよりも計算およびメモリのフットプリントが小さくなりますが、現在のPNPメソッドで通常必要な収縮制約は必要ありません。
我々の結果は、Deepenがマップ設定の現在のE2EおよびPNPモデルよりも改善されたパフォーマンスを提供することを示していますが、拡散モデルと比較してより速いサンプリングも提供します。
さらに、学習したエネルギーベースのモデルは、画像取得設定の変化により堅牢であることが観察されます。

要約(オリジナル)

Current end-to-end (E2E) and plug-and-play (PnP) image reconstruction algorithms approximate the maximum a posteriori (MAP) estimate but cannot offer sampling from the posterior distribution, like diffusion models. By contrast, it is challenging for diffusion models to be trained in an E2E fashion. This paper introduces a Deep End-to-End Posterior ENergy (DEEPEN) framework, which enables MAP estimation as well as sampling. We learn the parameters of the posterior, which is the sum of the data consistency error and the negative log-prior distribution, using maximum likelihood optimization in an E2E fashion. The proposed approach does not require algorithm unrolling, and hence has a smaller computational and memory footprint than current E2E methods, while it does not require contraction constraints typically needed by current PnP methods. Our results demonstrate that DEEPEN offers improved performance than current E2E and PnP models in the MAP setting, while it also offers faster sampling compared to diffusion models. In addition, the learned energy-based model is observed to be more robust to changes in image acquisition settings.

arxiv情報

著者 Jyothi Rikhab Chand,Mathews Jacob
発行日 2025-03-21 15:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Deep End-to-End Posterior ENergy (DEEPEN) for image recovery はコメントを受け付けていません

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

要約

オブジェクト幻覚(OH)は、大規模な視覚言語モデル(LVLMS)における主要な信頼できる課題の1つとして認められています。
大規模な言語モデル(LLMS)の最近の進歩は、隠された状態などの内部状態が生成された応答の「全体的な真実性」をエンコードすることを示しています。
ただし、LVLMSの内部状態がどのように機能するか、およびそれらが「トークンあたりの」幻覚指標として機能することができるかどうかは、OHを緩和するために不可欠であるかどうかを推奨していないままです。
この論文では、まずOHの問題に関連してLVLM内部状態の詳細な調査を実施し、(1)LVLM内部状態が幻覚行動のトークンあたりの高特性であることを発見します。
さらに、(2)異なるLVLMSは、一般的な潜在サブスペースの幻覚の普遍的なパターンをエンコードし、さまざまなLVLMが共有する「一般的な真実の方向」が存在することを示しています。
これらの発見に基づいて、LVLMデコードの真実の方向を最初に学習し、次にLVLMデコード中に真実のガイド付き推論時間介入を適用する真実の誘導前介入(TruthPrint)を提案します。
さらに、Comnhalluを提案して、幻覚の潜在サブスペースを構築および整列させることにより、クロスLVLMとクロスダータの幻覚検出移動性の両方を強化します。
人気のあるLVLMSおよびOHベンチマークよりも、ドメイン内およびドメイン外のシナリオを含む広範な実験設定でTruthPrintを評価します。
実験結果は、TruthPrintが最新の方法よりも大幅に優れていることを示しています。
コードはhttps://github.com/jinhaoduan/truthprintで入手できます。

要約(オリジナル)

Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the ‘overall truthfulness’ of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as ‘per-token’ hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist ‘generic truthful directions’ shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.

arxiv情報

著者 Jinhao Duan,Fei Kong,Hao Cheng,James Diffenderfer,Bhavya Kailkhura,Lichao Sun,Xiaofeng Zhu,Xiaoshuang Shi,Kaidi Xu
発行日 2025-03-21 15:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention はコメントを受け付けていません

Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images

要約

肺がんは、世界的に癌関連の死亡の主な原因です。
PET-CTは、肺腫瘍のイメージングに不可欠であり、不可欠な代謝および解剖学的情報を提供しますが、画質の低下、モーションアーティファクト、複雑な腫瘍形態などの課題に直面しています。
深い学習ベースのモデルはこれらの問題に対処することが期待されていますが、既存の小規模およびプライベートデータセットは、これらの方法の大幅なパフォーマンスの改善を制限します。
したがって、605人の患者からの21,930ペアのPET-CT画像で構成されるPCLT20Kと呼ばれる大規模なPET-CT肺腫瘍セグメンテーションデータセットを導入します。
さらに、PET-CT画像の肺腫瘍のセグメンテーションのために、Mamba(CIPA)とのクロスモーダルインタラクティブな知覚ネットワークを提案します。
具体的には、相関表現を学習し、モダリティ固有のノイズを除外するのに役立つマルチモーダル機能全体にチャネル状態空間ブロックを実装するチャネルごとの修正モジュール(CRM)を設計します。
動的なクロスモダリティインタラクションモジュール(DCIM)は、ポジションとコンテキスト情報を効果的に統合するように設計されています。これは、PET画像を使用して地域の位置情報を学習し、CT画像のローカルな特徴のモデル化を支援するブリッジとして機能します。
包括的なベンチマークでの広範な実験は、現在の最先端のセグメンテーション方法と比較して、CIPAの有効性を示しています。
私たちの研究が、医療画像のセグメンテーションのためのより多くの探査の機会を提供できることを願っています。
データセットとコードはhttps://github.com/mj129/cipaで入手できます。

要約(オリジナル)

Lung cancer is a leading cause of cancer-related deaths globally. PET-CT is crucial for imaging lung tumors, providing essential metabolic and anatomical information, while it faces challenges such as poor image quality, motion artifacts, and complex tumor morphology. Deep learning-based models are expected to address these problems, however, existing small-scale and private datasets limit significant performance improvements for these methods. Hence, we introduce a large-scale PET-CT lung tumor segmentation dataset, termed PCLT20K, which comprises 21,930 pairs of PET-CT images from 605 patients. Furthermore, we propose a cross-modal interactive perception network with Mamba (CIPA) for lung tumor segmentation in PET-CT images. Specifically, we design a channel-wise rectification module (CRM) that implements a channel state space block across multi-modal features to learn correlated representations and helps filter out modality-specific noise. A dynamic cross-modality interaction module (DCIM) is designed to effectively integrate position and context information, which employs PET images to learn regional position information and serves as a bridge to assist in modeling the relationships between local features of CT images. Extensive experiments on a comprehensive benchmark demonstrate the effectiveness of our CIPA compared to the current state-of-the-art segmentation methods. We hope our research can provide more exploration opportunities for medical image segmentation. The dataset and code are available at https://github.com/mj129/CIPA.

arxiv情報

著者 Jie Mei,Chenyu Lin,Yu Qiu,Yaonan Wang,Hui Zhang,Ziyang Wang,Dong Dai
発行日 2025-03-21 16:04:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Cross-Modal Interactive Perception Network with Mamba for Lung Tumor Segmentation in PET-CT Images はコメントを受け付けていません

Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras

要約

イベントカメラは、シーンの外観に関する情報を取得するために動きに依存しています。
言い換えれば、イベントカメラの場合、出力イベントストリームでエンコードされているモーションと外観の両方が見られます。
以前の研究では、これらの2つの視覚量を個別のタスクとして回復することを検討します。これは、イベントカメラの性質に適合せず、両方のタスク間の固有の関係を無視します。
この論文では、単一のネットワークを使用して、光の流れ(動き)と画像強度(外観)を共同で推定する監視されていない学習フレームワークを提案します。
イベント生成モデルから始めて、イベントベースの測光誤差を光学フローと画像強度の関数として導き出します。これは、コントラストの最大化フレームワークとさらに組み合わせて、流れと強度の推定の両方に適切な制約を提供する包括的な損失関数を生成します。
徹底的な実験では、私たちのモデルが光学フロー(監視されていない学習カテゴリでそれぞれ20%と25%の改善を達成します)および強度推定(特に高ダイナミックレンジシナリオで他のベースラインと競合結果を生成する)の両方で最先端のパフォーマンスを達成することが示されています。
最後になりましたが、私たちのモデルは、他のすべての光フローモデルおよび多くの画像再構成モデ​​ルよりも短い推論時間を達成しますが、それらは1つの数量のみを出力します。
プロジェクトページ:https://github.com/tub-rip/e2fai

要約(オリジナル)

Event cameras rely on motion to obtain information about scene appearance. In other words, for event cameras, motion and appearance are seen both or neither, which are encoded in the output event stream. Previous works consider recovering these two visual quantities as separate tasks, which does not fit with the nature of event cameras and neglects the inherent relations between both tasks. In this paper, we propose an unsupervised learning framework that jointly estimates optical flow (motion) and image intensity (appearance), with a single network. Starting from the event generation model, we newly derive the event-based photometric error as a function of optical flow and image intensity, which is further combined with the contrast maximization framework, yielding a comprehensive loss function that provides proper constraints for both flow and intensity estimation. Exhaustive experiments show that our model achieves state-of-the-art performance for both optical flow (achieves 20% and 25% improvement in EPE and AE respectively in the unsupervised learning category) and intensity estimation (produces competitive results with other baselines, particularly in high dynamic range scenarios). Last but not least, our model achieves shorter inference time than all the other optical flow models and many of the image reconstruction models, while they output only one quantity. Project page: https://github.com/tub-rip/e2fai

arxiv情報

著者 Shuang Guo,Friedhelm Hamann,Guillermo Gallego
発行日 2025-03-21 16:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Unsupervised Joint Learning of Optical Flow and Intensity with Event Cameras はコメントを受け付けていません

Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment

要約

人間は、人間のポーズ関連の手がかりを使用して、瞬間的な観察から将来の人間の軌跡を予測することができます。
ただし、以前のヒト軌道予測(HTP)メソッドは、ポーズキューを暗黙的に活用して、信じがたい予測をもたらします。
これに対処するために、物理学の法則に基づく移動生成による予測される軌道の物理的妥当性を明示的に評価するフレームワークである移動具体化を提案します。
移動の妥当性は無関心な物理シミュレーターで学習されますが、データ駆動型の方法でHTPネットワークをトレーニングするために、微分可能な移動値関数に置き換えられます。
特に、提案された具体化された移動損失は、複数のヘッドを使用して確率的HTPネットワークを効率的にトレーニングするために有益です。
さらに、推論時に信じられない軌跡を除外するために、移動値フィルターが提案されています。
実験は、私たちの方法が、多様なデータセットや問題設定にわたって最先端のHTPメソッドさえも強化することを示しています。
私たちのコードは、https://github.com/iminthemiddle/emlocoで入手できます。

要約(オリジナル)

Humans can predict future human trajectories even from momentary observations by using human pose-related cues. However, previous Human Trajectory Prediction (HTP) methods leverage the pose cues implicitly, resulting in implausible predictions. To address this, we propose Locomotion Embodiment, a framework that explicitly evaluates the physical plausibility of the predicted trajectory by locomotion generation under the laws of physics. While the plausibility of locomotion is learned with an indifferentiable physics simulator, it is replaced by our differentiable Locomotion Value function to train an HTP network in a data-driven manner. In particular, our proposed Embodied Locomotion loss is beneficial for efficiently training a stochastic HTP network using multiple heads. Furthermore, the Locomotion Value filter is proposed to filter out implausible trajectories at inference. Experiments demonstrate that our method enhances even the state-of-the-art HTP methods across diverse datasets and problem settings. Our code is available at: https://github.com/ImIntheMiddle/EmLoco.

arxiv情報

著者 Hiromu Taketsugu,Takeru Oba,Takahiro Maeda,Shohei Nobuhara,Norimichi Ukita
発行日 2025-03-21 16:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment はコメントを受け付けていません

Recovering Pulse Waves from Video Using Deep Unrolling and Deep Equilibrium Models

要約

イメージングフォトプレチスモグラフィ(IPPG)とも呼ばれるバイタルサインのカメラベースの監視では、ドライバーモニタリング、外科的設定での灌流評価、感情コンピューティングなどの用途があります。
IPPGは、皮膚のビデオから基礎となる心臓パルスを検知し、心拍数や完全なパルス波形などのバイタルサインを推定することを伴います。
以前のIPPGメソッドの中には、パルス信号にモデルベースのスパースプリエを課し、パルス波の回復に反復的最適化を使用しますが、他の方法はエンドツーエンドのブラックボックスディープラーニング方法を使用します。
対照的に、逆の問題フレームワークで信号処理と深い学習方法を組み合わせた方法を紹介します。
私たちの方法では、深いアルゴリズムの展開と深い平衡モデルを活用する深いネットワークベースの除去演算子を学習することにより、顔のビデオからの基礎となるパルス信号と心拍数を推定します。
実験では、私たちの方法が顔から取得した信号を除去し、正しい基礎となるパルス速度を推測し、有名なベンチマークで最先端の心拍数推定パフォーマンスを達成することができることを示しています。

要約(オリジナル)

Camera-based monitoring of vital signs, also known as imaging photoplethysmography (iPPG), has seen applications in driver-monitoring, perfusion assessment in surgical settings, affective computing, and more. iPPG involves sensing the underlying cardiac pulse from video of the skin and estimating vital signs such as the heart rate or a full pulse waveform. Some previous iPPG methods impose model-based sparse priors on the pulse signals and use iterative optimization for pulse wave recovery, while others use end-to-end black-box deep learning methods. In contrast, we introduce methods that combine signal processing and deep learning methods in an inverse problem framework. Our methods estimate the underlying pulse signal and heart rate from facial video by learning deep-network-based denoising operators that leverage deep algorithm unfolding and deep equilibrium models. Experiments show that our methods can denoise an acquired signal from the face and infer the correct underlying pulse rate, achieving state-of-the-art heart rate estimation performance on well-known benchmarks, all with less than one-fifth the number of learnable parameters as the closest competing method.

arxiv情報

著者 Vineet R Shenoy,Suhas Lohit,Hassan Mansour,Rama Chellappa,Tim K. Marks
発行日 2025-03-21 16:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Recovering Pulse Waves from Video Using Deep Unrolling and Deep Equilibrium Models はコメントを受け付けていません

ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation

要約

具体化されたAI、仮想現実、およびロボット工学のアプリケーションには、人間のシーン相互作用(HSI)生成が重要です。
しかし、既存の方法は、ペアの3Dシーンに依存し、目に見えない環境では利用できないトレーニングのために人間のモーションデータをキャプチャしているため、野生のシーンや再構築されたシーンなどの目に見えない環境での相互作用を合成することはできません。
ZeroHSIは、ゼロショット4Dヒトシーン相互作用合成を可能にする新しいアプローチを提示し、MOCAPデータのトレーニングの必要性を排除します。
私たちの重要な洞察は、膨大な量の自然な人間の動きと相互作用について訓練された最先端のビデオ生成モデルから人間のシーンの相互作用を蒸留し、微分可能なレンダリングを使用して人間のシーンの相互作用を再構築することです。
ZeroHSIは、地上の真実のモーションデータを必要とせずに、動的なオブジェクトを使用して、静的シーンと環境の両方で現実的な人間の動きを合成できます。
さまざまな相互作用プロンプトを持つさまざまな種類のさまざまな屋内および屋外シーンのキュレーションされたデータセットでZeroHSIを評価し、多様で文脈的に適切なヒューマンシーン相互作用を生成する能力を示しています。

要約(オリジナル)

Human-scene interaction (HSI) generation is crucial for applications in embodied AI, virtual reality, and robotics. Yet, existing methods cannot synthesize interactions in unseen environments such as in-the-wild scenes or reconstructed scenes, as they rely on paired 3D scenes and captured human motion data for training, which are unavailable for unseen environments. We present ZeroHSI, a novel approach that enables zero-shot 4D human-scene interaction synthesis, eliminating the need for training on any MoCap data. Our key insight is to distill human-scene interactions from state-of-the-art video generation models, which have been trained on vast amounts of natural human movements and interactions, and use differentiable rendering to reconstruct human-scene interactions. ZeroHSI can synthesize realistic human motions in both static scenes and environments with dynamic objects, without requiring any ground-truth motion data. We evaluate ZeroHSI on a curated dataset of different types of various indoor and outdoor scenes with different interaction prompts, demonstrating its ability to generate diverse and contextually appropriate human-scene interactions.

arxiv情報

著者 Hongjie Li,Hong-Xing Yu,Jiaman Li,Jiajun Wu
発行日 2025-03-21 16:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation はコメントを受け付けていません

Vision Transformer Based Semantic Communications for Next Generation Wireless Networks

要約

6Gネットワ​​ークの進化する景観では、セマンティックコミュニケーションは、生データの精度よりもセマンティックな意味の送信に優先順位を付けることにより、データの伝送に革命をもたらす態勢が整っています。
このペーパーでは、帯域幅の需要を最小限に抑えながら、画像伝送中に高いセマンティックの類似性を実現するように意図的に設計されたビジョントランス(VIT)ベースのセマンティック通信フレームワークを紹介します。
VITをエンコーダデコーダーフレームワークに装備することにより、提案されたアーキテクチャは、画像をトランスミッタで高セマンティックコンテンツに専門的にエンコードし、レシーバーでの現実世界のフェードとノイズの配慮を考慮して、画像を正確に再構築できます。
VITSに固有の注意メカニズムに基づいて、私たちのモデルは、そのような画像を生成するために調整された畳み込みニューラルネットワーク(CNNS)と生成的敵対的ネットワーク(GAN)よりも優れています。
提案されたVITネットワークに基づくアーキテクチャは、38 dBのピーク信号対雑音比(PSNR)を達成します。これは、異なる通信環境でセマンティックな類似性を維持するために他のディープラーニング(DL)アプローチよりも高いです。
これらの調査結果は、セマンティックコミュニケーションの重要なブレークスルーとして、VITベースのアプローチを確立しています。

要約(オリジナル)

In the evolving landscape of 6G networks, semantic communications are poised to revolutionize data transmission by prioritizing the transmission of semantic meaning over raw data accuracy. This paper presents a Vision Transformer (ViT)-based semantic communication framework that has been deliberately designed to achieve high semantic similarity during image transmission while simultaneously minimizing the demand for bandwidth. By equipping ViT as the encoder-decoder framework, the proposed architecture can proficiently encode images into a high semantic content at the transmitter and precisely reconstruct the images, considering real-world fading and noise consideration at the receiver. Building on the attention mechanisms inherent to ViTs, our model outperforms Convolution Neural Network (CNNs) and Generative Adversarial Networks (GANs) tailored for generating such images. The architecture based on the proposed ViT network achieves the Peak Signal-to-noise Ratio (PSNR) of 38 dB, which is higher than other Deep Learning (DL) approaches in maintaining semantic similarity across different communication environments. These findings establish our ViT-based approach as a significant breakthrough in semantic communications.

arxiv情報

著者 Muhammad Ahmed Mohsin,Muhammad Jazib,Zeeshan Alam,Muhmmad Farhan Khan,Muhammad Saad,Muhammad Ali Jamshed
発行日 2025-03-21 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, eess.SP | Vision Transformer Based Semantic Communications for Next Generation Wireless Networks はコメントを受け付けていません