Towards a deep learning approach for classifying treatment response in glioblastomas

要約

膠芽腫は、最も攻撃的なタイプの神経膠腫であり、5年生存率は6.9%です。
通常、治療には手術が含まれ、その後、放射線療法と化学療法、および頻繁な磁気共鳴画像診断(MRI)スキャンが疾患の進行を監視します。
治療反応を評価するために、放射線科医は神経腫瘍学(RANO)基準の反応評価を使用して、腫瘍をイメージングと臨床的特徴に基づいて4つのラベルのいずれかに分類します:完全な反応、部分反応、安定した疾患、進行性疾患。
この評価は非常に複雑で時間がかかります。
Deep Learning(DL)は分類の問題に取り組むために広く使用されているため、この作業は、2つの連続したMRI取得に基づいてRano基準の分類のための最初のDLパイプラインを実装することを目的としています。
モデルは、オープンデータセットLumiereでトレーニングおよびテストされました。
5つのアプローチがテストされました。1)入力画像の減算、2)モダリティの異なる組み合わせ、3)異なるモデルアーキテクチャ、4)異なる前登録タスク、5)臨床データの追加。
最高のパフォーマンスを達成したパイプラインは、T1強調、T2強調、および流体減衰反転回復(Flair)画像のみを事前削減なしで入力として考慮して、Densenet264を使用しました。
50.96%のバランスの良い精度の中央値が達成されました。
さらに、説明可能性の方法が適用されました。
顕著性マップを使用して、腫瘍領域はしばしば首尾よく強調されました。
対照的に、GRAD-CAMは通常、腫瘍領域を強調することができませんでしたが、いくつかの例外は完全な反応と進行性疾患のクラスで観察され、腫瘍領域を効果的に特定しました。
これらの結果は、腫瘍に対する治療に対する反応を評価する際に役割を果たす可能性のある要因の不均一性を強調しながら、ラノの基準に基づいた膠芽腫治療反応評価に関する将来の研究のベンチマークを設定しました。

要約(オリジナル)

Glioblastomas are the most aggressive type of glioma, having a 5-year survival rate of 6.9%. Treatment typically involves surgery, followed by radiotherapy and chemotherapy, and frequent magnetic resonance imaging (MRI) scans to monitor disease progression. To assess treatment response, radiologists use the Response Assessment in Neuro-Oncology (RANO) criteria to categorize the tumor into one of four labels based on imaging and clinical features: complete response, partial response, stable disease, and progressive disease. This assessment is very complex and time-consuming. Since deep learning (DL) has been widely used to tackle classification problems, this work aimed to implement the first DL pipeline for the classification of RANO criteria based on two consecutive MRI acquisitions. The models were trained and tested on the open dataset LUMIERE. Five approaches were tested: 1) subtraction of input images, 2) different combinations of modalities, 3) different model architectures, 4) different pretraining tasks, and 5) adding clinical data. The pipeline that achieved the best performance used a Densenet264 considering only T1-weighted, T2-weighted, and Fluid Attenuated Inversion Recovery (FLAIR) images as input without any pretraining. A median Balanced Accuracy of 50.96% was achieved. Additionally, explainability methods were applied. Using Saliency Maps, the tumor region was often successfully highlighted. In contrast, Grad-CAM typically failed to highlight the tumor region, with some exceptions observed in the Complete Response and Progressive Disease classes, where it effectively identified the tumor region. These results set a benchmark for future studies on glioblastoma treatment response assessment based on the RANO criteria while emphasizing the heterogeneity of factors that might play a role when assessing the tumor’s response to treatment.

arxiv情報

著者 Ana Matoso,Catarina Passarinho,Marta P. Loureiro,José Maria Moreira,Patrícia Figueiredo,Rita G. Nunes
発行日 2025-04-25 11:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Towards a deep learning approach for classifying treatment response in glioblastomas はコメントを受け付けていません

TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation

要約

特定のエンティティを含むプロンプトから画像を生成するには、モデルができるだけ多くのエンティティ固有の知識を保持する必要があります。
ただし、そのような知識を完全に記憶することは、膨大な数のエンティティとその継続的な出現により非現実的です。
これに対処するために、プロンプトに含まれるエンティティに関する知識を増強し、大規模な言語モデル(LLMS)を使用して拡張された説明を要約して、より長い入力からのパフォーマンスの低下を緩和するために、エンティティプロンプトの精密化(TextTiger)を備えたテキストベースのインテリジェントジェネレーションを提案します。
この方法を評価するために、キャプション、画像、エンティティリストを含むデータセットであるWit-Cub(キャプションと複雑な背景概要を備えたWIT)を紹介します。
4つの画像生成モデルと5つのLLMの実験により、Texttigerはキャプションのみのプロンプトと比較して標準メトリック(IS、FID、およびClipscore)の画像生成パフォーマンスを改善することが示されています。
さらに、複数のアノテーターの評価により、要約された説明がより有益であり、簡潔でありながら豊富な説明を生成するLLMの能力を検証することが確認されています。
これらの調査結果は、拡張および要約されたエンティティ関連の説明を伴う精製プロンプトが画像生成機能を高めることを示しています。
コードとデータセットは、受け入れられると利用可能になります。

要約(オリジナル)

Generating images from prompts containing specific entities requires models to retain as much entity-specific knowledge as possible. However, fully memorizing such knowledge is impractical due to the vast number of entities and their continuous emergence. To address this, we propose Text-based Intelligent Generation with Entity prompt Refinement (TextTIGER), which augments knowledge on entities included in the prompts and then summarizes the augmented descriptions using Large Language Models (LLMs) to mitigate performance degradation from longer inputs. To evaluate our method, we introduce WiT-Cub (WiT with Captions and Uncomplicated Background-explanations), a dataset comprising captions, images, and an entity list. Experiments on four image generation models and five LLMs show that TextTIGER improves image generation performance in standard metrics (IS, FID, and CLIPScore) compared to caption-only prompts. Additionally, multiple annotators’ evaluation confirms that the summarized descriptions are more informative, validating LLMs’ ability to generate concise yet rich descriptions. These findings demonstrate that refining prompts with augmented and summarized entity-related descriptions enhances image generation capabilities. The code and dataset will be available upon acceptance.

arxiv情報

著者 Shintaro Ozaki,Kazuki Hayashi,Yusuke Sakai,Jingun Kwon,Hidetaka Kamigaito,Katsuhiko Hayashi,Manabu Okumura,Taro Watanabe
発行日 2025-04-25 11:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation はコメントを受け付けていません

All for One, and One for All: UrbanSyn Dataset, the third Musketeer of Synthetic Driving Scenes

要約

urbansynを紹介します。これは、半プロセッドで生成された合成都市駆動シナリオを通じて取得したフォトリアリスティックなデータセットです。
高品質のジオメトリと材料を使用して開発されたUrbansynは、深さ、セマンティックセグメンテーション、オブジェクトの境界ボックスと閉塞度を備えたインスタンスセグメンテーションなど、ピクセルレベルのグラウンドトゥルースを提供します。
GTAVとSynscapesのデータセットを補完して、「3人の銃士」としてコインするものを形成します。
画像セマンティックセグメンテーションのための監視されていないドメイン適応における3人の銃士の価値を示します。
現実世界のデータセット、都市の景観、Mapillary Vistas、およびBDD100Kの結果は、主にUrbansynに起因する新しいベンチマークを確立します。
Urbansynをオープンで自由にアクセスできるようにします(www.urbansyn.org)。

要約(オリジナル)

We introduce UrbanSyn, a photorealistic dataset acquired through semi-procedurally generated synthetic urban driving scenarios. Developed using high-quality geometry and materials, UrbanSyn provides pixel-level ground truth, including depth, semantic segmentation, and instance segmentation with object bounding boxes and occlusion degree. It complements GTAV and Synscapes datasets to form what we coin as the ‘Three Musketeers’. We demonstrate the value of the Three Musketeers in unsupervised domain adaptation for image semantic segmentation. Results on real-world datasets, Cityscapes, Mapillary Vistas, and BDD100K, establish new benchmarks, largely attributed to UrbanSyn. We make UrbanSyn openly and freely accessible (www.urbansyn.org).

arxiv情報

著者 Jose L. Gómez,Manuel Silva,Antonio Seoane,Agnès Borrás,Mario Noriega,Germán Ros,Jose A. Iglesias-Guitian,Antonio M. López
発行日 2025-04-25 11:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | All for One, and One for All: UrbanSyn Dataset, the third Musketeer of Synthetic Driving Scenes はコメントを受け付けていません

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

要約

最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げました。
ただし、既存のアプローチは、単一クラスのオーディオから画像の生成に焦点を当てており、混合オーディオから画像を生成できません。
これに対処するために、Soundscapes(複数のクラスを含む混合オーディオ)から画像を生成するためのオーディオビジュアル生成および分離モデル(AV-GAS)を提案します。
私たちの貢献は3つあります。まず、マルチクラスのオーディオ入力を与えられた画像を生成するというオーディオビジュアル生成タスクで新しい課題を提案し、オーディオビジュアルセパレーターを使用してこのタスクを解決する方法を提案します。
次に、新しいオーディオ視聴覚分離タスクを紹介します。これには、混合オーディオ入力に存在する各クラスに個別の画像を生成することが含まれます。
最後に、視聴覚生成タスクの新しい評価メトリックを提案します:クラス表現スコア(CRS)およびA Modified R@K。
私たちのモデルは、vggsoundデータセットでトレーニングおよび評価されています。
私たちの方法は、混合オーディオでもっともらしい画像を生成する際に、最先端の最先端を上回ることを示しています。

要約(オリジナル)

Recent audio-visual generative models have made substantial progress in generating images from audio. However, existing approaches focus on generating images from single-class audio and fail to generate images from mixed audio. To address this, we propose an Audio-Visual Generation and Separation model (AV-GAS) for generating images from soundscapes (mixed audio containing multiple classes). Our contribution is threefold: First, we propose a new challenge in the audio-visual generation task, which is to generate an image given a multi-class audio input, and we propose a method that solves this task using an audio-visual separator. Second, we introduce a new audio-visual separation task, which involves generating separate images for each class present in a mixed audio input. Lastly, we propose new evaluation metrics for the audio-visual generation task: Class Representation Score (CRS) and a modified R@K. Our model is trained and evaluated on the VGGSound dataset. We show that our method outperforms the state-of-the-art, achieving 7% higher CRS and 4% higher R@2* in generating plausible images with mixed audio.

arxiv情報

著者 Minjae Kang,Martim Brandão
発行日 2025-04-25 11:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator はコメントを受け付けていません

Enhancing Long-Term Re-Identification Robustness Using Synthetic Data: A Comparative Analysis

要約

この貢献は、合成トレーニングデータの使用の影響と、再識別の文脈における材料摩耗と老化の予測の影響を調査します。
さまざまな実験セットアップとギャラリーセットの拡張戦略がテストされ、老化の再識別対象の時間の経過に伴うパフォーマンスへの影響を分析します。
継続的に更新されるギャラリーを使用して、材料の老化が段階的に考慮されたため、平均ランク1の精度を24%増加させることができました。
さらに、10%の人工トレーニングデータでトレーニングされたモデルを使用して、実世界のデータのみでトレーニングされたモデルと比較して、ランク1の精度を最大13%増加させることができ、ホールドアウトデータの一般化されたパフォーマンスが大幅に向上します。
最後に、この作品では、小説のオープンソースの再識別データセットであるPallet-Block-2696を紹介します。
このデータセットには、4か月間にわたって撮影されたユーロパレットの2,696枚の画像が含まれています。
この間、自然な老化プロセスが発生し、使用中にパレットの一部が損傷しました。
これらの摩耗プロセスは、パレットの外観を大幅に変化させ、合成的に熟成したパレットまたは他の木製素材を生成するために使用できるデータセットを提供します。

要約(オリジナル)

This contribution explores the impact of synthetic training data usage and the prediction of material wear and aging in the context of re-identification. Different experimental setups and gallery set expanding strategies are tested, analyzing their impact on performance over time for aging re-identification subjects. Using a continuously updating gallery, we were able to increase our mean Rank-1 accuracy by 24%, as material aging was taken into account step by step. In addition, using models trained with 10% artificial training data, Rank-1 accuracy could be increased by up to 13%, in comparison to a model trained on only real-world data, significantly boosting generalized performance on hold-out data. Finally, this work introduces a novel, open-source re-identification dataset, pallet-block-2696. This dataset contains 2,696 images of Euro pallets, taken over a period of 4 months. During this time, natural aging processes occurred and some of the pallets were damaged during their usage. These wear and tear processes significantly changed the appearance of the pallets, providing a dataset that can be used to generate synthetically aged pallets or other wooden materials.

arxiv情報

著者 Christian Pionzewski,Rebecca Rademacher,Jérôme Rutinowski,Antonia Ponikarov,Stephan Matzke,Tim Chilla,Pia Schreynemackers,Alice Kirchheim
発行日 2025-04-25 11:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 | Enhancing Long-Term Re-Identification Robustness Using Synthetic Data: A Comparative Analysis はコメントを受け付けていません

EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region

要約

このペーパーでは、統一されたフレームワーク内でのマルチタスクベンチマークをサポートするように設計されたエミレーツマルチタスク(EMT)データセットを紹介します。
ダッシュカメラの観点から30,000を超えるフレームと570,000の注釈付きの境界ボックスで構成され、湾岸地域の交通の独特の道路トポロジー、混雑パターン、および運転行動を反映する約150キロメートルの運転ルートをカバーしています。
データセットは、追跡、軌跡予測、意図の予測の3つの主要なタスクをサポートしています。
各ベンチマークには、対応する評価が伴います。(1)マルチクラスシナリオと閉塞処理に対処するマルチエージェント追跡実験。
(2)ディープシーケンシャルおよびインタラクション認識モデルを使用した軌跡予測評価。
(3)観察された軌道に基づく意図予測実験。
データセットは、https://avlab.io/emt-datasetで公開されており、https://github.com/av-lab/emt-datasetで前処理スクリプトと評価モデルを備えています。

要約(オリジナル)

This paper introduces the Emirates Multi-Task (EMT) dataset, designed to support multi-task benchmarking within a unified framework. It comprises over 30,000 frames from a dash-camera perspective and 570,000 annotated bounding boxes, covering approximately 150 kilometers of driving routes that reflect the distinctive road topology, congestion patterns, and driving behavior of Gulf region traffic. The dataset supports three primary tasks: tracking, trajectory forecasting, and intention prediction. Each benchmark is accompanied by corresponding evaluations: (1) multi-agent tracking experiments addressing multi-class scenarios and occlusion handling; (2) trajectory forecasting evaluation using deep sequential and interaction-aware models; and (3) intention prediction experiments based on observed trajectories. The dataset is publicly available at https://avlab.io/emt-dataset, with pre-processing scripts and evaluation models at https://github.com/AV-Lab/emt-dataset.

arxiv情報

著者 Nadya Abdel Madjid,Murad Mebrahtu,Abdelmoamen Nasser,Bilal Hassan,Naoufel Werghi,Jorge Dias,Majid Khonji
発行日 2025-04-25 12:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region はコメントを受け付けていません

VisTabNet: Adapting Vision Transformers for Tabular Data

要約

ディープラーニングモデルは自然言語の処理とコンピュータービジョンで大きな成功を収めていますが、生物学的、産業、金融アプリケーションで使用される最も一般的なデータ型である表形式データの場合、同等の改善点は観察されません。
特に、大規模な事前訓練を受けたモデルを小さな表形式データセットで定義された下流のタスクに転送することは困難です。
これに対処するために、VistabNetを提案します。これは、モーダル転送学習方法であり、事前に訓練されたウェイトを備えた視覚変圧器(VIT)を形成データを処理することができます。
VITが許容できるパッチ埋め込みに表形式の入力を投影することにより、事前に訓練されたトランスエンコーダーを表形式の入力に直接適用できます。
このアプローチは、モデルをゼロからトレーニングするための計算コストを削減しながら、表形式データを処理するための適切なアーキテクチャを設計する概念コストを排除します。
複数の小さな表形式データセット(1k未満のサンプル)での実験結果は、Vistabnetの優位性を示し、従来のアンサンブル方法と最近の深い学習モデルの両方を上回ります。
提案された方法は、従来の転送学習の実践を超えており、事前に訓練された画像モデルを転送して表形式の問題を解決し、転送学習の境界を拡張できることを示しています。
https://github.com/wwydmanski/vistabnetで入手可能なgithubリポジトリとして実装の例を共有します。

要約(オリジナル)

Although deep learning models have had great success in natural language processing and computer vision, we do not observe comparable improvements in the case of tabular data, which is still the most common data type used in biological, industrial and financial applications. In particular, it is challenging to transfer large-scale pre-trained models to downstream tasks defined on small tabular datasets. To address this, we propose VisTabNet — a cross-modal transfer learning method, which allows for adapting Vision Transformer (ViT) with pre-trained weights to process tabular data. By projecting tabular inputs to patch embeddings acceptable by ViT, we can directly apply a pre-trained Transformer Encoder to tabular inputs. This approach eliminates the conceptual cost of designing a suitable architecture for processing tabular data, while reducing the computational cost of training the model from scratch. Experimental results on multiple small tabular datasets (less than 1k samples) demonstrate VisTabNet’s superiority, outperforming both traditional ensemble methods and recent deep learning models. The proposed method goes beyond conventional transfer learning practice and shows that pre-trained image models can be transferred to solve tabular problems, extending the boundaries of transfer learning. We share our example implementation as a GitHub repository available at https://github.com/wwydmanski/VisTabNet.

arxiv情報

著者 Witold Wydmański,Ulvi Movsum-zada,Jacek Tabor,Marek Śmieja
発行日 2025-04-25 12:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | VisTabNet: Adapting Vision Transformers for Tabular Data はコメントを受け付けていません

StoryGPT-V: Large Language Models as Consistent Story Visualizers

要約

最近の生成モデルは、テキストプロンプトに基づいた現実的で視覚的に心地よい画像を生成する上で印象的な機能を実証しています。
それにもかかわらず、ストーリーの視覚化のより複雑なタスクにこれらのモデルを適用することに大きな課題が残っています。
フレームの説明で代名詞(彼、彼女、彼女、彼ら)を解決する必要があるため、つまり、anaphora解像度、およびフレーム全体で一貫した文字と背景合成を確保する必要があるためです。
しかし、新たな大規模な言語モデル(LLM)は、曖昧な参照をナビゲートし、広範なシーケンスを処理するための堅牢な推論能力を示しています。
したがって、\ emphing {storygpt-v}を導入します。これは、潜在的な拡散(LDM)とLLMのメリットを活用して、与えられたストーリーの説明に基づいた一貫した高品質のキャラクターを備えた画像を作成します。
まず、キャラクター認識LDMを訓練します。これは、文字生成の精度と忠実さを高めることを目的とした、キャラクターが介在したセマンティック埋め込みを入力として使用し、文字セグメンテーションマスクを使用してクロスアテンションマップの監督を含みます。
第2段階では、LLMの出力と、第1段階モデル​​の入力スペースに存在するキャラクターの高度埋め込みの間のアラインメントを有効にします。
これは、LLMの推論能力を活用して、曖昧な参照に対処し、コンテキストを記憶するための理解能力に対処します。
2つの視覚的なストーリー視覚化ベンチマークで包括的な実験を実施します。
私たちのモデルは、優れた定量的結果を報告し、メモリ消費量が少ない驚くべき品質の正確なキャラクターを一貫して生成します。
私たちのコードは、\ href {https://xiaoqian-shen.github.io/storygpt-v} {https://xiaoqian-shen.github.io/storygpt-vで公開されています。

要約(オリジナル)

Recent generative models have demonstrated impressive capabilities in generating realistic and visually pleasing images grounded on textual prompts. Nevertheless, a significant challenge remains in applying these models for the more intricate task of story visualization. Since it requires resolving pronouns (he, she, they) in the frame descriptions, i.e., anaphora resolution, and ensuring consistent characters and background synthesis across frames. Yet, the emerging Large Language Model (LLM) showcases robust reasoning abilities to navigate through ambiguous references and process extensive sequences. Therefore, we introduce \emph{StoryGPT-V}, which leverages the merits of the latent diffusion (LDM) and LLM to produce images with consistent and high-quality characters grounded on given story descriptions. First, we train a character-aware LDM, which takes character-augmented semantic embedding as input and includes the supervision of the cross-attention map using character segmentation masks, aiming to enhance character generation accuracy and faithfulness. In the second stage, we enable an alignment between the output of LLM and the character-augmented embedding residing in the input space of the first-stage model. This harnesses the reasoning ability of LLM to address ambiguous references and the comprehension capability to memorize the context. We conduct comprehensive experiments on two visual story visualization benchmarks. Our model reports superior quantitative results and consistently generates accurate characters of remarkable quality with low memory consumption. Our code is publicly available at: \href{https://xiaoqian-shen.github.io/StoryGPT-V}{https://xiaoqian-shen.github.io/StoryGPT-V}.

arxiv情報

著者 Xiaoqian Shen,Mohamed Elhoseiny
発行日 2025-04-25 12:47:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StoryGPT-V: Large Language Models as Consistent Story Visualizers はコメントを受け付けていません

Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy

要約

低高度経済(LAE)をサポートするために、世界的なポジショニングシステム(GPS)シグナルが利用できない都市部における正確な無人航空機(UAV)のローカリゼーションをサポートするため。
ビジョンベースの方法は、実行可能な代替手段を提供しますが、軽量UAVの深刻な帯域幅、メモリ、処理の制約に直面しています。
哺乳類の空間認知に触発されて、マルチカメラシステムを装備したUAVがコンパクトなマルチビュー機能とエッジサーバーへのオフロードローカリゼーションタスクを抽出するタスク指向のコミュニケーションフレームワークを提案します。
直交関連のバリエーション情報ボトルネックエンコーダ(O-VIB)を紹介します。これには、オートマティックな関連性決定(ARD)が組み込まれ、非情報機能を整理しながら、冗長性を最小限に抑えます。
これにより、伝送コストを最小限に抑えて効率的かつ正確なローカリゼーションが可能になります。
専用のLAE UAVデータセットの広範な評価は、O-VIBが厳しい帯域幅予算の下で高精度のローカリゼーションを達成することを示しています。
コードとデータセットは、github.com/fangzr/toc-edge-aerial:github.com/fangzr/toc-edge-aerialに公開されます。

要約(オリジナル)

To support the Low Altitude Economy (LAE), precise unmanned aerial vehicles (UAVs) localization in urban areas where global positioning system (GPS) signals are unavailable. Vision-based methods offer a viable alternative but face severe bandwidth, memory and processing constraints on lightweight UAVs. Inspired by mammalian spatial cognition, we propose a task-oriented communication framework, where UAVs equipped with multi-camera systems extract compact multi-view features and offload localization tasks to edge servers. We introduce the Orthogonally-constrained Variational Information Bottleneck encoder (O-VIB), which incorporates automatic relevance determination (ARD) to prune non-informative features while enforcing orthogonality to minimize redundancy. This enables efficient and accurate localization with minimal transmission cost. Extensive evaluation on a dedicated LAE UAV dataset shows that O-VIB achieves high-precision localization under stringent bandwidth budgets. Code and dataset will be made publicly available: github.com/fangzr/TOC-Edge-Aerial.

arxiv情報

著者 Zhengru Fang,Zhenghao Liu,Jingjing Wang,Senkang Hu,Yu Guo,Yiqin Deng,Yuguang Fang
発行日 2025-04-25 12:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NI | Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy はコメントを受け付けていません

STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting

要約

テキストから4Dの世代は急速に開発されており、さまざまなシナリオで広く適用されています。
ただし、既存の方法は、統一されたフレームワーク内に適切な空間的モデリングと迅速なアラインメントを組み込むことができないことが多く、その結果、一時的な矛盾、幾何学的歪み、または提供されたテキストから逸脱する低品質の4Dコンテンツが得られます。
したがって、高品質のテキストから4D生成のための包括的な空間的プロムプトの一貫性モデリングを統合することを目的とする新しいアプローチであるSTP4Dを提案します。
具体的には、STP4Dは、この目標を達成するために協力する時間変化の迅速な埋め込み、幾何学的情報の強化、および時間的拡張変形の3つの慎重に設計されたモジュールを採用しています。
さらに、STP4Dは、拡散モデルを生成して拡散モデリング機能と4DGのリアルタイムレンダリングプロセスを拡散モデルの急速な推論速度と組み合わせた4Dガウスを生成する最初の方法の1つです。
広範な実験は、STP4Dが卓越した効率(資産あたり約4.6秒)で高忠実度4Dコンテンツを生成することに優れており、品質と速度の両方で既存の方法を上回っていることを示しています。

要約(オリジナル)

Text-to-4D generation is rapidly developing and widely applied in various scenarios. However, existing methods often fail to incorporate adequate spatio-temporal modeling and prompt alignment within a unified framework, resulting in temporal inconsistencies, geometric distortions, or low-quality 4D content that deviates from the provided texts. Therefore, we propose STP4D, a novel approach that aims to integrate comprehensive spatio-temporal-prompt consistency modeling for high-quality text-to-4D generation. Specifically, STP4D employs three carefully designed modules: Time-varying Prompt Embedding, Geometric Information Enhancement, and Temporal Extension Deformation, which collaborate to accomplish this goal. Furthermore, STP4D is among the first methods to exploit the Diffusion model to generate 4D Gaussians, combining the fine-grained modeling capabilities and the real-time rendering process of 4DGS with the rapid inference speed of the Diffusion model. Extensive experiments demonstrate that STP4D excels in generating high-fidelity 4D content with exceptional efficiency (approximately 4.6s per asset), surpassing existing methods in both quality and speed.

arxiv情報

著者 Yunze Deng,Haijun Xiong,Bin Feng,Xinggang Wang,Wenyu Liu
発行日 2025-04-25 12:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STP4D: Spatio-Temporal-Prompt Consistent Modeling for Text-to-4D Gaussian Splatting はコメントを受け付けていません