VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models

要約

環境視覚モデル(VLM)を使用して具体化された視覚追跡(EVT)を強化する新しい自己改善フレームワークを導入して、追跡障害から回復する現在のアクティブな視覚追跡システムの制限に対処します。
私たちのアプローチでは、既製のアクティブ追跡方法とVLMSの推論機能を組み合わせて、障害検出時にのみ通常の追跡とVLM推論をアクティブにするための高速視覚ポリシーを展開します。
このフレームワークは、3D空間推論におけるVLMの制限に効果的に対処し、過去の経験から学習することでVLMが徐々に改善できるようにするメモリの高度の自己反射メカニズムを特徴としています。
実験結果は大幅なパフォーマンスの改善を示し、フレームワークは、最先端のRLベースのアプローチで72ドル\%$、挑戦的な環境でのPIDベースの方法を備えた220 \%$ $を$ 72 \%$増加させます。
この作業は、VLMベースの推論の最初の統合を表し、EVTエージェントがプロアクティブな障害回復を支援することを表し、動的で非構造化された環境で継続的なターゲットモニタリングを必要とする実際のロボットアプリケーションの実質的な進歩を提供します。
プロジェクトWebサイト:https://sites.google.com/view/evt-recovery-assistant。

要約(オリジナル)

We introduce a novel self-improving framework that enhances Embodied Visual Tracking (EVT) with Vision-Language Models (VLMs) to address the limitations of current active visual tracking systems in recovering from tracking failure. Our approach combines the off-the-shelf active tracking methods with VLMs’ reasoning capabilities, deploying a fast visual policy for normal tracking and activating VLM reasoning only upon failure detection. The framework features a memory-augmented self-reflection mechanism that enables the VLM to progressively improve by learning from past experiences, effectively addressing VLMs’ limitations in 3D spatial reasoning. Experimental results demonstrate significant performance improvements, with our framework boosting success rates by $72\%$ with state-of-the-art RL-based approaches and $220\%$ with PID-based methods in challenging environments. This work represents the first integration of VLM-based reasoning to assist EVT agents in proactive failure recovery, offering substantial advances for real-world robotic applications that require continuous target monitoring in dynamic, unstructured environments. Project website: https://sites.google.com/view/evt-recovery-assistant.

arxiv情報

著者 Kui Wu,Shuhang Xu,Hao Chen,Churan Wang,Zhoujun Li,Yizhou Wang,Fangwei Zhong
発行日 2025-05-28 15:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models はコメントを受け付けていません

Structurally Different Neural Network Blocks for the Segmentation of Atrial and Aortic Perivascular Adipose Tissue in Multi-centre CT Angiography Scans

要約

畳み込みニューラルネットワーク(CNNS)の出現以来、視覚変圧器(VITS)の出現以来、ディープラーニングアーキテクチャは、さまざまなハイパーパラメーターを持つ同一のブロックタイプに主に依存してきました。
さまざまな建築設計の補完的な強度を活用して、LEGOブロックと同様の構造的に異なるコンポーネントを組み立てる新しいブロック交互の戦略を提案します。
CNNベースのブロックとSwinvitベースのブロックを交互に行う深い学習フレームワークであるLegonetを紹介し、医療画像セグメンテーションの機能学習を強化します。
レゴネットの3つのバリエーションを調査し、この概念を以前に説明されていない臨床的問題に適用します。内部乳腺動脈(IMA)、大動脈、およびコンピューテ界断層撮影血管造影(CTA)スキャンからの血管周囲脂肪組織(PVAT)のセグメンテーションです。
これらのPVAT領域は、心血管リスクと一次臨床結果を評価する際に予後価値があることが示されています。
大規模なデータセットでレゴネットを評価し、他の主要なアーキテクチャよりも優れたパフォーマンスを達成します。
さらに、専門家の臨床医がモデルのセグメンテーションを修正し、さまざまな外部、国際、およびパブリックコホートでDSC> 0.90を達成する外部テストコホートでのモデルの一般化可能性を評価します。
モデルの臨床的信頼性をさらに検証するために、観察者内および観察者間の変動分析を実行し、人間の注釈との強力な一致を実証します。
提案された方法論は、診断心血管管理と早期予後に大きな意味を持ち、臨床診療における血管および血管周囲のセグメンテーションとリスク評価のための堅牢で自動化されたソリューションを提供し、個別化医療への道を開いています。

要約(オリジナル)

Since the emergence of convolutional neural networks (CNNs) and, later, vision transformers (ViTs), deep learning architectures have predominantly relied on identical block types with varying hyperparameters. We propose a novel block alternation strategy to leverage the complementary strengths of different architectural designs, assembling structurally distinct components similar to Lego blocks. We introduce LegoNet, a deep learning framework that alternates CNN-based and SwinViT-based blocks to enhance feature learning for medical image segmentation. We investigate three variations of LegoNet and apply this concept to a previously unexplored clinical problem: the segmentation of the internal mammary artery (IMA), aorta, and perivascular adipose tissue (PVAT) from computed tomography angiography (CTA) scans. These PVAT regions have been shown to possess prognostic value in assessing cardiovascular risk and primary clinical outcomes. We evaluate LegoNet on large datasets, achieving superior performance to other leading architectures. Furthermore, we assess the model’s generalizability on external testing cohorts, where an expert clinician corrects the model’s segmentations, achieving DSC > 0.90 across various external, international, and public cohorts. To further validate the model’s clinical reliability, we perform intra- and inter-observer variability analysis, demonstrating strong agreement with human annotations. The proposed methodology has significant implications for diagnostic cardiovascular management and early prognosis, offering a robust, automated solution for vascular and perivascular segmentation and risk assessment in clinical practice, paving the way for personalised medicine.

arxiv情報

著者 Ikboljon Sobirov,Cheng Xie,Muhammad Siddique,Parijat Patel,Kenneth Chan,Thomas Halborg,Christos P. Kotanidis,Zarqaish Fatima,Henry West,Sheena Thomas,Maria Lyasheva,Donna Alexander,David Adlam,Praveen Rao,Das Indrajeet,Aparna Deshpande,Amrita Bajaj,Jonathan C L Rodrigues,Benjamin J Hudson,Vivek Srivastava,George Krasopoulos,Rana Sayeed,Qiang Zhang,Pete Tomlins,Cheerag Shirodaria,Keith M. Channon,Stefan Neubauer,Charalambos Antoniades,Mohammad Yaqub
発行日 2025-05-28 15:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Structurally Different Neural Network Blocks for the Segmentation of Atrial and Aortic Perivascular Adipose Tissue in Multi-centre CT Angiography Scans はコメントを受け付けていません

Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface

要約

外部表面スキャンと単純な人口統計データ(年齢、性別、身長、体重)からのヒト胴体の完全な3Dコンピューター断層撮影(CT)ボリュームを合成する新しいカスケードフローマッチングフレームワークであるSurf2CTを提示します。
これは、内部イメージングなしで、外部の身体の形状と人口統計のみに基づいて、現実的なボリューム内部解剖学画像を生成できる最初のアプローチです。
Surf2CTは、3つの連続段階を進みます。(1)表面完成、条件付き3Dフローマッチングを使用して、部分的な胴体スキャンから完全な署名距離関数(SDF)を再構築します。
(2)粗いCT合成。完成したSDFおよび人口統計情報から低解像度のCTボリュームを生成します。
(3)CT超解像度。パッチごとの条件付きフローモデルを介して、粗いボリュームを高解像度CTに精製します。
各段階では、フローマッチングを介してトレーニングされた3Dに適応したEDM2バックボーンを使用します。
マサチューセッツ総合病院(MGH)とオートペットチャレンジから調達した3,198の胴体CTスキャン(約113万軸スライス)の合計データセットでモデルを訓練しました。
700のペアの胴体表面-CT症例の評価により、強い解剖学的忠実度が示されました。臓器量は小さな平均パーセント差(-11.1%から4.4%の範囲)を示し、筋肉/脂肪体組成メトリックは地上真理と強い相関(0.67から0.96の範囲)と一致しました。
肺の局在は最小限のバイアス(平均差-2.5 mm)を持ち、表面完成によりメトリックが大幅に改善されました(面取り距離:521.8 mmから2.7 mm、交差点統合:0.87から0.98)。
SURF2CTは、外部データのみ、在宅医療、予防医学の開放機会、および従来のイメージング技術に関連するリスクなしにパーソナライズされた臨床評価の機会を使用して、非侵襲的内部解剖学的イメージングの新しいパラダイムを確立します。

要約(オリジナル)

We present Surf2CT, a novel cascaded flow matching framework that synthesizes full 3D computed tomography (CT) volumes of the human torso from external surface scans and simple demographic data (age, sex, height, weight). This is the first approach capable of generating realistic volumetric internal anatomy images solely based on external body shape and demographics, without any internal imaging. Surf2CT proceeds through three sequential stages: (1) Surface Completion, reconstructing a complete signed distance function (SDF) from partial torso scans using conditional 3D flow matching; (2) Coarse CT Synthesis, generating a low-resolution CT volume from the completed SDF and demographic information; and (3) CT Super-Resolution, refining the coarse volume into a high-resolution CT via a patch-wise conditional flow model. Each stage utilizes a 3D-adapted EDM2 backbone trained via flow matching. We trained our model on a combined dataset of 3,198 torso CT scans (approximately 1.13 million axial slices) sourced from Massachusetts General Hospital (MGH) and the AutoPET challenge. Evaluation on 700 paired torso surface-CT cases demonstrated strong anatomical fidelity: organ volumes exhibited small mean percentage differences (range from -11.1% to 4.4%), and muscle/fat body composition metrics matched ground truth with strong correlation (range from 0.67 to 0.96). Lung localization had minimal bias (mean difference -2.5 mm), and surface completion significantly improved metrics (Chamfer distance: from 521.8 mm to 2.7 mm; Intersection-over-Union: from 0.87 to 0.98). Surf2CT establishes a new paradigm for non-invasive internal anatomical imaging using only external data, opening opportunities for home-based healthcare, preventive medicine, and personalized clinical assessments without the risks associated with conventional imaging techniques.

arxiv情報

著者 Siyeop Yoon,Yujin Oh,Pengfei Jin,Sifan Song,Matthew Tivnan,Dufan Wu,Xiang Li,Quanzheng Li
発行日 2025-05-28 16:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface はコメントを受け付けていません

PathFL: Multi-Alignment Federated Learning for Pathology Image Segmentation

要約

複数のセンター全体での病理学の画像セグメンテーションは、イメージングモダリティ、臓器、スキャン機器などの不均一性の多様なソースのために重要な課題に遭遇します。
この論文では、画像、特徴、およびモデル集約の3レベルのアライメント戦略を通じてこれらの課題に対処する病理学の画像セグメンテーションのための新しいマルチアライメントフェデレート学習フレームワークであるPathflを提案します。
まず、画像レベルでは、クライアント間でスタイル情報交換を促進することにより、共同スタイルの強化モジュールがローカルデータを調整および多様化します。
第二に、フィーチャレベルでは、適応機能アライメントモジュールにより、ローカル機能にグローバルな洞察を注入することにより、表現空間に暗黙のアライメントが保証され、不均一なクライアント機能学習全体の一貫性が促進されます。
最後に、モデル集約レベルでは、層状の類似性の類似性を使用して、クライアントの不一致を説明し、グローバルな一般化を強化するためにレイヤー固有の類似性を使用して、モデル集約レベルで、サーバー上のモデルを階層的に整列させ、集約します。
クロスソース、クロスモダリティ、クロスオルガン、およびクロススキャナーのバリエーションを含む、4つの異種病理学画像データセットに関する包括的な評価は、データの不均一性に対するより良いパフォーマンスと堅牢性を達成するためのPATHFLの有効性を検証します。

要約(オリジナル)

Pathology image segmentation across multiple centers encounters significant challenges due to diverse sources of heterogeneity including imaging modalities, organs, and scanning equipment, whose variability brings representation bias and impedes the development of generalizable segmentation models. In this paper, we propose PathFL, a novel multi-alignment Federated Learning framework for pathology image segmentation that addresses these challenges through three-level alignment strategies of image, feature, and model aggregation. Firstly, at the image level, a collaborative style enhancement module aligns and diversifies local data by facilitating style information exchange across clients. Secondly, at the feature level, an adaptive feature alignment module ensures implicit alignment in the representation space by infusing local features with global insights, promoting consistency across heterogeneous client features learning. Finally, at the model aggregation level, a stratified similarity aggregation strategy hierarchically aligns and aggregates models on the server, using layer-specific similarity to account for client discrepancies and enhance global generalization. Comprehensive evaluations on four sets of heterogeneous pathology image datasets, encompassing cross-source, cross-modality, cross-organ, and cross-scanner variations, validate the effectiveness of our PathFL in achieving better performance and robustness against data heterogeneity.

arxiv情報

著者 Yuan Zhang,Feng Chen,Yaolei Qi,Guanyu Yang,Huazhu Fu
発行日 2025-05-28 16:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PathFL: Multi-Alignment Federated Learning for Pathology Image Segmentation はコメントを受け付けていません

PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

要約

テキストプロンプトから高品質の多層透明な画像を生成すると、新しいレベルのクリエイティブコントロールのロックが解除され、ユーザーがLLMSからテキスト出力を編集するのと同じくらい簡単に編集できます。
ただし、多層生成モデルの開発は、多層透明なデータの大規模で高品質のコーパスが存在しないため、従来のテキストから画像モデルの開発に遅れをとっています。
この論文では、次の基本的な課題に対処します。(i)最初のオープン、超高忠実度のプリスマレイヤー(Prismlayerspro)データセットの200K(20K)マルチレイヤー透明な画像の正確なアルファマットをリリースします。
オープンソースのマルチレイヤー生成モデル、ART+は、最新のテキストからイメージの生成モデルの美学に一致します。
主要な技術的貢献には、正確なアルファマットで高品質の単一透明な層の生成に優れているLayerFluxと、複数のレイヤーフラックス出力を完全な画像に構成し、ヒトが解決したセマンティックレイアウトに導かれます。
高品質を確保するために、厳密なフィルタリング段階を適用して、アーティファクトとセマンティックミスマッチを削除し、その後に人間の選択を行います。
合成Prismlayersproの最先端のアートモデルを微調整すると、ART+がART+を生成します。これにより、元のアートは、頭と頭のユーザー研究の比較の60%でオリジナルアートを上回り、フラックスによって生成された画像の視覚的品質と一致します。
私たちの作業は、多層透明な画像生成タスクのための強固なデータセット基盤を確立し、正確で編集可能な、視覚的に魅力的な層状画像を必要とする研究とアプリケーションを可能にすると予想しています。

要約(オリジナル)

Generating high-quality, multi-layer transparent images from text prompts can unlock a new level of creative control, allowing users to edit each layer as effortlessly as editing text outputs from LLMs. However, the development of multi-layer generative models lags behind that of conventional text-to-image models due to the absence of a large, high-quality corpus of multi-layer transparent data. In this paper, we address this fundamental challenge by: (i) releasing the first open, ultra-high-fidelity PrismLayers (PrismLayersPro) dataset of 200K (20K) multilayer transparent images with accurate alpha mattes, (ii) introducing a trainingfree synthesis pipeline that generates such data on demand using off-the-shelf diffusion models, and (iii) delivering a strong, open-source multi-layer generation model, ART+, which matches the aesthetics of modern text-to-image generation models. The key technical contributions include: LayerFLUX, which excels at generating high-quality single transparent layers with accurate alpha mattes, and MultiLayerFLUX, which composes multiple LayerFLUX outputs into complete images, guided by human-annotated semantic layout. To ensure higher quality, we apply a rigorous filtering stage to remove artifacts and semantic mismatches, followed by human selection. Fine-tuning the state-of-the-art ART model on our synthetic PrismLayersPro yields ART+, which outperforms the original ART in 60% of head-to-head user study comparisons and even matches the visual quality of images generated by the FLUX.1-[dev] model. We anticipate that our work will establish a solid dataset foundation for the multi-layer transparent image generation task, enabling research and applications that require precise, editable, and visually compelling layered imagery.

arxiv情報

著者 Junwen Chen,Heyang Jiang,Yanbin Wang,Keming Wu,Ji Li,Chao Zhang,Keiji Yanai,Dong Chen,Yuhui Yuan
発行日 2025-05-28 16:09:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models はコメントを受け付けていません

Thinking with Generated Images

要約

生成された画像で思考を提示します。これは、中間視覚的思考ステップの自発的な生成を通じてテキストとビジョンのモダリティ全体でネイティブに考えることにより、視覚的な推論に大きく関与することを根本的に変換する新しいパラダイムです。
LMMを使用した現在の視覚的推論は、固定されたユーザーが提供する画像を処理するか、テキストベースのチェーン(COT)のみを介して推論することに制約されています。
生成された画像を使用して考えると、モデルが中間の視覚思考を積極的に構築し、独自の視覚的仮説を批判し、推論プロセスの不可欠なコンポーネントとして洗練できるという認知能力の新しい次元が解除されます。
2つの補完的なメカニズムを通じてアプローチの有効性を実証します。(1)中間の視覚的サブゴールを使用した視覚生成。モデルは複雑な視覚タスクを徐々に生成および統合された管理可能なコンポーネントに分解し、(2)自己批判を伴う視力生成を実現し、モデルが初期の視覚仮説を生成し、テキストの批判を介してその欠点を分析し、洗練された出力を生成します。
ビジョン生成ベンチマークに関する実験は、ベースラインアプローチよりも大幅に改善されており、モデルは複雑なマルチオブジェクトシナリオの取り扱いにおいて最大50%(38%から57%)の相対的な改善を達成しています。
新しいタンパク質構造を探求し、空間デザインを反復する建築家から、法医学アナリストが犯罪シーンを再構築すること、そして戦略的な演劇を想像するバスケットボール選手まで、私たちのアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴付ける視覚的な想像力と繰り返し改良に従事することができます。
https://github.com/gair-nlp/thinking-with-generated-imagesでオープンソーススイートをリリースします。

要約(オリジナル)

We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.

arxiv情報

著者 Ethan Chern,Zhulin Hu,Steffi Chern,Siqi Kou,Jiadi Su,Yan Ma,Zhijie Deng,Pengfei Liu
発行日 2025-05-28 16:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Thinking with Generated Images はコメントを受け付けていません

RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting

要約

河川排出予測の最近の深い学習アプローチにより、洪水予測の精度と効率が向上し、リスク管理のためのより信頼性の高い早期警告システムが可能になりました。
それにもかかわらず、水文学における既存の深い学習アプローチは、地域規模の用途に大きく限定されており、水域の固有の空間的接続を活用しません。
したがって、科学的および運用上の用途のための河川の排出と洪水予測を改善するために、時空間関係をモデル化できる新しい深い学習方法論が強い必要性があります。
これに対処するために、長期的な再分析データで事前に処理されており、世界の河川の排出と洪水を予測することができる新しい深い学習モデルであるRivermambaを提示します。
これを達成するために、Rivermambaは、モデルがグローバルスケールチャネルネットワークルーティングをキャプチャし、より長いリードタイムの​​予測機能を強化できるようにする効率的なMambaブロックを活用します。
予測ブロックは、時空間モデリングを通じて不正確さを考慮しながら、ECMWF HRES気象予測を統合します。
私たちの分析は、リバーマンバが河川放電の信頼できる予測を実現していることを示しています。これには、戻り期間とリードタイム全体にわたる極端な洪水が含まれ、運用上のAIおよび物理学ベースのモデルの両方を超えています。

要約(オリジナル)

Recent deep learning approaches for river discharge forecasting have improved the accuracy and efficiency in flood forecasting, enabling more reliable early warning systems for risk management. Nevertheless, existing deep learning approaches in hydrology remain largely confined to local-scale applications and do not leverage the inherent spatial connections of bodies of water. Thus, there is a strong need for new deep learning methodologies that are capable of modeling spatio-temporal relations to improve river discharge and flood forecasting for scientific and operational applications. To address this, we present RiverMamba, a novel deep learning model that is pretrained with long-term reanalysis data and that can forecast global river discharge and floods on a $0.05^\circ$ grid up to 7 days lead time, which is of high relevance in early warning. To achieve this, RiverMamba leverages efficient Mamba blocks that enable the model to capture global-scale channel network routing and enhance its forecast capability for longer lead times. The forecast blocks integrate ECMWF HRES meteorological forecasts, while accounting for their inaccuracies through spatio-temporal modeling. Our analysis demonstrates that RiverMamba delivers reliable predictions of river discharge, including extreme floods across return periods and lead times, surpassing both operational AI- and physics-based models.

arxiv情報

著者 Mohamad Hakam Shams Eddin,Yikui Zahng,Stefan Kollet,Juergen Gall
発行日 2025-05-28 16:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting はコメントを受け付けていません

Scaling-up Perceptual Video Quality Assessment

要約

データスケーリング法は、さまざまな下流タスクにわたる大規模なマルチモーダルモデル(LMM)のパフォーマンスを大幅に向上させることが示されています。
ただし、知覚ビデオ品質評価(VQA)の領域では、ラベル付きのリソースが不足しているため、データセットのスケールが不十分なため、スケーリング法の可能性は前例のないままです。
これに対処するために、\ textBf {omnivqa}を提案します。これは、高品質で人間のループVQAマルチモーダル命令データベース(MIDB)を効率的に構築するように設計された効率的なフレームワークです。
次に、スケールアップして、VQAフィールドで最大のMIDBである\ textBf {omnivqa-chat-400k}を作成します。
私たちの焦点は、技術的および審美的な品質の次元にあり、豊富なインテスト内命令データが豊富に密集しているVQAの知識を提供します。
さらに、モデルの定量的品質評価機能を強化するために、\ textbf {omnivqa-mos-20k}データセットを構築しました。
次に、品質の理解と品質評価タスクのためにデータセットからの知識を効果的に活用する\ textBF {complentionary}トレーニング戦略を導入します。
さらに、\ textbf {omnivqa-fg(fine-grain)venchmark}を提案して、モデルの微細なパフォーマンスを評価します。
私たちの結果は、私たちのモデルが品質の理解と評価の両方のタスクの両方で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

The data scaling law has been shown to significantly enhance the performance of large multi-modal models (LMMs) across various downstream tasks. However, in the domain of perceptual video quality assessment (VQA), the potential of scaling law remains unprecedented due to the scarcity of labeled resources and the insufficient scale of datasets. To address this, we propose \textbf{OmniVQA}, an efficient framework designed to efficiently build high-quality, human-in-the-loop VQA multi-modal instruction databases (MIDBs). We then scale up to create \textbf{OmniVQA-Chat-400K}, the largest MIDB in the VQA field concurrently. Our focus is on the technical and aesthetic quality dimensions, with abundant in-context instruction data to provide fine-grained VQA knowledge. Additionally, we have built the \textbf{OmniVQA-MOS-20K} dataset to enhance the model’s quantitative quality rating capabilities. We then introduce a \textbf{complementary} training strategy that effectively leverages the knowledge from datasets for quality understanding and quality rating tasks. Furthermore, we propose the \textbf{OmniVQA-FG (fine-grain)-Benchmark} to evaluate the fine-grained performance of the models. Our results demonstrate that our models achieve state-of-the-art performance in both quality understanding and rating tasks.

arxiv情報

著者 Ziheng Jia,Zicheng Zhang,Zeyu Zhang,Yingji Liang,Xiaorong Zhu,Chunyi Li,Jinliang Han,Haoning Wu,Bin Wang,Haoran Zhang,Guanyu Zhu,Qiyong Zhao,Xiaohong Liu,Guangtao Zhai,Xiongkuo Min
発行日 2025-05-28 16:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Scaling-up Perceptual Video Quality Assessment はコメントを受け付けていません

Deep Learning-Based BMD Estimation from Radiographs with Conformal Uncertainty Quantification

要約

限られたDXAアクセスは、骨粗鬆症のスクリーニングを妨げます。
この概念実証研究では、深い学習を介した日和見的な骨ミネラル密度(BMD)推定のために広く利用可能な膝X線を使用して、臨床使用に不可欠な堅牢な不確実性の定量化を強調しています。
OAIデータセットで効率的なネットモデルをトレーニングして、両側膝のX線写真からBMDを予測しました。
2つのテスト時間増強(TTA)方法が比較されました:従来の平均化とマルチサンプルアプローチ。
重要なのは、統計的に厳格な患者固有の予測間隔を保証したカバレッジを備えた統計的に厳密な患者固有の予測間隔を提供するために、分割されたコンフォーマル予測を実装しました。
結果は、0.68(従来のTTA)のピアソン相関を示しました。
従来のTTAはより良いポイント予測をもたらしましたが、マルチサンプルアプローチは、カバレッジを維持しながら、わずかに厳しい信頼区間(90%、95%、99%)を生成しました。
このフレームワークは、挑戦的なケースに対してより高い不確実性を適切に表明しました。
膝X線と標準DXAの間の解剖学的ミスマッチは即時の臨床使用を制限しますが、この方法は、日常的なX線写真を使用して信頼できるAIアシストBMDスクリーニングの基礎を確立し、早期骨粗鬆症検出を改善する可能性があります。

要約(オリジナル)

Limited DXA access hinders osteoporosis screening. This proof-of-concept study proposes using widely available knee X-rays for opportunistic Bone Mineral Density (BMD) estimation via deep learning, emphasizing robust uncertainty quantification essential for clinical use. An EfficientNet model was trained on the OAI dataset to predict BMD from bilateral knee radiographs. Two Test-Time Augmentation (TTA) methods were compared: traditional averaging and a multi-sample approach. Crucially, Split Conformal Prediction was implemented to provide statistically rigorous, patient-specific prediction intervals with guaranteed coverage. Results showed a Pearson correlation of 0.68 (traditional TTA). While traditional TTA yielded better point predictions, the multi-sample approach produced slightly tighter confidence intervals (90%, 95%, 99%) while maintaining coverage. The framework appropriately expressed higher uncertainty for challenging cases. Although anatomical mismatch between knee X-rays and standard DXA limits immediate clinical use, this method establishes a foundation for trustworthy AI-assisted BMD screening using routine radiographs, potentially improving early osteoporosis detection.

arxiv情報

著者 Long Hui,Wai Lok Yeung
発行日 2025-05-28 16:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.AP | Deep Learning-Based BMD Estimation from Radiographs with Conformal Uncertainty Quantification はコメントを受け付けていません

Preference Adaptive and Sequential Text-to-Image Generation

要約

インタラクティブなテキストからイメージ(T2I)生成の問題に対処し、一連のプロンプト拡張を通じてユーザーの生成された画像のセットを繰り返し改善する強化学習(RL)エージェントを設計します。
人間の評価者を使用して、大規模なオープンソース(非シーケンシャル)データセットとともに、これを活用するシーケンシャル設定の新しいデータセットを作成します。
EM戦略を使用してユーザープレーファレンスモデルとユーザー選択モデルを構築し、さまざまなユーザー嗜好タイプを特定します。
次に、大規模なマルチモーダル言語モデル(LMM)と価値ベースのRLアプローチを活用して、ユーザーへの迅速な拡張の適応的で多様なスレートを示唆します。
優先順位とシーケンシャルテキストからイメージへのエージェント(PASTA)は、適応的なマルチターン機能を備えたT2Iモデルを拡張し、共同の共同創造を促進し、ユーザーの意図における不確実性または不確実性に対処します。
人間の評価者を使用してパスタを評価し、ベースラインの方法と比較して大幅な改善を示します。
また、ユーザー中心のマルチターンT2Iシステムでの将来の研究をサポートするために、シーケンシャルレーターデータセットとシミュレートされたユーザーレーターインタラクションをオープンソーシングします。

要約(オリジナル)

We address the problem of interactive text-to-image (T2I) generation, designing a reinforcement learning (RL) agent which iteratively improves a set of generated images for a user through a sequence of prompt expansions. Using human raters, we create a novel dataset of sequential preferences, which we leverage, together with large-scale open-source (non-sequential) datasets. We construct user-preference and user-choice models using an EM strategy and identify varying user preference types. We then leverage a large multimodal language model (LMM) and a value-based RL approach to suggest an adaptive and diverse slate of prompt expansions to the user. Our Preference Adaptive and Sequential Text-to-image Agent (PASTA) extends T2I models with adaptive multi-turn capabilities, fostering collaborative co-creation and addressing uncertainty or underspecification in a user’s intent. We evaluate PASTA using human raters, showing significant improvement compared to baseline methods. We also open-source our sequential rater dataset and simulated user-rater interactions to support future research in user-centric multi-turn T2I systems.

arxiv情報

著者 Ofir Nabati,Guy Tennenholtz,ChihWei Hsu,Moonkyung Ryu,Deepak Ramachandran,Yinlam Chow,Xiang Li,Craig Boutilier
発行日 2025-05-28 16:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SY, eess.SY | Preference Adaptive and Sequential Text-to-Image Generation はコメントを受け付けていません