From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

要約

従来のクローズドセットモデルの制限を克服する完全にオープンボキャブラリーシーングラフ生成のための新しい変圧器ベースのフレームワークであるOVSGTRを提示します。
従来の方法は、オブジェクトと関係の両方の認識を固定語彙に制限し、新しい概念が頻繁に出現する実際のシナリオへの適用性を妨げます。
対照的に、私たちのアプローチは、事前定義されたカテゴリを超えてオブジェクト(ノード)とその相互関係(エッジ)を共同で予測します。
OVSGTRは、冷凍画像バックボーンとテキストエンコーダを備えたDETRのようなアーキテクチャを活用して、高品質の視覚的およびセマンティック機能を抽出し、エンドツーエンドシーングラフ予測のためにトランスデコーダーを介して融合します。
複雑な視覚関係に関するモデルの理解を豊かにするために、シーングラフアノテーションを弱く監視している方法で合成する関係認識前トレーニング戦略を提案します。
具体的には、シーンパーサーベース、LLMベース、およびマルチモーダルLLMベースの3つのパイプラインを調査し、最小限のマニュアル注釈で転送可能な監督信号を生成します。
さらに、知識蒸留戦略と組み合わせた視覚的概念保持メカニズムを組み込み、モデルが微調整中に豊富なセマンティックキューを保持することを保証することにより、壊滅的な忘却の忘却の一般的な問題に対処します。
VG150ベンチマークでの広範な実験は、OVSGTRがクローズドセット、オープンボキャブラリーオブジェクト検出ベース、関係ベース、および完全にオープンボカリブラリーシナリオを含む複数の設定で最先端のパフォーマンスを達成することを示しています。
私たちの結果は、より一般化された信頼性の高い視覚的理解に向けてシーングラフの生成を進めるための大規模な関係に対応する事前トレーニングおよび変圧器アーキテクチャの約束を強調しています。

要約(オリジナル)

We present OvSGTR, a novel transformer-based framework for fully open-vocabulary scene graph generation that overcomes the limitations of traditional closed-set models. Conventional methods restrict both object and relationship recognition to a fixed vocabulary, hindering their applicability to real-world scenarios where novel concepts frequently emerge. In contrast, our approach jointly predicts objects (nodes) and their inter-relationships (edges) beyond predefined categories. OvSGTR leverages a DETR-like architecture featuring a frozen image backbone and text encoder to extract high-quality visual and semantic features, which are then fused via a transformer decoder for end-to-end scene graph prediction. To enrich the model’s understanding of complex visual relations, we propose a relation-aware pre-training strategy that synthesizes scene graph annotations in a weakly supervised manner. Specifically, we investigate three pipelines–scene parser-based, LLM-based, and multimodal LLM-based–to generate transferable supervision signals with minimal manual annotation. Furthermore, we address the common issue of catastrophic forgetting in open-vocabulary settings by incorporating a visual-concept retention mechanism coupled with a knowledge distillation strategy, ensuring that the model retains rich semantic cues during fine-tuning. Extensive experiments on the VG150 benchmark demonstrate that OvSGTR achieves state-of-the-art performance across multiple settings, including closed-set, open-vocabulary object detection-based, relation-based, and fully open-vocabulary scenarios. Our results highlight the promise of large-scale relation-aware pre-training and transformer architectures for advancing scene graph generation towards more generalized and reliable visual understanding.

arxiv情報

著者 Zuyao Chen,Jinlin Wu,Zhen Lei,Chang Wen Chen
発行日 2025-05-26 15:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Data to Modeling: Fully Open-vocabulary Scene Graph Generation はコメントを受け付けていません

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

要約

単一のテキストプロンプトからコヒーレントなマルチビュー画像を生成するテキストツーマルチビュー(T2MV)生成は、計算的に集中的なままであり、少数の拡散モデルを使用した加速T2MVメソッドは、しばしば画像の忠実度を犠牲にし、一貫性を見ることがよくあります。
これに対処するために、少数のT2MV拡散モデルに合わせて調整された新しい強化学習(RL)Finetuningフレームワークを提案して、視点ごとの忠実度とクロスビューの一貫性を共同で最適化します。
具体的には、まず、すべてのビューにわたってT2MV除去を単一の統一マルコフ決定プロセスとして再定式化し、共同ビューの報酬目標によって駆動されるマルチビューを認識したポリシーの最適化を可能にします。
次に、ZMV-SAMPLINGを導入します。これは、視点とテキスト条件付けの両方を強化するために反転変形パスを追加するテスト時間T2MVサンプリング手法であるZMV-SAMPLINGを導入し、推論時にT2MV生成が改善されます。
パフォーマンスの向上を基本サンプリングポリシーに内面化するために、ポリシー更新の学習信号として標準サンプリングに対するZMVサンプリングの報酬の利点を使用する新しいポリシー最適化戦略であるMV-Zigalを開発します。
最後に、ジョイントビューの報酬目標がビューごとの忠実度を低くしているが、シングルビューのメトリックを単純に最適化することは、クロスビューのアライメントを無視することに注意して、T2MV拡散モデルのRL Finetuningを再構成し、視点の忠実性を最大化する忠実な忠実性を最大化する制約された最適化問題として再構成します。
この制約された最適化パラダイムをMV-Zigalと統合することにより、MVC-Zigalと呼ばれる完全なRL Finetuningフレームワークを確立します。MVC-Zigalと呼ばれ、少数のT2MV拡散ベースラインを忠実と一貫性の両方で効果的に改良し、その少数の速度効率を維持します。

要約(オリジナル)

Text-to-multiview (T2MV) generation, which produces coherent multiview images from a single text prompt, remains computationally intensive, while accelerated T2MV methods using few-step diffusion models often sacrifice image fidelity and view consistency. To address this, we propose a novel reinforcement learning (RL) finetuning framework tailored for few-step T2MV diffusion models to jointly optimize per-view fidelity and cross-view consistency. Specifically, we first reformulate T2MV denoising across all views as a single unified Markov decision process, enabling multiview-aware policy optimization driven by a joint-view reward objective. Next, we introduce ZMV-Sampling, a test-time T2MV sampling technique that adds an inversion-denoising pass to reinforce both viewpoint and text conditioning, resulting in improved T2MV generation at the cost of inference time. To internalize its performance gains into the base sampling policy, we develop MV-ZigAL, a novel policy optimization strategy that uses reward advantages of ZMV-Sampling over standard sampling as learning signals for policy updates. Finally, noting that the joint-view reward objective under-optimizes per-view fidelity but naively optimizing single-view metrics neglects cross-view alignment, we reframe RL finetuning for T2MV diffusion models as a constrained optimization problem that maximizes per-view fidelity subject to an explicit joint-view constraint, thereby enabling more efficient and balanced policy updates. By integrating this constrained optimization paradigm with MV-ZigAL, we establish our complete RL finetuning framework, referred to as MVC-ZigAL, which effectively refines the few-step T2MV diffusion baseline in both fidelity and consistency while preserving its few-step efficiency.

arxiv情報

著者 Ziyi Zhang,Li Shen,Deheng Ye,Yong Luo,Huangxuan Zhao,Lefei Zhang
発行日 2025-05-26 15:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning はコメントを受け付けていません

MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models

要約

このペーパーでは、単語学習中に子供に観察される認知現象である相互排他性(ME)バイアスを評価するための新しいベンチマークであるMebenchを紹介します。
従来のMEタスクとは異なり、Mebenchはさらに空間的推論を組み込んで、より挑戦的で現実的な評価設定を作成します。
私に基づく推論の重要な側面をキャプチャする新しい評価メトリックを使用して、このベンチマークで最先端のビジョン言語モデル(VLM)のパフォーマンスを評価します。
制御された実験を容易にするために、多様な注釈付きシーンの構築をサポートする柔軟でスケーラブルなデータ生成パイプラインも提示します。

要約(オリジナル)

This paper introduces MEBench, a novel benchmark for evaluating mutual exclusivity (ME) bias, a cognitive phenomenon observed in children during word learning. Unlike traditional ME tasks, MEBench further incorporates spatial reasoning to create more challenging and realistic evaluation settings. We assess the performance of state-of-the-art vision-language models (VLMs) on this benchmark using novel evaluation metrics that capture key aspects of ME-based reasoning. To facilitate controlled experimentation, we also present a flexible and scalable data generation pipeline that supports the construction of diverse annotated scenes.

arxiv情報

著者 Anh Thai,Stefan Stojanov,Zixuan Huang,Bikram Boote,James M. Rehg
発行日 2025-05-26 15:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models はコメントを受け付けていません

Understanding Generalization in Diffusion Models via Probability Flow Distance

要約

拡散モデルは、トレーニングデータを超えて一般化する高品質のサンプルを生成できる強力なクラスの生成モデルとして浮上しています。
ただし、この一般化を評価することは依然として困難なままです。理論的な指標は、高次元データに対しては非現実的であることがよくありますが、実用的なメトリックは厳密に一般化を測定するものではありません。
この作業では、確率フロー距離($ \ texttt {pfd} $)を導入することにより、このギャップを埋めます。
具体的には、$ \ texttt {pfd} $は、確率フローオードによって誘導されるノイズ間マッピングを比較することにより、分布間の距離を定量化します。
さらに、教師と学生の評価プロトコルの下で$ \ texttt {pfd} $を使用することにより、拡散モデルのいくつかの重要な一般化行動を経験的に明らかにします。
これらの洞察を超えて、私たちの仕事は、拡散モデルにおける一般化に関する将来の経験的および理論的研究の基礎となっています。

要約(オリジナル)

Diffusion models have emerged as a powerful class of generative models, capable of producing high-quality samples that generalize beyond the training data. However, evaluating this generalization remains challenging: theoretical metrics are often impractical for high-dimensional data, while no practical metrics rigorously measure generalization. In this work, we bridge this gap by introducing probability flow distance ($\texttt{PFD}$), a theoretically grounded and computationally efficient metric to measure distributional generalization. Specifically, $\texttt{PFD}$ quantifies the distance between distributions by comparing their noise-to-data mappings induced by the probability flow ODE. Moreover, by using $\texttt{PFD}$ under a teacher-student evaluation protocol, we empirically uncover several key generalization behaviors in diffusion models, including: (1) scaling behavior from memorization to generalization, (2) early learning and double descent training dynamics, and (3) bias-variance decomposition. Beyond these insights, our work lays a foundation for future empirical and theoretical studies on generalization in diffusion models.

arxiv情報

著者 Huijie Zhang,Zijian Huang,Siyi Chen,Jinfan Zhou,Zekai Zhang,Peng Wang,Qing Qu
発行日 2025-05-26 15:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Understanding Generalization in Diffusion Models via Probability Flow Distance はコメントを受け付けていません

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

要約

拡散モデルは、イメージングの逆の問題の事前に広く使用されています。
ただし、トレーニングとテスト時間画像の間の分布シフト下でのパフォーマンスはしばしば低下します。
分布シフトを識別および定量化するための既存の方法は、通常、逆の問題を解決している間はほとんど利用できないクリーンなテスト画像へのアクセスを必要とします(テスト時に)。
さまざまなデータセットでトレーニングされた拡散モデルからの間接(破損)測定とスコア関数のみを使用して、分布シフトを推定するための完全に監視されていないメトリックを提案します。
理論的には、このメトリックがトレーニングとテストの画像分布との間のKLの発散を推定することを示しています。
経験的には、スコアベースのメトリックは、破損した測定のみを使用して、クリーン画像から計算されたKL発散に密接に近似していることを示しています。
この結果に動機付けられているため、分散除外スコアを配置中のスコアに合わせると、破損した測定のみを使用してKLの発散が減少し、複数の逆問題にわたって再構成品質が向上することが示されます。

要約(オリジナル)

Diffusion models are widely used as priors in imaging inverse problems. However, their performance often degrades under distribution shifts between the training and test-time images. Existing methods for identifying and quantifying distribution shifts typically require access to clean test images, which are almost never available while solving inverse problems (at test time). We propose a fully unsupervised metric for estimating distribution shifts using only indirect (corrupted) measurements and score functions from diffusion models trained on different datasets. We theoretically show that this metric estimates the KL divergence between the training and test image distributions. Empirically, we show that our score-based metric, using only corrupted measurements, closely approximates the KL divergence computed from clean images. Motivated by this result, we show that aligning the out-of-distribution score with the in-distribution score — using only corrupted measurements — reduces the KL divergence and leads to improved reconstruction quality across multiple inverse problems.

arxiv情報

著者 Shirin Shoushtari,Edward P. Chandler,Yuanhao Wang,M. Salman Asif,Ulugbek S. Kamilov
発行日 2025-05-26 15:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models はコメントを受け付けていません

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

要約

ビデオは、カメラ、シーン、アクション、属性など、時間の経過とともに動的な関係を含む一時的な要素の統合においてユニークです。
ただし、ビデオ理解のための既存のベンチマークは、これらのプロパティを個別に扱うか、特定の側面に狭く焦点を当て、ビデオコンテンツの全体的な性質を見下ろすことがよくあります。
これに対処するために、キャプションとQAという2つの補完的なタスクを備えた、密集したダイナミックビデオで細粒の理解を得るための一時的なベンチマークであるマグロを紹介します。
私たちのマグロには、さまざまなビデオシナリオとダイナミクスがあり、解釈可能で堅牢な評価基準によって支援されています。
ベンチマーク上のいくつかの主要なモデルを評価し、さまざまな次元できめ細かいパフォーマンス評価を提供します。
この評価は、制限されたアクションの説明、不十分なマルチサブジェクトの理解、カメラの動きに対する無感覚など、ビデオの時間的理解における重要な課題を明らかにし、ビデオ理解モデルを改善するための貴重な洞察を提供します。
データとコードは、https://friedrichor.github.io/projects/tunaで入手できます。

要約(オリジナル)

Videos are unique in their integration of temporal elements, including camera, scene, action, and attribute, along with their dynamic relationships over time. However, existing benchmarks for video understanding often treat these properties separately or narrowly focus on specific aspects, overlooking the holistic nature of video content. To address this, we introduce TUNA, a temporal-oriented benchmark for fine-grained understanding on dense dynamic videos, with two complementary tasks: captioning and QA. Our TUNA features diverse video scenarios and dynamics, assisted by interpretable and robust evaluation criteria. We evaluate several leading models on our benchmark, providing fine-grained performance assessments across various dimensions. This evaluation reveals key challenges in video temporal understanding, such as limited action description, inadequate multi-subject understanding, and insensitivity to camera motion, offering valuable insights for improving video understanding models. The data and code are available at https://friedrichor.github.io/projects/TUNA.

arxiv情報

著者 Fanheng Kong,Jingyuan Zhang,Hongzhi Zhang,Shi Feng,Daling Wang,Linhao Yu,Xingguang Ji,Yu Tian,Qi Wang,Fuzheng Zhang
発行日 2025-05-26 15:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DB, cs.MM | TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos はコメントを受け付けていません

OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender

要約

神経放射輝度フィールド(NERF)と3Dガウスのスプラッティング(3DG)によって例示された、放射界のレンダリングにおける最近の進歩は、3Dモデリングと再構築を大幅に進歩させています。
これらのタスクに複数の360度の全方向性画像を使用することは、データ収集と包括的なシーンキャプチャの利点により、ますます好まれています。
ただし、等電子投影(特に極地では重度で緯度で変化する)など、一般的な全方向表現における固有の幾何学的歪みは、高忠実度の3D再構成を達成するために大きな課題をもたらします。
現在のデータセットは、価値がありますが、これらの全方向性固有の課題を克服するために体系的にベンチマークし、進歩を促進するために必要な特定の焦点、シーン構成、およびグラウンドトゥルースの粒度が欠けていることがよくあります。
このクリティカルギャップに対処するために、複数の総誘導画像から3D再構成を進めるためにキュレーションされた新しい合成データセットである全方向性ブレンダー3D(OB3D)を導入します。
OB3Dは、Blender 3Dプロジェクトから生成される多様で複雑な3Dシーンを特徴としており、挑戦的なシナリオに意図的に重点を置いています。
データセットは、評価メトリックとともに、深さと正規の深さと正規の正確な方向性カメラパラメーター、正確な全方向性カメラパラメーター、ピクセル並列の平等マップを含む、包括的なグラウンドトゥルースを提供します。
制御されているが挑戦的な環境を提供することにより、OB3Daimは、既存の方法の厳密な評価を促進し、新しい技術の開発を促して、全方向性画像からの3D再構築の精度と信頼性を高めることを促します。

要約(オリジナル)

Recent advancements in radiance field rendering, exemplified by Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS), have significantly progressed 3D modeling and reconstruction. The use of multiple 360-degree omnidirectional images for these tasks is increasingly favored due to advantages in data acquisition and comprehensive scene capture. However, the inherent geometric distortions in common omnidirectional representations, such as equirectangular projection (particularly severe in polar regions and varying with latitude), pose substantial challenges to achieving high-fidelity 3D reconstructions. Current datasets, while valuable, often lack the specific focus, scene composition, and ground truth granularity required to systematically benchmark and drive progress in overcoming these omnidirectional-specific challenges. To address this critical gap, we introduce Omnidirectional Blender 3D (OB3D), a new synthetic dataset curated for advancing 3D reconstruction from multiple omnidirectional images. OB3D features diverse and complex 3D scenes generated from Blender 3D projects, with a deliberate emphasis on challenging scenarios. The dataset provides comprehensive ground truth, including omnidirectional RGB images, precise omnidirectional camera parameters, and pixel-aligned equirectangular maps for depth and normals, alongside evaluation metrics. By offering a controlled yet challenging environment, OB3Daims to facilitate the rigorous evaluation of existing methods and prompt the development of new techniques to enhance the accuracy and reliability of 3D reconstruction from omnidirectional images.

arxiv情報

著者 Shintaro Ito,Natsuki Takama,Toshiki Watanabe,Koichi Ito,Hwann-Tzong Chen,Takafumi Aoki
発行日 2025-05-26 15:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender はコメントを受け付けていません

Agentic 3D Scene Generation with Spatially Contextualized VLMs

要約

ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生成の最近の進歩にもかかわらず、構造化された3Dシーンについて推論し、生成する能力はほとんど既知のままです。
この制限により、具体化されたAI、没入型シミュレーション、インタラクティブな3Dアプリケーションなどの空間的に接地されたタスクでのユーティリティが制約されます。
継続的に進化する空間的コンテキストを注入することにより、VLMが複雑な3D環境を生成、理解、編集できるようにする新しいパラダイムを導入します。
マルチモーダル入力から構築されたこのコンテキストは、3つのコンポーネントで構成されています。高レベルのセマンティックブループリントを提供するシーンポートレート、オブジェクトレベルのジオメトリをキャプチャする意味的にラベル付けされたポイントクラウド、および単位、バイナリ、および高次制約を含む豊富な空間的関係をコードするシーンハイパーグラフ。
これらのコンポーネントは、VLMに、その固有のマルチモーダル推論機能を効果的な空間推論のために構造化された3D理解と統合する構造化されたジオメトリ認識ワーキングメモリを提供します。
この基盤に基づいて、VLMが空間コンテキストから読み取り、更新するエージェント3Dシーン生成パイプラインを開発します。
パイプラインは、幾何学的修復、自動検証による環境のセットアップ、およびシーンハイパーグラフによって導かれる人間工学に基づいた調整を伴う高品質の資産生成を特徴としています。
実験は、私たちのフレームワークが多様で挑戦的な入力を処理し、以前の作業では観察されないレベルの一般化を達成できることを示しています。
さらなる結果は、空間的コンテキストを注入することで、VLMがインタラクティブシーンの編集やパス計画などの下流タスクを実行できることを示しており、コンピューターグラフィックス、3Dビジョン、具体化されたアプリケーションの空間的にインテリジェントなシステムの強力な可能性を示唆しています。

要約(オリジナル)

Despite recent advances in multimodal content generation enabled by vision-language models (VLMs), their ability to reason about and generate structured 3D scenes remains largely underexplored. This limitation constrains their utility in spatially grounded tasks such as embodied AI, immersive simulations, and interactive 3D applications. We introduce a new paradigm that enables VLMs to generate, understand, and edit complex 3D environments by injecting a continually evolving spatial context. Constructed from multimodal input, this context consists of three components: a scene portrait that provides a high-level semantic blueprint, a semantically labeled point cloud capturing object-level geometry, and a scene hypergraph that encodes rich spatial relationships, including unary, binary, and higher-order constraints. Together, these components provide the VLM with a structured, geometry-aware working memory that integrates its inherent multimodal reasoning capabilities with structured 3D understanding for effective spatial reasoning. Building on this foundation, we develop an agentic 3D scene generation pipeline in which the VLM iteratively reads from and updates the spatial context. The pipeline features high-quality asset generation with geometric restoration, environment setup with automatic verification, and ergonomic adjustment guided by the scene hypergraph. Experiments show that our framework can handle diverse and challenging inputs, achieving a level of generalization not observed in prior work. Further results demonstrate that injecting spatial context enables VLMs to perform downstream tasks such as interactive scene editing and path planning, suggesting strong potential for spatially intelligent systems in computer graphics, 3D vision, and embodied applications.

arxiv情報

著者 Xinhang Liu,Yu-Wing Tai,Chi-Keung Tang
発行日 2025-05-26 15:28:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Agentic 3D Scene Generation with Spatially Contextualized VLMs はコメントを受け付けていません

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

要約

大規模な言語モデル(LLMS)の急速な進歩は、単一のフレームワーク内で視覚的理解と画像生成を統合するマルチモーダル大手言語モデル(MLLM)の出現を触媒しました。
ただし、ほとんどの既存のMLLMは、自動回復(AR)アーキテクチャに依存しています。これは、画像生成におけるラスタースキャン順序や因果文脈モデリングの制限された推論能力など、将来の開発に固有の制限を課しています。
この作業では、従来のARパラダイムの代替として、離散フローマッチングに純粋に基づいた統一マルチモーダルモデルであるFudokiを導入することにより、ARベースのアプローチの支配に挑戦します。
速度論的最適速度を備えたメトリック誘導確率パスを活用することにより、私たちのフレームワークは、以前のマスキングベースの腐敗プロセスを超えて、自己修正能力と生成中のより豊かな双方向コンテキストの統合を伴う反復改良性を可能にします。
ゼロからのトレーニングの高コストを緩和するために、Fudokiを事前に訓練したARベースのMLLMSから初期化し、適応的に一致するパラダイムに適応的に移行します。
実験結果は、Fudokiが視覚的理解と画像生成タスクの両方で最先端のARベースのMLLMに匹敵するパフォーマンスを達成し、次世代統一マルチモーダルモデルの基礎としての可能性を強調していることを示しています。
さらに、Fudokiにテスト時間スケーリング技術を適用すると、大幅なパフォーマンスが得られ、強化学習による将来の強化に対する約束をさらに強調することが示されています。

要約(オリジナル)

The rapid progress of large language models (LLMs) has catalyzed the emergence of multimodal large language models (MLLMs) that unify visual understanding and image generation within a single framework. However, most existing MLLMs rely on autoregressive (AR) architectures, which impose inherent limitations on future development, such as the raster-scan order in image generation and restricted reasoning abilities in causal context modeling. In this work, we challenge the dominance of AR-based approaches by introducing FUDOKI, a unified multimodal model purely based on discrete flow matching, as an alternative to conventional AR paradigms. By leveraging metric-induced probability paths with kinetic optimal velocities, our framework goes beyond the previous masking-based corruption process, enabling iterative refinement with self-correction capability and richer bidirectional context integration during generation. To mitigate the high cost of training from scratch, we initialize FUDOKI from pre-trained AR-based MLLMs and adaptively transition to the discrete flow matching paradigm. Experimental results show that FUDOKI achieves performance comparable to state-of-the-art AR-based MLLMs across both visual understanding and image generation tasks, highlighting its potential as a foundation for next-generation unified multimodal models. Furthermore, we show that applying test-time scaling techniques to FUDOKI yields significant performance gains, further underscoring its promise for future enhancement through reinforcement learning.

arxiv情報

著者 Jin Wang,Yao Lai,Aoxue Li,Shifeng Zhang,Jiacheng Sun,Ning Kang,Chengyue Wu,Zhenguo Li,Ping Luo
発行日 2025-05-26 15:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities はコメントを受け付けていません

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

要約

このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希少クラスに分類する精度を向上させることに焦点を当てています。
GANベースの増強戦略をベースラインとして使用し、モデルをさらに強化するためにいくつかの新しい方法を導入しました。
提案された戦略には、生成パーツを改善するためのU-GAT-ITが含まれており、データバランスの手法を使用して、すべてのカテゴリ間の精度のスキューを絞り込みます。
得られた最良のモデルは、CBAM注意メカニズムと微調整されたInceptionV3で構築され、97.85%の全体的な精度を達成し、元のベースラインよりも大幅な改善を表しています。

要約(オリジナル)

This paper focuses on using few-shot learning to improve the accuracy of classifying OCT diagnosis images with major and rare classes. We used the GAN-based augmentation strategy as a baseline and introduced several novel methods to further enhance our model. The proposed strategy contains U-GAT-IT for improving the generative part and uses the data balance technique to narrow down the skew of accuracy between all categories. The best model obtained was built with CBAM attention mechanism and fine-tuned InceptionV3, and achieved an overall accuracy of 97.85%, representing a significant improvement over the original baseline.

arxiv情報

著者 Cheng-Yu Tai,Ching-Wen Chen,Chi-Chin Wu,Bo-Chen Chiu,Cheng-Hung,Lin,Cheng-Kai Lu,Jia-Kang Wang,Tzu-Lun Huang
発行日 2025-05-26 15:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases はコメントを受け付けていません