Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

要約

拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成するのに強力ですが、既存の方法は、視覚的な質問応答(VQA)や人間オブジェクトの相互作用(HOI)の推論などのシーン認識タスクと闘います。
これに対処するために、マルチモーダルのコンテキストを与えられた最初の拡散ベースの画像ジェネレーターである$ \ textbf {hummingbird} $を紹介します。
参照画像は、テキストガイダンスからのオブジェクトの相互作用や空間的関係など、シーンの属性を正確に保存することにより、高い忠実度を保証しながら。
Hummingbirdは、多様性を維持しながらテキストガイダンスに関連して生成された画像を参照画像のシーン属性を保持するために、策定されたグローバルなセマンティックおよび微細に粒度の一貫性報酬を同時に最適化する新しいマルチモーダルコンテキスト評価者を採用しています。
マルチモーダルコンテキストを考慮して、多様性と忠実度の両方を維持するタスクに対処する最初のモデルとして、MMEの知覚とボンガードHOIデータセットを組み込んだ新しいベンチマーク定式化を導入します。
ベンチマークの実験では、ハチドリが多様性を維持しながら優れた忠実度を達成することにより、すべての既存の方法を上回ることを示しており、複雑な視覚タスクでの堅牢なマルチモーダルコンテキストに整列した画像ジェネレーターとしてのハミングバードの可能性を検証します。
プロジェクトページ:https://roar-ai.github.io/hummingbird

要約(オリジナル)

While diffusion models are powerful in generating high-quality, diverse synthetic data for object-centric tasks, existing methods struggle with scene-aware tasks such as Visual Question Answering (VQA) and Human-Object Interaction (HOI) Reasoning, where it is critical to preserve scene attributes in generated images consistent with a multimodal context, i.e. a reference image with accompanying text guidance query. To address this, we introduce $\textbf{Hummingbird}$, the first diffusion-based image generator which, given a multimodal context, generates highly diverse images w.r.t. the reference image while ensuring high fidelity by accurately preserving scene attributes, such as object interactions and spatial relationships from the text guidance. Hummingbird employs a novel Multimodal Context Evaluator that simultaneously optimizes our formulated Global Semantic and Fine-grained Consistency Rewards to ensure generated images preserve the scene attributes of reference images in relation to the text guidance while maintaining diversity. As the first model to address the task of maintaining both diversity and fidelity given a multimodal context, we introduce a new benchmark formulation incorporating MME Perception and Bongard HOI datasets. Benchmark experiments show Hummingbird outperforms all existing methods by achieving superior fidelity while maintaining diversity, validating Hummingbird’s potential as a robust multimodal context-aligned image generator in complex visual tasks. Project page: https://roar-ai.github.io/hummingbird

arxiv情報

著者 Minh-Quan Le,Gaurav Mittal,Tianjian Meng,A S M Iftekhar,Vishwas Suryanarayanan,Barun Patra,Dimitris Samaras,Mei Chen
発行日 2025-06-09 16:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment はコメントを受け付けていません

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

要約

拡散モデルは、画像、ビデオ、テキスト生成など、さまざまなタスクで単峰性データを生成する際に顕著なパフォーマンスを実証しています。
それどころか、拡散モデルを介したマルチモーダルデータの共同生成は、まだ探査の初期段階にあります。
既存のアプローチは、トークンザーや変分自動エンコーダーなどの外部前処理プロトコルに大きく依存して、さまざまなデータ表現を統一された単型形式に調和させます。
このプロセスには、エンコーダーとデコーダーの高精度が非常に必要であり、データが限られているアプリケーションでは問題がある場合があります。
この制限を解除するために、任意の状態空間にマルチモーダル拡散モデルを構築するための新しいフレームワークを提案し、異なるモダリティにわたってネイティブ生成の結合データを可能にします。
モダリティごとに革新的な分離ノイズスケジュールを導入することにより、単一モデル内で同時に無条件とモダリティの条件付き生成の両方を有効にします。
テキストイメージの生成と混合型の表形式データ合成に対するアプローチを経験的に検証し、競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

Diffusion models have demonstrated remarkable performance in generating unimodal data across various tasks, including image, video, and text generation. On the contrary, the joint generation of multimodal data through diffusion models is still in the early stages of exploration. Existing approaches heavily rely on external preprocessing protocols, such as tokenizers and variational autoencoders, to harmonize varied data representations into a unified, unimodal format. This process heavily demands the high accuracy of encoders and decoders, which can be problematic for applications with limited data. To lift this restriction, we propose a novel framework for building multimodal diffusion models on arbitrary state spaces, enabling native generation of coupled data across different modalities. By introducing an innovative decoupled noise schedule for each modality, we enable both unconditional and modality-conditioned generation within a single model simultaneously. We empirically validate our approach for text-image generation and mixed-type tabular data synthesis, demonstrating that it achieves competitive performance.

arxiv情報

著者 Kevin Rojas,Yuchen Zhu,Sichen Zhu,Felix X. -F. Ye,Molei Tao
発行日 2025-06-09 16:20:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces はコメントを受け付けていません

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

要約

Deepseek-R1などのテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな可能性を秘めています。
最近の作品は、DeepSeek-R1スタイルの強化学習(RL)トレーニングパラダイムをマルチモーダル大手言語モデル(MLLM)に適応させようとしましたが、数学や視覚的知覚などのドメイン固有のタスクに焦点を当てていますが、重要な質問が残っています。
この課題に対処するために、3つの重要な努力をします。(1)指定された画像から直接コンテキスト認識し、推論中心の質問(QA)ペアを自律的に生成する新しいスケーラブルなマルチモーダルQA合成パイプライン。
(2)注釈付きの推論パスを備えた120kを超えるマルチモーダルQAペアを含むオープンソースWethinkデータセット、18の多様なデータセットソースからキュレーションされ、さまざまな質問ドメインをカバーします。
(3)データセットでのRLの包括的な調査。ルールベースの検証とモデルベースの評価を組み合わせて、さまざまなタスクドメインにわたってRLトレーニング効率を最適化するハイブリッド報酬メカニズムを組み込みます。
14の多様なMLLMベンチマークにわたって、Wethinkデータセットが数学的推論から多様な一般的なマルチモーダルタスクまで、パフォーマンスを大幅に向上させることを実証します。
さらに、自動化されたデータパイプラインがデータの多様性を継続的に増加させて、モデルのパフォーマンスをさらに向上させることができることを示しています。

要約(オリジナル)

Building on the success of text-based reasoning models like DeepSeek-R1, extending these capabilities to multimodal reasoning holds great promise. While recent works have attempted to adapt DeepSeek-R1-style reinforcement learning (RL) training paradigms to multimodal large language models (MLLM), focusing on domain-specific tasks like math and visual perception, a critical question remains: How can we achieve the general-purpose visual-language reasoning through RL? To address this challenge, we make three key efforts: (1) A novel Scalable Multimodal QA Synthesis pipeline that autonomously generates context-aware, reasoning-centric question-answer (QA) pairs directly from the given images. (2) The open-source WeThink dataset containing over 120K multimodal QA pairs with annotated reasoning paths, curated from 18 diverse dataset sources and covering various question domains. (3) A comprehensive exploration of RL on our dataset, incorporating a hybrid reward mechanism that combines rule-based verification with model-based assessment to optimize RL training efficiency across various task domains. Across 14 diverse MLLM benchmarks, we demonstrate that our WeThink dataset significantly enhances performance, from mathematical reasoning to diverse general multimodal tasks. Moreover, we show that our automated data pipeline can continuously increase data diversity to further improve model performance.

arxiv情報

著者 Jie Yang,Feipeng Ma,Zitian Wang,Dacheng Yin,Kang Rong,Fengyun Rao,Ruimao Zhang
発行日 2025-06-09 16:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning はコメントを受け付けていません

VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

要約

人間の毎日の活動は、ビデオストリームの日常的なイベントのシーケンス(例えば、アラームの電源を切る)として簡潔にナレーションすることができ、イベントの語彙を形成します。
これに動機付けられて、ビデオナレーションを語彙として定義する新しいビデオ理解フレームワークであるVlogを紹介し、既存の生成ビデオ言語モデルの典型的なサブワード語彙を超えています。
軽量言語モデルのGPT-2に基づいて構築されたVLOGは、3つの重要な革新を備えています。(i)生成的検索モデル、言語モデルの複雑な推論機能と、対照的な検索の柔軟なアップグレードをナレーション語の語彙に導きます。
(ii)ナレーションペアをエンコードするアルゴリズムを使用して、大規模なビデオナレーションから派生した階層的な語彙。特定のイベントの効率的なインデックス作成(トマトを切断するなど)を可能にします(例えば、キッチンなど)(左手で)
(iii)推論中に遭遇した新しいイベントの語彙を拡張するための生成モデルを活用する語彙更新戦略。
アプローチを検証するために、Vidcap-Evalを導入します。これは、推論関係(例:前後)の簡潔なナレーションを必要とする開発セットです。
エゴケマ、コイン、およびハイエストに関する実験は、VLOGの有効性をさらに示し、簡潔で文脈的に正確で効率的なナレーションを生成する能力を強調し、ビデオ理解に関する斬新な視点を提供します。
コードはhttps://github.com/showlab/vlogでリリースされます。

要約(オリジナル)

Human daily activities can be concisely narrated as sequences of routine events (e.g., turning off an alarm) in video streams, forming an event vocabulary. Motivated by this, we introduce VLog, a novel video understanding framework that define video narrations as vocabulary, going beyond the typical subword vocabularies in existing generative video-language models. Built on the lightweight language model GPT-2, VLog feature three key innovations: (i) A generative retrieval model, marrying language model’s complex reasoning capabilities with contrastive retrieval’s flexible upgrading over narration vocabulary. (ii) A hierarchical vocabulary derived from large-scale video narrations using our narration pair encoding algorithm, enabling efficient indexing of specific events (e.g., cutting a tomato) by identifying broader scenarios (e.g., kitchen) with expressive postfixes (e.g., by the left hand). (iii) A vocabulary update strategy leveraging generative models to extend the vocabulary for novel events encountered during inference. To validate our approach, we introduce VidCap-Eval, a development set requiring concise narrations with reasoning relationships (e.g., before and after). Experiments on EgoSchema, COIN, and HiREST further demonstrate the effectiveness of VLog, highlighting its ability to generate concise, contextually accurate, and efficient narrations, offering a novel perspective on video understanding. Codes are released at https://github.com/showlab/VLog.

arxiv情報

著者 Kevin Qinghong Lin,Mike Zheng Shou
発行日 2025-06-09 16:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary はコメントを受け付けていません

DINeMo: Learning Neural Mesh Models with no 3D Annotations

要約

カテゴリレベルの3D/6Dポーズ推定は、包括的な3Dシーンの理解に向けた重要なステップであり、ロボット工学と具体化されたAIで幅広いアプリケーションを可能にします。
最近の研究では、分析による2Dおよび3Dタスクの範囲に近づくニューラルメッシュモデルを調査しました。
部分的な閉塞とドメインシフトに対する堅牢性が大幅に向上したにもかかわらず、これらの方法は、部分的に制御する学習のための3Dアノテーションに大きく依存しており、それらを狭いカテゴリに限定し、効率的なスケーリングを妨げます。
この作業では、大規模な視覚基盤モデルから得られた擬似対応を活用することにより、3D注釈なしで訓練された新しいニューラルメッシュモデルであるDinemoを提示します。
私たちは、視覚的な擬似対応法を採用し、擬似対応を生成し、ローカルな外観機能とグローバルなコンテキスト情報の両方を利用します。
CARデータセットの実験結果は、DINEMOが以前のゼロおよび少数の3Dポーズ推定を大きく上回ることを示しており、完全に監視された方法で67.3%のギャップを絞り込んでいることを示しています。
私たちのDINEMOはまた、トレーニング中により多くのラベル付けされた画像を組み込むときに効果的かつ効率的に拡大します。これは、3Dアノテーションに依存する監視された学習方法よりも利点を示しています。
プロジェクトページは、https:///analysis-by-synthesis.github.io/dinemo/で入手できます。

要約(オリジナル)

Category-level 3D/6D pose estimation is a crucial step towards comprehensive 3D scene understanding, which would enable a broad range of applications in robotics and embodied AI. Recent works explored neural mesh models that approach a range of 2D and 3D tasks from an analysis-by-synthesis perspective. Despite the largely enhanced robustness to partial occlusion and domain shifts, these methods depended heavily on 3D annotations for part-contrastive learning, which confines them to a narrow set of categories and hinders efficient scaling. In this work, we present DINeMo, a novel neural mesh model that is trained with no 3D annotations by leveraging pseudo-correspondence obtained from large visual foundation models. We adopt a bidirectional pseudo-correspondence generation method, which produce pseudo correspondence utilize both local appearance features and global context information. Experimental results on car datasets demonstrate that our DINeMo outperforms previous zero- and few-shot 3D pose estimation by a wide margin, narrowing the gap with fully-supervised methods by 67.3%. Our DINeMo also scales effectively and efficiently when incorporating more unlabeled images during training, which demonstrate the advantages over supervised learning methods that rely on 3D annotations. Our project page is available at https://analysis-by-synthesis.github.io/DINeMo/.

arxiv情報

著者 Weijie Guo,Guofeng Zhang,Wufei Ma,Alan Yuille
発行日 2025-06-09 16:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DINeMo: Learning Neural Mesh Models with no 3D Annotations はコメントを受け付けていません

Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes

要約

3Dガウススプラッティング(3DG)の最近の拡張は、ニューラルネットワークを使用して各ガウスの時変変形を予測することにより、高品質の新規ビュー合成を実現します。
ただし、すべてのフレームでガウスごとの神経推論を実行すると、重要なボトルネックがもたらされ、レンダリング速度が制限され、メモリと計算要件が増加します。
この論文では、2つの相補的手法を通じて神経推論を減らすことにより、動的3DGと4DGS表現のレンダリング速度を加速するための一般的なパイプラインである、スピーディーな変形可能な3Dガウススプラッティング(Speede3DGS)を提示します。
まず、動的シーンの再構築に貢献していないガウス人を識別および除去する時間感度剪定スコアを提案します。
また、不正確なカメラのポーズを使用して、実際のシーンで剪定の堅牢性を向上させるアニーリングスムーズな剪定メカニズムを導入します。
第二に、軌道の類似性によってガウス人をクラスターするモーション分析手法であるGroupFlowを提案し、各ガウスの個別の変形ではなく、グループごとに単一の剛性変換を予測します。
一緒に、当社のテクニックは、$ 10.37 \ Times $のレンダリングを加速し、モデルサイズを$ 7.71 \ Times $に削減し、NERF-DSデータセットで$ 2.71 \ Times $を短縮します。
Speede3DGSは、d-nerfおよびhypernerf vrigデータセットで$ 4.20 \ times $と$ 58.23 \ times $のレンダリング速度も向上します。
私たちの方法はモジュール式であり、変形可能な3DGまたは4DGSフレームワークに統合できます。

要約(オリジナル)

Recent extensions of 3D Gaussian Splatting (3DGS) to dynamic scenes achieve high-quality novel view synthesis by using neural networks to predict the time-varying deformation of each Gaussian. However, performing per-Gaussian neural inference at every frame poses a significant bottleneck, limiting rendering speed and increasing memory and compute requirements. In this paper, we present Speedy Deformable 3D Gaussian Splatting (SpeeDe3DGS), a general pipeline for accelerating the rendering speed of dynamic 3DGS and 4DGS representations by reducing neural inference through two complementary techniques. First, we propose a temporal sensitivity pruning score that identifies and removes Gaussians with low contribution to the dynamic scene reconstruction. We also introduce an annealing smooth pruning mechanism that improves pruning robustness in real-world scenes with imprecise camera poses. Second, we propose GroupFlow, a motion analysis technique that clusters Gaussians by trajectory similarity and predicts a single rigid transformation per group instead of separate deformations for each Gaussian. Together, our techniques accelerate rendering by $10.37\times$, reduce model size by $7.71\times$, and shorten training time by $2.71\times$ on the NeRF-DS dataset. SpeeDe3DGS also improves rendering speed by $4.20\times$ and $58.23\times$ on the D-NeRF and HyperNeRF vrig datasets. Our methods are modular and can be integrated into any deformable 3DGS or 4DGS framework.

arxiv情報

著者 Allen Tu,Haiyang Ying,Alex Hanson,Yonghan Lee,Tom Goldstein,Matthias Zwicker
発行日 2025-06-09 16:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes はコメントを受け付けていません

A Comparative Study of U-Net Architectures for Change Detection in Satellite Images

要約

リモートセンシングの変化の検出は、地球の絶えず変化する風景を監視するために不可欠です。
U-Netアーキテクチャは、空間情報をキャプチャし、ピクセルごとの分類を実行する能力で人気を博しています。
ただし、リモートセンシングフィールドでのアプリケーションは、ほとんど説明されていません。
したがって、この論文は、34の論文の包括的な分析を実施することにより、ギャップを埋めます。
この研究では、18の異なるU-NETバリエーションの比較と分析を実施し、リモートセンシングの変化を検出する可能性を評価します。
この特定のアプリケーションのフレームワーク内の各変動の欠点とともに、両方の利点を評価します。
シャムの建築を利用するシャムSwin-u-netなど、変化検出のために明示的に構築されたバリエーションを強調しています。
分析は、異なる期間からデータを管理したり、長距離で関係を収集して、変化検出の精度を高めるなどの側面の重要性を強調しています。
この研究は、リモートセンシング変更検出タスクのためにU-Netバージョンを選択する研究者と実践者に貴重な洞察を提供します。

要約(オリジナル)

Remote sensing change detection is essential for monitoring the everchanging landscapes of the Earth. The U-Net architecture has gained popularity for its capability to capture spatial information and perform pixel-wise classification. However, their application in the Remote sensing field remains largely unexplored. Therefore, this paper fill the gap by conducting a comprehensive analysis of 34 papers. This study conducts a comparison and analysis of 18 different U-Net variations, assessing their potential for detecting changes in remote sensing. We evaluate both benefits along with drawbacks of each variation within the framework of this particular application. We emphasize variations that are explicitly built for change detection, such as Siamese Swin-U-Net, which utilizes a Siamese architecture. The analysis highlights the significance of aspects such as managing data from different time periods and collecting relationships over a long distance to enhance the precision of change detection. This study provides valuable insights for researchers and practitioners that choose U-Net versions for remote sensing change detection tasks.

arxiv情報

著者 Yaxita Amin,Naimisha S Trivedi,Rashmi Bhattad
発行日 2025-06-09 16:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | A Comparative Study of U-Net Architectures for Change Detection in Satellite Images はコメントを受け付けていません

ViVo: A Dataset for Volumetric Video Reconstruction and Compression

要約

神経体積ビデオの再構築と圧縮の繁栄に関する研究として、再構築モデルと圧縮モデルの開発と検証に使用できる多様で現実的なデータセットが必要です。
ただし、既存のボリュームビデオデータセットには、実際の生産パイプラインに一般的に存在するセマンティックおよび低レベルの両方の機能の両方の点で、多様なコンテンツがありません。
これに関連して、ボリュームビデオの再構築と圧縮のために、新しいデータセットvivoを提案します。
データセットは、現実世界のボリュームビデオ制作に忠実であり、多様性の定義を拡張して、人間中心の特性(皮膚、髪など)と動的視覚現象(透明、反射、液体など)の両方を含む最初のデータセットです。
このデータベースの各ビデオシーケンスには、14のマルチビューRGBおよび深度ビデオペアを含む生データが含まれています。これは、1つのフレームキャリブレーションとオーディオデータ、および関連する2D前景マスクと3Dポイントクラウドを備えた30fpsで同期しています。
このデータベースの使用を実証するために、3つの最先端の(SOTA)3D再構成方法と2つの体積ビデオ圧縮アルゴリズムをベンチマークしました。
得られた結果は、提案されたデータセットの挑戦的な性質と、体積ビデオ再構成と圧縮タスクの両方の既存のデータセットの制限を証明し、これらのアプリケーションのより効果的なアルゴリズムを開発する必要性を強調しています。
データベースと関連する結果は、https://vivo-bvicr.github.io/で入手できます。

要約(オリジナル)

As research on neural volumetric video reconstruction and compression flourishes, there is a need for diverse and realistic datasets, which can be used to develop and validate reconstruction and compression models. However, existing volumetric video datasets lack diverse content in terms of both semantic and low-level features that are commonly present in real-world production pipelines. In this context, we propose a new dataset, ViVo, for VolumetrIc VideO reconstruction and compression. The dataset is faithful to real-world volumetric video production and is the first dataset to extend the definition of diversity to include both human-centric characteristics (skin, hair, etc.) and dynamic visual phenomena (transparent, reflective, liquid, etc.). Each video sequence in this database contains raw data including fourteen multi-view RGB and depth video pairs, synchronized at 30FPS with per-frame calibration and audio data, and their associated 2-D foreground masks and 3-D point clouds. To demonstrate the use of this database, we have benchmarked three state-of-the-art (SotA) 3-D reconstruction methods and two volumetric video compression algorithms. The obtained results evidence the challenging nature of the proposed dataset and the limitations of existing datasets for both volumetric video reconstruction and compression tasks, highlighting the need to develop more effective algorithms for these applications. The database and the associated results are available at https://vivo-bvicr.github.io/

arxiv情報

著者 Adrian Azzarelli,Ge Gao,Ho Man Kwan,Fan Zhang,Nantheera Anantrasirichai,Ollie Moolan-Feroze,David Bull
発行日 2025-06-09 16:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViVo: A Dataset for Volumetric Video Reconstruction and Compression はコメントを受け付けていません

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

要約

ライティングアシスタント(Grammarly、Microsoft Copilotなど)は、画像コンポーネントを説明するために構文とセマンティックのバリエーションを使用することにより、伝統的に多様な画像キャプションを生成します。
ただし、人間が作成したキャプションは、実用的な手がかりを使用して視覚的な説明とともに中心的なメッセージを伝えることを優先します。
キャプションの多様性を高めるには、視覚的なコンテンツと組み合わせてこれらのメッセージを伝える代替方法を探ることが不可欠です。
私たちは、コヒーレンス関係を実用的なバリエーションの制御可能な軸として活用するマルチモーダル大手言語モデル(MLLM)の新しいプロンプト戦略であるRonaを提案します。
RONAは、複数のドメインにわたるMLLMベースラインと比較して、全体的な多様性と根本的なアライメントが改善されたキャプションを生成することを実証します。
私たちのコードは、https://github.com/aashish2000/ronaで入手できます

要約(オリジナル)

Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance caption diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. We propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as a controllable axis for pragmatic variations. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA

arxiv情報

著者 Aashish Anantha Ramakrishnan,Aadarsh Anantha Ramakrishnan,Dongwon Lee
発行日 2025-06-09 16:48:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, I.2.10 | RONA: Pragmatically Diverse Image Captioning with Coherence Relations はコメントを受け付けていません

Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor

要約

Squeeze3Dを提案します。これは、非常に高い圧縮比で3Dデータを圧縮するために、既存の事前訓練を受けた3D生成モデルによって学習した暗黙の事前知識を活用する新しいフレームワークです。
私たちのアプローチは、トレーニング可能なマッピングネットワークを通じて、事前に訓練されたエンコーダーと事前に訓練された生成モデルの間の潜在スペースを橋渡しします。
メッシュ、ポイントクラウド、または輝度フィールドとして表される3Dモデルは、最初に事前に訓練されたエンコーダによってエンコードされ、次に非常にコンパクトな潜在コードに変換されます(つまり、圧縮されます)。
この潜在コードは、メッシュまたはポイントクラウドの非常に圧縮された表現として効果的に使用できます。
マッピングネットワークは、圧縮された潜在コードを強力な生成モデルの潜在空間に変換し、元の3Dモデル(つまり、減圧)を再現するように条件付けられます。
Squeeze3Dは、生成された合成データで完全にトレーニングされており、3Dデータセットは必要ありません。
Squeeze3Dアーキテクチャは、既存の事前に訓練された3Dエンコーダーと既存の生成モデルで柔軟に使用できます。
メッシュ、ポイントクラウド、ラディアンスフィールドなど、さまざまな形式を柔軟にサポートできます。
私たちの実験は、Squeeze3Dがテクスチャーメッシュで最大2187倍、ポイントクラウドで55x、放射輝度フィールドで619xの圧縮比を達成し、多くの既存の方法に匹敵する視覚的品質を維持することを示しています。
Squeeze3Dは、オブジェクト固有のネットワークをトレーニングするためのオブジェクトを圧縮することを伴わないため、小さな圧縮と減圧レイテンシのみを負います。

要約(オリジナル)

We propose Squeeze3D, a novel framework that leverages implicit prior knowledge learnt by existing pre-trained 3D generative models to compress 3D data at extremely high compression ratios. Our approach bridges the latent spaces between a pre-trained encoder and a pre-trained generation model through trainable mapping networks. Any 3D model represented as a mesh, point cloud, or a radiance field is first encoded by the pre-trained encoder and then transformed (i.e. compressed) into a highly compact latent code. This latent code can effectively be used as an extremely compressed representation of the mesh or point cloud. A mapping network transforms the compressed latent code into the latent space of a powerful generative model, which is then conditioned to recreate the original 3D model (i.e. decompression). Squeeze3D is trained entirely on generated synthetic data and does not require any 3D datasets. The Squeeze3D architecture can be flexibly used with existing pre-trained 3D encoders and existing generative models. It can flexibly support different formats, including meshes, point clouds, and radiance fields. Our experiments demonstrate that Squeeze3D achieves compression ratios of up to 2187x for textured meshes, 55x for point clouds, and 619x for radiance fields while maintaining visual quality comparable to many existing methods. Squeeze3D only incurs a small compression and decompression latency since it does not involve training object-specific networks to compress an object.

arxiv情報

著者 Rishit Dagli,Yushi Guan,Sankeerth Durvasula,Mohammadreza Mofayezi,Nandita Vijaykumar
発行日 2025-06-09 16:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | Squeeze3D: Your 3D Generation Model is Secretly an Extreme Neural Compressor はコメントを受け付けていません