Illegal Waste Detection in Remote Sensing Images: A Case Study

要約

環境犯罪は現在、世界で3番目に大きい犯罪行為を表し、生態系と人間の健康を脅かしています。
この活動に関連する犯罪の中で、不適切な廃棄物管理は、違法な埋め立て地を求めて半自動領土スキャンを可能にする非常に高解像度のリモートセンシング画像の利用可能性とコストの削減により、現在、より簡単に対抗することができます。
このペーパーでは、地元の環境機関の専門家と協力して開発されたパイプラインを提案し、候補者がリモートセンシング画像の分類子を活用する違法な投棄サイトを検出しました。
このような分類器に最適な構成を識別するために、広範な一連の実験が実施され、多様な画像特性とトレーニング設定の影響が徹底的に分析されました。
その後、地元の環境機関は、開発された分類器からの出力が専門家の日常業務に統合された実験演習に関与し、手動の写真解釈に関して時間の節約をもたらしました。
最終的に分類器は、トレーニングエリアの外側の場所で貴重な結果で実行され、提案されたパイプラインの国境を越えた適用可能性の可能性を強調しました。

要約(オリジナル)

Environmental crime currently represents the third largest criminal activity worldwide while threatening ecosystems as well as human health. Among the crimes related to this activity, improper waste management can nowadays be countered more easily thanks to the increasing availability and decreasing cost of Very-High-Resolution Remote Sensing images, which enable semi-automatic territory scanning in search of illegal landfills. This paper proposes a pipeline, developed in collaboration with professionals from a local environmental agency, for detecting candidate illegal dumping sites leveraging a classifier of Remote Sensing images. To identify the best configuration for such classifier, an extensive set of experiments was conducted and the impact of diverse image characteristics and training settings was thoroughly analyzed. The local environmental agency was then involved in an experimental exercise where outputs from the developed classifier were integrated in the experts’ everyday work, resulting in time savings with respect to manual photo-interpretation. The classifier was eventually run with valuable results on a location outside of the training area, highlighting potential for cross-border applicability of the proposed pipeline.

arxiv情報

著者 Federico Gibellini,Piero Fraternali,Giacomo Boracchi,Luca Morandini,Andrea Diecidue,Simona Malegori
発行日 2025-02-13 14:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Illegal Waste Detection in Remote Sensing Images: A Case Study はコメントを受け付けていません

Enhance-A-Video: Better Generated Video for Free

要約

DITベースのビデオ生成は顕著な結果を達成しましたが、既存のモデルの強化に関する研究は比較的未開拓のままです。
この作業では、DITベースの生成されたビデオのコヒーレンスと品質を強化するためのトレーニングなしのアプローチを紹介します。
核となるアイデアは、非対角の時間的注意分布に基づいて、クロスフレーム相関を強化することです。
そのシンプルなデザインのおかげで、私たちのアプローチは、再訓練や微調整なしで、ほとんどのDITベースのビデオ生成フレームワークに簡単に適用できます。
さまざまなDITベースのビデオ生成モデルで、私たちのアプローチは、時間的一貫性と視覚品質の両方の有望な改善を示しています。
この研究が、ビデオ生成の強化における将来の探求を刺激することを願っています。

要約(オリジナル)

DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.

arxiv情報

著者 Yang Luo,Xuanlei Zhao,Mengzhao Chen,Kaipeng Zhang,Wenqi Shao,Kai Wang,Zhangyang Wang,Yang You
発行日 2025-02-13 15:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhance-A-Video: Better Generated Video for Free はコメントを受け付けていません

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

要約

拡散モデルにより、高品質で多様な視覚コンテンツの合成が可能になります。
しかし、彼らはまれまたは目に見えない概念を生み出すのに苦労しています。
この課題に対処するために、画像生成モデルを使用した検索された生成(RAG)の使用について調査します。
Imageragを提案します。これは、特定のテキストプロンプトに基づいて関連する画像を動的に取得し、それらをコンテキストとして使用して生成プロセスをガイドする方法を提案します。
検索された画像を使用して生成を改善する以前のアプローチ、検索ベースの生成専用に訓練されたモデル。
対照的に、Imageragは既存の画像コンディショニングモデルの機能を活用しており、RAG固有のトレーニングを必要としません。
私たちのアプローチは非常に適応性があり、さまざまなモデルタイプにわたって適用でき、異なるベースモデルを使用して、まれで微調整された概念を生成する際の大幅な改善を示しています。
プロジェクトページは、https://rotem-shalev.github.io/imageragで入手できます

要約(オリジナル)

Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address this challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with image generation models. We propose ImageRAG, a method that dynamically retrieves relevant images based on a given text prompt, and uses them as context to guide the generation process. Prior approaches that used retrieved images to improve generation, trained models specifically for retrieval-based generation. In contrast, ImageRAG leverages the capabilities of existing image conditioning models, and does not require RAG-specific training. Our approach is highly adaptable and can be applied across different model types, showing significant improvement in generating rare and fine-grained concepts using different base models. Our project page is available at: https://rotem-shalev.github.io/ImageRAG

arxiv情報

著者 Rotem Shalev-Arkushin,Rinon Gal,Amit H. Bermano,Ohad Fried
発行日 2025-02-13 15:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation はコメントを受け付けていません

Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning

要約

多様なロボットデータセットで前提とされた最近の大きなビジョン言語アクションモデルは、いくつかのドメインデータを使用して新しい環境に一般化する可能性を実証しています。
ただし、これらのアプローチは通常、小さなアクションヘッドによって個々の離散化または連続的なアクションを予測します。これにより、多様なアクションスペースの処理能力が制限されます。
対照的に、拡散トランスポリシーと呼ばれる大きなマルチモーダル拡散トランスで連続作用シーケンスをモデル化します。このポリシーでは、アクションの埋め込みのための小さなアクションヘッドではなく、大規模なトランスモデルによって作用チャンクを直接除去します。
トランスのスケーリング機能を活用することにより、提案されたアプローチは、大規模な多様なロボットデータセット全体で連続エンドエフェクターアクションを効果的にモデル化し、より良い一般化パフォーマンスを実現できます。
広範な実験は、Maniskill2、Libero、Calvin、Simplerenvの拡散トランスポリシーの有効性と一般化を実証し、実世界のフランカアームと同様に、現実のベンチマークSimplerenv、現実世界のフランカアーム、リベロで一貫したパフォーマンスを達成します
OpenVlaとOctoと比較してください。
具体的には、ベルとホイッスルなしでは、提案されたアプローチは、CalvinタスクABC-> Dに1つのサードビューカメラストリームのみで最先端のパフォーマンスを実現し、5列に記入されたタスクの平均数を改善します。
3.6、および事前トレーニングステージは、カルバンの成功シーケンスの長さを1.2以上容易に促進します。
プロジェクトページ:https://zhihou7.github.io/dit_policy_vla/

要約(オリジナル)

Recent large vision-language action models pretrained on diverse robot datasets have demonstrated the potential for generalizing to new environments with a few in-domain data. However, those approaches usually predict individual discretized or continuous action by a small action head, which limits the ability in handling diverse action spaces. In contrast, we model the continuous action sequence with a large multi-modal diffusion transformer, dubbed as Diffusion Transformer Policy, in which we directly denoise action chunks by a large transformer model rather than a small action head for action embedding. By leveraging the scaling capability of transformers, the proposed approach can effectively model continuous end-effector actions across large diverse robot datasets, and achieve better generalization performance. Extensive experiments demonstrate the effectiveness and generalization of Diffusion Transformer Policy on Maniskill2, Libero, Calvin and SimplerEnv, as well as the real-world Franka arm, achieving consistent better performance on Real-to-Sim benchmark SimplerEnv, real-world Franka Arm and Libero compared to OpenVLA and Octo. Specifically, without bells and whistles, the proposed approach achieves state-of-the-art performance with only a single third-view camera stream in the Calvin task ABC->D, improving the average number of tasks completed in a row of 5 to 3.6, and the pretraining stage significantly facilitates the success sequence length on the Calvin by over 1.2. Project Page: https://zhihou7.github.io/dit_policy_vla/

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Hengjun Pu,Chengyang Zhao,Ronglei Tong,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2025-02-13 15:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning はコメントを受け付けていません

ADBM: Adversarial diffusion bridge model for reliable adversarial purification

要約

最近、拡散ベースの精製(拡散)は、敵対例に対する効果的な防御方法として認識されています。
ただし、元の訓練を受けた拡散モデルを敵対的浄化のために直接採用している拡散は、最適ではないことがわかります。
これは、ノイズ浄化のパフォーマンスとデータ回復の質との固有のトレードオフによるものです。
さらに、弱い適応攻撃に依存しているため、既存の評価の信頼性は疑わしいです。
この作業では、ADBMと呼ばれる新しい敵対的な拡散ブリッジモデルを提案します。
ADBMは、拡散した敵対的なデータから元のクリーンな例に戻る逆橋を直接構築し、元の拡散モデルの精製能力を高めます。
さまざまなシナリオにわたる理論分析と実験的検証を通じて、ADBMは優れた堅牢な防御メカニズムであることが証明されており、実用的なアプリケーションに大きな約束を提供しています。

要約(オリジナル)

Recently Diffusion-based Purification (DiffPure) has been recognized as an effective defense method against adversarial examples. However, we find DiffPure which directly employs the original pre-trained diffusion models for adversarial purification, to be suboptimal. This is due to an inherent trade-off between noise purification performance and data recovery quality. Additionally, the reliability of existing evaluations for DiffPure is questionable, as they rely on weak adaptive attacks. In this work, we propose a novel Adversarial Diffusion Bridge Model, termed ADBM. ADBM directly constructs a reverse bridge from the diffused adversarial data back to its original clean examples, enhancing the purification capabilities of the original diffusion models. Through theoretical analysis and experimental validation across various scenarios, ADBM has proven to be a superior and robust defense mechanism, offering significant promise for practical applications.

arxiv情報

著者 Xiao Li,Wenxuan Sun,Huanran Chen,Qiongxiu Li,Yining Liu,Yingzhe He,Jie Shi,Xiaolin Hu
発行日 2025-02-13 15:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | ADBM: Adversarial diffusion bridge model for reliable adversarial purification はコメントを受け付けていません

A 3D Facial Reconstruction Evaluation Methodology: Comparing Smartphone Scans with Deep Learning Based Methods Using Geometry and Morphometry Criteria

要約

潜在的な臨床応用により、3次元(3D)顔形分析が関心を集めています。
ただし、高度な3Dフェイシャル獲得システムの高コストにより、広範囲にわたる使用が制限され、低コストの取得と再建方法の開発が促進されます。
この研究では、形態計測形状分析技術を統合することにより、従来の幾何学ベースのベンチマークを超えて、顔面形態の保存を評価するための統計的枠組みを提供する新しい評価方法を紹介します。
ケーススタディとして、スマートフォンベースの3Dスキャンと、ハイエンドのステレオフォトグラミックモデルをグラウンドトゥルースとして使用して、2D画像から最先端の深い学習再構築方法を比較します。
この方法論により、グローバルおよびローカルの形状の違いの定量的評価が可能になり、低コストの3Dフェイシャル獲得と再建技術の生物学的に意味のある検証アプローチを提供します。

要約(オリジナル)

Three-dimensional (3D) facial shape analysis has gained interest due to its potential clinical applications. However, the high cost of advanced 3D facial acquisition systems limits their widespread use, driving the development of low-cost acquisition and reconstruction methods. This study introduces a novel evaluation methodology that goes beyond traditional geometry-based benchmarks by integrating morphometric shape analysis techniques, providing a statistical framework for assessing facial morphology preservation. As a case study, we compare smartphone-based 3D scans with state-of-the-art deep learning reconstruction methods from 2D images, using high-end stereophotogrammetry models as ground truth. This methodology enables a quantitative assessment of global and local shape differences, offering a biologically meaningful validation approach for low-cost 3D facial acquisition and reconstruction techniques.

arxiv情報

著者 Álvaro Heredia-Lidón,Alejandro Moñux-Bernal,Alejandro González,Luis M. Echeverry-Quiceno,Max Rubert,Aroa Casado,María Esther Esteban,Mireia Andreu-Montoriol,Susanna Gallardo,Cristina Ruffo,Neus Martínez-Abadías,Xavier Sevillano
発行日 2025-02-13 15:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A 3D Facial Reconstruction Evaluation Methodology: Comparing Smartphone Scans with Deep Learning Based Methods Using Geometry and Morphometry Criteria はコメントを受け付けていません

Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models

要約

高品質のサンプルを生成する途方もない能力で知られる拡散モデルは、最近、プライバシーリスクをもたらすデータ暗記行動のために懸念を提起しました。
メモリ緩和のための最近の方法は、主に、クロスモーダル生成タスクのテキストモダリティのコンテキスト内で問題に対処し、特定の条件に適用可能性を制限しています。
この論文では、視覚モダリティの観点から拡散モデルの新しい方法を提案します。これは、より一般的であり、暗記を緩和するための基本です。
視覚データをモデルに直接公開すると記憶リスクが高まるため、代わりにプロキシモデルパラメーターを通じてモデルが学習するフレームワークを設計します。
特に、トレーニングデータセットは複数のシャードに分割され、各シャードトレーニングプロキシモデルをトレーニングし、最終モデルを形成するために集約されます。
さらに、トレーニング損失の実用的な分析は、簡単に記憶に残る画像の損失が明らかに低い傾向があることを示しています。
したがって、記憶を避けるために、現在のミニバッチから異常に低い損失値でサンプルをスキップします。
ただし、高品質の画像生成のために十分なトレーニングデータを維持しながら、暗記が発生しやすいサンプルをスキップする必要性のバランスをとることは、重要な課題です。
したがって、これらのサンプルをスキップ過剰から緩和するために、シャード間で非常に記憶に残るサンプルを再配置するIET-AGC+を提案します。
さらに、記憶をさらに減らすために、その損失値に基づいてサンプルを動的に増強します。
4つのデータセットでの広範な実験と分析により、この方法はパフォーマンスを維持しながらメモリ容量を正常に削減することが示されています。
さらに、事前に訓練された拡散モデル、たとえば安定した拡散モデルを微調整し、暗記スコアを46.7 \%減少させ、方法の有効性を示しています。
コードは、https://github.com/liuxiao-guan/iet_agcで入手できます。

要約(オリジナル)

Diffusion models, known for their tremendous ability to generate high-quality samples, have recently raised concerns due to their data memorization behavior, which poses privacy risks. Recent methods for memory mitigation have primarily addressed the issue within the context of the text modality in cross-modal generation tasks, restricting their applicability to specific conditions. In this paper, we propose a novel method for diffusion models from the perspective of visual modality, which is more generic and fundamental for mitigating memorization. Directly exposing visual data to the model increases memorization risk, so we design a framework where models learn through proxy model parameters instead. Specially, the training dataset is divided into multiple shards, with each shard training a proxy model, then aggregated to form the final model. Additionally, practical analysis of training losses illustrates that the losses for easily memorable images tend to be obviously lower. Thus, we skip the samples with abnormally low loss values from the current mini-batch to avoid memorizing. However, balancing the need to skip memorization-prone samples while maintaining sufficient training data for high-quality image generation presents a key challenge. Thus, we propose IET-AGC+, which redistributes highly memorizable samples between shards, to mitigate these samples from over-skipping. Furthermore, we dynamically augment samples based on their loss values to further reduce memorization. Extensive experiments and analysis on four datasets show that our method successfully reduces memory capacity while maintaining performance. Moreover, we fine-tune the pre-trained diffusion models, e.g., Stable Diffusion, and decrease the memorization score by 46.7\%, demonstrating the effectiveness of our method. Code is available in: https://github.com/liuxiao-guan/IET_AGC.

arxiv情報

著者 Xiaoliu Guan,Yu Wu,Huayang Huang,Xiao Liu,Jiaxu Miao,Yi Yang
発行日 2025-02-13 15:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models はコメントを受け付けていません

Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object Detection

要約

私たちの体の周りに包まれ、ソファの上を覆う革は、車を覆う板金コーティング – オブジェクトが一連の連続表面に囲まれていることを示唆しています。
このホワイトペーパーでは、マルチビューベースの3Dオブジェクト検出の表面表現としてガウスのスプラッティングを活用するガウスデットを提案します。
個別の位置データを介してオブジェクトを描写する既存の単眼またはNERFベースのメソッドとは異なり、ガウスDETは、部分表面の質量の特徴記述子として入力ガウスを策定することにより、オブジェクトを連続的にモデル化します。
さらに、Gaussian Splattingによって本質的に導入された多数の外れ値に対処するために、それに応じて、包括的な表面ベースのオブジェクト性控除のための閉鎖推定モジュール(CIM)を考案します。
CIMは、最初に、ガウスのスプラッティングの不足している性質を考慮して、部分表面の確率的特徴の残差を推定し、その後、オブジェクト提案の全体的な表面閉鎖に関する全体的な表現に合体されます。
このようにして、表面情報ガウス=デットのエクスプロイトは、オブジェクト性の品質と信頼性、および提案の改良の情報の基礎に関する事前の役割を果たします。
合成データセットと現実世界の両方のデータセットでの実験は、ガウスデットが平均精度とリコールの両方の観点から、さまざまな既存のアプローチよりも優れていることを示しています。

要約(オリジナル)

Skins wrapping around our bodies, leathers covering over the sofa, sheet metal coating the car – it suggests that objects are enclosed by a series of continuous surfaces, which provides us with informative geometry prior for objectness deduction. In this paper, we propose Gaussian-Det which leverages Gaussian Splatting as surface representation for multi-view based 3D object detection. Unlike existing monocular or NeRF-based methods which depict the objects via discrete positional data, Gaussian-Det models the objects in a continuous manner by formulating the input Gaussians as feature descriptors on a mass of partial surfaces. Furthermore, to address the numerous outliers inherently introduced by Gaussian splatting, we accordingly devise a Closure Inferring Module (CIM) for the comprehensive surface-based objectness deduction. CIM firstly estimates the probabilistic feature residuals for partial surfaces given the underdetermined nature of Gaussian Splatting, which are then coalesced into a holistic representation on the overall surface closure of the object proposal. In this way, the surface information Gaussian-Det exploits serves as the prior on the quality and reliability of objectness and the information basis of proposal refinement. Experiments on both synthetic and real-world datasets demonstrate that Gaussian-Det outperforms various existing approaches, in terms of both average precision and recall.

arxiv情報

著者 Hongru Yan,Yu Zheng,Yueqi Duan
発行日 2025-02-13 16:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object Detection はコメントを受け付けていません

On the Importance of Backbone to the Adversarial Robustness of Object Detectors

要約

オブジェクト検出は、自律運転やビデオ監視など、さまざまなセキュリティに敏感なアプリケーションの重要なコンポーネントです。
ただし、既存のオブジェクト検出器は敵対的な攻撃に対して脆弱であり、信頼性とセキュリティに大きな課題を抱えています。
実験を通じて、最初に、オブジェクト検出器の敵対的な堅牢性を改善することに既存の作業が誤った安全感を与えることがわかりました。
第二に、オブジェクト検出器の敵対的な堅牢性を高めるためには、敵対的に事前に訓練されたバックボーンネットワークが不可欠であることがわかりました。
次に、敵対的に事前に訓練されたバックボーンを備えたオブジェクト検出器の速い敵対的な微調整のためのシンプルで効果的なレシピを提案しました。
オブジェクト検出器の構造を変更することなく、私たちのレシピは、以前の作品よりも大幅に優れた敵対的堅牢性を達成しました。
最後に、レシピで敵対的な堅牢性を改善するためのさまざまな最新のオブジェクト検出器設計の可能性を調査し、興味深い調査結果を実証しました。
私たちの経験的結果は、敵対的に堅牢なオブジェクト検出のための新しいマイルストーンを設定しました。
コードとトレーニングされたチェックポイントは、https://github.com/thu-ml/oddefenseで入手できます。

要約(オリジナル)

Object detection is a critical component of various security-sensitive applications, such as autonomous driving and video surveillance. However, existing object detectors are vulnerable to adversarial attacks, which poses a significant challenge to their reliability and security. Through experiments, first, we found that existing works on improving the adversarial robustness of object detectors give a false sense of security. Second, we found that adversarially pre-trained backbone networks were essential for enhancing the adversarial robustness of object detectors. We then proposed a simple yet effective recipe for fast adversarial fine-tuning on object detectors with adversarially pre-trained backbones. Without any modifications to the structure of object detectors, our recipe achieved significantly better adversarial robustness than previous works. Finally, we explored the potential of different modern object detector designs for improving adversarial robustness with our recipe and demonstrated interesting findings, which inspired us to design state-of-the-art (SOTA) robust detectors. Our empirical results set a new milestone for adversarially robust object detection. Code and trained checkpoints are available at https://github.com/thu-ml/oddefense.

arxiv情報

著者 Xiao Li,Hang Chen,Xiaolin Hu
発行日 2025-02-13 16:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | On the Importance of Backbone to the Adversarial Robustness of Object Detectors はコメントを受け付けていません

Pixel-Level Reasoning Segmentation via Multi-turn Conversations

要約

既存の視覚認識システムは、複雑で明示的なクエリの指示に依存して、一ターンダイアログでの地域レベルのセグメンテーションに焦点を当てています。
このようなシステムは、ピクセルレベルで推論することはできず、相互作用上で変化する動的なユーザーの意図を理解することはできません。
私たちの仕事は、マルチターン会話に基づいて、新しいタスクのセグメンテーション(ピクセルレベルのRS)を紹介することにより、この問題に取り組み、細粒セグメンテーションのためのマルチターンインタラクションを介して進化するユーザーの意図を追跡します。
この新しいタスクのベンチマークを確立するために、マルチターン会話(プリスト)に基づいてピクセルレベルの推論セグメンテーションデータセットを構築します。
プリストに基づいて、マルチターンインタラクティブな推論セグメンテーションフレームワークであるMIRASをさらに提案し、ピクセルレベルのセグメンテーションと堅牢なマルチターン会話理解を統合し、ユーザーの意図に合わせたピクセルグラウンドの説明を生成します。
プリストデータセットとmiRSAフレームワークは、ピクセルレベルの推論セグメンテーションのギャップを埋めます。
プリストデータセットの実験結果は、この方法がセグメンテーションとLLMベースの推論メトリックの観点から現在のセグメンテーション固有のベースラインよりも優れていることを示しています。
コードとデータは、https://github.com/ccccai239/pixelristで入手できます。

要約(オリジナル)

Existing visual perception systems focus on region-level segmentation in single-turn dialogues, relying on complex and explicit query instructions. Such systems cannot reason at the pixel level and comprehend dynamic user intent that changes over interaction. Our work tackles this issue by introducing a novel task, Pixel-level Reasoning Segmentation (Pixel-level RS) based on multi-turn conversations, tracking evolving user intent via multi-turn interactions for fine-grained segmentation. To establish a benchmark for this novel task, we build a Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST), comprising 24k utterances from 8.3k multi-turn conversational scenarios with segmentation targets. Building on PRIST, we further propose MIRAS, a Multi-turn Interactive ReAsoning Segmentation framework, integrates pixel-level segmentation with robust multi-turn conversation understanding, generating pixel-grounded explanations aligned with user intent. The PRIST dataset and MIRSA framework fill the gap in pixel-level reasoning segmentation. Experimental results on the PRIST dataset demonstrate that our method outperforms current segmentation-specific baselines in terms of segmentation and LLM-based reasoning metrics. The code and data are available at: https://github.com/ccccai239/PixelRIST.

arxiv情報

著者 Dexian Cai,Xiaocui Yang,Yongkang Liu,Daling Wang,Shi Feng,Yifei Zhang,Soujanya Poria
発行日 2025-02-13 16:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pixel-Level Reasoning Segmentation via Multi-turn Conversations はコメントを受け付けていません