VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction

要約

次のBest View(NBV)アルゴリズムは、シーンの効率的な3D再構築を可能にするために、最小限のリソース、時間、またはキャプチャ数を使用して最適な画像セットを取得することを目的としています。
既存のアプローチは、多くの場合、以前のシーンの知識や追加の画像キャプチャに依存し、カバレッジを最大化するポリシーを開発することがよくあります。
しかし、複雑なジオメトリと自己閉塞を備えた多くの実際のシーンでは、カバレッジの最大化は、直接再構築品質の向上につながることはありません。
このホワイトペーパーでは、ビュー内省ネットワーク(VIN)を提案します。これは、ビューの再構築品質の改善を直接予測するように訓練されています。
貪欲なシーケンシャルサンプリングベースのポリシー。各取得ステップで複数のクエリビューをサンプリングし、VIN予測改善スコアが最も高いものを選択します。
VINを設計して、以前の買収から構築された再構築の3D認識の機能を実行し、クエリビューごとに改善スコアにデコードできる機能を作成します。
次に、模倣学習を使用してVINをトレーニングして、再構成改善スコアを予測します。
VIN-NBVは、買収の数または動きの時間を制約して動作する場合、カバレッジの最大化ベースラインで再構成の品質を改善することを示しています。

要約(オリジナル)

Next Best View (NBV) algorithms aim to acquire an optimal set of images using minimal resources, time, or number of captures to enable efficient 3D reconstruction of a scene. Existing approaches often rely on prior scene knowledge or additional image captures and often develop policies that maximize coverage. Yet, for many real scenes with complex geometry and self-occlusions, coverage maximization does not lead to better reconstruction quality directly. In this paper, we propose the View Introspection Network (VIN), which is trained to predict the reconstruction quality improvement of views directly, and the VIN-NBV policy. A greedy sequential sampling-based policy, where at each acquisition step, we sample multiple query views and choose the one with the highest VIN predicted improvement score. We design the VIN to perform 3D-aware featurization of the reconstruction built from prior acquisitions, and for each query view create a feature that can be decoded into an improvement score. We then train the VIN using imitation learning to predict the reconstruction improvement score. We show that VIN-NBV improves reconstruction quality by ~30% over a coverage maximization baseline when operating with constraints on the number of acquisitions or the time in motion.

arxiv情報

著者 Noah Frahm,Dongxu Zhao,Andrea Dunn Beltran,Ron Alterovitz,Jan-Michael Frahm,Junier Oliva,Roni Sengupta
発行日 2025-05-16 14:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 | VIN-NBV: A View Introspection Network for Next-Best-View Selection for Resource-Efficient 3D Reconstruction はコメントを受け付けていません

MTevent: A Multi-Task Event Camera Dataset for 6D Pose Estimation and Moving Object Detection

要約

モバイルロボットは前例のない速度に達しており、Unitree B2やFraunhofer O3Dynなどのプラットフォームが5〜10 m/sの最大速度を達成しています。
ただし、このような速度を効果的に利用することは、RGBカメラの制限により、モーションブラーに悩まされ、リアルタイムの応答性を提供できないため、課題のままです。
非同期操作と低遅延センシングを備えたイベントカメラは、高速ロボット認識のための有望な代替手段を提供します。
この作業では、6Dポーズ推定と移動オブジェクト検出のために設計されたデータセットであるMteventを紹介します。
私たちのセットアップは、ステレオイベントカメラとRGBカメラで構成され、それぞれ平均16秒で75のシーンをキャプチャし、極端な視聴角、さまざまな照明、閉塞などの困難な条件下で16の一意のオブジェクトを備えています。
Mteventは、高速モーション、長距離知覚、および実際のオブジェクトの相互作用を組み合わせた最初のデータセットであり、ロボット工学のイベントベースのビジョンを進めるための貴重なリソースとなっています。
ベースラインを確立するために、RGB画像上のNVIDIAのFoundationPosesを使用して6Dポーズ推定のタスクを評価し、地面の真実マスクで0.22の平均リコールを達成し、このような動的な設定でのRGBベースのアプローチの制限を強調します。
Mteventを使用すると、知覚モデルを改善し、高速ロボットビジョンのさらなる研究を促進するための新しいリソースを提供します。
データセットは、https://huggingface.co/datasets/anas-gouda/mteventをダウンロードできます

要約(オリジナル)

Mobile robots are reaching unprecedented speeds, with platforms like Unitree B2, and Fraunhofer O3dyn achieving maximum speeds between 5 and 10 m/s. However, effectively utilizing such speeds remains a challenge due to the limitations of RGB cameras, which suffer from motion blur and fail to provide real-time responsiveness. Event cameras, with their asynchronous operation, and low-latency sensing, offer a promising alternative for high-speed robotic perception. In this work, we introduce MTevent, a dataset designed for 6D pose estimation and moving object detection in highly dynamic environments with large detection distances. Our setup consists of a stereo-event camera and an RGB camera, capturing 75 scenes, each on average 16 seconds, and featuring 16 unique objects under challenging conditions such as extreme viewing angles, varying lighting, and occlusions. MTevent is the first dataset to combine high-speed motion, long-range perception, and real-world object interactions, making it a valuable resource for advancing event-based vision in robotics. To establish a baseline, we evaluate the task of 6D pose estimation using NVIDIA’s FoundationPose on RGB images, achieving an Average Recall of 0.22 with ground-truth masks, highlighting the limitations of RGB-based approaches in such dynamic settings. With MTevent, we provide a novel resource to improve perception models and foster further research in high-speed robotic vision. The dataset is available for download https://huggingface.co/datasets/anas-gouda/MTevent

arxiv情報

著者 Shrutarv Awasthi,Anas Gouda,Sven Franke,Jérôme Rutinowski,Frank Hoffmann,Moritz Roidl
発行日 2025-05-16 14:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MTevent: A Multi-Task Event Camera Dataset for 6D Pose Estimation and Moving Object Detection はコメントを受け付けていません

Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model

要約

ビジョン言語モデル(VLM)の最近の進歩は、画像とテキストを接続することに大きな期待を示していますが、これらのモデルを長いビデオに拡張することは、トークン数の急速な成長のために依然として困難です。
時間またはスペースのローカル集約によりビデオを圧縮するモデルは、長い形式の入力を処理するために人気があります。
ただし、これらのプーリングベースのプロジェクターは、ストリーミングと効率的なビデオ理解に不可欠な固定長い表現の利点を犠牲にします。
$ \ texttt {espresso} $を紹介します。これは、空間的特徴と時間的機能を固定長のシーケンスに個別に圧縮する新しいアーキテクチャです。
$ \ texttt {espresso} $は、強力な長期的な推論機能を維持しながら、効率的なビデオエンコードを有効にします。
実験では、セグメントごとの処理と組み合わせた固定長圧縮が、プーリングベースのアプローチに代わるスケーラブルで競争力のある代替品を提供することを示しています。
私たちの結果は、固定長のプロジェクターが適切に設計および訓練されている場合、ビデオ言語モデリングの実行可能な基盤であり続けることを示しています。

要約(オリジナル)

Recent advances in vision-language models (VLMs) have shown great promise in connecting images and text, but extending these models to long videos remains challenging due to the rapid growth in token counts. Models that compress videos by local aggregation in time or space have become popular for handling long-form inputs; however, these pooling-based projectors sacrifice the benefits of fixed-length representations that are crucial for streaming and efficient video understanding. We introduce $\texttt{Espresso}$, a new architecture that separately compresses spatial and temporal features into fixed-length sequences. $\texttt{Espresso}$ enables efficient video encoding while maintaining strong long-form reasoning capabilities. Experiments show that fixed-length compression combined with segment-wise processing offers a scalable and competitive alternative to pooling-based approaches. Our results demonstrate that fixed-length projectors, when properly designed and trained, remain a viable foundation for video-language modeling.

arxiv情報

著者 Keunwoo Peter Yu,Achal Dave,Rares Ambrus,Jean Mercat
発行日 2025-05-16 14:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model はコメントを受け付けていません

Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining

要約

Contrastive Learning(CL)は、埋め込みモデルをトレーニングするための一般的な手法であり、表現空間で意味的に類似した例(陽性)をより近くに引き寄せ、異なるもの(ネガ)をさらに引き離します。
ネガの重要なソースは、「バッチ内」の例、つまりバッチの他の例からのポジティブです。
したがって、このようなモデルの有効性は、トレーニングバッチのサイズと品質に強く影響されます。
この作業では、CLの高品質のバッチをキュレートするように設計された新しいバッチ構造戦略である「バッチバリアの破壊」(B3)を提案します。
私たちのアプローチは、前処理された教師埋め込みモデルを使用して、データセットのすべての例をランク付けすることから始まり、そこからまばらな類似性グラフが構築されます。
次に、コミュニティ検出アルゴリズムがこのグラフに適用され、互いに強力なネガとして機能する例のクラスターを識別します。
クラスターは、バッチ内のネガが豊富なバッチを構築するために使用されます。
MMEBマルチモーダル埋め込みベンチマーク(36タスク)の経験的結果は、私たちの方法がARTの新しい最新方法を設定し、以前のベストメソッドを7Bおよび2Bモデルスケールでそれぞれ+1.3および+2.9ポイントよりも優れていることを示しています。
特に、B3で訓練されたモデルは、64個のバッチサイズが64個である場合でも、既存の最先端の結果を上回ります。

要約(オリジナル)

Contrastive learning (CL) is a prevalent technique for training embedding models, which pulls semantically similar examples (positives) closer in the representation space while pushing dissimilar ones (negatives) further apart. A key source of negatives are ‘in-batch’ examples, i.e., positives from other examples in the batch. Effectiveness of such models is hence strongly influenced by the size and quality of training batches. In this work, we propose ‘Breaking the Batch Barrier’ (B3), a novel batch construction strategy designed to curate high-quality batches for CL. Our approach begins by using a pretrained teacher embedding model to rank all examples in the dataset, from which a sparse similarity graph is constructed. A community detection algorithm is then applied to this graph to identify clusters of examples that serve as strong negatives for one another. The clusters are then used to construct batches that are rich in in-batch negatives. Empirical results on the MMEB multimodal embedding benchmark (36 tasks) demonstrate that our method sets a new state of the art, outperforming previous best methods by +1.3 and +2.9 points at the 7B and 2B model scales, respectively. Notably, models trained with B3 surpass existing state-of-the-art results even with a batch size as small as 64, which is 4-16x smaller than that required by other methods.

arxiv情報

著者 Raghuveer Thirukovalluru,Rui Meng,Ye Liu,Karthikeyan K,Mingyi Su,Ping Nie,Semih Yavuz,Yingbo Zhou,Wenhu Chen,Bhuwan Dhingra
発行日 2025-05-16 14:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローとアウトカムを介した自然/生物医学的画像分析のために、四項と2次元の直交飛行機がフレームワークを分割する(四項 – 正弦2Dプレーンのペアへの分割 – 四角形のペアへの分割)を活用しています:自然/生物医学的イメージ、自然イメージの抑制型抑制型のイメージ、自然/生物医学的イメージの再溶解、自然/生物医学的なイメージ化を活用してください。
組織画像の染色分離、および組織学的画像のための機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例えば、ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性の向上、色炎のようなレンディションの拡大)を支援することができます。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-05-16 14:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks

要約

評価指標(メタ評価)の評価は、テキストからイメージ(T2I)の生成タスクにおける既存のメトリックの適合性を決定するために重要です。
人間ベースのメタ評価は費用がかかり、時間帯であり、自動化された代替品は希少です。
このギャップに対処し、CROCを提案します。自動化可能な堅牢性チェックのスケーラブルなフレームワークは、画像特性の包括的な分類法にわたって対照的なテストケースを合成することにより、メトリックの堅牢性を体系的にプローブおよび定量化するためのスケーラブルなフレームワークです。
CROCを使用すると、100万を超える対照的なプロンプトイメージペアの擬似標識データセット(CROC $^{syn} $)を生成して、評価メトリックの細粒の比較を可能にします。
また、データセットを使用して、オープンソースメソッド間で最先端のパフォーマンスを実現する新しいメトリックであるCrocscoreをトレーニングし、フレームワークの追加の重要なアプリケーションを実証します。
このデータセットを補完するために、特に挑戦的なカテゴリをターゲットにして、人間の監視ベンチマーク(CROC $^{hum} $)を紹介します。
我々の結果は、既存のメトリックの堅牢性の問題を強調しています。たとえば、多くは否定を含むプロンプトで失敗し、テストされたすべてのオープンソースメトリックは、身体部分の正しい識別を含む少なくとも25%のケースで失敗します。

要約(オリジナル)

The assessment of evaluation metrics (meta-evaluation) is crucial for determining the suitability of existing metrics in text-to-image (T2I) generation tasks. Human-based meta-evaluation is costly and time-intensive, and automated alternatives are scarce. We address this gap and propose CROC: a scalable framework for automated Contrastive Robustness Checks that systematically probes and quantifies metric robustness by synthesizing contrastive test cases across a comprehensive taxonomy of image properties. With CROC, we generate a pseudo-labeled dataset (CROC$^{syn}$) of over one million contrastive prompt-image pairs to enable a fine-grained comparison of evaluation metrics. We also use the dataset to train CROCScore, a new metric that achieves state-of-the-art performance among open-source methods, demonstrating an additional key application of our framework. To complement this dataset, we introduce a human-supervised benchmark (CROC$^{hum}$) targeting especially challenging categories. Our results highlight robustness issues in existing metrics: for example, many fail on prompts involving negation, and all tested open-source metrics fail on at least 25% of cases involving correct identification of body parts.

arxiv情報

著者 Christoph Leiter,Yuki M. Asano,Margret Keuper,Steffen Eger
発行日 2025-05-16 14:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks はコメントを受け付けていません

Resolving the Ambiguity of Complete-to-Partial Point Cloud Registration for Image-Guided Liver Surgery with Patches-to-Partial Matching

要約

画像誘導肝臓手術では、術前雲として表されることが多い術前と術中のデータの間の初期の硬直アラインメントは、手順中に術前CT/MRI画像から外科医に表面の情報を提供するために重要です。
現在、このアラインメントは通常、半自動法を使用して実行されますが、ある程度は効果的ですが、手動修正を必要とするエラーが発生しやすいです。
ポイントクラウドの対応ベースの登録方法は、完全に自動的なソリューションとして機能することを約束しています。
しかし、彼らは術中の表面視界が限られているシナリオで苦労するかもしれません。これは、肝臓手術、特に腹腔鏡手術における一般的な課題であり、完全な曖昧さと呼ばれます。
最初に、シリコおよびin vitroデータセットで慎重に構築された最先端の学習ベースのポイントクラウド登録方法のパフォーマンスを評価することにより、この曖昧さを説明します。
次に、曖昧さを解決するためのプラグアンドプレイモジュールとしてのパッチと特集のマッチング戦略を提案します。これは、エンドツーエンドの構造を混乱させることなく、学習ベースの登録方法にシームレスに統合できます。
術中視認性が限られているケースの登録パフォーマンスの改善に効果的かつ効率的であることが証明されています。
構築されたベンチマークと提案されたモジュールは、画像誘導肝臓手術におけるポイントクラウド対応ベースの登録方法のアプリケーションを進めるための強固な基盤を確立します。

要約(オリジナル)

In image-guided liver surgery, the initial rigid alignment between preoperative and intraoperative data, often represented as point clouds, is crucial for providing sub-surface information from preoperative CT/MRI images to the surgeon during the procedure. Currently, this alignment is typically performed using semi-automatic methods, which, while effective to some extent, are prone to errors that demand manual correction. Point cloud correspondence-based registration methods are promising to serve as a fully automatic solution. However, they may struggle in scenarios with limited intraoperative surface visibility, a common challenge in liver surgery, particularly in laparoscopic procedures, which we refer to as complete-to-partial ambiguity. We first illustrate this ambiguity by evaluating the performance of state-of-the-art learning-based point cloud registration methods on our carefully constructed in silico and in vitro datasets. Then, we propose a patches-to-partial matching strategy as a plug-and-play module to resolve the ambiguity, which can be seamlessly integrated into learning-based registration methods without disrupting their end-to-end structure. It has proven effective and efficient in improving registration performance for cases with limited intraoperative visibility. The constructed benchmark and the proposed module establish a solid foundation for advancing applications of point cloud correspondence-based registration methods in image-guided liver surgery.

arxiv情報

著者 Zixin Yang,Jon S. Heiselman,Cheng Han,Kelly Merrell,Richard Simon,Cristian. A. Linte
発行日 2025-05-16 14:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Resolving the Ambiguity of Complete-to-Partial Point Cloud Registration for Image-Guided Liver Surgery with Patches-to-Partial Matching はコメントを受け付けていません

Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models

要約

ビジョン言語モデル(VLM)は、画像キャプションやビデオ質問の回答などのオフラインタスクで顕著な進歩を示しています。
ただし、リアルタイムのインタラクティブな環境は、VLMSに新しい要求を課し、意味的に正確であるだけでなく、正確にタイミングされている発話を生成する必要があります。
このような設定に必要な2つのコア機能、$ \ textit {知覚更新} $および$ \ textit {contingence Awareness} $ – を特定し、新しいベンチマークタスクを提案します。
TGLGでは、モデルが動的視覚入力とタイミングの両方が整合するように、ストリーミングビデオに応答して発話を生成する必要があります。
このベンチマークをサポートするために、スポーツ放送およびエゴセントリックなヒト相互作用ドメインの評価データセットをキュレートし、セマンティックな類似性と時間的アライメントを共同で測定することによりTGLGを評価するために、新しいメトリック$ \ textBf {trace} $を導入します。
最後に、$ \ textBf {Vision-Languageモデルを時間と同期してインターリーブ(VLM-TSI)} $を紹介します。これは、視覚的および言語的トークンを時間と同級の方法で挿入し、ターンベースの仮定に頼らずにリアルタイムの言語生成を可能にします。
実験結果は、VLM-TSIが強力なベースラインを大幅に上回ることを示していますが、全体的なパフォーマンスは控えめなままです – TGLGの難しさを強調し、リアルタイムVLMのさらなる研究を動機付けます。
利用可能なコードとデータ$ \ href {https://github.com/yukw777/tglg} {here} $。

要約(オリジナル)

Vision-language models (VLMs) have shown remarkable progress in offline tasks such as image captioning and video question answering. However, real-time interactive environments impose new demands on VLMs, requiring them to generate utterances that are not only semantically accurate but also precisely timed. We identify two core capabilities necessary for such settings — $\textit{perceptual updating}$ and $\textit{contingency awareness}$ — and propose a new benchmark task, $\textbf{Temporally-Grounded Language Generation (TGLG)}$, to evaluate them. TGLG requires models to generate utterances in response to streaming video such that both content and timing align with dynamic visual input. To support this benchmark, we curate evaluation datasets from sports broadcasting and egocentric human interaction domains, and introduce a new metric, $\textbf{TRACE}$, to evaluate TGLG by jointly measuring semantic similarity and temporal alignment. Finally, we present $\textbf{Vision-Language Model with Time-Synchronized Interleaving (VLM-TSI)}$, a model that interleaves visual and linguistic tokens in a time-synchronized manner, enabling real-time language generation without relying on turn-based assumptions. Experimental results show that VLM-TSI significantly outperforms a strong baseline, yet overall performance remains modest — highlighting the difficulty of TGLG and motivating further research in real-time VLMs. Code and data available $\href{https://github.com/yukw777/tglg}{here}$.

arxiv情報

著者 Keunwoo Peter Yu,Joyce Chai
発行日 2025-05-16 14:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models はコメントを受け付けていません

Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

要約

基礎モデルとして、SAMはコンピュータービジョン内の複数のフィールドに大きな影響を与えており、アップグレードされたバージョンであるSam 2は、ビデオセグメンテーションの機能を強化し、再び大きな影響を与える態勢を整えました。
Sams(SamとSam 2)は、人、車、道路などのコンテキストに依存しない概念をセグメント化する優れたパフォーマンスを実証していますが、視覚的顕著性、カモフラージュ、製品の欠陥、医療病変などのより挑戦的なコンテキスト依存(CD)の概念を見落としています。
CDの概念は、グローバルおよびローカルのコンテキスト情報に大きく依存しているため、さまざまなコンテキストでのシフトの影響を受けやすく、モデルからの強力な識別機能が必要です。
SAMSの包括的な評価の欠如は、パフォーマンスの境界の理解を制限し、将来のモデルの設計を妨げる可能性があります。
この論文では、自然、医療、産業のシーン内のさまざまな視覚モダリティで、2Dおよび3Dの画像とビデオの3D画像とビデオにわたって11のCDコンセプトでSAMの徹底的な定量的評価を実施しています。
特定の迅速な生成と相互作用戦略によって支援された、マニュアル、自動、および中間の自己宣伝をサポートするSAMおよびSAM 2の統一された評価フレームワークを開発します。
さらに、コンテキスト内学習用のSAM 2の可能性を調査し、実際の不完全なプロンプトをシミュレートするためのプロンプトの堅牢性テストを導入します。
最後に、CDの概念を理解する際のSAMの利点と制限を分析し、セグメンテーションタスクにおける将来の開発について議論します。
この作業の目的は、コンテキストに依存しない概念とコンテキスト依存の両方の概念セグメンテーションの将来の研究を導くための貴重な洞察を提供することを目的としており、次のバージョンの開発を潜在的に通知します-SAM 3。

要約(オリジナル)

As a foundational model, SAM has significantly influenced multiple fields within computer vision, and its upgraded version, SAM 2, enhances capabilities in video segmentation, poised to make a substantial impact once again. While SAMs (SAM and SAM 2) have demonstrated excellent performance in segmenting context-independent concepts like people, cars, and roads, they overlook more challenging context-dependent (CD) concepts, such as visual saliency, camouflage, product defects, and medical lesions. CD concepts rely heavily on global and local contextual information, making them susceptible to shifts in different contexts, which requires strong discriminative capabilities from the model. The lack of comprehensive evaluation of SAMs limits understanding of their performance boundaries, which may hinder the design of future models. In this paper, we conduct a thorough quantitative evaluation of SAMs on 11 CD concepts across 2D and 3D images and videos in various visual modalities within natural, medical, and industrial scenes. We develop a unified evaluation framework for SAM and SAM 2 that supports manual, automatic, and intermediate self-prompting, aided by our specific prompt generation and interaction strategies. We further explore the potential of SAM 2 for in-context learning and introduce prompt robustness testing to simulate real-world imperfect prompts. Finally, we analyze the benefits and limitations of SAMs in understanding CD concepts and discuss their future development in segmentation tasks. This work aims to provide valuable insights to guide future research in both context-independent and context-dependent concepts segmentation, potentially informing the development of the next version — SAM 3.

arxiv情報

著者 Xiaoqi Zhao,Youwei Pang,Shijie Chang,Yuan Zhao,Lihe Zhang,Huchuan Lu,Georges El Fakhri,Xiaofeng Liu
発行日 2025-05-16 14:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes はコメントを受け付けていません

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

要約

この作業は、挑戦的なタスクを目的としています。つまり、人間のアクション反応合成、つまり、他の作用シーケンスの条件としての人間の反応を生成します。
現在、自己回帰モデリングアプローチは、モーション生成タスクで顕著なパフォーマンスを達成しています。
テキストからモーション。
ただし、自己回帰生成に伴うベクター量子化(VQ)には、量子化情報の喪失、コードブックの利用などの固有の欠点があります。さらに、ボディ関節の動きのみに焦点を当てたテキストからモーションとは異なり、人間の作用反応合成は、細粒の手の動きを網羅しています。
この作業では、連続表現で協調的で微細な反応運動を生成するように設計された新しいフレームワークであるMarrsを提案します。
最初に、ユニットを存在するモーション変動自動エンコーダー(UD-VAE)を提示します。これは、体全体を明確な体と手単位に分割し、独立してエンコードします。
その後、アクション条件付き融合(ACF)を提案します。これには、リアクティブトークンのサブセットをランダムにマスキングし、アクティブトークンから身体と手に関する特定の情報を抽出することを提案します。
さらに、一方のユニットからの情報を使用して他のユニットからの相互作用を促進するために、適応ユニット変調(AUM)を導入します。
最後に、拡散モデルでは、個別の各ボディユニットのノイズ予測因子としてコンパクトMLPを使用し、拡散損失を組み込み、各トークンの確率分布をモデル化します。
定量的および定性的な結果は、私たちの方法が優れたパフォーマンスを達成することを示しています。
コードは受け入れられるとリリースされます。

要約(オリジナル)

This work aims at a challenging task: human action-reaction synthesis, i.e., generating human reactions based on the action sequence of the other as conditions. Currently, autoregressive modeling approaches have achieved remarkable performance in motion generation tasks, e.g. text-to-motion. However, vector quantization (VQ) accompanying autoregressive generation has inherent disadvantages, including loss of quantization information, low codebook utilization, etc. Moreover, unlike text-to-motion, which focuses solely on the movement of body joints, human action-reaction synthesis also encompasses fine-grained hand movements. In this work, we propose MARRS, a novel framework designed to generate coordinated and fine-grained reaction motions in continuous representations. Initially, we present the Unit-distinguished Motion Variational AutoEncoder (UD-VAE), which segments the entire body into distinct body and hand units, encoding them independently. Subsequently, we propose Action-Conditioned Fusion (ACF), which involves randomly masking a subset of reactive tokens and extracting specific information about the body and hands from the active tokens. Furthermore, we introduce Adaptive Unit Modulation (AUM) to facilitate interaction between body and hand units by using the information from one unit to adaptively modulate the other. Finally, for the diffusion model, we employ a compact MLP as a noise predictor for each distinct body unit and incorporate the diffusion loss to model the probability distribution of each token. Quantitative and qualitative results demonstrate that our method achieves superior performance. The code will be released upon acceptance.

arxiv情報

著者 Y. B. Wang,S Wang,J. N. Zhang,J. F. Wu,Q. D. He,C. C. Fu,C. J. Wang,Y. Liu
発行日 2025-05-16 15:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MARRS: Masked Autoregressive Unit-based Reaction Synthesis はコメントを受け付けていません