ARFlow: Human Action-Reaction Flow Matching with Physical Guidance

要約

因果的な人間の相互作用をモデル化する際の基本的な課題である人間の行動反応統合は、仮想現実から社会的ロボット工学に至るまでのアプリケーションで重要な役割を果たします。
拡散ベースのモデルは有望なパフォーマンスを実証していますが、相互作用合成のための2つの重要な制限を示します。複雑な条件付きメカニズムを備えた複雑なノイズ間の発電機への依存と、生成された動きにおける頻繁な物理的違反です。
これらの問題に対処するために、直接的なアクションから反応へのマッピングを確立する新しいフレームワークであるアクション反応フローマッチング(ARFLOW)を提案し、複雑な条件付きメカニズムの必要性を排除します。
私たちのアプローチでは、サンプリング中に体の浸透アーチファクトを効果的に防止するフローマッチング(FM)のために特別に設計された物理的なガイダンスメカニズムを導入します。
さらに、従来のフローマッチングサンプリングアルゴリズムのバイアスを発見し、再注入方法を採用してFMのサンプリング方向を修正します。
反応の多様性をさらに強化するために、サンプリングプロセスにランダム性を組み込みます。
NTU120、CHI3D、およびHUMANデータセットの広範な実験は、ARFLOWが、fre \ ‘echetの開始距離と運動の多様性の観点から既存の方法を上回るだけでなく、新しい交差容積と交差周波数メトリックによって測定されるように、身体の衝突を大幅に削減することを示しています。

要約(オリジナル)

Human action-reaction synthesis, a fundamental challenge in modeling causal human interactions, plays a critical role in applications ranging from virtual reality to social robotics. While diffusion-based models have demonstrated promising performance, they exhibit two key limitations for interaction synthesis: reliance on complex noise-to-reaction generators with intricate conditional mechanisms, and frequent physical violations in generated motions. To address these issues, we propose Action-Reaction Flow Matching (ARFlow), a novel framework that establishes direct action-to-reaction mappings, eliminating the need for complex conditional mechanisms. Our approach introduces a physical guidance mechanism specifically designed for Flow Matching (FM) that effectively prevents body penetration artifacts during sampling. Moreover, we discover the bias of traditional flow matching sampling algorithm and employ a reprojection method to revise the sampling direction of FM. To further enhance the reaction diversity, we incorporate randomness into the sampling process. Extensive experiments on NTU120, Chi3D and InterHuman datasets demonstrate that ARFlow not only outperforms existing methods in terms of Fr\’echet Inception Distance and motion diversity but also significantly reduces body collisions, as measured by our new Intersection Volume and Intersection Frequency metrics.

arxiv情報

著者 Wentao Jiang,Jingya Wang,Kaiyang Ji,Baoxiong Jia,Siyuan Huang,Ye Shi
発行日 2025-06-02 07:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ARFlow: Human Action-Reaction Flow Matching with Physical Guidance はコメントを受け付けていません

PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?

要約

マルチモーダルの大手言語モデル(MLLM)の境界をピクセルレベルの理解に向けて、複数の作品が現れました。
ピクセルレベルのMLLMSの現在の傾向は、セグメンテーションタスクの特殊なデコーダーを備えた大規模ラベル付きデータでピクセルレベルの接地監督でトレーニングすることです。
ただし、最近の挑戦的な視覚中心のベンチマークで評価されたとき、このようなMLLMは、視覚的な質問(VQA)に弱い能力を示すことを示しています。
驚くべきことに、これらの方法のいくつかは、そのようなピクセルレベルの監督で訓練されたことのないMLLMの接地能力を格下げさえしています。
この作業では、VQAと接地の両方のペア評価を伴う2つの新しい挑戦的なベンチマークを提案します。
ピクセルレベルの接地監督のないMLLMが、そのようなタスクのアートの最新を上回ることができることを示しています。
当社のペアのベンチマークと評価により、VQAおよび/または接地に関する障害の理由に関する追加の分析が可能になります。
さらに、PixFoundationと呼ばれるMLLMに差し込むことができる接地情報を抽出するための簡単なベースラインを提案します。
さらに重要なことは、「ピクセルレベルの接地監督で訓練されていないMLLMSに接地がいつ出現するのか」という研究の質問を研究しています。
接地は、オブジェクトの部分、その位置、外観、コンテキスト、または状態と一致することを示します。ここでは、両方のベンチマークの例の27〜45%がこの現象を示しています。
私たちのコードとデータセットは公開され、一部は補足的です。

要約(オリジナル)

Multiple works have emerged to push the boundaries on multi-modal large language models (MLLMs) towards pixel-level understanding. The current trend in pixel-level MLLMs is to train with pixel-level grounding supervision on large-scale labelled data with specialized decoders for the segmentation task. However, we show that such MLLMs when evaluated on recent challenging vision-centric benchmarks, exhibit a weak ability in visual question answering (VQA). Surprisingly, some of these methods even downgrade the grounding ability of MLLMs that were never trained with such pixel-level supervision. In this work, we propose two novel challenging benchmarks with paired evaluation for both VQA and grounding. We show that MLLMs without pixel-level grounding supervision can outperform the state of the art in such tasks. Our paired benchmarks and evaluation enable additional analysis on the reasons for failure with respect to VQA and/or grounding. Furthermore, we propose simple baselines to extract the grounding information that can be plugged into any MLLM, which we call PixFoundation. More importantly, we study the research question of ‘When does grounding emerge in MLLMs that are not trained with pixel-level grounding supervision?’ We show that grounding can coincide with object parts, its location, appearance, context or state, where we show 27-45% of the examples in both benchmarks exhibit this phenomenon. Our code and datasets will be made publicly available and some are in the supplemental.

arxiv情報

著者 Mennatullah Siam
発行日 2025-06-02 07:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? はコメントを受け付けていません

Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training

要約

最近のVision Mamba(VIM)モデルは、シーケンスの長さがほぼ線形の複雑さを示し、視覚データの処理に非常に魅力的です。
ただし、トレーニング方法とその可能性はまだ十分に調査されていません。
この論文では、VIMの戦略を調査し、VIMトレーニングを効果的に改善できる新しい正則化方法である確率的層ごとのシャッフル(SLW)を提案します。
アーキテクチャの変更がなければ、このアプローチにより、非階層的なVIMは、同様のタイプのカウンターパートと比較して、ImagENET-1Kで主要なパフォーマンスを得ることができます。
私たちの方法は、レイヤーごとに4つの簡単なステップを使用して動作します。レイヤー依存のシャッフルレートを割り当てる確率割り当て、ベルヌーリトライアルによる操作サンプリング、入力トークンのシーケンスシャッフル、出力の回復の順序です。
SLWは、3つの原則を際立たせます。
\ textit {(2)シンプルだが効果的:} 4段階のプロセスは、ランダムな順列と無視できるオーバーヘッドのみを導入します。
\ textIT {(3)直感的な設計:}シャッフル確率は、レイヤー深度とともに直線的に成長し、ビジョンモデルの階層セマンティック抽象化と整合します。
私たちの仕事は、VIMモデルのテーラードトレーニング戦略の重要性を強調し、それらのスケーラビリティを探求するための役立つ方法を提供します。

要約(オリジナル)

Recent Vision Mamba (Vim) models exhibit nearly linear complexity in sequence length, making them highly attractive for processing visual data. However, the training methodologies and their potential are still not sufficiently explored. In this paper, we investigate strategies for Vim and propose Stochastic Layer-Wise Shuffle (SLWS), a novel regularization method that can effectively improve the Vim training. Without architectural modifications, this approach enables the non-hierarchical Vim to get leading performance on ImageNet-1K compared with the similar type counterparts. Our method operates through four simple steps per layer: probability allocation to assign layer-dependent shuffle rates, operation sampling via Bernoulli trials, sequence shuffling of input tokens, and order restoration of outputs. SLWS distinguishes itself through three principles: \textit{(1) Plug-and-play:} No architectural modifications are needed, and it is deactivated during inference. \textit{(2) Simple but effective:} The four-step process introduces only random permutations and negligible overhead. \textit{(3) Intuitive design:} Shuffling probabilities grow linearly with layer depth, aligning with the hierarchical semantic abstraction in vision models. Our work underscores the importance of tailored training strategies for Vim models and provides a helpful way to explore their scalability.

arxiv情報

著者 Zizheng Huang,Haoxing Chen,Jiaqi Li,Jun Lan,Huijia Zhu,Weiqiang Wang,Limin Wang
発行日 2025-06-02 08:41:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training はコメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

要約

ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS)に適用すると、特に知覚が多いタスクのために、テキストのみのドメインでの調査結果からのユニークな課題と潜在的な逸脱を導入します。
このペーパーでは、ジグソーパズルを構造化された実験フレームワークとして使用して、ルールベースの視覚RLの包括的な研究を提供します。
ジグソーパズルは、固有の地上の真理、調整可能な難易度、複雑な意思決定を需要しているため、この研究に最適です。
私たちの調査では、いくつかの重要な調査結果が明らかになりました。\ TextIT {最初に、} MLLMは、最初は最も単純なジグソーパズルのランダム推測に近づいていることがわかります。
\ textIT {第二に、}ジグソーパズルのトレーニングは、特定のタスク構成に関連する有効性を備えた他の視覚タスクに一般化を誘発する可能性があります。
\ textIT {第三に、} mllmsは明示的な推論の有無にかかわらず学習し、一般化することができますが、オープンソースモデルはしばしば直接応答を好みます。
その結果、ステップバイステップの推論のために訓練された場合でも、最終的な答えを導き出す際の思考プロセスを無視できます。
\ textIT {第四に、}複雑な推論パターンは、トレーニングとタスクの難易度とともに頻度が増加しているため、出現するのではなく既存のように見えることがわかります。
\ textIT {最後に、}私たちの結果は、RLが監視された微調整(SFT)よりも効果的な一般化を示すことを示しており、初期SFTコールドスタートフェーズはその後のRL最適化を妨げる可能性があります。
これらの観察結果はジグソーパズルのパズルに基づいており、他の視覚タスクで異なる場合がありますが、この研究は、集合的理解ルールベースの視覚RLとマルチモーダル学習におけるその可能性の大規模なパズルに貴重なジグソーパを提供します。
このコードは、https://github.com/zifuwanggg/jigsaw-r1で入手できます。

要約(オリジナル)

The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL, using jigsaw puzzles as a structured experimental framework. Jigsaw puzzles offer inherent ground truth, adjustable difficulty, and demand complex decision-making, making them ideal for this study. Our research reveals several key findings: \textit{Firstly,} we find that MLLMs, initially performing near to random guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. \textit{Secondly,} training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. \textit{Thirdly,} MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. \textit{Fourthly,} we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. \textit{Finally,} our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.

arxiv情報

著者 Zifu Wang,Junyi Zhu,Bo Tang,Zhiyu Li,Feiyu Xiong,Jiaqian Yu,Matthew B. Blaschko
発行日 2025-06-02 09:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles はコメントを受け付けていません

Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models

要約

現在のビジョン言語マルチモーダルモデルは、一般的な視覚的理解タスクに適しています。
ただし、特殊なビジョン言語指導データが生まれるデータがないため、人間のポーズとアクションに関連する複雑な視覚タスクを処理する場合、不十分に実行します。
人間のキーポイントをキャプションや境界ボックスなどの従来の視覚機能と統合し、人間中心のシーンをより正確に理解できるようにすることにより、そのようなデータを生成する方法を紹介します。
私たちのアプローチは、人間中心のタスクのモデルを微調整するために調整された200,328のサンプルで構成されるデータセットを構築し、会話、詳細な説明、複雑な推論の3つの領域に焦点を当てています。
ヒューマンポーズとアクション理解ベンチマーク(HPAUB)と呼ばれるベンチマークを確立して、人間のポーズとアクション理解のモデルパフォーマンスを評価します。
このデータセットを使用してLLAVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を達成します。
実験結果は、元のLLAVA-1.5-7Bモデルと比較して、全体的な改善が21.18%であることを示しています。
これらの調査結果は、マルチモーダルモデルの強化におけるキーポイント統合データの有効性を強調しています。
コードはhttps://github.com/ody-trek/keypoint-instruction-tuningで入手できます。

要約(オリジナル)

Current vision-language multimodal models are well-adapted for general visual understanding tasks. However, they perform inadequately when handling complex visual tasks related to human poses and actions due to the lack of specialized vision-language instruction-following data. We introduce a method for generating such data by integrating human keypoints with traditional visual features such as captions and bounding boxes, enabling more precise understanding of human-centric scenes. Our approach constructs a dataset comprising 200,328 samples tailored to fine-tune models for human-centric tasks, focusing on three areas: conversation, detailed description, and complex reasoning. We establish a benchmark called Human Pose and Action Understanding Benchmark (HPAUB) to assess model performance on human pose and action understanding. We fine-tune the LLaVA-1.5-7B model using this dataset and evaluate it on the benchmark, achieving significant improvements. Experimental results show an overall improvement of 21.18% compared to the original LLaVA-1.5-7B model. These findings highlight the effectiveness of keypoint-integrated data in enhancing multimodal models. Code is available at https://github.com/Ody-trek/Keypoint-Instruction-Tuning.

arxiv情報

著者 Dewen Zhang,Wangpeng An,Hayaru Shouno
発行日 2025-06-02 09:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models はコメントを受け付けていません

Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging

要約

セグメンテーションは、生物医学画像の重要な分析タスクであり、個々のオルガネラ、細胞、または臓器の研究を可能にします。
ディープラーニングはセグメンテーション方法を大幅に改善しましたが、課題は新しい条件の一般化に残っており、費用のかかるデータアノテーションが必要です。
Segment Anything Model(SAM)などのVision Foundationモデルは、改善された一般化を通じてこの問題に対処します。
ただし、これらのモデルは、注釈が少ないものの、注釈付きデータで微調整する必要がありますが、新しい条件に最適な結果を達成する必要があります。
マイナス面として、より多くの計算リソースが必要です。
これにより、パラメーター効率の高いFinetuning(PEFT)が関連します。
生物医学画像に適用されたSAMのPEFTの最初の包括的な研究を提供します。
PEFT層の配置は、視覚変圧器の層の種類よりも効率にとってより重要であり、リソース効率の高い微調整のためのレシピを提供していることがわかります。
私たちのコードは、https://github.com/computational-cell-analytics/peft-samで公開されています。

要約(オリジナル)

Segmentation is an important analysis task for biomedical images, enabling the study of individual organelles, cells or organs. Deep learning has massively improved segmentation methods, but challenges remain in generalization to new conditions, requiring costly data annotation. Vision foundation models, such as Segment Anything Model (SAM), address this issue through improved generalization. However, these models still require finetuning on annotated data, although with less annotations, to achieve optimal results for new conditions. As a downside, they require more computational resources. This makes parameter-efficient finetuning (PEFT) relevant. We contribute the first comprehensive study of PEFT for SAM applied to biomedical images. We find that the placement of PEFT layers is more important for efficiency than the type of layer for vision transformers and we provide a recipe for resource-efficient finetuning. Our code is publicly available at https://github.com/computational-cell-analytics/peft-sam.

arxiv情報

著者 Carolin Teuber,Anwai Archit,Constantin Pape
発行日 2025-06-02 09:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging はコメントを受け付けていません

OmniCaptioner: One Captioner to Rule Them All

要約

Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわたって微細なテキストの説明を生成するための多目的な視覚的なキャプションフレームワークです。
特定の画像タイプ(自然画像や幾何学的なビジュアルなど)に限定された以前の方法とは異なり、私たちのフレームワークは、自然な画像、視覚的なテキスト(ポスター、UIS、教科書など)、および構造化されたビジュアル(ドキュメント、表、チャートなど)のキャプションのための統一されたソリューションを提供します。
低レベルのピクセル情報を意味的に豊富なテキスト表現に変換することにより、私たちのフレームワークは視覚的モダリティとテキストモダリティのギャップを埋めます。
私たちの結果は、次の3つの重要な利点を強調しています。(i)LLMSによる視覚的推論の強化。視覚モダリティの長いコンテキストキャプションは、マルチモーダルシナリオで効果的にLLMS、特にDeepSeek-R1シリーズを強化する。
(ii)画像生成の改善。詳細なキャプションがテキストから画像の生成や画像変換などのタスクを改善する。
(iii)効率的な監視された微調整(SFT)。これにより、データが少ないほど速い収束が可能になります。
私たちは、Omnicaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新しい視点を提供できると考えています。

要約(オリジナル)

We propose OmniCaptioner, a versatile visual captioning framework for generating fine-grained textual descriptions across a wide variety of visual domains. Unlike prior methods limited to specific image types (e.g., natural images or geometric visuals), our framework provides a unified solution for captioning natural images, visual text (e.g., posters, UIs, textbooks), and structured visuals (e.g., documents, tables, charts). By converting low-level pixel information into semantically rich textual representations, our framework bridges the gap between visual and textual modalities. Our results highlight three key advantages: (i) Enhanced Visual Reasoning with LLMs, where long-context captions of visual modalities empower LLMs, particularly the DeepSeek-R1 series, to reason effectively in multimodal scenarios; (ii) Improved Image Generation, where detailed captions improve tasks like text-to-image generation and image transformation; and (iii) Efficient Supervised Fine-Tuning (SFT), which enables faster convergence with less data. We believe the versatility and adaptability of OmniCaptioner can offer a new perspective for bridging the gap between language and visual modalities.

arxiv情報

著者 Yiting Lu,Jiakang Yuan,Zhen Li,Shitian Zhao,Qi Qin,Xinyue Li,Le Zhuo,Licheng Wen,Dongyang Liu,Yuewen Cao,Xiangchao Yan,Xin Li,Tianshuo Peng,Shufei Zhang,Botian Shi,Tao Chen,Zhibo Chen,Lei Bai,Peng Gao,Bo Zhang
発行日 2025-06-02 09:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | OmniCaptioner: One Captioner to Rule Them All はコメントを受け付けていません

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約

トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツを使用して大規模なビジョン言語モデル(VLM)をトレーニングするために使用されたかどうかを確認するにはどうすればよいですか?
VLMがトレーニングコーパスの画像を認識できるという仮説に動機付けられているため、モデルの開発中に著作権で保護されたコンテンツを含めることを推測するための新しいアプローチであるDIS-COを提案します。
ターゲットを絞った著作権で保護された素材から特定のフレームを使用してVLMを繰り返しクエリすることにより、DIS-COはフリーフォームテキストの完成を通じてコン​​テンツのIDを抽出します。
その有効性を評価するために、モデルのトレーニングカットオフの前後でリリースされたフィルムから描かれた詳細なキャプションとペアになった14,000フレームを含むベンチマークであるMovietectionを紹介します。
我々の結果は、DIS-COが検出パフォーマンスを大幅に改善し、ロジットを使用してモデルで最良の最適な方法の平均AUCをほぼ2倍にすることを示しています。
私たちの調査結果は、より広範な懸念も強調しています。すべてのテストされたモデルは、著作権で保護されたコンテンツにある程度さらされているようです。
私たちのコードとデータは、https://github.com/avduarte333/dis-coで入手できます

要約(オリジナル)

How can we verify whether copyrighted content was used to train a large vision-language model (VLM) without direct access to its training data? Motivated by the hypothesis that a VLM is able to recognize images from its training corpus, we propose DIS-CO, a novel approach to infer the inclusion of copyrighted content during the model’s development. By repeatedly querying a VLM with specific frames from targeted copyrighted material, DIS-CO extracts the content’s identity through free-form text completions. To assess its effectiveness, we introduce MovieTection, a benchmark comprising 14,000 frames paired with detailed captions, drawn from films released both before and after a model’s training cutoff. Our results show that DIS-CO significantly improves detection performance, nearly doubling the average AUC of the best prior method on models with logits available. Our findings also highlight a broader concern: all tested models appear to have been exposed to some extent to copyrighted content. Our code and data are available at https://github.com/avduarte333/DIS-CO

arxiv情報

著者 André V. Duarte,Xuandong Zhao,Arlindo L. Oliveira,Lei Li
発行日 2025-06-02 09:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | DIS-CO: Discovering Copyrighted Content in VLMs Training Data はコメントを受け付けていません

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

要約

このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベルのポーズ推定に取り組み、新しいベンチマークデータセットを導入します。
最近の方法では、パーツがカテゴリレベルでポーズとサイズを推定しますが、ポイントクラウドの最初のセグメントパーツをセグメント化する幾何学的キューと複雑なマルチステージパイプラインに依存し、6Dポーズの正規化されたパーツ座標空間(NPCS)推定に依存しています。
これらのアプローチは、RGB画像からの密なセマンティックキューを見落としており、特に小さな部分を持つオブジェクトでは、最適ではない精度につながります。
これらの制限に対処するために、6Dポーズとカテゴリー的な明確な部分を推定するために、単一ステージネットワークCAP-NETを提案します。
この方法では、RGB-D機能を組み合わせて、各部品のインスタンスセグメンテーションとNPCS表現をエンドツーエンドの方法で生成します。
Cap-Netは、統一されたネットワークを使用して、ポイントワイズのクラスラベル、Centroidオフセット、およびNPCSマップを同時に予測します。
クラスタリングアルゴリズムは、推定された重心距離に基づいて同じ予測クラスのポイントをグループ化して、各部分を分離します。
最後に、各部品のNPCS領域は、最終的なポーズとサイズを回復するためにポイントクラウドと整合しています。
SIM-to-Realドメインギャップを橋渡しするために、これまでで最大のRGB-Dの明確なデータセットであるRGBD-ARTデータセットを導入します。
RGBD-ARTデータセットの実験的評価は、この方法が最先端のアプローチを大幅に上回ることを示しています。
ロボットタスクにおけるモデルの実際の展開は、その堅牢性と例外的なSIMから現実的な転送機能を強調し、その実質的な実用性を確認しています。
データセット、コード、事前に訓練されたモデルは、プロジェクトページで入手できます。

要約(オリジナル)

This paper tackles category-level pose estimation of articulated objects in robotic manipulation tasks and introduces a new benchmark dataset. While recent methods estimate part poses and sizes at the category level, they often rely on geometric cues and complex multi-stage pipelines that first segment parts from the point cloud, followed by Normalized Part Coordinate Space (NPCS) estimation for 6D poses. These approaches overlook dense semantic cues from RGB images, leading to suboptimal accuracy, particularly for objects with small parts. To address these limitations, we propose a single-stage Network, CAP-Net, for estimating the 6D poses and sizes of Categorical Articulated Parts. This method combines RGB-D features to generate instance segmentation and NPCS representations for each part in an end-to-end manner. CAP-Net uses a unified network to simultaneously predict point-wise class labels, centroid offsets, and NPCS maps. A clustering algorithm then groups points of the same predicted class based on their estimated centroid distances to isolate each part. Finally, the NPCS region of each part is aligned with the point cloud to recover its final pose and size. To bridge the sim-to-real domain gap, we introduce the RGBD-Art dataset, the largest RGB-D articulated dataset to date, featuring photorealistic RGB images and depth noise simulated from real sensors. Experimental evaluations on the RGBD-Art dataset demonstrate that our method significantly outperforms the state-of-the-art approach. Real-world deployments of our model in robotic tasks underscore its robustness and exceptional sim-to-real transfer capabilities, confirming its substantial practical utility. Our dataset, code and pre-trained models are available on the project page.

arxiv情報

著者 Jingshun Huang,Haitao Lin,Tianyu Wang,Yanwei Fu,Xiangyang Xue,Yi Zhu
発行日 2025-06-02 09:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image はコメントを受け付けていません

Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback

要約

既存の医療大規模視覚言語モデル(MED-LVLMS)は、広範な医療知識をカプセル化し、医療画像を理解する上で優れた能力を示しています。
ただし、医療画像の視覚的局在には課題が残っています。これは、異常の検出と解釈に不可欠です。
これらの問題に対処するために、医学的異常を明らかにするために設計された新しいUMED-LVLMを提案します。
具体的には、医療異常除去(MAU)データセットを収集し、UMED-LVLMトレーニングのための2段階のトレーニング方法を提案します。
MAUデータセットを収集するために、GPT-4Vを利用して、医療画像の特定の異常な領域に基づいて診断を生成する迅速な方法を提案します。
さらに、2段階のトレーニング方法には、関連性の報酬、異常なローカリゼーション報酬、ビジョン関連報酬を含む、異常に認識された指示の調整と異常に認識される報酬が含まれます。
実験結果は、UMED-LVLMが既存のMED-LVLMを大幅に上回り、医療異常を特定して理解し、ベースラインよりも58%の改善を達成することを示しています。
さらに、この研究は、MED-LVLMSの異常検出能力を強化することで、医療画像と一般化能力の理解が大幅に向上することを示しています。

要約(オリジナル)

Existing Medical Large Vision-Language Models (Med-LVLMs), encapsulating extensive medical knowledge, demonstrate excellent capabilities in understanding medical images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed to unveil medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Relevance Reward, Abnormal Localization Reward and Vision Relevance Reward. Experimental results demonstrate that our UMed-LVLM significantly outperforms existing Med-LVLMs in identifying and understanding medical abnormalities, achieving a 58% improvement over the baseline. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.

arxiv情報

著者 Yucheng Zhou,Lingran Song,Jianbing Shen
発行日 2025-06-02 09:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback はコメントを受け付けていません