Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis

要約

目的:手術ワークフローの解析は、手術の効率と安全性を向上させるために極めて重要である。しかし、これまでの研究では、大規模なアノテーションデータセットに大きく依存しており、コスト、スケーラビリティ、専門家のアノテーションへの依存が課題となっている。これを解決するために、我々は、最小限のペア画像ラベルデータで様々な手術ワークフロー解析タスクを処理するように設計されたSurg-FTDA(Few-shot Text-driven Adaptation)を提案する。 方法我々のアプローチには2つの重要な要素がある。第一に、Few-shot selection-based modality alignmentは、画像の小さなサブセットを選択し、その埋め込みを下流タスクのテキスト埋め込みと整列させ、モダリティギャップを埋める。第二に、テキスト駆動型適応は、デコーダを訓練するためにテキストデータのみを活用し、画像とテキストのペアデータを不要にする。このデコーダを整列された画像埋め込みに適用することで、明示的な画像-テキストペアなしで画像関連タスクを可能にする。 結果本アプローチを生成タスク(画像キャプション)と識別タスク(トリプレット認識と位相認識)に対して評価した。その結果、Surg-FTDAはベースラインを凌駕し、下流のタスクに渡ってよく一般化することが示された。 結論我々は、モダリティギャップを緩和し、大規模な注釈付きデータセットへの依存を最小限に抑えながら、手術ワークフロー解析における複数の下流タスクを処理するテキスト駆動型適応アプローチを提案する。コードとデータセットは https://github.com/CAMMA-public/Surg-FTDA で公開される予定である。

要約(オリジナル)

Purpose: Surgical workflow analysis is crucial for improving surgical efficiency and safety. However, previous studies rely heavily on large-scale annotated datasets, posing challenges in cost, scalability, and reliance on expert annotations. To address this, we propose Surg-FTDA (Few-shot Text-driven Adaptation), designed to handle various surgical workflow analysis tasks with minimal paired image-label data. Methods: Our approach has two key components. First, Few-shot selection-based modality alignment selects a small subset of images and aligns their embeddings with text embeddings from the downstream task, bridging the modality gap. Second, Text-driven adaptation leverages only text data to train a decoder, eliminating the need for paired image-text data. This decoder is then applied to aligned image embeddings, enabling image-related tasks without explicit image-text pairs. Results: We evaluate our approach to generative tasks (image captioning) and discriminative tasks (triplet recognition and phase recognition). Results show that Surg-FTDA outperforms baselines and generalizes well across downstream tasks. Conclusion: We propose a text-driven adaptation approach that mitigates the modality gap and handles multiple downstream tasks in surgical workflow analysis, with minimal reliance on large annotated datasets. The code and dataset will be released in https://github.com/CAMMA-public/Surg-FTDA

arxiv情報

著者 Tingxuan Chen,Kun Yuan,Vinkle Srivastav,Nassir Navab,Nicolas Padoy
発行日 2025-03-03 13:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis はコメントを受け付けていません

Annotation-Free Curb Detection Leveraging Altitude Difference Image

要約

道路の縁石は、自律走行車の安全性を確保するために不可欠な、重要かつどこにでもある交通の特徴の1つと考えられている。現在の縁石検出方法は、主にカメラ画像やLiDAR点群に依存しています。画像ベースの方法は照明条件の変動に弱く、ロバスト性に劣りますが、点群ベースの方法は照明変動に関連する問題を回避できます。しかし、点群データの各フレームに含まれる3D点の量が多いため、処理に大きな遅れが生じるのが一般的です。さらに、点群の本質的に非構造的な特性は、点群データアプリケーションに最新のディープラーニングの進歩を統合するための課題を提起する。これらの問題に対処するため、本研究では、前述の課題を効果的に軽減する、高度差分画像(ADI)を活用した注釈不要の縁石検出法を提案する。ディープラーニングに基づく手法は一般的に、手作業による膨大な注釈データセットを必要とし、その作成にはコストも労力もかかることから、我々は自動縁石注釈器(Automatic Curb Annotator:ACA)モジュールを提案する。このモジュールは、決定論的なカーブ検出アルゴリズムを利用して、膨大な量の学習データを自動的に生成する。その結果、データの手動アノテーションを必要とすることなく、縁石検出モデルの学習を容易にする。最後に、後処理モジュールを組み込むことで、KITTIの3D縁石データセットにおいて、既存の方法と比較して処理遅延を大幅に削減しながら、最先端の結果を達成することに成功し、縁石検出タスクにおける本アプローチの有効性を裏付けている。

要約(オリジナル)

Road curbs are considered as one of the crucial and ubiquitous traffic features, which are essential for ensuring the safety of autonomous vehicles. Current methods for detecting curbs primarily rely on camera imagery or LiDAR point clouds. Image-based methods are vulnerable to fluctuations in lighting conditions and exhibit poor robustness, while methods based on point clouds circumvent the issues associated with lighting variations. However, it is the typical case that significant processing delays are encountered due to the voluminous amount of 3D points contained in each frame of the point cloud data. Furthermore, the inherently unstructured characteristics of point clouds poses challenges for integrating the latest deep learning advancements into point cloud data applications. To address these issues, this work proposes an annotation-free curb detection method leveraging Altitude Difference Image (ADI), which effectively mitigates the aforementioned challenges. Given that methods based on deep learning generally demand extensive, manually annotated datasets, which are both expensive and labor-intensive to create, we present an Automatic Curb Annotator (ACA) module. This module utilizes a deterministic curb detection algorithm to automatically generate a vast quantity of training data. Consequently, it facilitates the training of the curb detection model without necessitating any manual annotation of data. Finally, by incorporating a post-processing module, we manage to achieve state-of-the-art results on the KITTI 3D curb dataset with considerably reduced processing delays compared to existing methods, which underscores the effectiveness of our approach in curb detection tasks.

arxiv情報

著者 Fulong Ma,Peng Hou,Yuxuan Liu,Yang Liu,Ming Liu,Jun Ma
発行日 2025-03-03 13:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Annotation-Free Curb Detection Leveraging Altitude Difference Image はコメントを受け付けていません

MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies

要約

マニピュレーションタスクの多くは、ロボットが物体を相対的に再配置することを必要とする。このようなタスクは、一連の剛体間の相対姿勢のシーケンスとして記述することができる。本研究では、高精度のピックアンドプレースタスクを解くための、シンプルだが新しいパイプラインであるMATCH POLICYを提案する。アクションを直接予測する代わりに、我々の手法では、ピックアンドプレースのターゲットを保存されたデモンストレーションに登録する。これにより、行動推論を点群登録タスクに移行し、学習無しで非自明な操作ポリシーを実現することが可能となる。MATCH POLICYは、キーフレーム設定による高精度タスクを解決するために設計されている。幾何学的相互作用とタスクの対称性を活用することで、極めて高いサンプル効率と未知の構成への汎化性を実現する。RLBenchベンチマークにおいて、複数の強力なベースラインと比較し、様々なタスクにおける最先端の性能を実証し、6つのタスクを持つ実際のロボットでテストする。

要約(オリジナル)

Many manipulation tasks require the robot to rearrange objects relative to one another. Such tasks can be described as a sequence of relative poses between parts of a set of rigid bodies. In this work, we propose MATCH POLICY, a simple but novel pipeline for solving high-precision pick and place tasks. Instead of predicting actions directly, our method registers the pick and place targets to the stored demonstrations. This transfers action inference into a point cloud registration task and enables us to realize nontrivial manipulation policies without any training. MATCH POLICY is designed to solve high-precision tasks with a key-frame setting. By leveraging the geometric interaction and the symmetries of the task, it achieves extremely high sample efficiency and generalizability to unseen configurations. We demonstrate its state-of-the-art performance across various tasks on RLBench benchmark compared with several strong baselines and test it on a real robot with six tasks.

arxiv情報

著者 Haojie Huang,Haotian Liu,Dian Wang,Robin Walters,Robert Platt
発行日 2025-03-03 13:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies はコメントを受け付けていません

Evaluating Intelligence via Trial and Error

要約

知能は、限られた回数の試行錯誤の中で解決策を見出す種にとって重要な特性である。この考えに基づき、試行錯誤の過程で失敗した試行回数に基づいて知性を評価する枠組みとして、サバイバルゲームを導入する。失敗が少ないほど知能が高いことを示す。失敗回数の期待値と分散がともに有限である場合、新たな課題に対する解決策を一貫して見出す能力があることを示し、これを知能の自律レベルと定義する。サバイバルゲームを用いて、我々は既存のAIシステムを包括的に評価した。その結果、AIシステムは単純なタスクでは自律レベルを達成しているものの、視覚、検索、推薦、言語など、より複雑なタスクでは自律レベルにはまだ程遠いことがわかった。現在のAI技術を拡張することは助けになるかもしれないが、これには天文学的なコストがかかるだろう。予測によれば、一般的なタスクで自律レベルを達成するには、$10^{26}$のパラメータが必要になる。これを考慮すると、このような巨大なモデルをロードするには、非常に多くのH100 GPUが必要であり、その総価値はアップル社の市場価値の10^{7}$倍になる。ムーアの法則を用いても、このようなパラメータ・スケールをサポートするには70$年かかる。この途方もないコストは、人間のタスクの複雑さと現在のAI技術の不十分さを浮き彫りにしている。この現象をさらに調査するために、我々はサバイバルゲームの理論的分析とその実験結果を行った。その結果、人間のタスクには臨界性があることが示唆された。その結果、自律レベルではタスクの根底にあるメカニズムを深く理解する必要がある。しかし、現在のAIシステムは、これらのメカニズムを完全に把握しておらず、表面的な模倣に頼っているため、自律レベルに到達することが困難である。私たちは、サバイバルゲームが今後のAIの発展を導くだけでなく、人間の知性についても深い洞察を与えてくれると信じている。

要約(オリジナル)

Intelligence is a crucial trait for species to find solutions within a limited number of trial-and-error attempts. Building on this idea, we introduce Survival Game as a framework to evaluate intelligence based on the number of failed attempts in a trial-and-error process. Fewer failures indicate higher intelligence. When the expectation and variance of failure counts are both finite, it signals the ability to consistently find solutions to new challenges, which we define as the Autonomous Level of intelligence. Using Survival Game, we comprehensively evaluate existing AI systems. Our results show that while AI systems achieve the Autonomous Level in simple tasks, they are still far from it in more complex tasks, such as vision, search, recommendation, and language. While scaling current AI technologies might help, this would come at an astronomical cost. Projections suggest that achieving the Autonomous Level for general tasks would require $10^{26}$ parameters. To put this into perspective, loading such a massive model requires so many H100 GPUs that their total value is $10^{7}$ times that of Apple Inc.’s market value. Even with Moore’s Law, supporting such a parameter scale would take $70$ years. This staggering cost highlights the complexity of human tasks and the inadequacies of current AI technologies. To further investigate this phenomenon, we conduct a theoretical analysis of Survival Game and its experimental results. Our findings suggest that human tasks possess a criticality property. As a result, Autonomous Level requires a deep understanding of the task’s underlying mechanisms. Current AI systems, however, do not fully grasp these mechanisms and instead rely on superficial mimicry, making it difficult for them to reach an autonomous level. We believe Survival Game can not only guide the future development of AI but also offer profound insights into human intelligence.

arxiv情報

著者 Jingtao Zhan,Jiahao Zhao,Jiayu Li,Yiqun Liu,Bo Zhang,Qingyao Ai,Jiaxin Mao,Hongning Wang,Min Zhang,Shaoping Ma
発行日 2025-03-03 13:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | Evaluating Intelligence via Trial and Error はコメントを受け付けていません

EchoONE: Segmenting Multiple echocardiography Planes in One Model

要約

臨床における心エコー検査では、心疾患のスクリーニング、診断、治療において、通常、異なるビューの心臓構造を含む複数の平面が必要とされる。心エコー検査用のAIモデルは、構造が大きく異なるため、特定の平面ごとに調整する必要があり、その結果、繰り返し開発と余分な複雑さが生じる。このような多平面セグメンテーション(MPS)問題に対する効果的な解決法は、医用画像において非常に求められているが、まだ十分に研究されていない。本論文では、この問題に対して、SAMベースのセグメンテーションアーキテクチャ、意味を考慮した高密度プロンプト生成のための事前構成可能マスク学習(PC-Mask)モジュール、SAM適応のためのシンプルかつ効果的な局所特徴融合適応(LFFA)モジュールを備えた学習可能CNN分岐を用いた、新しい解決策EchoONEを提案する。本手法を複数の心エコーデータセットで広範囲に評価した結果、異なる心臓平面を持つマルチソースデータセットに対して一貫して最先端の性能を達成した。これは心エコーデータに対してMPS問題を1つのモデルで解決した初めての例である。コードはhttps://github.com/a2502503/EchoONE。

要約(オリジナル)

In clinical practice of echocardiography examinations, multiple planes containing the heart structures of different view are usually required in screening, diagnosis and treatment of cardiac disease. AI models for echocardiography have to be tailored for each specific plane due to the dramatic structure differences, thus resulting in repetition development and extra complexity. Effective solution for such a multi-plane segmentation (MPS) problem is highly demanded for medical images, yet has not been well investigated. In this paper, we propose a novel solution, EchoONE, for this problem with a SAM-based segmentation architecture, a prior-composable mask learning (PC-Mask) module for semantic-aware dense prompt generation, and a learnable CNN-branch with a simple yet effective local feature fusion and adaption (LFFA) module for SAM adapting. We extensively evaluated our method on multiple internal and external echocardiography datasets, and achieved consistently state-of-the-art performance for multi-source datasets with different heart planes. This is the first time that the MPS problem is solved in one model for echocardiography data. The code will be available at https://github.com/a2502503/EchoONE.

arxiv情報

著者 Jiongtong Hu,Wei Zhuo,Jun Cheng,Yingying Liu,Wufeng Xue,Dong Ni
発行日 2025-03-03 13:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | EchoONE: Segmenting Multiple echocardiography Planes in One Model はコメントを受け付けていません

Stereo Hand-Object Reconstruction for Human-to-Robot Handover

要約

手と物体の形状を共同で推定することで、人間からロボットへのハンドオーバーにおける把持タスクが容易になる。しかし、物体の幾何学的構造に関する手作業で作られた事前知識に依存することは、未見の物体に一般化する際に失敗し、深度センサは飲料グラスのような透明な物体を検出できない。本研究では、単一視点再構成を確率的に結合してコヒーレントなステレオ再構成を形成する、手指物体再構成のためのステレオベースの手法を提案する。本手法が一般化可能であることを保証するために、大規模な合成手指物体データセットから3D形状事前分布を学習し、透明物体をより良く捉えるためにRGB入力を用いる。本手法は、既存のRGBベースの手オブジェクト再構成手法と比較し、シングルビューとステレオ設定において、オブジェクトの面取り距離を減少させることを示す。再構成された手指オブジェクト形状を、投影ベースの外れ値除去ステップで処理し、その出力を用いて、ワイドベースラインステレオRGBカメラを用いた人間からロボットへのハンドオーバーパイプラインをガイドする。我々の手オブジェクト再構成により、ロボットは人間から多様な家庭用オブジェクトを受け取ることができる。

要約(オリジナル)

Jointly estimating hand and object shape facilitates the grasping task in human-to-robot handovers. However, relying on hand-crafted prior knowledge about the geometric structure of the object fails when generalising to unseen objects, and depth sensors fail to detect transparent objects such as drinking glasses. In this work, we propose a stereo-based method for hand-object reconstruction that combines single-view reconstructions probabilistically to form a coherent stereo reconstruction. We learn 3D shape priors from a large synthetic hand-object dataset to ensure that our method is generalisable, and use RGB inputs to better capture transparent objects. We show that our method reduces the object Chamfer distance compared to existing RGB based hand-object reconstruction methods on single view and stereo settings. We process the reconstructed hand-object shape with a projection-based outlier removal step and use the output to guide a human-to-robot handover pipeline with wide-baseline stereo RGB cameras. Our hand-object reconstruction enables a robot to successfully receive a diverse range of household objects from the human.

arxiv情報

著者 Yik Lung Pang,Alessio Xompero,Changjae Oh,Andrea Cavallaro
発行日 2025-03-03 14:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Stereo Hand-Object Reconstruction for Human-to-Robot Handover はコメントを受け付けていません

Towards Physically Realizable Adversarial Attacks in Embodied Vision Navigation

要約

具現化ビジョンナビゲーションの大幅な進歩により、ディープニューラルネットワークを悪用した敵対的攻撃に対する脆弱性が懸念されている。特に、人間の安全を脅かす可能性のある3D物理的攻撃の脅威を考えると、具現化ビジョンナビゲーションの敵対的堅牢性を調査することは極めて重要である。しかし、具現化ビジョンナビゲーションのための既存の攻撃方法は、デジタル摂動を物理世界に転送する際の課題により、物理的な実現性に欠けることが多い。さらに、物体検出のための現在の物理的攻撃は、ナビゲーションシナリオにおける多視点有効性と視覚的自然性の両方を達成するのに苦労している。この問題に対処するため、我々は、不透明度とテクスチャの両方が学習可能な敵対的パッチを物体に貼り付けることで、具現化されたナビゲーションのための実用的な攻撃手法を提案する。具体的には、様々な視点での有効性を確保するために、オブジェクト認識サンプリングに基づく多視点最適化戦略を採用し、ナビゲーションに用いられる視覚ベースの知覚モデルからのフィードバックに基づいてパッチのテクスチャを最適化する。パッチを人間の観察者に目立たなくするために、2段階の不透明度最適化メカニズムを導入し、テクスチャ最適化の後に不透明度を微調整する。実験結果は、我々の敵対的パッチがナビゲーションの成功率を平均22.39%低下させ、実用性、有効性、自然性において従来の方法を凌駕することを実証している。コードはhttps://github.com/chen37058/Physical-Attacks-in-Embodied-Nav。

要約(オリジナル)

The significant advancements in embodied vision navigation have raised concerns about its susceptibility to adversarial attacks exploiting deep neural networks. Investigating the adversarial robustness of embodied vision navigation is crucial, especially given the threat of 3D physical attacks that could pose risks to human safety. However, existing attack methods for embodied vision navigation often lack physical feasibility due to challenges in transferring digital perturbations into the physical world. Moreover, current physical attacks for object detection struggle to achieve both multi-view effectiveness and visual naturalness in navigation scenarios. To address this, we propose a practical attack method for embodied navigation by attaching adversarial patches to objects, where both opacity and textures are learnable. Specifically, to ensure effectiveness across varying viewpoints, we employ a multi-view optimization strategy based on object-aware sampling, which optimizes the patch’s texture based on feedback from the vision-based perception model used in navigation. To make the patch inconspicuous to human observers, we introduce a two-stage opacity optimization mechanism, in which opacity is fine-tuned after texture optimization. Experimental results demonstrate that our adversarial patches decrease the navigation success rate by an average of 22.39%, outperforming previous methods in practicality, effectiveness, and naturalness. Code is available at: https://github.com/chen37058/Physical-Attacks-in-Embodied-Nav

arxiv情報

著者 Meng Chen,Jiawei Tu,Chao Qi,Yonghao Dang,Feng Zhou,Wei Wei,Jianqin Yin
発行日 2025-03-03 14:47:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Towards Physically Realizable Adversarial Attacks in Embodied Vision Navigation はコメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

要約

幻覚は、大規模視覚言語モデル(LVLM)にとって依然として大きな課題である。直接選好最適化(Direct Preference Optimization: DPO)は、幻覚の問題を簡単に解決する方法として注目されている。これは、同じプロンプトと画像に対する反応における幻覚の深刻度を反映する、構築された選好ペアから直接学習する。それにもかかわらず、既存の作品ではデータの構築方法が異なるため、性能に顕著なばらつきがある。我々はここで重要な要因を特定する。それは、構築されたデータがDPOの初期(参照)方針と方針が一致しているかどうかによって、結果が大きく左右されることである。理論的分析によれば、オフポリシーデータからの学習は、更新されたポリシーと参照ポリシーとの間にKL-ダイバージェンスが存在することによって阻害される。データセット分布の観点から、幻覚問題に対処するためにDPOを採用する既存のアルゴリズムに内在する欠陥を系統的に要約する。この問題を緩和するために、我々は、幻覚応答を修正するために専門家のフィードバックを独自に活用し、元の応答と専門家が修正した応答の両方をオンポリシー方式で整列させる、オンポリシー整列(OPA)-DPOフレームワークを提案する。特筆すべきは、OPA-DPOはわずか4.8kデータで、16kサンプルで学習させた従来のSOTAアルゴリズムと比較して、AMBERベンチマークで13.26%、Object-Halベンチマークで5.39%という、LLaVA-1.5-7Bの幻覚率のさらなる低減を達成したことである。我々の実装はhttps://github.com/zhyang2226/OPA-DPO。

要約(オリジナル)

Hallucination remains a major challenge for Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) has gained increasing attention as a simple solution to hallucination issues. It directly learns from constructed preference pairs that reflect the severity of hallucinations in responses to the same prompt and image. Nonetheless, different data construction methods in existing works bring notable performance variations. We identify a crucial factor here: outcomes are largely contingent on whether the constructed data aligns on-policy w.r.t the initial (reference) policy of DPO. Theoretical analysis suggests that learning from off-policy data is impeded by the presence of KL-divergence between the updated policy and the reference policy. From the perspective of dataset distribution, we systematically summarize the inherent flaws in existing algorithms that employ DPO to address hallucination issues. To alleviate the problems, we propose On-Policy Alignment (OPA)-DPO framework, which uniquely leverages expert feedback to correct hallucinated responses and aligns both the original and expert-revised responses in an on-policy manner. Notably, with only 4.8k data, OPA-DPO achieves an additional reduction in the hallucination rate of LLaVA-1.5-7B: 13.26% on the AMBER benchmark and 5.39% on the Object-Hal benchmark, compared to the previous SOTA algorithm trained with 16k samples. Our implementation is available at https://github.com/zhyang2226/OPA-DPO.

arxiv情報

著者 Zhihe Yang,Xufang Luo,Dongqi Han,Yunjian Xu,Dongsheng Li
発行日 2025-03-03 14:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key はコメントを受け付けていません

StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing

要約

拡散モデルを用いたテキスト映像(T2V)生成における最近の進歩は、大きな注目を集めている。しかし、それらは通常、単一のオブジェクトと動きのあるシーンでうまく機能し、複数のオブジェクトと明確な動きのある合成シナリオでは、テキストプロンプトの意味内容を正確に反映するのに苦労しています。これらの課題を解決するために、我々は、T2Vモデルにおける複数の被写体とそのモーション、そしてテキストプロンプト間の意味的アライメントを改善する、プラグアンドプレイでトレーニング不要の手法である、୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を提案する。StarVidはまず、テキストプロンプトに基づく2段階のモーション軌道計画のために、大規模言語モデル(LLM)の空間推論能力を活用する。このような軌跡は空間的な事前値として機能し、交差注意(CA)マップを特徴的な領域に再集中させるための空間認識損失を導く。さらに、動詞のCAマップと対応する名詞のCAマップの間の相関を強化し、運動と主語の結合を強化するために、構文に誘導された対照制約を提案する。定性的・定量的評価により、提案フレームワークがベースライン手法を大幅に上回り、意味的一貫性が改善された、より高品質な動画を提供することが実証された。

要約(オリジナル)

Recent advances in text-to-video (T2V) generation with diffusion models have garnered significant attention. However, they typically perform well in scenes with a single object and motion, struggling in compositional scenarios with multiple objects and distinct motions to accurately reflect the semantic content of text prompts. To address these challenges, we propose \textbf{StarVid}, a plug-and-play, training-free method that improves semantic alignment between multiple subjects, their motions, and text prompts in T2V models. StarVid first leverages the spatial reasoning capabilities of large language models (LLMs) for two-stage motion trajectory planning based on text prompts. Such trajectories serve as spatial priors, guiding a spatial-aware loss to refocus cross-attention (CA) maps into distinctive regions. Furthermore, we propose a syntax-guided contrastive constraint to strengthen the correlation between the CA maps of verbs and their corresponding nouns, enhancing motion-subject binding. Both qualitative and quantitative evaluations demonstrate that the proposed framework significantly outperforms baseline methods, delivering videos of higher quality with improved semantic consistency.

arxiv情報

著者 Yuanhang Li,Qi Mao,Lan Chen,Zhen Fang,Lei Tian,Xinyan Xiao,Libiao Jin,Hua Wu
発行日 2025-03-03 15:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing はコメントを受け付けていません

Self-Supervised Iterative Refinement for Anomaly Detection in Industrial Quality Control

要約

本研究では、ロバストな異常検出手法である反復的精密化プロセス(IRP)を紹介する。IRPは、周期的なデータ精密化戦略を通じて欠陥検出精度を向上させ、モデルの性能とロバスト性を向上させるために誤解を招くデータ点を繰り返し除去する。我々は、Kolektor SDD2 (KSDD2)とMVTec ADの2つのベンチマークデータセットを用いてIRPの有効性を検証した。我々の実験結果は、IRPが、特にノイズレベルの高い環境において、従来の異常検知モデルを常に凌駕していることを示している。この研究は、IRPが産業環境における異常検出プロセスを大幅に強化し、スパースでノイズの多いデータの課題を効果的に管理できる可能性を強調している。

要約(オリジナル)

This study introduces the Iterative Refinement Process (IRP), a robust anomaly detection methodology designed for high-stakes industrial quality control. The IRP enhances defect detection accuracy through a cyclic data refinement strategy, iteratively removing misleading data points to improve model performance and robustness. We validate the IRP’s effectiveness using two benchmark datasets, Kolektor SDD2 (KSDD2) and MVTec AD, covering a wide range of industrial products and defect types. Our experimental results demonstrate that the IRP consistently outperforms traditional anomaly detection models, particularly in environments with high noise levels. This study highlights the IRP’s potential to significantly enhance anomaly detection processes in industrial settings, effectively managing the challenges of sparse and noisy data.

arxiv情報

著者 Muhammad Aqeel,Shakiba Sharifi,Marco Cristani,Francesco Setti
発行日 2025-03-03 15:04:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Self-Supervised Iterative Refinement for Anomaly Detection in Industrial Quality Control はコメントを受け付けていません