Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction

要約

成功したビデオ分析は、フレーム全体のピクセルの正確な認識に依存しており、ビデオ通信学習に基づくフレームの再構築方法が効率のために一般的です。
既存のフレーム再構築方法は、効率的ですが、特に閉塞や高速の動きなどの複雑な状況で、再構築と意思決定の側面のための複数の参照フレームの直接関与の価値を無視します。
このペーパーでは、複数の参照フレームを革新的に利用してフレームの再構築を直接強化する動的メモリ予測(DMP)フレームワークを紹介します。
そのコアコンポーネントは、オブジェクトピクセル機能に基づいてフレームを動的に選択して追跡精度を向上させる参照フレームメモリエンジンです。
さらに、複数の参照フレームを利用してモデルの堅牢性を向上させるために、双方向ターゲット予測ネットワークが構築されています。
実験を通じて、私たちのアルゴリズムは、オブジェクトセグメンテーションとキーポイントトラッキングの2つの微調整されたビデオオブジェクト追跡タスクの最先端の自己監視技術を上回ります。

要約(オリジナル)

Successful video analysis relies on accurate recognition of pixels across frames, and frame reconstruction methods based on video correspondence learning are popular due to their efficiency. Existing frame reconstruction methods, while efficient, neglect the value of direct involvement of multiple reference frames for reconstruction and decision-making aspects, especially in complex situations such as occlusion or fast movement. In this paper, we introduce a Dynamic Memory Prediction (DMP) framework that innovatively utilizes multiple reference frames to concisely and directly enhance frame reconstruction. Its core component is a Reference Frame Memory Engine that dynamically selects frames based on object pixel features to improve tracking accuracy. In addition, a Bidirectional Target Prediction Network is built to utilize multiple reference frames to improve the robustness of the model. Through experiments, our algorithm outperforms the state-of-the-art self-supervised techniques on two fine-grained video object tracking tasks: object segmentation and keypoint tracking.

arxiv情報

著者 Zihan Zhou,Changrui Dai,Aibo Song,Xiaolin Fang
発行日 2025-04-30 14:29:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction はコメントを受け付けていません

PixelHacker: Image Inpainting with Structural and Semantic Consistency

要約

画像の開始は、画像編集と画像生成の間の基本的な研究領域です。
最近の最先端の(SOTA)方法は、新しい注意メカニズム、軽量アーキテクチャ、およびコンテキスト認識モデリングを調査し、印象的なパフォーマンスを実証しています。
しかし、彼らはしばしば複雑な構造(テクスチャ、形状、空間関係など)とセマンティクス(例えば、色の一貫性、オブジェクトの回復、論理的正しさなど)と格闘し、アーティファクトと不適切な発電につながります。
この課題に対処するために、潜在的なカテゴリガイダンスと呼ばれるシンプルで効果的なパラダイムを設計し、PixelHackerという名前の拡散ベースのモデルをさらに提案します。
具体的には、最初に、前景と背景(それぞれ潜在的な116と21のカテゴリ)に注釈を付けて、1400万の画像マスクペアを含む大きなデータセットを構築します。
次に、潜在的な前景と背景表現を2つの固定サイズの埋め込みを通じて個別にエンコードし、線形の注意を払ってこれらの特徴を断続的に除去プロセスに注入します。
最後に、データセットでの事前トレーニングとオープンソースのベンチマークでの微調整により、PixelHackerを取得します。
広範な実験では、Pixelhackerが幅広いデータセット(Places2、Celeba-HQ、およびFFHQ)でSOTAを包括的に上回り、構造とセマンティクスの両方で顕著な一貫性を示すことが示されています。
https://hustvl.github.io/pixelhackerのプロジェクトページ。

要約(オリジナル)

Image inpainting is a fundamental research area between image editing and image generation. Recent state-of-the-art (SOTA) methods have explored novel attention mechanisms, lightweight architectures, and context-aware modeling, demonstrating impressive performance. However, they often struggle with complex structure (e.g., texture, shape, spatial relations) and semantics (e.g., color consistency, object restoration, and logical correctness), leading to artifacts and inappropriate generation. To address this challenge, we design a simple yet effective inpainting paradigm called latent categories guidance, and further propose a diffusion-based model named PixelHacker. Specifically, we first construct a large dataset containing 14 million image-mask pairs by annotating foreground and background (potential 116 and 21 categories, respectively). Then, we encode potential foreground and background representations separately through two fixed-size embeddings, and intermittently inject these features into the denoising process via linear attention. Finally, by pre-training on our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker. Extensive experiments show that PixelHacker comprehensively outperforms the SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits remarkable consistency in both structure and semantics. Project page at https://hustvl.github.io/PixelHacker.

arxiv情報

著者 Ziyang Xu,Kangsheng Duan,Xiaolei Shen,Zhifeng Ding,Wenyu Liu,Xiaohu Ruan,Xiaoxin Chen,Xinggang Wang
発行日 2025-04-30 14:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PixelHacker: Image Inpainting with Structural and Semantic Consistency はコメントを受け付けていません

BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts

要約

セグメンテーションはコンピュータービジョンの基本的なタスクであり、柔軟性のために迅速な駆動型の方法が顕著になります。
セグメントのあらゆるモデル(SAM)はポイントプロムプトされたセグメンテーションで優れていますが、テキストベースのモデルは、多くの場合、BEIT-3のような強力なマルチモーダルエンコーダーを活用し、豊富なセマンティック理解を提供します。
ただし、これらの補完的なモダリティを効果的に組み合わせることは課題です。
このペーパーでは、明示的な選択メカニズムを採用した新しいデュアルモーダルプロンプトセグメンテーションフレームワークであるBiprompt-Samを紹介します。
SAMの単一ポイントプロンプトから複数のマスク候補を生成する能力を活用し、テキストガイドマスク(eVF-SAMを介してBEIT-3を介して生成された)を使用して、ユニオン(IOU)の交差によって測定されるポイント生成マスクを選択します。
このアプローチは、専門家(MOE)の単純化された混合物として解釈可能であり、複雑なモデルの変更なしに空間精度とセマンティックのコンテキストを効果的に融合します。
特に、私たちの方法は、インスタンスごとに単一のポイントプロンプトのみを使用して、Endovis17 Medical Dataset(89.55%MDICE、81.46%MIOU)で強力なゼロショットパフォーマンスを実現します。
これにより、境界ボックスと比較して注釈の負担が大幅に削減され、実用的な臨床ワークフローとより適切に整合し、ドメイン固有のトレーニングなしの方法の有効性が実証されます。
RefCocoシリーズでは、Biprompt-SAMは87.1%、86.5%、および85.8%IOUを達成し、既存のアプローチを大幅に上回りました。
実験では、Biprompt-SAMが空間精度とセマンティックの分解の両方を必要とするシナリオで優れており、マルチモーダルプロンプト融合に関するシンプルで効果的で解釈可能な視点を提供します。

要約(オリジナル)

Segmentation is a fundamental task in computer vision, with prompt-driven methods gaining prominence due to their flexibility. The Segment Anything Model (SAM) excels at point-prompted segmentation, while text-based models, often leveraging powerful multimodal encoders like BEIT-3, provide rich semantic understanding. However, effectively combining these complementary modalities remains a challenge. This paper introduces BiPrompt-SAM, a novel dual-modal prompt segmentation framework employing an explicit selection mechanism. We leverage SAM’s ability to generate multiple mask candidates from a single point prompt and use a text-guided mask (generated via EVF-SAM with BEIT-3) to select the point-generated mask that best aligns spatially, measured by Intersection over Union (IoU). This approach, interpretable as a simplified Mixture of Experts (MoE), effectively fuses spatial precision and semantic context without complex model modifications. Notably, our method achieves strong zero-shot performance on the Endovis17 medical dataset (89.55% mDice, 81.46% mIoU) using only a single point prompt per instance. This significantly reduces annotation burden compared to bounding boxes and aligns better with practical clinical workflows, demonstrating the method’s effectiveness without domain-specific training. On the RefCOCO series, BiPrompt-SAM attained 87.1%, 86.5%, and 85.8% IoU, significantly outperforming existing approaches. Experiments show BiPrompt-SAM excels in scenarios requiring both spatial accuracy and semantic disambiguation, offering a simple, effective, and interpretable perspective on multi-modal prompt fusion.

arxiv情報

著者 Suzhe Xu,Jialin Peng,Chengyuan Zhang
発行日 2025-04-30 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts はコメントを受け付けていません

REHEARSE-3D: A Multi-modal Emulated Rain Dataset for 3D Point Cloud De-raining

要約

センサーの劣化は、自律運転において大きな課題をもたらします。
大雨の間、雨滴からの干渉は、Lidarポイント雲の品質に悪影響を及ぼし、例えば不正確な点測定をもたらします。
これは、自律運転システムが気象を起こさない場合、つまり、そのような変更を識別できない場合、安全性の懸念につながる可能性があります。
この研究では、3Dポイントクラウドのde-rainingでの研究の進歩を促進するために、新しい、大規模なマルチモーダルエミュレートレインデータセット、Rehearse-3dをリリースします。
最も関連性の高い競合他社とは異なり、データセットはいくつかの点でユニークです。
第一に、これは最大のポイントごとの注釈付きデータセットであり、第二に、制御された気象環境で昼間と夜間の両方の条件でログインした4Dレーダーポイントクラウドで濃縮された高解像度のLIDARデータ(LIDAR-256)を持つ唯一のものです。
さらに、リハーサル-3Dには雨特性情報が含まれます。これは、センサーノイズモデリングだけでなく、ポイントレベルでの天候の影響を分析するためにも大きな価値があります。
Rehearse-3Dを活用すると、融合したLidarおよび4Dレーダーポイント雲の雨滴検出と除去をベンチマークします。
当社の包括的な研究では、さまざまな統計モデルと深部学習モデルのパフォーマンスをさらに評価します。
公開されると、データセットモデルとベンチマークモデルは、https://sporsho.github.io/rehearse3dで公開されます。

要約(オリジナル)

Sensor degradation poses a significant challenge in autonomous driving. During heavy rainfall, the interference from raindrops can adversely affect the quality of LiDAR point clouds, resulting in, for instance, inaccurate point measurements. This, in turn, can potentially lead to safety concerns if autonomous driving systems are not weather-aware, i.e., if they are unable to discern such changes. In this study, we release a new, large-scale, multi-modal emulated rain dataset, REHEARSE-3D, to promote research advancements in 3D point cloud de-raining. Distinct from the most relevant competitors, our dataset is unique in several respects. First, it is the largest point-wise annotated dataset, and second, it is the only one with high-resolution LiDAR data (LiDAR-256) enriched with 4D Radar point clouds logged in both daytime and nighttime conditions in a controlled weather environment. Furthermore, REHEARSE-3D involves rain-characteristic information, which is of significant value not only for sensor noise modeling but also for analyzing the impact of weather at a point level. Leveraging REHEARSE-3D, we benchmark raindrop detection and removal in fused LiDAR and 4D Radar point clouds. Our comprehensive study further evaluates the performance of various statistical and deep-learning models. Upon publication, the dataset and benchmark models will be made publicly available at: https://sporsho.github.io/REHEARSE3D.

arxiv情報

著者 Abu Mohammed Raisuddin,Jesper Holmblad,Hamed Haghighi,Yuri Poledna,Maikol Funk Drechsler,Valentina Donzella,Eren Erdal Aksoy
発行日 2025-04-30 14:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | REHEARSE-3D: A Multi-modal Emulated Rain Dataset for 3D Point Cloud De-raining はコメントを受け付けていません

Vision Transformers in Precision Agriculture: A Comprehensive Survey

要約

植物の病気を検出することは、現代の農業の重要な側面です。作物の健康を維持し、全体的な収量の増加に重要な役割を果たしています。
従来のアプローチはまだ価値がありますが、多くの場合、手動検査または従来の機械学習技術に依存しています。どちらもスケーラビリティと精度の制限に直面しています。
最近、Vision Transformers(VITS)が有望な代替として浮上しており、長距離依存関係の改善や視覚タスクのスケーラビリティの改善などの利点を提供しています。
この調査では、分類から検出とセグメンテーションまでのタスクをカバーする、精密農業におけるVITの適用を調査します。
まず、VITの基礎アーキテクチャを導入し、自然言語処理(NLP)からコンピュータービジョンへの移行について議論します。
議論には、畳み込みニューラルネットワーク(CNNS)などの従来のモデルにおける誘導バイアスの概念と、VITSがこれらのバイアスを緩和する方法が含まれます。
主要な方法論、データセット、パフォーマンスメトリックに焦点を当てた最近の文献の包括的なレビューを提供します。
調査には、ハイブリッドモデルとパフォーマンスの強化を見て、CNNとvitsの比較分析も含まれています。
データ要件、計算需要、モデルの解釈可能性などの技術的課題は、潜在的なソリューションとともに対処されます。
最後に、現実世界の農業環境におけるVITの統合をさらにサポートできる潜在的な研究の方向性と技術の進歩を概説します。
この研究での私たちの目標は、実践者と研究者に、賢明で精密な農業をどのように変えようとしているかについてのより深い理解を提供することです。

要約(オリジナル)

Detecting plant diseases is a crucial aspect of modern agriculture – it plays a key role in maintaining crop health and increasing overall yield. Traditional approaches, though still valuable, often rely on manual inspection or conventional machine learning techniques, both of which face limitations in scalability and accuracy. Recently, Vision Transformers (ViTs) have emerged as a promising alternative, offering benefits such as improved handling of long-range dependencies and better scalability for visual tasks. This survey explores the application of ViTs in precision agriculture, covering tasks from classification to detection and segmentation. We begin by introducing the foundational architecture of ViTs and discuss their transition from Natural Language Processing (NLP) to computer vision. The discussion includes the concept of inductive bias in traditional models like Convolutional Neural Networks (CNNs), and how ViTs mitigate these biases. We provide a comprehensive review of recent literature, focusing on key methodologies, datasets, and performance metrics. The survey also includes a comparative analysis of CNNs and ViTs, with a look at hybrid models and performance enhancements. Technical challenges – such as data requirements, computational demands, and model interpretability – are addressed alongside potential solutions. Finally, we outline potential research directions and technological advancements that could further support the integration of ViTs in real-world agricultural settings. Our goal with this study is to offer practitioners and researchers a deeper understanding of how ViTs are poised to transform smart and precision agriculture.

arxiv情報

著者 Saber Mehdipour,Seyed Abolghasem Mirroshandel,Seyed Amirhossein Tabatabaei
発行日 2025-04-30 14:50:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision Transformers in Precision Agriculture: A Comprehensive Survey はコメントを受け付けていません

T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos

要約

Runway Gen-3、Pika、Sora、Klingなどのモデルで実証されているように、テキストツービデオ(T2V)テクノロジーの最近の進歩は、テクノロジーの適用性と人気を大幅に拡大しました。
この進捗により、T2Vで生成されたビデオの知覚品質を評価し、ビデオ生成モデルを最適化するために、正確な品質評価メトリックに対する需要が高まっています。
ただし、テキスト間出力の品質を評価することは、不自然な行動や人間の認知に逆らう現象など、非常に複雑な歪みが存在するため、依然として困難なままです。
これらの課題に対処するために、13 T2Vモデルによって生成された148個のテキストプロンプトと1,783個のビデオを含むテキスト間の品質評価のための多次元ベンチマークデータセットであるT2Vevalベンチを構築しました。
包括的な評価を確保するために、主観的な実験で4つの次元で各ビデオを採点しました。これは、全体的な印象、テキストビデオの一貫性、現実性、技術的な品質です。
T2Vevalベンチに基づいて、T2V品質評価のためのマルチブランチ融合スキームであるT2Vevalを開発しました。
T2Vevalは、テキストビデオの一貫性、現実性、技術品質の3つのブランチにわたってビデオを評価します。
T2Vevalは、注意ベースの融合モジュールを使用して、各ブランチの機能を効果的に統合し、大規模な言語モデルを使用してスコアを予測します。
さらに、分割訓練戦略を実装し、各ブランチがターゲットを絞った知識を学習しながら、他の人との相乗効果を維持できるようにしました。
実験結果は、T2Vevalが複数のメトリックにわたって最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent advances in text-to-video (T2V) technology, as demonstrated by models such as Runway Gen-3, Pika, Sora, and Kling, have significantly broadened the applicability and popularity of the technology. This progress has created a growing demand for accurate quality assessment metrics to evaluate the perceptual quality of T2V-generated videos and optimize video generation models. However, assessing the quality of text-to-video outputs remain challenging due to the presence of highly complex distortions, such as unnatural actions and phenomena that defy human cognition. To address these challenges, we constructed T2VEval-Bench, a multi-dimensional benchmark dataset for text-to-video quality evaluation, which contains 148 textual prompts and 1,783 videos generated by 13 T2V models. To ensure a comprehensive evaluation, we scored each video on four dimensions in the subjective experiment, which are overall impression, text-video consistency, realness, and technical quality. Based on T2VEval-Bench, we developed T2VEval, a multi-branch fusion scheme for T2V quality evaluation. T2VEval assesses videos across three branches: text-video consistency, realness, and technical quality. Using an attention-based fusion module, T2VEval effectively integrates features from each branch and predicts scores with the aid of a large language model. Additionally, we implemented a divide-and-conquer training strategy, enabling each branch to learn targeted knowledge while maintaining synergy with the others. Experimental results demonstrate that T2VEval achieves state-of-the-art performance across multiple metrics.

arxiv情報

著者 Zelu Qi,Ping Shi,Shuqi Wang,Chaoyang Zhang,Fei Zhao,Zefeng Ying,Da Pan,Xi Yang,Zheqi He,Teng Dai
発行日 2025-04-30 14:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos はコメントを受け付けていません

Leveraging Motion Information for Better Self-Supervised Video Correspondence Learning

要約

自己教師のビデオ通信学習は、同じ視覚オブジェクトに対応するビデオフレーム間でピクセルを正確に関連付ける能力に依存します。
ただし、監督なしで信頼できるピクセルマッチングを達成することは、依然として大きな課題です。
この問題に対処するために、最近の研究では、一致するための一意のピクセル表現をエンコードすることを目的とする機能学習技術に焦点を当てています。
これらの進歩にもかかわらず、既存の方法は依然として正確なピクセルの対応を達成するのに苦労しており、しばしば誤った一致に悩まされ、自己教師の設定での有効性を制限しています。
この目的のために、無効なビデオからオブジェクトの詳細を正確に抽出することを目的とする効率的な自己監視ビデオ通信学習フレームワーク(MER)を探ります。
まず、ビデオでオブジェクトの動的な動きをキャプチャすることを強調する専用のモーションエンハンスメントエンジンを設計します。
さらに、モデルが動きの重要なオブジェクトのピクセルの変更により多くの注意を払うことができるように、ピクセル間対応情報(マルチクラスターサンプラー)の柔軟なサンプリング戦略を導入します。
実験を通じて、当社のアルゴリズムは、ビデオオブジェクトセグメンテーションやビデオオブジェクトキーポイント追跡などのビデオ通信学習タスクで最先端の競合他社を上回ります。

要約(オリジナル)

Self-supervised video correspondence learning depends on the ability to accurately associate pixels between video frames that correspond to the same visual object. However, achieving reliable pixel matching without supervision remains a major challenge. To address this issue, recent research has focused on feature learning techniques that aim to encode unique pixel representations for matching. Despite these advances, existing methods still struggle to achieve exact pixel correspondences and often suffer from false matches, limiting their effectiveness in self-supervised settings. To this end, we explore an efficient self-supervised Video Correspondence Learning framework (MER) that aims to accurately extract object details from unlabeled videos. First, we design a dedicated Motion Enhancement Engine that emphasizes capturing the dynamic motion of objects in videos. In addition, we introduce a flexible sampling strategy for inter-pixel correspondence information (Multi-Cluster Sampler) that enables the model to pay more attention to the pixel changes of important objects in motion. Through experiments, our algorithm outperforms the state-of-the-art competitors on video correspondence learning tasks such as video object segmentation and video object keypoint tracking.

arxiv情報

著者 Zihan Zhou,Changrui Dai,Aibo Song,Xiaolin Fang
発行日 2025-04-30 14:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Motion Information for Better Self-Supervised Video Correspondence Learning はコメントを受け付けていません

VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction

要約

さまざまな仮想アバターアニメーションでの実際的な対話モデリングには、微妙な感情と表現力のある反応を伴うレスポンシブリスナーのヘッドダイナミクスを生成することが重要です。
以前の研究は、主にリスナー行動の直接的な短期生産に焦点を当てています。
特に長いシーケンスモデリングにおいて、運動の変動と感情的な強度に対するきめの細かい制御を見落としています。
さらに、ヘッドダイナミクスや細粒のマルチモダリティアノテーション(テキストベースの表現の説明、感情的な強度など)を含む長期的および大規模なペアのスピーカーリストナーコーポラの欠如は、ダイアログモデリングの適用を制限します。
相互作用、リスルックスと呼ばれます。
さらに、繊細で表現力豊かで制御可能なリスナーダイナミクスモデリングを可能にする新しいフレームワークであるVividListenerを提案します。
このフレームワークは、スピーカーとリスナーの間のコヒーレントな相互作用を促進するためのガイド原則としてマルチモーダル条件を活用します。特に、マルチモーダルのインタラクティブな埋め込みを適応的に表現するために、レスポンシブインタラクションモジュール(RIM)を設計します。
RIMは、リスナーのダイナミクスがテキストの説明と調整とのきめの細かいセマンティック調整を確実に達成し、スピーカーの行動と表現力のある反応を維持します。
一方、マルチモーダル情報統合を使用した感情強度編集の感情強度タグ(EIT)を設計し、テキストの説明とリスナーのモーション振幅の両方に適用されます。新しく収集されたリスナーのデータセットで実施された拡張実験は、vividListenerが最先端のパフォーマンスを実現し、表現力のあるダイナミクスを実現することを示しています。

要約(オリジナル)

Generating responsive listener head dynamics with nuanced emotions and expressive reactions is crucial for practical dialogue modeling in various virtual avatar animations. Previous studies mainly focus on the direct short-term production of listener behavior. They overlook the fine-grained control over motion variations and emotional intensity, especially in long-sequence modeling. Moreover, the lack of long-term and large-scale paired speaker-listener corpora including head dynamics and fine-grained multi-modality annotations (e.g., text-based expression descriptions, emotional intensity) also limits the application of dialogue modeling.Therefore, we first newly collect a large-scale multi-turn dataset of 3D dyadic conversation containing more than 1.4M valid frames for multi-modal responsive interaction, dubbed ListenerX. Additionally, we propose VividListener, a novel framework enabling fine-grained, expressive and controllable listener dynamics modeling. This framework leverages multi-modal conditions as guiding principles for fostering coherent interactions between speakers and listeners.Specifically, we design the Responsive Interaction Module (RIM) to adaptively represent the multi-modal interactive embeddings. RIM ensures the listener dynamics achieve fine-grained semantic coordination with textual descriptions and adjustments, while preserving expressive reaction with speaker behavior. Meanwhile, we design the Emotional Intensity Tags (EIT) for emotion intensity editing with multi-modal information integration, applying to both text descriptions and listener motion amplitude.Extensive experiments conducted on our newly collected ListenerX dataset demonstrate that VividListener achieves state-of-the-art performance, realizing expressive and controllable listener dynamics.

arxiv情報

著者 Shiying Li,Xingqun Qi,Bingkun Yang,Chen Weile,Zezhao Tian,Muyi Sun,Qifeng Liu,Man Zhang,Zhenan Sun
発行日 2025-04-30 15:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VividListener: Expressive and Controllable Listener Dynamics Modeling for Multi-Modal Responsive Interaction はコメントを受け付けていません

Comparison of Kinematics and Kinetics Between OpenCap and a Marker-Based Motion Capture System in Cycling

要約

この研究では、サイクリング中の関節運動学と速度論の評価におけるマーカーベースとマーカーレス(オペンキャップ)モーションキャプチャシステムの一致を評価します。
OpenCapなどのマーカーレスシステムは、物理マーカーなしで自然の動きをキャプチャするという利点を提供し、実際のアプリケーションでより実用的にします。
ただし、特にサイクリングにおけるマーカーベースのシステムとのOpenCapとの合意は、既知のままです。
10人の参加者がさまざまな速度と抵抗で循環し、両方のシステムを使用してモーションデータが記録されました。
関節角、モーメント、および関節反応荷重を含む重要な指標は、OpenSimを使用して計算され、参加者間の試行ごとにルート平均2乗誤差(RMSE)、参加者間のピアソン相関係数(R)を使用して比較され、被験者内のコントロールトライアル依存性を繰り返し測定します。
結果は、股関節(屈曲/伸長)、膝(屈曲/伸長)、および足首(背屈/足底屈)の関節角と非常に強力な一致(R GT 0.9)を明らかにしました。

要約(オリジナル)

This study evaluates the agreement of marker-based and markerless (OpenCap) motion capture systems in assessing joint kinematics and kinetics during cycling. Markerless systems, such as OpenCap, offer the advantage of capturing natural movements without physical markers, making them more practical for real-world applications. However, the agreement of OpenCap with a marker-based system, particularly in cycling, remains underexplored. Ten participants cycled at varying speeds and resistances while motion data were recorded using both systems. Key metrics, including joint angles, moments, and joint reaction loads, were computed using OpenSim and compared using root mean squared error (RMSE) per trial across participants, Pearson correlation coefficients (r) per trial across participants and repeated measures Bland-Altman to control trials dependency within subject. Results revealed very strong agreement (r GT 0.9) for hip (flexion/extension), knee (flexion/extension), and ankle (dorsiflexion/plantarflexion) joint angles.

arxiv情報

著者 Reza Kakavand,Reza Ahmadi,Atousa Parsaei,W. Brent Edwards,Amin Komeili
発行日 2025-04-30 15:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Comparison of Kinematics and Kinetics Between OpenCap and a Marker-Based Motion Capture System in Cycling はコメントを受け付けていません

Cert-SSB: Toward Certified Sample-Specific Backdoor Defense

要約

ディープニューラルネットワーク(DNNS)は、バックドア攻撃に対して脆弱であり、攻撃者がトレーニングデータのごく一部を操作して、隠された背景をモデルに移植します。
侵害されたモデルは、クリーンなサンプルで通常動作しますが、攻撃者指定のターゲットクラスに背景のサンプルを誤って分類し、実際のDNNアプリケーションに大きな脅威をもたらします。
現在、バックドア攻撃を緩和するためにいくつかの経験的防御方法が提案されていますが、それらはしばしばより高度なバックドアテクニックによってバイパスされています。
対照的に、ランダム化されたスムージングに基づく認定された防御は、トレーニングサンプルにランダムノイズを追加してバックドア攻撃に対抗することにより有望であることが示されています。
この論文では、既存のランダム化されたスムージング防御が、すべてのサンプルが決定境界から等距離であると暗黙的に仮定していることを明らかにします。
ただし、実際には保持されず、最適ではない認証パフォーマンスにつながる可能性があります。
この問題に対処するために、CERT-SSBと呼ばれるサンプル固有の認定バックドア防衛法を提案します。
CERT-SSBは、最初に確率的勾配上昇を使用して各サンプルのノイズの大きさを最適化し、サンプル固有のノイズレベルを保証し、複数の中毒トレーニングセットに適用していくつかの平滑化されたモデルを再訓練します。
その後、CERT-SSBは、複数の平滑化されたモデルの予測を集約して、最終的な堅牢な予測を生成します。
特に、この場合、最適化されたノイズはサンプルによって異なるため、既存の認証方法は適用できなくなります。
この課題を克服するために、各サンプルの認証領域を動的に調整して認証パフォーマンスを改善するストレージアップデートベースの認証方法を導入します。
複数のベンチマークデータセットで広範な実験を実施し、提案された方法の有効性を実証します。
私たちのコードは、https://github.com/ncepuqiaoting/cert-ssbで入手できます。

要約(オリジナル)

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where an attacker manipulates a small portion of the training data to implant hidden backdoors into the model. The compromised model behaves normally on clean samples but misclassifies backdoored samples into the attacker-specified target class, posing a significant threat to real-world DNN applications. Currently, several empirical defense methods have been proposed to mitigate backdoor attacks, but they are often bypassed by more advanced backdoor techniques. In contrast, certified defenses based on randomized smoothing have shown promise by adding random noise to training and testing samples to counteract backdoor attacks. In this paper, we reveal that existing randomized smoothing defenses implicitly assume that all samples are equidistant from the decision boundary. However, it may not hold in practice, leading to suboptimal certification performance. To address this issue, we propose a sample-specific certified backdoor defense method, termed Cert-SSB. Cert-SSB first employs stochastic gradient ascent to optimize the noise magnitude for each sample, ensuring a sample-specific noise level that is then applied to multiple poisoned training sets to retrain several smoothed models. After that, Cert-SSB aggregates the predictions of multiple smoothed models to generate the final robust prediction. In particular, in this case, existing certification methods become inapplicable since the optimized noise varies across different samples. To conquer this challenge, we introduce a storage-update-based certification method, which dynamically adjusts each sample’s certification region to improve certification performance. We conduct extensive experiments on multiple benchmark datasets, demonstrating the effectiveness of our proposed method. Our code is available at https://github.com/NcepuQiaoTing/Cert-SSB.

arxiv情報

著者 Ting Qiao,Yingjia Wang,Xing Liu,Sixing Wu,Jianbing Li,Yiming Li
発行日 2025-04-30 15:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Cert-SSB: Toward Certified Sample-Specific Backdoor Defense はコメントを受け付けていません