Soybean Disease Detection via Interpretable Hybrid CNN-GNN: Integrating MobileNetV2 and GraphSAGE with Cross-Modal Attention

要約

大豆の葉の病害検出は農業生産性にとって重要であるが、従来の方法では視覚的に類似した症状や限定された解釈可能性のために課題に直面している。畳み込みニューラルネットワーク(CNN)は空間的特徴抽出に優れているが、画像間の関係依存性を無視することが多く、誤分類につながる。本論文では、局所的特徴抽出のためのMobileNetV2と関係モデリングのためのGraphSAGEを相乗させた、解釈可能なハイブリッド逐次CNN-グラフニューラルネットワーク(GNN)フレームワークを提案する。このフレームワークは、ノードは葉画像を表し、エッジはコサイン類似度に基づく隣接行列と適応的近傍サンプリングによって定義されるグラフを構築する。この設計により、きめ細かい病変の特徴とグローバルな症状パターンを捉え、クラス間の類似性の課題に対処する。Grad-CAMおよびEigen-CAMによる可視化により、クロスモーダルな解釈可能性が達成され、疾患影響領域を強調するヒートマップが生成される。大豆の葉の病気10個のデータセットで評価した結果、このモデルは97.16%$の精度を 達成し、単体のCNN(95.04%$)や従来の機械学習モデル(77.05%$)を上回った。アブレーション研究により、並列や単一モデル構成より逐次アーキテクチャの 優位性が検証された。MobileNetV2とGraphSAGEの組み合わせは、わずか230万パラメータで、計算効率を保証し、リソースに制約のある環境でのリアルタイム展開を可能にする。提案されたアプローチは、正確な分類と実用的な適用性のギャップを埋め、植物病理学研究におけるCNN-GNNの統合を進めると同時に、農業診断のための堅牢で解釈可能なツールを提供する。

要約(オリジナル)

Soybean leaf disease detection is critical for agricultural productivity but faces challenges due to visually similar symptoms and limited interpretability in conventional methods. While Convolutional Neural Networks (CNNs) excel in spatial feature extraction, they often neglect inter-image relational dependencies, leading to misclassifications. This paper proposes an interpretable hybrid Sequential CNN-Graph Neural Network (GNN) framework that synergizes MobileNetV2 for localized feature extraction and GraphSAGE for relational modeling. The framework constructs a graph where nodes represent leaf images, with edges defined by cosine similarity-based adjacency matrices and adaptive neighborhood sampling. This design captures fine-grained lesion features and global symptom patterns, addressing inter-class similarity challenges. Cross-modal interpretability is achieved via Grad-CAM and Eigen-CAM visualizations, generating heatmaps to highlight disease-influential regions. Evaluated on a dataset of ten soybean leaf diseases, the model achieves $97.16\%$ accuracy, surpassing standalone CNNs ($\le95.04\%$) and traditional machine learning models ($\le77.05\%$). Ablation studies validate the sequential architecture’s superiority over parallel or single-model configurations. With only 2.3 million parameters, the lightweight MobileNetV2-GraphSAGE combination ensures computational efficiency, enabling real-time deployment in resource-constrained environments. The proposed approach bridges the gap between accurate classification and practical applicability, offering a robust, interpretable tool for agricultural diagnostics while advancing CNN-GNN integration in plant pathology research.

arxiv情報

著者 Md Abrar Jahin,Soudeep Shahriar,M. F. Mridha,Md. Jakir Hossen,Nilanjan Dey
発行日 2025-05-02 15:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Soybean Disease Detection via Interpretable Hybrid CNN-GNN: Integrating MobileNetV2 and GraphSAGE with Cross-Modal Attention はコメントを受け付けていません

Project-and-Fuse: Improving RGB-D Semantic Segmentation via Graph Convolution Networks

要約

既存のRGB-Dセマンティックセグメンテーション手法の多くは、複雑なクロスモダリティやクロススケール融合モジュールを含む、特徴レベルの融合に焦点を当てている。しかし、これらの手法では、特徴融合プロセスにおける位置ずれの問題や、セグメンテーション結果における直感に反するパッチが発生する可能性がある。我々は、一般的なピクセル-ノード-ピクセルのパイプラインに触発され、1)幾何学的特徴注入がテクスチャ特徴に先行して導かれる後期融合スタイルで、2)パッチ関係を推論することによって不規則なパッチの出現を緩和するために、融合された特徴にグラフニューラルネットワーク(GNN)を採用することを提案する。3D特徴抽出の段階で、我々は従来のCNNは深度マップに対して十分に効率的ではないと主張する。投影行列生成の段階で、我々はオリジナルのパイプラインにおけるBiased-AssignmentとAmbiguous-Localityの問題の存在を発見する。そこで我々は、1)重要な画素の特徴が欠落しないことを保証するためにKullback-Leibler Lossを採用することを提案する。2つの公開データセット、NYU-DepthV2とSUN RGB-Dを用いた広範な実験により、我々のアプローチがRGB-Dの意味的セグメンテーションタスクの性能を一貫して向上できることが示された。

要約(オリジナル)

Most existing RGB-D semantic segmentation methods focus on the feature level fusion, including complex cross-modality and cross-scale fusion modules. However, these methods may cause misalignment problem in the feature fusion process and counter-intuitive patches in the segmentation results. Inspired by the popular pixel-node-pixel pipeline, we propose to 1) fuse features from two modalities in a late fusion style, during which the geometric feature injection is guided by texture feature prior; 2) employ Graph Neural Networks (GNNs) on the fused feature to alleviate the emergence of irregular patches by inferring patch relationship. At the 3D feature extraction stage, we argue that traditional CNNs are not efficient enough for depth maps. So, we encode depth map into normal map, after which CNNs can easily extract object surface tendencies.At projection matrix generation stage, we find the existence of Biased-Assignment and Ambiguous-Locality issues in the original pipeline. Therefore, we propose to 1) adopt the Kullback-Leibler Loss to ensure no missing important pixel features, which can be viewed as hard pixel mining process; 2) connect regions that are close to each other in the Euclidean space as well as in the semantic space with larger edge weights so that location informations can been considered. Extensive experiments on two public datasets, NYU-DepthV2 and SUN RGB-D, have shown that our approach can consistently boost the performance of RGB-D semantic segmentation task.

arxiv情報

著者 Xiaoyan Jiang,Bohan Wang,Xinlong Wan,Shanshan Chen,Hamido Fujita,Hanan Abd. Al Juaid
発行日 2025-05-02 15:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Project-and-Fuse: Improving RGB-D Semantic Segmentation via Graph Convolution Networks はコメントを受け付けていません

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

要約

大規模言語モデル(LLM)は、より多くの推論を行うことで、強化された能力と信頼性を示し、思考連鎖プロンプトからOpenAI o1のような製品レベルのソリューションへと進化しています。LLMの推論を改善するための様々な取り組みにもかかわらず、高品質の長鎖推論データと最適化されたトレーニングパイプラインは、視覚言語タスクにおいてまだ十分に検討されていない。本論文では、1)複雑なマルチモーダルタスクのための長く頑健な推論データをスケーラブルに作成するための初期の取り組みであるInsight-Vと、2)マルチモーダル大規模言語モデル(MLLM)の推論能力を向上させるための効果的なトレーニングパイプラインを紹介する。具体的には、人手をかけずに長く構造化された推論データを作成するために、十分に長く多様な推論経路を生成するプログレッシブ戦略と、データの品質を保証するための多粒度評価法を用いた2段階のパイプラインを設計する。このような長く複雑な推論データを持つMLLMを直接監督しても、理想的な推論能力は得られない。この問題に取り組むため、我々は、長鎖推論を行う専用の推論エージェントと、推論結果を判断し要約するために訓練された要約エージェントからなるマルチエージェントシステムを設計する。さらに、推論エージェントの生成の安定性と品質を高めるために、反復DPOアルゴリズムを組み込む。人気のあるLLaVA-NeXTモデルと、我々のより強力なベースMLLMに基づき、我々は、視覚的推論を必要とする困難なマルチモーダルベンチマークにおいて、大幅な性能向上を実証する。我々のマルチエージェントシステムの恩恵により、Insight-Vは知覚に特化したマルチモーダルなタスクにおいても容易に性能を維持・向上させることができる。

要約(オリジナル)

Large Language Models (LLMs) demonstrate enhanced capabilities and reliability by reasoning more, evolving from Chain-of-Thought prompting to product-level solutions like OpenAI o1. Despite various efforts to improve LLM reasoning, high-quality long-chain reasoning data and optimized training pipelines still remain inadequately explored in vision-language tasks. In this paper, we present Insight-V, an early effort to 1) scalably produce long and robust reasoning data for complex multi-modal tasks, and 2) an effective training pipeline to enhance the reasoning capabilities of multi-modal large language models (MLLMs). Specifically, to create long and structured reasoning data without human labor, we design a two-step pipeline with a progressive strategy to generate sufficiently long and diverse reasoning paths and a multi-granularity assessment method to ensure data quality. We observe that directly supervising MLLMs with such long and complex reasoning data will not yield ideal reasoning ability. To tackle this problem, we design a multi-agent system consisting of a reasoning agent dedicated to performing long-chain reasoning and a summary agent trained to judge and summarize reasoning results. We further incorporate an iterative DPO algorithm to enhance the reasoning agent’s generation stability and quality. Based on the popular LLaVA-NeXT model and our stronger base MLLM, we demonstrate significant performance gains across challenging multi-modal benchmarks requiring visual reasoning. Benefiting from our multi-agent system, Insight-V can also easily maintain or improve performance on perception-focused multi-modal tasks.

arxiv情報

著者 Yuhao Dong,Zuyan Liu,Hai-Long Sun,Jingkang Yang,Winston Hu,Yongming Rao,Ziwei Liu
発行日 2025-05-02 16:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models はコメントを受け付けていません

Monitoring morphometric drift in lifelong learning segmentation of the spinal cord

要約

脊髄のセグメンテーションから得られる形態計測指標は、脊髄に影響を及ぼす神経疾患や損傷における診断や予後のバイオマーカーとして役立つ。過去数年にわたり、さまざまなコントラストや病態に対す るロバストな自動セグメンテーション法が開発されてきたが、 新しいデータセットを用いてモデルを更新したときに、 その予測値が安定しているかどうかは評価されていない。このことは、健康な被験者から規範値を導き出す上で特に重要である。本研究では、9つの異なるMRIコントラストと複数の脊髄病態を含む、マルチサイト$(n=75)$データセットで学習した脊髄セグメンテーションモデルを提示する。また、追加データセットを用いてモデルを更新する際に、形態計測ドリフトを自動的に監視する生涯学習フレームワークを紹介する。このフレームワークは、新しいモデルが作成される度にGitHub Actionsの自動ワークフローによって起動され、モデルの予測から得られた形態計測値を経時的に記録する。提案するフレームワークの実世界での応用として、脊髄形態計測の一般的な測定値を含む、最近導入された健常者の規範データベースを更新するために、脊髄セグメンテーションモデルを採用した。その結果、以下のことが示された:(ii)形態計測のドリフトを監視する自動ワークフローは、将来のセグメンテーションモデル開発のための迅速なフィードバックループを提供する。(iii)形態計測のデータベースを更新するために必要なスケーリング係数は、与えられた椎骨レベルのスライス間でほぼ一定であり、フレームワークによって監視されるモデルの現行バージョンと旧バージョンの間で最小ドリフトを示す。このモデルはSpinal Cord Toolbox v7.0で自由に利用できる。

要約(オリジナル)

Morphometric measures derived from spinal cord segmentations can serve as diagnostic and prognostic biomarkers in neurological diseases and injuries affecting the spinal cord. While robust, automatic segmentation methods to a wide variety of contrasts and pathologies have been developed over the past few years, whether their predictions are stable as the model is updated using new datasets has not been assessed. This is particularly important for deriving normative values from healthy participants. In this study, we present a spinal cord segmentation model trained on a multisite $(n=75)$ dataset, including 9 different MRI contrasts and several spinal cord pathologies. We also introduce a lifelong learning framework to automatically monitor the morphometric drift as the model is updated using additional datasets. The framework is triggered by an automatic GitHub Actions workflow every time a new model is created, recording the morphometric values derived from the model’s predictions over time. As a real-world application of the proposed framework, we employed the spinal cord segmentation model to update a recently-introduced normative database of healthy participants containing commonly used measures of spinal cord morphometry. Results showed that: (i) our model outperforms previous versions and pathology-specific models on challenging lumbar spinal cord cases, achieving an average Dice score of $0.95 \pm 0.03$; (ii) the automatic workflow for monitoring morphometric drift provides a quick feedback loop for developing future segmentation models; and (iii) the scaling factor required to update the database of morphometric measures is nearly constant among slices across the given vertebral levels, showing minimum drift between the current and previous versions of the model monitored by the framework. The model is freely available in Spinal Cord Toolbox v7.0.

arxiv情報

著者 Enamundram Naga Karthik,Sandrine Bédard,Jan Valošek,Christoph S. Aigner,Elise Bannier,Josef Bednařík,Virginie Callot,Anna Combes,Armin Curt,Gergely David,Falk Eippert,Lynn Farner,Michael G Fehlings,Patrick Freund,Tobias Granberg,Cristina Granziera,RHSCIR Network Imaging Group,Ulrike Horn,Tomáš Horák,Suzanne Humphreys,Markus Hupp,Anne Kerbrat,Nawal Kinany,Shannon Kolind,Petr Kudlička,Anna Lebret,Lisa Eunyoung Lee,Caterina Mainero,Allan R. Martin,Megan McGrath,Govind Nair,Kristin P. O’Grady,Jiwon Oh,Russell Ouellette,Nikolai Pfender,Dario Pfyffer,Pierre-François Pradat,Alexandre Prat,Emanuele Pravatà,Daniel S. Reich,Ilaria Ricchi,Naama Rotem-Kohavi,Simon Schading-Sassenhausen,Maryam Seif,Andrew Smith,Seth A Smith,Grace Sweeney,Roger Tam,Anthony Traboulsee,Constantina Andrada Treaba,Charidimos Tsagkas,Zachary Vavasour,Dimitri Van De Ville,Kenneth Arnold Weber II,Sarath Chandar,Julien Cohen-Adad
発行日 2025-05-02 16:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Monitoring morphometric drift in lifelong learning segmentation of the spinal cord はコメントを受け付けていません

Global Collinearity-aware Polygonizer for Polygonal Building Mapping in Remote Sensing

要約

本論文では、リモートセンシング画像から多角形の建物をマッピングするという課題に取り組み、Global Collinearity-aware Polygonizer(GCP)という新しいアルゴリズムを紹介する。GCPは、インスタンス分割フレームワークに基づいて構築され、任意のインスタンス分割モデルによって生成されたバイナリマスクを処理する。このアルゴリズムは、バイナリマスクの輪郭に沿ってサンプリングされたポリラインを収集することから始まる。これらのポリラインは、変換器ベースの回帰モジュールを使用した精密化プロセスを経て、対象となる建物インスタンスの輪郭に正確に適合するようにします。その後、共線性を考慮したポリゴン簡略化モジュールが、これらの洗練されたポリラインを簡略化し、最終的なポリゴン表現を生成する。このモジュールは動的計画法を用いて、ポリゴンの単純さと忠実さのバランスをとる目的関数を最適化し、全体最適解を達成します。さらに、最適化された共線性を考慮した目的関数は、ネットワーク学習にシームレスに統合され、パイプライン全体のまとまりを強化します。GCPの有効性は、ポリゴンマッピングのための2つの公開ベンチマークで検証された。さらなる実験により、任意のポリゴンに対して、事前知識なしに、共線性を考慮したポリゴンの単純化モジュールを適用することで、ダグラス・プッカーアルゴリズムのような従来の手法よりも精度が向上することが明らかになりました。この発見は、GCPの適用範囲の広さを強調している。提案手法のコードは、https://github.com/zhu-xlab。

要約(オリジナル)

This paper addresses the challenge of mapping polygonal buildings from remote sensing images and introduces a novel algorithm, the Global Collinearity-aware Polygonizer (GCP). GCP, built upon an instance segmentation framework, processes binary masks produced by any instance segmentation model. The algorithm begins by collecting polylines sampled along the contours of the binary masks. These polylines undergo a refinement process using a transformer-based regression module to ensure they accurately fit the contours of the targeted building instances. Subsequently, a collinearity-aware polygon simplification module simplifies these refined polylines and generate the final polygon representation. This module employs dynamic programming technique to optimize an objective function that balances the simplicity and fidelity of the polygons, achieving globally optimal solutions. Furthermore, the optimized collinearity-aware objective is seamlessly integrated into network training, enhancing the cohesiveness of the entire pipeline. The effectiveness of GCP has been validated on two public benchmarks for polygonal building mapping. Further experiments reveal that applying the collinearity-aware polygon simplification module to arbitrary polylines, without prior knowledge, enhances accuracy over traditional methods such as the Douglas-Peucker algorithm. This finding underscores the broad applicability of GCP. The code for the proposed method will be made available at https://github.com/zhu-xlab.

arxiv情報

著者 Fahong Zhang,Yilei Shi,Xiao Xiang Zhu
発行日 2025-05-02 16:49:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Global Collinearity-aware Polygonizer for Polygonal Building Mapping in Remote Sensing はコメントを受け付けていません

Multimodal Doctor-in-the-Loop: A Clinically-Guided Explainable Framework for Predicting Pathological Response in Non-Small Cell Lung Cancer

要約

本研究では、ネオアジュバント療法を受ける非小細胞肺がん患者の病理学的奏効を予測するために、マルチモーダル深層学習と内在的エクスプレナブル人工知能技術を組み合わせた新しいアプローチを提案する。既存のラジオミクスと単一モダルのディープラーニングアプローチには限界があるため、画像データと臨床データを統合する中間融合戦略を導入し、データモダリティ間の効率的な相互作用を可能にする。提案するMultimodal Doctor-in-the-Loop法は、臨床医の領域知識を学習プロセスに直接埋め込むことにより、臨床との関連性をさらに高め、モデルの焦点をより広い肺領域から特定の病変へと徐々に誘導する。その結果、予測精度と説明可能性の向上が実証され、臨床応用のための最適なデータ統合戦略に関する洞察を提供する。

要約(オリジナル)

This study proposes a novel approach combining Multimodal Deep Learning with intrinsic eXplainable Artificial Intelligence techniques to predict pathological response in non-small cell lung cancer patients undergoing neoadjuvant therapy. Due to the limitations of existing radiomics and unimodal deep learning approaches, we introduce an intermediate fusion strategy that integrates imaging and clinical data, enabling efficient interaction between data modalities. The proposed Multimodal Doctor-in-the-Loop method further enhances clinical relevance by embedding clinicians’ domain knowledge directly into the training process, guiding the model’s focus gradually from broader lung regions to specific lesions. Results demonstrate improved predictive accuracy and explainability, providing insights into optimal data integration strategies for clinical applications.

arxiv情報

著者 Alice Natalina Caragliano,Claudia Tacconi,Carlo Greco,Lorenzo Nibid,Edy Ippolito,Michele Fiore,Giuseppe Perrone,Sara Ramella,Paolo Soda,Valerio Guarrasi
発行日 2025-05-02 16:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Multimodal Doctor-in-the-Loop: A Clinically-Guided Explainable Framework for Predicting Pathological Response in Non-Small Cell Lung Cancer はコメントを受け付けていません

An Automated Pipeline for Few-Shot Bird Call Classification: A Case Study with the Tooth-Billed Pigeon

要約

本論文では、BirdNETやPerchのような大規模な公開分類器にはない希少種のために設計された、自動ワンショット鳥類鳴き声分類パイプラインを紹介する。これらのモデルは、豊富な学習データを持つ一般的な鳥類の検出には優れているが、既知の記録が1~3件しかない種の検出には適していない。この問題に対処するため、我々は大規模な鳥類分類ネットワークの埋め込み空間を活用し、フィルタリングとノイズ除去の前処理技術と組み合わせた余弦類似度を使用する分類器を開発し、最小限の訓練データで検出を最適化する。クラスタリングメトリクスを用いて様々な埋め込み空間を評価し、ゼノカントの記録を用いたシミュレーションシナリオと、既存の分類器がなく、3つの記録しか確認されていない、絶滅の危機に瀕している歯が生えたハト(Didunculus strigirostris)を用いた実環境テストの両方で、本アプローチを検証する。最終的なモデルは、ハトの鳴き声の検出において1.0の再現率と0.95の精度を達成し、フィールドでの使用に実用的なものとなった。このオープンソースのシステムは、絶滅の危機に瀕している希少種を検出・監視しようとする自然保護活動家に実用的なツールを提供する。

要約(オリジナル)

This paper presents an automated one-shot bird call classification pipeline designed for rare species absent from large publicly available classifiers like BirdNET and Perch. While these models excel at detecting common birds with abundant training data, they lack options for species with only 1-3 known recordings-a critical limitation for conservationists monitoring the last remaining individuals of endangered birds. To address this, we leverage the embedding space of large bird classification networks and develop a classifier using cosine similarity, combined with filtering and denoising preprocessing techniques, to optimize detection with minimal training data. We evaluate various embedding spaces using clustering metrics and validate our approach in both a simulated scenario with Xeno-Canto recordings and a real-world test on the critically endangered tooth-billed pigeon (Didunculus strigirostris), which has no existing classifiers and only three confirmed recordings. The final model achieved 1.0 recall and 0.95 accuracy in detecting tooth-billed pigeon calls, making it practical for use in the field. This open-source system provides a practical tool for conservationists seeking to detect and monitor rare species on the brink of extinction.

arxiv情報

著者 Abhishek Jana,Moeumu Uili,James Atherton,Mark O’Brien,Joe Wood,Leandra Brickson
発行日 2025-05-02 17:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD | An Automated Pipeline for Few-Shot Bird Call Classification: A Case Study with the Tooth-Billed Pigeon はコメントを受け付けていません

VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models

要約

ビデオ拡散モデルの急速な台頭により、非常にリアルで時間的にコヒーレントなビデオの生成が可能になり、コンテンツの真正性、出所、悪用に関する重大な懸念が高まっている。既存の電子透かしアプローチは、受動的であれ、ポストホックであれ、あるいは画像ベースの技術から転用されたものであれ、フレームの挿入、削除、並べ替えなどの動画特有の操作に耐えるのに苦労することが多く、一般的に視覚的な品質を低下させる。この研究では、VIDSTAMPを紹介する。VIDSTAMPは、フレーム単位またはセグメント単位のメッセージを、時間的に認識可能なビデオ拡散モデルの潜在空間に直接埋め込む電子透かしのフレームワークである。VIDSTAMPは、2段階のパイプラインを通してモデルのデコーダを微調整することにより、まず空間的メッセージ分離を促進するために静止画像データセット上で行い、次に時間的一貫性を復元するために合成されたビデオシーケンス上で行う。3次元畳み込みや時間的注意のようなアーキテクチャの構成要素を活用することで、我々の方法は、追加の推論コストを課すことなく、一般的な歪みや改ざんに対して同等のロバスト性を維持しながら、先行する方法よりも優れた知覚品質を提供します。VIDSTAMPはビデオあたり768ビット(フレームあたり48ビット)を95.0%のビット精度で埋め込み、-166.65の対数P値(低いほど良い)を達成し、0.836のビデオ品質スコアを維持します。これは透かしなしの出力(0.838)に匹敵し、容量と品質のトレードオフにおいて先行手法を上回ります。コードコード\URL{https://github.com/SPIN-UMass/VidStamp}

要約(オリジナル)

The rapid rise of video diffusion models has enabled the generation of highly realistic and temporally coherent videos, raising critical concerns about content authenticity, provenance, and misuse. Existing watermarking approaches, whether passive, post-hoc, or adapted from image-based techniques, often struggle to withstand video-specific manipulations such as frame insertion, dropping, or reordering, and typically degrade visual quality. In this work, we introduce VIDSTAMP, a watermarking framework that embeds per-frame or per-segment messages directly into the latent space of temporally-aware video diffusion models. By fine-tuning the model’s decoder through a two-stage pipeline, first on static image datasets to promote spatial message separation, and then on synthesized video sequences to restore temporal consistency, VIDSTAMP learns to embed high-capacity, flexible watermarks with minimal perceptual impact. Leveraging architectural components such as 3D convolutions and temporal attention, our method imposes no additional inference cost and offers better perceptual quality than prior methods, while maintaining comparable robustness against common distortions and tampering. VIDSTAMP embeds 768 bits per video (48 bits per frame) with a bit accuracy of 95.0%, achieves a log P-value of -166.65 (lower is better), and maintains a video quality score of 0.836, comparable to unwatermarked outputs (0.838) and surpassing prior methods in capacity-quality tradeoffs. Code: Code: \url{https://github.com/SPIN-UMass/VidStamp}

arxiv情報

著者 Mohammadreza Teymoorianfard,Shiqing Ma,Amir Houmansadr
発行日 2025-05-02 17:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG | VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models はコメントを受け付けていません

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

要約

未知の関節角度を持つ多関節ロボットの視覚に基づく姿勢推定は、協調ロボット工学や人間とロボットの相互作用タスクに応用されている。現在のフレームワークでは、ニューラルネットワークエンコーダを用いて画像の特徴を抽出し、その下流層で関節角度とロボットの姿勢を予測している。ロボットの画像には本来、ロボットの物理的構造に関する豊富な情報が含まれているが、既存の手法ではそれを十分に活用できないことが多い。この問題に対処するために、マスキングベースの自己教師埋め込み予測アーキテクチャを用いて、ロボットの物理モデルに関する情報をエンコーダに融合させる手法であるRoboPEPPを紹介する。具体的には、ロボットの関節をマスキングし、周囲のマスキングされていない領域から関節の埋め込みを推測するエンコーダ予測モデルを事前に学習することで、ロボットの物理モデルに対するエンコーダの理解を強化する。そして、事前に訓練されたエンコーダと予測器のペアは、関節角度とキーポイント予測ネットワークとともに、ポーズと関節角度の推定のために微調整される。微調整中の入力のランダムマスキングと評価中のキーポイントフィルタリングにより、ロバスト性がさらに向上する。いくつかのデータセットで評価した我々の手法は、オクルージョンの影響を最も受けにくく、実行時間が最も短い一方で、ロボットの姿勢と関節角度の推定において最高の結果を達成した。

要約(オリジナル)

Vision-based pose estimation of articulated robots with unknown joint angles has applications in collaborative robotics and human-robot interaction tasks. Current frameworks use neural network encoders to extract image features and downstream layers to predict joint angles and robot pose. While images of robots inherently contain rich information about the robot’s physical structures, existing methods often fail to leverage it fully; therefore, limiting performance under occlusions and truncations. To address this, we introduce RoboPEPP, a method that fuses information about the robot’s physical model into the encoder using a masking-based self-supervised embedding-predictive architecture. Specifically, we mask the robot’s joints and pre-train an encoder-predictor model to infer the joints’ embeddings from surrounding unmasked regions, enhancing the encoder’s understanding of the robot’s physical model. The pre-trained encoder-predictor pair, along with joint angle and keypoint prediction networks, is then fine-tuned for pose and joint angle estimation. Random masking of input during fine-tuning and keypoint filtering during evaluation further improves robustness. Our method, evaluated on several datasets, achieves the best results in robot pose and joint angle estimation while being the least sensitive to occlusions and requiring the lowest execution time.

arxiv情報

著者 Raktim Gautam Goswami,Prashanth Krishnamurthy,Yann LeCun,Farshad Khorrami
発行日 2025-05-02 17:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training はコメントを受け付けていません

GENMO: A GENeralist Model for Human MOtion

要約

ヒューマンモーションモデリングは伝統的に、モーションの生成と推定を、特化したモデルによる異なるタスクに分離している。モーション生成モデルは、テキスト、オーディオ、キーフレームなどの入力から多様でリアルなモーションを生成することに重点を置き、モーション推定モデルは、ビデオなどの観察結果から正確なモーションの軌道を再構築することを目的としています。時間ダイナミクスと運動学の基礎となる表現を共有しているにもかかわらず、この分離はタスク間の知識伝達を制限し、別々のモデルを維持する必要がある。我々は、GENMOを提示する。GENMOは、モーション推定と生成を単一のフレームワークで橋渡しする、人間のモーションのための統一されたジェネラリストモデルである。私たちの重要な洞察は、動作推定を制約付き動作生成として再定式化することであり、そこでは出力動作は観測された条件信号を正確に満たさなければならない。回帰と拡散の相乗効果を活用することで、GENMOは正確なグローバルモーション推定を達成すると同時に、多様なモーション生成を可能にする。また、生成の多様性を向上させるために、2Dアノテーションとテキスト記述のあるin-the-wildビデオを利用する推定ガイド付き学習目的を導入する。さらに、我々の新しいアーキテクチャは、可変長のモーションや、異なる時間間隔での混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を扱い、柔軟な制御を提供する。この統一的なアプローチは相乗的な利点を生み出す。すなわち、生成的事前知識はオクルージョンのような困難な条件下での推定モーションを改善し、一方、多様なビデオデータは生成能力を向上させる。広範な実験により、GENMOが単一のモデルで複数の人体運動タスクをうまく処理する汎化フレームワークとして有効であることが実証された。

要約(オリジナル)

Human motion modeling traditionally separates motion generation and estimation into distinct tasks with specialized models. Motion generation models focus on creating diverse, realistic motions from inputs like text, audio, or keyframes, while motion estimation models aim to reconstruct accurate motion trajectories from observations like videos. Despite sharing underlying representations of temporal dynamics and kinematics, this separation limits knowledge transfer between tasks and requires maintaining separate models. We present GENMO, a unified Generalist Model for Human Motion that bridges motion estimation and generation in a single framework. Our key insight is to reformulate motion estimation as constrained motion generation, where the output motion must precisely satisfy observed conditioning signals. Leveraging the synergy between regression and diffusion, GENMO achieves accurate global motion estimation while enabling diverse motion generation. We also introduce an estimation-guided training objective that exploits in-the-wild videos with 2D annotations and text descriptions to enhance generative diversity. Furthermore, our novel architecture handles variable-length motions and mixed multimodal conditions (text, audio, video) at different time intervals, offering flexible control. This unified approach creates synergistic benefits: generative priors improve estimated motions under challenging conditions like occlusions, while diverse video data enhances generation capabilities. Extensive experiments demonstrate GENMO’s effectiveness as a generalist framework that successfully handles multiple human motion tasks within a single model.

arxiv情報

著者 Jiefeng Li,Jinkun Cao,Haotian Zhang,Davis Rempe,Jan Kautz,Umar Iqbal,Ye Yuan
発行日 2025-05-02 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO | GENMO: A GENeralist Model for Human MOtion はコメントを受け付けていません