L-PR: Exploiting LiDAR Fiducial Marker for Unordered Low Overlap Multiview Point Cloud Registration

要約

ポイントクラウド登録は、コンピュータービジョンとロボット工学の多くのアプリケーションの前提条件です。
ほとんどの既存の方法は、重複する2つのポイントクラウドのペアワイズ登録に焦点を当てています。
オーバーラップの低いケースのためのいくつかの方法はありましたが、それらは劣化したシナリオで苦労しています。
このホワイトペーパーでは、LIDAR Fiducialマーカーを活用する順序付けられていない低オーバーラップマルチビューポイントクラウドを登録するように設計されたL-PRと呼ばれる新しいフレームワークを紹介します。
それらをLidar Fiducialマーカーと呼びますが、それらは人気のあるApriltagおよびArucoマーカー、環境の3D形状に影響を与えない薄い紙のシートと同じです。
最初に、ポイントクラウド間の視点が劇的に変化したときに堅牢な検出結果を提供するために、改善された適応閾値マーカー検出方法を提案します。
次に、Un-Ordered Multiview Point Cloud登録の問題を最大Aポステリオリ(MAP)問題として策定し、2つのレベルのグラフで構成されるフレームワークを開発します。
加重グラフとして構築された第1レベルのグラフは、順序付けられていないセットからスキャンポーズの初期値を効率的かつ最適に推測するように設計されています。
第2レベルのグラフは、因子グラフとして構築されます。
スキャンポーズ、マーカーポーズ、マーカーコーナーの位置など、グラフ上の変数をグローバルに最適化することにより、マップの問題に取り組みます。
定性的実験と定量的実験の両方を実施して、提案された方法が以前の最先端(SOTA)方法を上回ることを実証し、L-PRが3Dアセット収集およびトレーニングデータの低コストで効率的なツールとして機能することを紹介する
コレクション。
特に、L-PRを使用してLivox-3DMatchという名前の新しいデータセットを収集し、SOTA学習ベースの方法であるSGHRのトレーニングに組み込みます。SGHRは、さまざまなベンチマークでSGHRの明らかな改善をもたらします。

要約(オリジナル)

Point cloud registration is a prerequisite for many applications in computer vision and robotics. Most existing methods focus on pairwise registration of two point clouds with high overlap. Although there have been some methods for low overlap cases, they struggle in degraded scenarios. This paper introduces a novel framework dubbed L-PR, designed to register unordered low overlap multiview point clouds leveraging LiDAR fiducial markers. We refer to them as LiDAR fiducial markers, but they are the same as the popular AprilTag and ArUco markers, thin sheets of paper that do not affect the 3D geometry of the environment. We first propose an improved adaptive threshold marker detection method to provide robust detection results when the viewpoints among point clouds change dramatically. Then, we formulate the unordered multiview point cloud registration problem as a maximum a-posteriori (MAP) problem and develop a framework consisting of two levels of graphs to address it. The first-level graph, constructed as a weighted graph, is designed to efficiently and optimally infer initial values of scan poses from the unordered set. The second-level graph is constructed as a factor graph. By globally optimizing the variables on the graph, including scan poses, marker poses, and marker corner positions, we tackle the MAP problem. We conduct both qualitative and quantitative experiments to demonstrate that the proposed method surpasses previous state-of-the-art (SOTA) methods and to showcase that L-PR can serve as a low-cost and efficient tool for 3D asset collection and training data collection. In particular, we collect a new dataset named Livox-3DMatch using L-PR and incorporate it into the training of the SOTA learning-based method, SGHR, which brings evident improvements for SGHR on various benchmarks.

arxiv情報

著者 Yibo Liu,Jinjun Shan,Amaldev Haridevan,Shuo Zhang
発行日 2025-02-05 18:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | L-PR: Exploiting LiDAR Fiducial Marker for Unordered Low Overlap Multiview Point Cloud Registration はコメントを受け付けていません

TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer

要約

ポーズガイド付きの個人画像合成(PGPI)は、指定されたターゲットポーズ(スケルトンなど)を採用しながら、ソース画像から被験者のアイデンティティを維持する画像を生成します。
拡散ベースのPGPISメソッドは、ポーズ変換中に顔の特徴を効果的に保存しますが、拡散プロセス全体でソース画像から衣服の詳細を正確に維持するのに苦労することがよくあります。
この制限は、ソースとターゲットのポーズに大きな違いがある場合に特に問題があり、著作権保護に衣服スタイルの保存が重要であるファッション業界のPGPISアプリケーションに大きな影響を与えます。
私たちの分析は、この制限が主に条件付き拡散モデルの注意モジュールが衣服のパターンを適切にキャプチャして保存できないことに起因することを明らかにしています。
この制限に対処するために、私たちは、高品質の結果を生み出しながら、顔と衣服の両方の外観を効果的に保存する新しいアプローチである、人間を採取する誘導注意拡散を提案します。
3つの重要なコンポーネントで構成される人間の並列認識シャムネットワークを提案します。デュアル同一のアンット(拡散除去用のTargetNetと、ソース画像埋め込み抽出のためのSourcenet)、ヒト採取誘導融合注意(HPFA)、およびクリップ
ガイド付き注意アラインメント(CAA)。
HPFAおよびCAAモジュールは、顔と衣服のパターンを適応的かつ効果的にターゲット画像生成に埋め込むことができます。
ショップ中の衣服検索ベンチマークと最新の野生の人間の編集データセットの両方での広範な実験は、ソース画像に顔と衣服の両方の外観を維持するための13のベースラインアプローチを超える方法の大きな利点を示しています。

要約(オリジナル)

Pose-Guided Person Image Synthesis (PGPIS) generates images that maintain a subject’s identity from a source image while adopting a specified target pose (e.g., skeleton). While diffusion-based PGPIS methods effectively preserve facial features during pose transformation, they often struggle to accurately maintain clothing details from the source image throughout the diffusion process. This limitation becomes particularly problematic when there is a substantial difference between the source and target poses, significantly impacting PGPIS applications in the fashion industry where clothing style preservation is crucial for copyright protection. Our analysis reveals that this limitation primarily stems from the conditional diffusion model’s attention modules failing to adequately capture and preserve clothing patterns. To address this limitation, we propose human-parsing-guided attention diffusion, a novel approach that effectively preserves both facial and clothing appearance while generating high-quality results. We propose a human-parsing-aware Siamese network that consists of three key components: dual identical UNets (TargetNet for diffusion denoising and SourceNet for source image embedding extraction), a human-parsing-guided fusion attention (HPFA), and a CLIP-guided attention alignment (CAA). The HPFA and CAA modules can embed the face and clothes patterns into the target image generation adaptively and effectively. Extensive experiments on both the in-shop clothes retrieval benchmark and the latest in-the-wild human editing dataset demonstrate our method’s significant advantages over 13 baseline approaches for preserving both facial and clothes appearance in the source image.

arxiv情報

著者 Zhihong Xu,Dongxia Wang,Peng Du,Yang Cao,Qing Guo
発行日 2025-02-05 18:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TruePose: Human-Parsing-guided Attention Diffusion for Full-ID Preserving Pose Transfer はコメントを受け付けていません

A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation

要約

大腸内視鏡検査のコンピューター支援検出および診断システムの最近の進歩に続いて、大腸内視鏡検査手順の自動報告は、臨床診療にさらに革命を起こすように設定されています。
これらのシステムの開発において重要でありながら未定の側面は、フルプロセッド大腸内視鏡ビデオを解剖学的セクションと手続き段階に自律的にセグメント化できるコンピュータービジョンモデルの作成です。
この作業では、このタスクの最初のオープンアクセスデータセットを作成し、競争モデルに対してベンチマークされた最先端のアプローチを提案することを目指しています。
60の完全な大腸内視鏡ビデオからの270万フレームで構成される公開されている本物のデータセットに注釈を付け、解剖学的場所のフレームレベルのラベルと、9つのカテゴリにわたって大腸内視鏡検査段階を記録しました。
次に、大腸内視鏡検査ビデオの時間的セグメンテーションのために長い時間依存性を効率的にキャプチャするように設計されたカスタム時間的畳み込みブロックを採用する学習ベースのアーキテクチャであるColontcnを提示します。
また、目に見えないマルチセンターデータに関するモデル評価を含む、このベンチマークのデュアルK倍交差検証評価プロトコルを提案します。
提案されている2つのK-fold交差検証設定を使用して、競争モデルを上回ります。
アブレーション研究を報告して、このタスクの課題に関する洞察を提供し、カスタム時間的畳み込みブロックの利点を強調し、学習を強化し、モデルの効率を向上させます。
提案されているオープンアクセスベンチマークとColontCNアプローチは、大腸内視鏡検査手順の時間的セグメンテーションの重要な進歩を表しており、この臨床的ニーズに対処するためのさらなるオープンアクセス研究を促進していると考えています。

要約(オリジナル)

Following recent advancements in computer-aided detection and diagnosis systems for colonoscopy, the automated reporting of colonoscopy procedures is set to further revolutionize clinical practice. A crucial yet underexplored aspect in the development of these systems is the creation of computer vision models capable of autonomously segmenting full-procedure colonoscopy videos into anatomical sections and procedural phases. In this work, we aim to create the first open-access dataset for this task and propose a state-of-the-art approach, benchmarked against competitive models. We annotated the publicly available REAL-Colon dataset, consisting of 2.7 million frames from 60 complete colonoscopy videos, with frame-level labels for anatomical locations and colonoscopy phases across nine categories. We then present ColonTCN, a learning-based architecture that employs custom temporal convolutional blocks designed to efficiently capture long temporal dependencies for the temporal segmentation of colonoscopy videos. We also propose a dual k-fold cross-validation evaluation protocol for this benchmark, which includes model assessment on unseen, multi-center data.ColonTCN achieves state-of-the-art performance in classification accuracy while maintaining a low parameter count when evaluated using the two proposed k-fold cross-validation settings, outperforming competitive models. We report ablation studies to provide insights into the challenges of this task and highlight the benefits of the custom temporal convolutional blocks, which enhance learning and improve model efficiency. We believe that the proposed open-access benchmark and the ColonTCN approach represent a significant advancement in the temporal segmentation of colonoscopy procedures, fostering further open-access research to address this clinical need.

arxiv情報

著者 Carlo Biffi,Giorgio Roffo,Pietro Salvagnini,Andrea Cherubini
発行日 2025-02-05 18:21:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation はコメントを受け付けていません

An Optimized Toolbox for Advanced Image Processing with Tsetlin Machine Composites

要約

Tsetlinマシン(TM)は、MNIST、K-MNIST、F-MNIST、CIFAR-2など、いくつかの画像分類ベンチマークで競合結果を達成しました。
ただし、カラーイメージの分類は、おそらくTMSにとってまだ初期段階にあり、CIFAR-10は進捗を追跡するための焦点です。
過去数年にわたって、TMのCIFAR-10の精度は、ドロップ条項の導入により、2020年の61%から2023年の75.1%に増加しました。
この論文では、最近提案されたTMコンポジットアーキテクチャを活用し、さまざまな画像処理技術を使用するさまざまなTM専門家を紹介します。
これらには、キャニーエッジ検出、配向勾配のヒストグラム、適応型平均しきい値、適応ガウスのしきい値、オツのしきい値、色の温度計、適応色の温度計が含まれます。
さらに、厳密なハイパーパラメーター検索を実施します。ここでは、TMスペシャリストのいくつかに最適なハイパーパラメーターを発見します。
その結果、82.8%の精度でTMSのCIFAR-10で新しい最先端の結果を提供するツールボックスが得られます。
結論として、TMスペシャリストのツールボックスは、新しいTMアプリケーションの基盤と、画像分析におけるTM複合材料のさらなる研究のランドマークを形成しています。

要約(オリジナル)

The Tsetlin Machine (TM) has achieved competitive results on several image classification benchmarks, including MNIST, K-MNIST, F-MNIST, and CIFAR-2. However, color image classification is arguably still in its infancy for TMs, with CIFAR-10 being a focal point for tracking progress. Over the past few years, TM’s CIFAR-10 accuracy has increased from around 61% in 2020 to 75.1% in 2023 with the introduction of Drop Clause. In this paper, we leverage the recently proposed TM Composites architecture and introduce a range of TM Specialists that use various image processing techniques. These include Canny edge detection, Histogram of Oriented Gradients, adaptive mean thresholding, adaptive Gaussian thresholding, Otsu’s thresholding, color thermometers, and adaptive color thermometers. In addition, we conduct a rigorous hyperparameter search, where we uncover optimal hyperparameters for several of the TM Specialists. The result is a toolbox that provides new state-of-the-art results on CIFAR-10 for TMs with an accuracy of 82.8%. In conclusion, our toolbox of TM Specialists forms a foundation for new TM applications and a landmark for further research on TM Composites in image analysis.

arxiv情報

著者 Ylva Grønningsæter,Halvor S. Smørvik,Ole-Christoffer Granmo
発行日 2025-02-05 18:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | An Optimized Toolbox for Advanced Image Processing with Tsetlin Machine Composites はコメントを受け付けていません

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

要約

視力を脅かす眼疾患の有病率は重大な世界的な負担であり、多くの場合、診断されていないか、効果的な治療には遅すぎると診断されています。
大規模な視覚言語モデル(LVLMS)は、解剖学的情報の理解、眼疾患の診断、解釈と追跡計画の起草を支援する可能性があり、それにより臨床医への負担を軽減し、眼科ケアへのアクセスを改善します。
ただし、眼科固有のアプリケーションでのLVLMSのパフォーマンスを評価するために、限られたベンチマークを利用できます。
この研究では、(1)5つの眼科イメージングモダリティ全体で21,993のインスタンスで構成される大規模なマルチモーダル眼科ベンチマークであるLMODを紹介します。光コヒーレンス断層撮影、色の眼底写真、スキャンレーザー眼鏡写真、レンズの写真、および手術シーン。
(2)フリーテキスト、人口統計学、および疾患のバイオマーカー情報。
(3)解剖学的情報理解、疾患診断、サブグループ分析などの主要な眼科固有のアプリケーション。
さらに、クローズドソース、オープンソース、および医療ドメインの13人の最先端のLVLM代表者にベンチマークしました。
結果は、他のドメインと比較して、眼科におけるLVLMSの大幅なパフォーマンス低下を示しています。
系統的エラー分析により、6つの主要な障害モードがさらに特定されました。誤分類、棄権の失敗、一貫性のない推論、幻覚、正当化のない主張、およびドメイン固有の知識の欠如。
対照的に、ベースラインが高精度を実証したため、これらのタスクで特別に訓練された監視されたニューラルネットワークが特別にトレーニングされました。
これらの調査結果は、眼科固有のLVLMの開発と検証におけるベンチマークの差し迫った必要性を強調しています。

要約(オリジナル)

The prevalence of vision-threatening eye diseases is a significant global burden, with many cases remaining undiagnosed or diagnosed too late for effective treatment. Large vision-language models (LVLMs) have the potential to assist in understanding anatomical information, diagnosing eye diseases, and drafting interpretations and follow-up plans, thereby reducing the burden on clinicians and improving access to eye care. However, limited benchmarks are available to assess LVLMs’ performance in ophthalmology-specific applications. In this study, we introduce LMOD, a large-scale multimodal ophthalmology benchmark consisting of 21,993 instances across (1) five ophthalmic imaging modalities: optical coherence tomography, color fundus photographs, scanning laser ophthalmoscopy, lens photographs, and surgical scenes; (2) free-text, demographic, and disease biomarker information; and (3) primary ophthalmology-specific applications such as anatomical information understanding, disease diagnosis, and subgroup analysis. In addition, we benchmarked 13 state-of-the-art LVLM representatives from closed-source, open-source, and medical domains. The results demonstrate a significant performance drop for LVLMs in ophthalmology compared to other domains. Systematic error analysis further identified six major failure modes: misclassification, failure to abstain, inconsistent reasoning, hallucination, assertions without justification, and lack of domain-specific knowledge. In contrast, supervised neural networks specifically trained on these tasks as baselines demonstrated high accuracy. These findings underscore the pressing need for benchmarks in the development and validation of ophthalmology-specific LVLMs.

arxiv情報

著者 Zhenyue Qin,Yu Yin,Dylan Campbell,Xuansheng Wu,Ke Zou,Yih-Chung Tham,Ninghao Liu,Xiuzhen Zhang,Qingyu Chen
発行日 2025-02-05 18:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models はコメントを受け付けていません

Masked Autoencoders Are Effective Tokenizers for Diffusion Models

要約

潜在的な拡散モデルの最近の進歩により、高解像度の画像合成に対する有効性が実証されています。
ただし、拡散モデルのより良い学習と生成のためのトークン剤からの潜在空間の特性は、未調査のままです。
理論的にも経験的には、生成品質の改善は、ガウス混合モードが少なく、より識別的な特徴を備えたものなど、より良い構造を持つ潜在的な分布と密接に結びついていることがわかります。
これらの洞察に動機付けられて、私たちは、再構築の忠実度を維持しながら、意味的に豊富な潜在スペースを学習するために、マスクモデリングを活用する自動エンコーダー(AE)のMaetokを提案します。
大規模な実験では、私たちの分析を検証し、自動エンコーダーの変動型が必要ではないことを示し、AEだけからの識別的潜在スペースは、128トークンのみを使用してImagenet世代の最先端のパフォーマンスを可能にします。
Maetokは大幅な実用的な改善を達成し、512×512の生成で76倍のトレーニングと31倍の推論スループットで1.69のGFIDを可能にします。
私たちの調査結果は、変分の制約ではなく、潜在空間の構造が効果的な拡散モデルに重要であることを示しています。
コードと訓練されたモデルがリリースされます。

要約(オリジナル)

Recent advances in latent diffusion models have demonstrated their effectiveness for high-resolution image synthesis. However, the properties of the latent space from tokenizer for better learning and generation of diffusion models remain under-explored. Theoretically and empirically, we find that improved generation quality is closely tied to the latent distributions with better structure, such as the ones with fewer Gaussian Mixture modes and more discriminative features. Motivated by these insights, we propose MAETok, an autoencoder (AE) leveraging mask modeling to learn semantically rich latent space while maintaining reconstruction fidelity. Extensive experiments validate our analysis, demonstrating that the variational form of autoencoders is not necessary, and a discriminative latent space from AE alone enables state-of-the-art performance on ImageNet generation using only 128 tokens. MAETok achieves significant practical improvements, enabling a gFID of 1.69 with 76x faster training and 31x higher inference throughput for 512×512 generation. Our findings show that the structure of the latent space, rather than variational constraints, is crucial for effective diffusion models. Code and trained models are released.

arxiv情報

著者 Hao Chen,Yujin Han,Fangyi Chen,Xiang Li,Yidong Wang,Jindong Wang,Ze Wang,Zicheng Liu,Difan Zou,Bhiksha Raj
発行日 2025-02-05 18:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Masked Autoencoders Are Effective Tokenizers for Diffusion Models はコメントを受け付けていません

Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics

要約

大規模なモデルの最近の進歩により、画像から3Dの再構成が大幅に進歩しています。
ただし、生成されたモデルは多くの場合、単一のピースに融合され、ダウンストリームタスクでの適用性が制限されます。
このホワイトペーパーでは、3Dガーメントの生成に焦点を当てています。これは、衣服が分離可能でシミュレーション対応を必要とするダイナミックガーメントアニメーションを備えた仮想トライオンなどのアプリケーションの重要なエリアです。
物理学に透明性のあるシミュレーション対応の分離された衣服を、縫製パターンと人間をワイルドイメージから再構築する新しいパイプラインであるドレス-1-to-3を紹介します。
画像から始めて、私たちのアプローチは、事前に訓練された画像からシーイングへのパターン生成モデルを組み合わせて、事前に訓練されたマルチビュー拡散モデルを備えた粗い縫製パターンを作成して、マルチビュー画像を作成します。
縫製パターンは、生成されたマルチビュー画像に基づいた微分可能な衣服シミュレーターを使用してさらに洗練されています。
汎用性の高い実験は、私たちの最適化アプローチが、再構築された3D衣服と人間の幾何学的アラインメントを入力画像で大幅に強化することを示しています。
さらに、テクスチャ生成モジュールと人間のモーションジェネレーションモジュールを統合することにより、カスタマイズされた物理学に魅力的で現実的なダイナミックな衣服のデモを作成します。
プロジェクトページ:https://dress-1to-3.github.io/

要約(オリジナル)

Recent advances in large models have significantly advanced image-to-3D reconstruction. However, the generated models are often fused into a single piece, limiting their applicability in downstream tasks. This paper focuses on 3D garment generation, a key area for applications like virtual try-on with dynamic garment animations, which require garments to be separable and simulation-ready. We introduce Dress-1-to-3, a novel pipeline that reconstructs physics-plausible, simulation-ready separated garments with sewing patterns and humans from an in-the-wild image. Starting with the image, our approach combines a pre-trained image-to-sewing pattern generation model for creating coarse sewing patterns with a pre-trained multi-view diffusion model to produce multi-view images. The sewing pattern is further refined using a differentiable garment simulator based on the generated multi-view images. Versatile experiments demonstrate that our optimization approach substantially enhances the geometric alignment of the reconstructed 3D garments and humans with the input image. Furthermore, by integrating a texture generation module and a human motion generation module, we produce customized physics-plausible and realistic dynamic garment demonstrations. Project page: https://dress-1-to-3.github.io/

arxiv情報

著者 Xuan Li,Chang Yu,Wenxin Du,Ying Jiang,Tianyi Xie,Yunuo Chen,Yin Yang,Chenfanfu Jiang
発行日 2025-02-05 18:49:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics はコメントを受け付けていません

SKI Models: Skeleton Induced Vision-Language Embeddings for Understanding Activities of Daily Living

要約

Clipのようなビジョン言語モデルの導入により、目に見えないビデオや人間の行動に一般化できる基礎ビデオモデルの開発が可能になりました。
ただし、これらのモデルは通常、Webビデオでトレーニングされています。これは、日常生活(ADL)ビデオの活動に存在する課題を把握できないことがよくあります。
既存の作品は、3DスケルトンとRGBビデオを組み合わせることにより、同様の外観、微妙なモーションパターン、複数の視点などのADL固有の課題に対処します。
ただし、これらのアプローチは言語と統合されておらず、目に見えないアクションクラスに一般化する能力を制限します。
この論文では、3Dスケルトンをビジョン言語埋め込みスペースに統合するスキーモデルを紹介します。
スキーモデルは、スケルトン言語モデルのスケルトンクリップを活用して、コラボレーショントレーニングを通じてスケルトン情報をビジョン言語モデル(VLM)と大型ビジョン言語モデル(LVLM)に注入します。
特に、スキーモデルでは、推論中にスケルトンデータを必要とせず、実際のアプリケーションに対する堅牢性を高めます。
スキーモデルの有効性は、ゼロショットアクション認識とビデオキャプション生成タスクのために、3つの一般的なADLデータセットで検証されています。

要約(オリジナル)

The introduction of vision-language models like CLIP has enabled the development of foundational video models capable of generalizing to unseen videos and human actions. However, these models are typically trained on web videos, which often fail to capture the challenges present in Activities of Daily Living (ADL) videos. Existing works address ADL-specific challenges, such as similar appearances, subtle motion patterns, and multiple viewpoints, by combining 3D skeletons and RGB videos. However, these approaches are not integrated with language, limiting their ability to generalize to unseen action classes. In this paper, we introduce SKI models, which integrate 3D skeletons into the vision-language embedding space. SKI models leverage a skeleton-language model, SkeletonCLIP, to infuse skeleton information into Vision Language Models (VLMs) and Large Vision Language Models (LVLMs) through collaborative training. Notably, SKI models do not require skeleton data during inference, enhancing their robustness for real-world applications. The effectiveness of SKI models is validated on three popular ADL datasets for zero-shot action recognition and video caption generation tasks.

arxiv情報

著者 Arkaprava Sinha,Dominick Reilly,Francois Bremond,Pu Wang,Srijan Das
発行日 2025-02-05 18:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SKI Models: Skeleton Induced Vision-Language Embeddings for Understanding Activities of Daily Living はコメントを受け付けていません

Seeing World Dynamics in a Nutshell

要約

私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノクラービデオを効率的に表現する問題を考慮します。
既存のアプローチは、主に空間的ピクセルのコレクションとしてビデオを扱う2D/2.5Dテクニックに依存していますが、それらは、一時的なコヒーレンスと明示的な3D構造の欠如により、複雑な動き、閉塞、および幾何学的一貫性と格闘しています。
ダイナミック3Dワールドの投影としての単眼ビデオからインスピレーションを得て、時空のガウス原始物質の連続流を通して、本質的な3D形式でビデオを表現することを探ります。
このホワイトペーパーでは、単眼ビデオを単一の前方パスでダイナミックな3Dガウス表現に効率的に変換する新しいフレームワークであるNutworldを提案します。
Nutworldは、その中心で、構造化された空間的整列ガウス(STAG)表現を導入し、効果的な深さと流れの正則化を伴う最適化のないシーンモデリングを可能にします。
包括的な実験を通じて、NutWorldがさまざまなダウンストリームアプリケーションをリアルタイムで可能にしながら、忠実度の高いビデオ再構成の品質を達成することを実証します。
デモとコードはhttps://github.com/nut-world/nutworldで入手できます。

要約(オリジナル)

We consider the problem of efficiently representing casually captured monocular videos in a spatially- and temporally-coherent manner. While existing approaches predominantly rely on 2D/2.5D techniques treating videos as collections of spatiotemporal pixels, they struggle with complex motions, occlusions, and geometric consistency due to absence of temporal coherence and explicit 3D structure. Drawing inspiration from monocular video as a projection of the dynamic 3D world, we explore representing videos in their intrinsic 3D form through continuous flows of Gaussian primitives in space-time. In this paper, we propose NutWorld, a novel framework that efficiently transforms monocular videos into dynamic 3D Gaussian representations in a single forward pass. At its core, NutWorld introduces a structured spatial-temporal aligned Gaussian (STAG) representation, enabling optimization-free scene modeling with effective depth and flow regularization. Through comprehensive experiments, we demonstrate that NutWorld achieves high-fidelity video reconstruction quality while enabling various downstream applications in real-time. Demos and code will be available at https://github.com/Nut-World/NutWorld.

arxiv情報

著者 Qiuhong Shen,Xuanyu Yi,Mingbao Lin,Hanwang Zhang,Shuicheng Yan,Xinchao Wang
発行日 2025-02-05 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | Seeing World Dynamics in a Nutshell はコメントを受け付けていません

OverThink: Slowdown Attacks on Reasoning LLMs

要約

LLMS-We Forceモデルの推論に依存しているアプリケーションのオーバーヘッドを増やして、コンテキスト的に正解を提供しながらユーザークエリに応答するために、増幅された数の推論トークン、つまり「オーバーシンク」を費やします。
敵は、推論時間中に推論LLM(例えば、RAGアプリケーションで)で使用される公開コンテンツにデコイの推論を注入することにより、オーバーシンク攻撃を実行します。
おとりの問題の性質上(例:マルコフの決定プロセス)、修正されたテキストは安全ガードレールに違反しません。
閉じた(Openai O1、O1-Mini、O3-Mini)およびOpen-(DeepSeek R1)Weights Teasoning ModelsをfreshqaおよびSquadデータセットで攻撃を評価しました。
私たちの結果は、FreshQAデータセットで最大18倍の減速と、Squad Datasetで46倍の減速を示しています。
攻撃は、モデル間の高い転送可能性も示しています。
アプリケーションを保護するために、LLMベースとシステム設計のアプローチを活用する防御について議論および実装します。
最後に、私たちは、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性のある過剰考え攻撃の社会的、財政的、およびエネルギーの影響について議論します。

要約(オリジナル)

We increase overhead for applications that rely on reasoning LLMs-we force models to spend an amplified number of reasoning tokens, i.e., ‘overthink’, to respond to the user query while providing contextually correct answers. The adversary performs an OVERTHINK attack by injecting decoy reasoning problems into the public content that is used by the reasoning LLM (e.g., for RAG applications) during inference time. Due to the nature of our decoy problems (e.g., a Markov Decision Process), modified texts do not violate safety guardrails. We evaluated our attack across closed-(OpenAI o1, o1-mini, o3-mini) and open-(DeepSeek R1) weights reasoning models on the FreshQA and SQuAD datasets. Our results show up to 18x slowdown on FreshQA dataset and 46x slowdown on SQuAD dataset. The attack also shows high transferability across models. To protect applications, we discuss and implement defenses leveraging LLM-based and system design approaches. Finally, we discuss societal, financial, and energy impacts of OVERTHINK attack which could amplify the costs for third-party applications operating reasoning models.

arxiv情報

著者 Abhinav Kumar,Jaechul Roh,Ali Naseh,Marzena Karpinska,Mohit Iyyer,Amir Houmansadr,Eugene Bagdasarian
発行日 2025-02-05 17:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | OverThink: Slowdown Attacks on Reasoning LLMs はコメントを受け付けていません