TflosYOLO+TFSC: An Accurate and Robust Model for Estimating Flower Count and Flowering Period

要約

茶の花は、茶植物の分類学的研究とハイブリッド繁殖において重要な役割を果たします。
茶花の特性を観察する従来の方法は労働集約的で不正確であるため、茶の開花定量化のためのTflosyoloとTFSCモデルを提案します。これにより、花の数と開花期の推定が可能です。
この研究では、2年間で29の茶登録から花の画像を収集することにより、非常に代表的で多様なデータセットが構築されました。
このデータセットに基づいて、TflosyoloモデルはYolov5アーキテクチャに基づいて構築され、ティーフラワーを検出およびカウントするための実行可能なソリューションを提供する最初のモデルであるスクイーズアンドエクスケーション(SE)ネットワークで強化されました。
Tflosyoloモデルは、0.874のMap50を達成し、Yolov5、Yolov7、Yolov8を上回りました。
さらに、Tflosyoloモデルは、26のお茶の加速、5つの開花段階、さまざまな照明条件、および剪定 /拡散植物を含む34のデータセットでテストされ、高い一般化と堅牢性を示しました。
予測された花数と実際の花数の間の相関係数(r^2)は0.974でした。
さらに、TFSC(茶開花段階分類)モデル、7層ニューラルネットワークは、開花期の自動分類のために設計されました。
TFSCモデルは2年間に評価され、それぞれ0.738と0.899の精度を達成しました。
Tflosyolo+TFSCモデルを使用して、お茶の開花ダイナミクスを監視し、さまざまなお茶の加速における開花段階の変化を追跡しました。
このフレームワークは、茶植物育種プログラムと生殖質資源の表現型分析を重要なサポートを提供します。

要約(オリジナル)

Tea flowers play a crucial role in taxonomic research and hybrid breeding for the tea plant. As traditional methods of observing tea flower traits are labor-intensive and inaccurate, we propose TflosYOLO and TFSC model for tea flowering quantifying, which enable estimation of flower count and flowering period. In this study, a highly representative and diverse dataset was constructed by collecting flower images from 29 tea accessions in 2 years. Based on this dataset, the TflosYOLO model was built on the YOLOv5 architecture and enhanced with the Squeeze-and-Excitation (SE) network, which is the first model to offer a viable solution for detecting and counting tea flowers. The TflosYOLO model achieved an mAP50 of 0.874, outperforming YOLOv5, YOLOv7 and YOLOv8. Furthermore, TflosYOLO model was tested on 34 datasets encompassing 26 tea accessions, five flowering stages, various lighting conditions, and pruned / unpruned plants, demonstrating high generalization and robustness. The correlation coefficient (R^2) between the predicted and actual flower counts was 0.974. Additionally, the TFSC (Tea Flowering Stage Classification) model, a 7-layer neural network was designed for automatic classification of the flowering period. TFSC model was evaluated on 2 years and achieved an accuracy of 0.738 and 0.899 respectively. Using the TflosYOLO+TFSC model, we monitored the tea flowering dynamics and tracked the changes in flowering stages across various tea accessions. The framework provides crucial support for tea plant breeding programs and phenotypic analysis of germplasm resources.

arxiv情報

著者 Qianxi Mi,Pengcheng Yuan,Chunlei Ma,Jiedan Chen,Mingzhe Yao
発行日 2025-04-07 16:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.QM | TflosYOLO+TFSC: An Accurate and Robust Model for Estimating Flower Count and Flowering Period はコメントを受け付けていません

From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models

要約

拡張現実(XR)では、ユーザーの全身動きを生成することは、自分の行動を理解し、社会的相互作用のために仮想アバターを駆り立て、現実的な存在感を伝えるために重要です。
以前の作業は、モーションコントローラーからの空間的に疎な入力信号に焦点を当てていましたが、多くのXRアプリケーションは、ユーザーの摩擦を減らし、より良い浸漬のためにビジョンベースのハンドトラッキングを選択します。
コントローラーと比較して、ハンドトラッキング信号の精度が低く、長期間は欠落している可能性さえあります。
このような信頼性の低い入力を処理するために、ローリング予測モデル(RPM)を提示します。これは、時間的および空間的にスパース入力信号からスムーズな全身モーションを生成するオンラインおよびリアルタイムのアプローチです。
私たちのモデルは、入力(つまり、追跡モード)と2)入力が欠落しているときにもっともらしい動き(つまり、合成モード)に一致する正確な動きを生成します。
さらに重要なことに、RPMは追跡から合成へのシームレスな遷移を生成し、その逆も同様です。
ノイズの多い入力と欠落した入力を処理することの実際的な重要性を実証するために、コマーシャルバーチャルリアリティ(VR)ヘッドセットからの現実的なスパース入力の最初のデータセットであるGORPを、ペアの高品質のボディモーショングラウンドトゥルースと提示します。
GORPは、モーションコントローラー(空間的スパース)と手追跡(空間的および時間的にスパース)を使用して、28人から14時間以上のVRゲームプレイデータを提供します。
RPMは、合成データとGORPの両方の最先端に対してRPMをベンチマークして、現実的なデータセットで実際のアプリケーションのギャップを埋める方法と信頼できない入力信号を処理する方法を強調します。
当社のコード、前提条件のモデル、およびGORPデータセットは、プロジェクトWebページで入手できます。

要約(オリジナル)

In extended reality (XR), generating full-body motion of the users is important to understand their actions, drive their virtual avatars for social interaction, and convey a realistic sense of presence. While prior works focused on spatially sparse and always-on input signals from motion controllers, many XR applications opt for vision-based hand tracking for reduced user friction and better immersion. Compared to controllers, hand tracking signals are less accurate and can even be missing for an extended period of time. To handle such unreliable inputs, we present Rolling Prediction Model (RPM), an online and real-time approach that generates smooth full-body motion from temporally and spatially sparse input signals. Our model generates 1) accurate motion that matches the inputs (i.e., tracking mode) and 2) plausible motion when inputs are missing (i.e., synthesis mode). More importantly, RPM generates seamless transitions from tracking to synthesis, and vice versa. To demonstrate the practical importance of handling noisy and missing inputs, we present GORP, the first dataset of realistic sparse inputs from a commercial virtual reality (VR) headset with paired high quality body motion ground truth. GORP provides >14 hours of VR gameplay data from 28 people using motion controllers (spatially sparse) and hand tracking (spatially and temporally sparse). We benchmark RPM against the state of the art on both synthetic data and GORP to highlight how we can bridge the gap for real-world applications with a realistic dataset and by handling unreliable input signals. Our code, pretrained models, and GORP dataset are available in the project webpage.

arxiv情報

著者 German Barquero,Nadine Bertsch,Manojkumar Marramreddy,Carlos Chacón,Filippo Arcadu,Ferran Rigual,Nicky Sijia He,Cristina Palmero,Sergio Escalera,Yuting Ye,Robin Kips
発行日 2025-04-07 17:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models はコメントを受け付けていません

FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

要約

基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容易に適応できる大規模なデータセットで事前に訓練されたモデルを提供しています。
進歩にもかかわらず、胎児の超音波画像は、固有の複雑さのために基礎モデルの挑戦的なドメインのままであり、多くの場合、ペアのマルチモーダルデータが不足しているため、かなりの追加トレーニングと限界に直面する必要があります。
これらの課題を克服するために、胎児超音波画像の普遍的な表現を生成できるビジョン言語基盤モデルであるFetalClipを紹介します。
FetalClipは、210,035の胎児超音波画像とテキストと組み合わせた多様なデータセットでマルチモーダル学習アプローチを使用して事前に訓練されました。
これは、これまでの基礎モデル開発に使用されるこの種の最大のペアデータセットを表しています。
このユニークなトレーニングアプローチにより、FetalClipは胎児超音波画像に存在する複雑な解剖学的特徴を効果的に学習することで、さまざまなダウンストリームアプリケーションに使用できる堅牢な表現をもたらすことができます。
分類、妊娠年齢推定、先天性心臓欠陥(CHD)検出、胎児構造のセグメンテーションなど、さまざまな胎児超音波アプリケーションにわたる広範なベンチマークでは、フェタルクリップはすべてのベースラインを上回り、限られたラベルデータを使用しても顕著な一般化性と強力なパフォーマンスを示しました。
より広範な科学コミュニティの利益のために、FetalClipモデルを公開する予定です。

要約(オリジナル)

Foundation models are becoming increasingly effective in the medical domain, offering pre-trained models on large datasets that can be readily adapted for downstream tasks. Despite progress, fetal ultrasound images remain a challenging domain for foundation models due to their inherent complexity, often requiring substantial additional training and facing limitations due to the scarcity of paired multimodal data. To overcome these challenges, here we introduce FetalCLIP, a vision-language foundation model capable of generating universal representation of fetal ultrasound images. FetalCLIP was pre-trained using a multimodal learning approach on a diverse dataset of 210,035 fetal ultrasound images paired with text. This represents the largest paired dataset of its kind used for foundation model development to date. This unique training approach allows FetalCLIP to effectively learn the intricate anatomical features present in fetal ultrasound images, resulting in robust representations that can be used for a variety of downstream applications. In extensive benchmarking across a range of key fetal ultrasound applications, including classification, gestational age estimation, congenital heart defect (CHD) detection, and fetal structure segmentation, FetalCLIP outperformed all baselines while demonstrating remarkable generalizability and strong performance even with limited labeled data. We plan to release the FetalCLIP model publicly for the benefit of the broader scientific community.

arxiv情報

著者 Fadillah Maani,Numan Saeed,Tausifa Saleem,Zaid Farooq,Hussain Alasmawi,Werner Diehl,Ameera Mohammad,Gareth Waring,Saudabi Valappi,Leanne Bricker,Mohammad Yaqub
発行日 2025-04-07 17:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis はコメントを受け付けていません

AnomalousNet: A Hybrid Approach with Attention U-Nets and Change Point Detection for Accurate Characterization of Anomalous Diffusion in Video Data

要約

異常な拡散は、細胞内のタンパク質輸送、複雑な生息地の動物の動き、地下水の汚染物質分散、合成材料のナノ粒子の動きなど、広範囲のシステムで発生します。
粒子軌道からの異常な拡散指数と拡散係数を正確に推定することは、サブディフェス式、超微分、または正常な拡散体制を区別するために不可欠です。
これらの推定値は、システムの基礎となるダイナミクスに対するより深い洞察を提供し、粒子の挙動の識別と拡散状態の変化の検出を促進します。
ただし、不完全で不均一な軌跡を生成することが多い短くて騒々しいビデオデータを分析すると、従来の統計的アプローチに大きな課題があります。
これらの問題に対処するために、粒子追跡、注意U-Netアーキテクチャ、および変更点検出アルゴリズムを統合するデータ駆動型の方法を導入します。
このアプローチは、異常な拡散パラメーターを高精度で推進するだけでなく、ノイズや限られた時間分解能の存在下でも、異なる状態間の時間的遷移を識別します。
私たちの方法論は、ビデオタスクの上位提出内で、2番目の異常拡散(ANDI)チャレンジベンチマークで強力なパフォーマンスを示しました。

要約(オリジナル)

Anomalous diffusion occurs in a wide range of systems, including protein transport within cells, animal movement in complex habitats, pollutant dispersion in groundwater, and nanoparticle motion in synthetic materials. Accurately estimating the anomalous diffusion exponent and the diffusion coefficient from the particle trajectories is essential to distinguish between sub-diffusive, super-diffusive, or normal diffusion regimes. These estimates provide a deeper insight into the underlying dynamics of the system, facilitating the identification of particle behaviors and the detection of changes in diffusion states. However, analyzing short and noisy video data, which often yield incomplete and heterogeneous trajectories, poses a significant challenge for traditional statistical approaches. We introduce a data-driven method that integrates particle tracking, an attention U-Net architecture, and a change-point detection algorithm to address these issues. This approach not only infers the anomalous diffusion parameters with high accuracy but also identifies temporal transitions between different states, even in the presence of noise and limited temporal resolution. Our methodology demonstrated strong performance in the 2nd Anomalous Diffusion (AnDi) Challenge benchmark within the top submissions for video tasks.

arxiv情報

著者 Yusef Ahsini,Marc Escoto,J. Alberto Conejero
発行日 2025-04-07 17:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | AnomalousNet: A Hybrid Approach with Attention U-Nets and Change Point Detection for Accurate Characterization of Anomalous Diffusion in Video Data はコメントを受け付けていません

LiveVQA: Live Visual Knowledge Seeking

要約

合成されたVQA問題を備えたインターネットからの最新の視覚知識の自動的に収集されたデータセットであるLiveVQAを紹介します。
LiveVQAは、14のニュースカテゴリにまたがる6つのニュースWebサイトからの3,602のシングルホップおよびマルチホップの視覚的質問で構成されており、高品質の画像テキストコヒーレンスと本物の情報を備えています。
15 MLLM(GPT-4O、GEMMA-3、QWEN-2.5-VLファミリーなど)にわたる評価は、より強力なモデルのパフォーマンスが全体的に優れていることを示しています。
テキストの問題に関する優れたパフォーマンスにもかかわらず、検索エンジンのようなツールを備えたモデルは、最新の視覚知識を必要とする視覚的な質問に対処し、将来の研究の重要な領域を強調している場合、依然として大きなギャップを示しています。

要約(オリジナル)

We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

arxiv情報

著者 Mingyang Fu,Yuyang Peng,Benlin Liu,Yao Wan,Dongping Chen
発行日 2025-04-07 17:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LiveVQA: Live Visual Knowledge Seeking はコメントを受け付けていません

Let it Snow! Animating Static Gaussian Scenes With Dynamic Weather Effects

要約

3D Gaussian Splattingは最近、静的3Dシーンの高速かつフォトリアリックな再構築を可能にしました。
ただし、このような静的シーンと自然に相互作用する動的要素を導入することは依然として困難です。
したがって、物理的にベースのグローバルな気象効果を静的な3Dガウススプラットシーンに組み込むためのガウス粒子表現を組み合わせた新しいハイブリッドフレームワークを提示し、動的要素と静的シーンとの相互作用を正しく処理します。
3段階のプロセスに従います。まず、静的3Dガウスを粒子ベースの表現にマッピングします。
次に、動的粒子を導入し、マテリアルポイント法(MPM)を使用して動きをシミュレートします。
最後に、シミュレートされた粒子をガウスドメインに戻し、特定の効果に合わせた外観パラメーターを導入します。
動的要素と静的シーンとの相互作用を正しく処理するために、特殊な衝突処理手法を導入します。
私たちのアプローチは、降雪、降雨、霧、砂嵐など、さまざまな気象効果をサポートしており、すべての肉体的にもっともらしい動きと外観を持つ落下物をサポートできます。
実験は、我々の方法が視覚的品質と身体的リアリズムの両方で既存のアプローチを大幅に上回ることを示しています。

要約(オリジナル)

3D Gaussian Splatting has recently enabled fast and photorealistic reconstruction of static 3D scenes. However, introducing dynamic elements that interact naturally with such static scenes remains challenging. Accordingly, we present a novel hybrid framework that combines Gaussian-particle representations for incorporating physically-based global weather effects into static 3D Gaussian Splatting scenes, correctly handling the interactions of dynamic elements with the static scene. We follow a three-stage process: we first map static 3D Gaussians to a particle-based representation. We then introduce dynamic particles and simulate their motion using the Material Point Method (MPM). Finally, we map the simulated particles back to the Gaussian domain while introducing appearance parameters tailored for specific effects. To correctly handle the interactions of dynamic elements with the static scene, we introduce specialized collision handling techniques. Our approach supports a variety of weather effects, including snowfall, rainfall, fog, and sandstorms, and can also support falling objects, all with physically plausible motion and appearance. Experiments demonstrate that our method significantly outperforms existing approaches in both visual quality and physical realism.

arxiv情報

著者 Gal Fiebelman,Hadar Averbuch-Elor,Sagie Benaim
発行日 2025-04-07 17:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Let it Snow! Animating Static Gaussian Scenes With Dynamic Weather Effects はコメントを受け付けていません

One-Minute Video Generation with Test-Time Training

要約

今日のトランスフォーマーは、自己触媒層が長いコンテキストでは非効率的であるため、1分間のビデオを生成するのに苦労しています。
マンバ層などの代替品は、隠された状態がそれほど表現力が低いため、複雑なマルチシーンストーリーと格闘しています。
テスト時間トレーニング(TTT)レイヤーを実験します。その隠れた状態自体がニューラルネットワークになる可能性があるため、より表現力があります。
TTTレイヤーを事前に訓練したトランスに追加すると、テキストストーリーボードから1分間のビデオを生成できます。
概念実証については、トムとジェリーの漫画に基づいてデータセットをキュレートします。
Mamba〜2、ゲートデルタネット、スライドウィンドウの注意レイヤーなどのベースラインと比較して、TTTレイヤーは複雑なストーリーを伝えるよりコヒーレントなビデオを生成し、方法ごとに100ビデオの人間の評価で34のELOポイントをリードしています。
有望ですが、結果はまだ訓練された5Bモデルの能力が限られているため、依然としてアーティファクトが含まれています。
実装の効率も改善できます。
リソースの制約のために1分間のビデオを実験しましたが、アプローチはより長いビデオやより複雑なストーリーに拡張できます。
サンプルビデオ、コード、アノテーションは、https://test-time-training.github.io/video-ditで入手できます

要約(オリジナル)

Transformers today still struggle to generate one-minute videos because self-attention layers are inefficient for long context. Alternatives such as Mamba layers struggle with complex multi-scene stories because their hidden states are less expressive. We experiment with Test-Time Training (TTT) layers, whose hidden states themselves can be neural networks, therefore more expressive. Adding TTT layers into a pre-trained Transformer enables it to generate one-minute videos from text storyboards. For proof of concept, we curate a dataset based on Tom and Jerry cartoons. Compared to baselines such as Mamba~2, Gated DeltaNet, and sliding-window attention layers, TTT layers generate much more coherent videos that tell complex stories, leading by 34 Elo points in a human evaluation of 100 videos per method. Although promising, results still contain artifacts, likely due to the limited capability of the pre-trained 5B model. The efficiency of our implementation can also be improved. We have only experimented with one-minute videos due to resource constraints, but the approach can be extended to longer videos and more complex stories. Sample videos, code and annotations are available at: https://test-time-training.github.io/video-dit

arxiv情報

著者 Karan Dalal,Daniel Koceja,Gashon Hussein,Jiarui Xu,Yue Zhao,Youjin Song,Shihao Han,Ka Chun Cheung,Jan Kautz,Carlos Guestrin,Tatsunori Hashimoto,Sanmi Koyejo,Yejin Choi,Yu Sun,Xiaolong Wang
発行日 2025-04-07 17:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | One-Minute Video Generation with Test-Time Training はコメントを受け付けていません

SmolVLM: Redefining small and efficient multimodal models

要約

大規模なビジョン言語モデル(VLM)は、例外的なパフォーマンスを提供しますが、重要な計算リソースが必要であり、モバイルデバイスとエッジデバイスでの展開を制限します。
通常、より小さなVLMは、広範な画像トークン化など、より大きなモデルの設計の選択を反映しており、非効率的なGPUメモリ使用量とデバイス上のアプリケーションの制約のある実用性につながります。
リソース効率の高い推論のために特別に設計された一連のコンパクトマルチモーダルモデルであるSmolvlmを紹介します。
低い計算オーバーヘッド向けに最適化されたアーキテクチャ構成、トークン化戦略、およびデータキュレーションを体系的に調査します。
これを通じて、メモリフットプリントを最小限に抑えた画像タスクとビデオタスクにかなりのパフォーマンスが得られる重要なデザインの選択肢を特定します。
私たちの最小のモデルであるSmolVLM-256Mは、推論中に1GB未満のGPUメモリを使用し、18か月の開発ギャップにもかかわらず、300倍のIDEFICS-80Bモデルを上回ります。
2.2Bパラメーターでの最大のモデルは、GPUメモリの2倍を消費する最先端のVLMに匹敵します。
Smolvlmモデルは静的な画像を超えて拡張され、堅牢なビデオ理解機能が実証されています。
我々の結果は、戦略的アーキテクチャの最適化、積極的でありながら効率的なトークン化、および慎重にキュレーションされたトレーニングデータがマルチモーダルパフォーマンスを大幅に向上させ、大幅に小さなスケールで実用的でエネルギー効率の高い展開を促進することを強調しています。

要約(オリジナル)

Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.

arxiv情報

著者 Andrés Marafioti,Orr Zohar,Miquel Farré,Merve Noyan,Elie Bakouch,Pedro Cuenca,Cyril Zakka,Loubna Ben Allal,Anton Lozhkov,Nouamane Tazi,Vaibhav Srivastav,Joshua Lochner,Hugo Larcher,Mathieu Morlon,Lewis Tunstall,Leandro von Werra,Thomas Wolf
発行日 2025-04-07 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SmolVLM: Redefining small and efficient multimodal models はコメントを受け付けていません

S^4M: Boosting Semi-Supervised Instance Segmentation with SAM

要約

半監視インスタンスセグメンテーションは、ラベル付きデータが限られているために課題をもたらし、異なるオブジェクトインスタンスを正確にローカライズするのが難しくなります。
現在の教師と学生のフレームワークは、限られたラベルデータに由来する信頼できない擬似ラベル品質のため、依然としてパフォーマンスの制約に悩まされています。
セグメントでは、モデル(SAM)はさまざまな粒度で堅牢なセグメンテーション機能を提供しますが、このタスクにSAMを直接適用すると、クラスに依存しない予測や潜在的な過剰セグメンテーションなどの課題が導入されます。
これらの複雑さに対処するために、SAMを半監視されたインスタンスセグメンテーションフレームワークに慎重に統合し、セマンティック認識を損なうことなくSAMの正確なローカリゼーション機能を効果的にキャプチャする新しい蒸留方法を開発します。
さらに、私たちは擬似ラベルの洗練と、洗練された擬似適応範囲を使用した特殊なデータ増強を組み込み、優れた性能をもたらします。
最先端のパフォーマンスを確立し、提案されたアプローチの有効性を検証するために、包括的な実験とアブレーション研究を提供します。

要約(オリジナル)

Semi-supervised instance segmentation poses challenges due to limited labeled data, causing difficulties in accurately localizing distinct object instances. Current teacher-student frameworks still suffer from performance constraints due to unreliable pseudo-label quality stemming from limited labeled data. While the Segment Anything Model (SAM) offers robust segmentation capabilities at various granularities, directly applying SAM to this task introduces challenges such as class-agnostic predictions and potential over-segmentation. To address these complexities, we carefully integrate SAM into the semi-supervised instance segmentation framework, developing a novel distillation method that effectively captures the precise localization capabilities of SAM without compromising semantic recognition. Furthermore, we incorporate pseudo-label refinement as well as a specialized data augmentation with the refined pseudo-labels, resulting in superior performance. We establish state-of-the-art performance, and provide comprehensive experiments and ablation studies to validate the effectiveness of our proposed approach.

arxiv情報

著者 Heeji Yoon,Heeseong Shin,Eunbeen Hong,Hyunwook Choi,Hansang Cho,Daun Jeong,Seungryong Kim
発行日 2025-04-07 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | S^4M: Boosting Semi-Supervised Instance Segmentation with SAM はコメントを受け付けていません

InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

要約

3Dでの正確なヒトオブジェクトジョイント再構成を可能にする、単一のワイルド画像からの人体とオブジェクトに関する3D接点ポイントを推定する新しい方法であるInteractVLMを紹介します。
これは、閉塞、深さのあいまいさ、および大きく異なるオブジェクトの形状のために困難です。
既存の方法は、高価なモーションキャプチャシステムまたは退屈なマニュアルラベル付けを介して収集された3D連絡先注釈に依存しており、スケーラビリティと一般化を制限します。
これを克服するために、InteractVLMは、限られた3D連絡先データで微調整された、大きな視覚言語モデル(VLM)の広範な視覚知識を活用します。
ただし、これらのモデルを直接適用することは、2Dでのみ推論しているため、本質的に3Dであるため、自明ではありません。
したがって、次のような新しいRender-Localize-Liftモジュールを導入します。(1)マルチビューレンダリングを介して2Dスペースに3Dボディとオブジェクトの表面を埋め込み、(2)新しいマルチビューローカリゼーションモデル(MV-LOC)を訓練して2Dの接触を推測し、(3)を3Dに持ち上げます。
さらに、人間の接触予測がオブジェクトセマンティクスで明示的に条件付けられ、より豊富な相互作用モデリングを可能にするセマンティックヒトの接触推定と呼ばれる新しいタスクを提案します。
InteractVLMは、接触の推定に関する既存の作業よりも優れており、インザワイルドイメージからの3D再構成も容易になります。
コードとモデルはhttps://interactvlm.is.tue.mpg.deで入手できます。

要約(オリジナル)

We introduce InteractVLM, a novel method to estimate 3D contact points on human bodies and objects from single in-the-wild images, enabling accurate human-object joint reconstruction in 3D. This is challenging due to occlusions, depth ambiguities, and widely varying object shapes. Existing methods rely on 3D contact annotations collected via expensive motion-capture systems or tedious manual labeling, limiting scalability and generalization. To overcome this, InteractVLM harnesses the broad visual knowledge of large Vision-Language Models (VLMs), fine-tuned with limited 3D contact data. However, directly applying these models is non-trivial, as they reason only in 2D, while human-object contact is inherently 3D. Thus we introduce a novel Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D space via multi-view rendering, (2) trains a novel multi-view localization model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D. Additionally, we propose a new task called Semantic Human Contact estimation, where human contact predictions are conditioned explicitly on object semantics, enabling richer interaction modeling. InteractVLM outperforms existing work on contact estimation and also facilitates 3D reconstruction from an in-the wild image. Code and models are available at https://interactvlm.is.tue.mpg.de.

arxiv情報

著者 Sai Kumar Dwivedi,Dimitrije Antić,Shashank Tripathi,Omid Taheri,Cordelia Schmid,Michael J. Black,Dimitrios Tzionas
発行日 2025-04-07 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InteractVLM: 3D Interaction Reasoning from 2D Foundational Models はコメントを受け付けていません