Unified Human Localization and Trajectory Prediction with Monocular Vision

要約

従来の人間の軌道予測モデルは、クリーンなキュレーションされたデータに依存しており、ロボットアプリケーションでは非現実的な特殊な機器または手動ラベル付けが必要です。
既存の予測因子は、ノイズの多い入力で使用すると、堅牢性に影響を与える観察をきれいにするために過度にフィットする傾向があります。
この作業では、単眼カメラのみを使用してローカリゼーションと予測タスクを共同で解決する変圧器ベースのフレームワークであるモノタンスモーション(MT)を提案します。
私たちのフレームワークには、2つの主要なモジュールがあります。バードアイビュー(BEV)のローカリゼーションと軌道予測です。
BEVのローカリゼーションモジュールは、より滑らかな局所化のための新しい方向性の損失によって強化された2Dヒトのポーズを使用している人の位置を推定します。
軌道予測モジュールは、これらの推定値からの将来の動きを予測します。
統一されたフレームワークと両方のタスクを共同でトレーニングすることにより、私たちの方法は、ノイズの多い入力で作られた現実世界のシナリオでより堅牢であることを示しています。
キュレーションされたデータセットと非キュレーションデータセットの両方でMTネットワークを検証します。
キュレーションされたデータセットでは、MTはBEVのローカリゼーションと軌道予測に関するベースラインモデルよりも約12%の改善を達成します。
実際の非キュレーションデータセットでは、実験結果は、MTが同様のパフォーマンスレベルを維持し、その堅牢性と一般化能力を強調していることを示しています。
このコードは、https://github.com/vita-epfl/monotransmotionで入手できます。

要約(オリジナル)

Conventional human trajectory prediction models rely on clean curated data, requiring specialized equipment or manual labeling, which is often impractical for robotic applications. The existing predictors tend to overfit to clean observation affecting their robustness when used with noisy inputs. In this work, we propose MonoTransmotion (MT), a Transformer-based framework that uses only a monocular camera to jointly solve localization and prediction tasks. Our framework has two main modules: Bird’s Eye View (BEV) localization and trajectory prediction. The BEV localization module estimates the position of a person using 2D human poses, enhanced by a novel directional loss for smoother sequential localizations. The trajectory prediction module predicts future motion from these estimates. We show that by jointly training both tasks with our unified framework, our method is more robust in real-world scenarios made of noisy inputs. We validate our MT network on both curated and non-curated datasets. On the curated dataset, MT achieves around 12% improvement over baseline models on BEV localization and trajectory prediction. On real-world non-curated dataset, experimental results indicate that MT maintains similar performance levels, highlighting its robustness and generalization capability. The code is available at https://github.com/vita-epfl/MonoTransmotion.

arxiv情報

著者 Po-Chien Luan,Yang Gao,Celine Demonsant,Alexandre Alahi
発行日 2025-03-05 14:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Unified Human Localization and Trajectory Prediction with Monocular Vision はコメントを受け付けていません

BHViT: Binarized Hybrid Vision Transformer

要約

モデルのバイナリゼーションは、畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にすることで大きな進歩を遂げ、エッジデバイスでVision Transfransfersons(VIT)が直面する展開課題の潜在的なソリューションを提供します。
ただし、CNNとトランスアーキテクチャの構造的な違いにより、BITモデルにバイナリCNN戦略を適用するだけで、パフォーマンスが大幅に低下します。
この課題に取り組むために、私たちは、3つの重要な観察をガイダンスした、二等式に優しいハイブリッドビットアーキテクチャとその完全な二等層モデルであるBHVITを提案します。
当初、BHVITは、ローカル情報相互作用と階層特徴の集約手法を粗いレベルから微細なレベルまで利用して、過度のトークンに起因する冗長計算に対処します。
次に、計算オーバーヘッドを大幅に増加させることなく、バイナリ多層パーセプトロン(MLP)モジュールのパフォーマンスを向上させるために、シフト操作に基づく新しいモジュールが提案されます。
さらに、量子化分解に基づく革新的な注意マトリックスの二等分法が提案され、二等層の注意マトリックスにおけるトークンの重要性を評価します。
最後に、バイナリ層の重量振動とAdam Optimizerの間の非互換性によって引き起こされる不十分な最適化に対処するための正則化の損失を提案します。
広範な実験結果は、提案されたアルゴリズムがバイナリVIT法の中でSOTAパフォーマンスを達成することを示しています。

要約(オリジナル)

Model binarization has made significant progress in enabling real-time and energy-efficient computation for convolutional neural networks (CNN), offering a potential solution to the deployment challenges faced by Vision Transformers (ViTs) on edge devices. However, due to the structural differences between CNN and Transformer architectures, simply applying binary CNN strategies to the ViT models will lead to a significant performance drop. To tackle this challenge, we propose BHViT, a binarization-friendly hybrid ViT architecture and its full binarization model with the guidance of three important observations. Initially, BHViT utilizes the local information interaction and hierarchical feature aggregation technique from coarse to fine levels to address redundant computations stemming from excessive tokens. Then, a novel module based on shift operations is proposed to enhance the performance of the binary Multilayer Perceptron (MLP) module without significantly increasing computational overhead. In addition, an innovative attention matrix binarization method based on quantization decomposition is proposed to evaluate the token’s importance in the binarized attention matrix. Finally, we propose a regularization loss to address the inadequate optimization caused by the incompatibility between the weight oscillation in the binary layers and the Adam Optimizer. Extensive experimental results demonstrate that our proposed algorithm achieves SOTA performance among binary ViT methods.

arxiv情報

著者 Tian Gao,Zhiyuan Zhang,Yu Zhang,Huajun Liu,Kaijie Yin,Chengzhong Xu,Hui Kong
発行日 2025-03-05 14:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BHViT: Binarized Hybrid Vision Transformer はコメントを受け付けていません

A self-supervised cyclic neural-analytic approach for novel view synthesis and 3D reconstruction

要約

録画されたビデオから新しいビューを生成することは、自律的なUAVナビゲーションを有効にするために重要です。
ニューラルレンダリングの最近の進歩により、新しい軌跡をレンダリングできる方法の急速な発展が促進されました。
ただし、これらの方法は、最適化された飛行経路なしでトレーニングデータから遠く離れた地域によく一般化できず、最適ではない再構成につながることがよくあります。
高品質の神経レンダリング出力と分析方法からの正確な幾何学的洞察を組み合わせた自己監視環状神経分析パイプラインを提案します。
私たちのソリューションは、特にトレーニングデータセットとはまったく異なるアンダーサンプリングされた領域と地域で、新しいビュー合成のためのRGBとメッシュの再構成を改善します。
画像再構築に効果的な変圧器ベースのアーキテクチャを使用して、合成プロセスを改良および適応させ、広範なラベル付きデータセットに依存せずに斬新で目に見えないポーズの効果的な取り扱いを可能にします。
私たちの調査結果は、斬新なものと3D再構成のレンダリングビューの大幅な改善を示しています。これは、私たちの知る限り、複雑な屋外環境での自律的なナビゲーションの新しい基準を設定します。

要約(オリジナル)

Generating novel views from recorded videos is crucial for enabling autonomous UAV navigation. Recent advancements in neural rendering have facilitated the rapid development of methods capable of rendering new trajectories. However, these methods often fail to generalize well to regions far from the training data without an optimized flight path, leading to suboptimal reconstructions. We propose a self-supervised cyclic neural-analytic pipeline that combines high-quality neural rendering outputs with precise geometric insights from analytical methods. Our solution improves RGB and mesh reconstructions for novel view synthesis, especially in undersampled areas and regions that are completely different from the training dataset. We use an effective transformer-based architecture for image reconstruction to refine and adapt the synthesis process, enabling effective handling of novel, unseen poses without relying on extensive labeled datasets. Our findings demonstrate substantial improvements in rendering views of novel and also 3D reconstruction, which to the best of our knowledge is a first, setting a new standard for autonomous navigation in complex outdoor environments.

arxiv情報

著者 Dragos Costea,Alina Marcu,Marius Leordeanu
発行日 2025-03-05 14:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | A self-supervised cyclic neural-analytic approach for novel view synthesis and 3D reconstruction はコメントを受け付けていません

Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos

要約

運動式モノクーラービデオ入力からの高忠実度のある3Dヒトアバターをモデル化するための新しいフレームワークを紹介します。
モーションブラーは、特に3Dヒトアバターモデリングの人間の動きのために、実際の動的ビデオキャプチャで一般的です。
既存のメソッドのいずれかのいずれかのいずれかのいずれかのいずれかのいずれかのいずれかの場合、鋭い画像入力を想定しており、モーションブラーによって導入された詳細損失に対処できないか、(2)主にカメラの動きによってぼやけを考慮し、アニメーション可能なアバターでより一般的な人間のモーションブラーを無視します。
提案されているアプローチは、人間の動きに基づいた運動ぼかしモデルを3Dガウススプラッティング(3DG)に統合します。
曝露時に人間の動きの軌跡を明示的にモデル化することにより、軌跡と3Dガウス派を共同で最適化して、鋭く高品質の人間のアバターを再構築します。
私たちは、動く体領域を区別し、ぼやけた領域と鋭い領域の両方を効果的に最適化するために、ポーズ依存の融合メカニズムを採用しています。
合成および実世界のデータセットに関する広範な実験は、この方法が品質と定量的メトリックをレンダリングし、鋭いアバターの再構成を生成し、挑戦的なモーションブラー条件下でリアルタイムのレンダリングを可能にすることで既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

We introduce a novel framework for modeling high-fidelity, animatable 3D human avatars from motion-blurred monocular video inputs. Motion blur is prevalent in real-world dynamic video capture, especially due to human movements in 3D human avatar modeling. Existing methods either (1) assume sharp image inputs, failing to address the detail loss introduced by motion blur, or (2) mainly consider blur by camera movements, neglecting the human motion blur which is more common in animatable avatars. Our proposed approach integrates a human movement-based motion blur model into 3D Gaussian Splatting (3DGS). By explicitly modeling human motion trajectories during exposure time, we jointly optimize the trajectories and 3D Gaussians to reconstruct sharp, high-quality human avatars. We employ a pose-dependent fusion mechanism to distinguish moving body regions, optimizing both blurred and sharp areas effectively. Extensive experiments on synthetic and real-world datasets demonstrate that our method significantly outperforms existing methods in rendering quality and quantitative metrics, producing sharp avatar reconstructions and enabling real-time rendering under challenging motion blur conditions.

arxiv情報

著者 Xianrui Luo,Juewen Peng,Zhongang Cai,Lei Yang,Fan Yang,Zhiguo Cao,Guosheng Lin
発行日 2025-03-05 14:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos はコメントを受け付けていません

Simulation-Based Performance Evaluation of 3D Object Detection Methods with Deep Learning for a LiDAR Point Cloud Dataset in a SOTIF-related Use Case

要約

意図した機能(SOTIF)の安全性は、センサーのパフォーマンスの制限と、自動運転システム(ADS)の意図された機能を確保するために、センサーのパフォーマンスの制限と深い学習ベースのオブジェクトの検出不足に対処します。
このペーパーでは、ソチフ関連のユースケースをシミュレートすることによって生成されたLIDAR Pointクラウドデータセットの3Dオブジェクト検出方法の適応性とパフォーマンス評価を調べる方法論を紹介します。
このペーパーの主な貢献には、21の多様な気象条件を備えたSOTIF関連のユースケースの定義とモデリング、3Dオブジェクト検出方法の適用に適したLIDAR Pointクラウドデータセットの生成が含まれます。
データセットは547フレームで構成されており、正午、日没、夜を含む、昼間の異なる時間に対応する、透明で曇りの雨のような気象条件を網羅しています。
MMDETection3DおよびOpenPCDETツールキットを採用して、平均精度(AP)と再オールメトリックを使用して生成されたデータセットの事前訓練を受けたディープラーニング(DL)モデルをテストすることにより、最先端(SOTA)3Dオブジェクト検出方法のパフォーマンスが評価され、比較されます。

要約(オリジナル)

Safety of the Intended Functionality (SOTIF) addresses sensor performance limitations and deep learning-based object detection insufficiencies to ensure the intended functionality of Automated Driving Systems (ADS). This paper presents a methodology examining the adaptability and performance evaluation of the 3D object detection methods on a LiDAR point cloud dataset generated by simulating a SOTIF-related Use Case. The major contributions of this paper include defining and modelling a SOTIF-related Use Case with 21 diverse weather conditions and generating a LiDAR point cloud dataset suitable for application of 3D object detection methods. The dataset consists of 547 frames, encompassing clear, cloudy, rainy weather conditions, corresponding to different times of the day, including noon, sunset, and night. Employing MMDetection3D and OpenPCDET toolkits, the performance of State-of-the-Art (SOTA) 3D object detection methods is evaluated and compared by testing the pre-trained Deep Learning (DL) models on the generated dataset using Average Precision (AP) and Recall metrics.

arxiv情報

著者 Milin Patel,Rolf Jung
発行日 2025-03-05 14:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SY, eess.SY | Simulation-Based Performance Evaluation of 3D Object Detection Methods with Deep Learning for a LiDAR Point Cloud Dataset in a SOTIF-related Use Case はコメントを受け付けていません

DFREC: DeepFake Identity Recovery Based on Identity-aware Masked Autoencoder

要約

Deepfake Forensicsの最近の進歩は、主に分類の精度と一般化パフォーマンスの向上に焦点を当てています。
多種多様な偽造アルゴリズムにわたる検出精度が非常に進歩したにもかかわらず、既存のアルゴリズムは、法医学的調査を支援するための直感的な解釈可能性とアイデンティティのトレーサビリティに欠けています。
この論文では、このギャップを埋めるために、新しいDeepfake Identity Recovery Scheme(DFREC)を紹介します。
DFRECは、ディープフェイクのアイデンティティトレースを促進し、ディープフェイク攻撃のリスクを軽減するために、ディープフェイクイメージからソースとターゲットの顔を回復することを目指しています。
IDセグメンテーションモジュール(ISM)、ソースアイデンティティ再構成モジュール(SIRM)、およびターゲットIdentity Identity Reconstructionモジュール(TIRM)の3つの重要なコンポーネントで構成されています。
ISMは、入力面を明確なソースとターゲットフェース情報にセグメント化し、SIRMはソースフェースを再構築し、セグメント化されたソース情報で潜在的なターゲットID機能を抽出します。
バックグラウンドコンテキストと潜在的なターゲットアイデンティティの特徴は、ターゲットフェイスを再構築するために、TIRMのマスクされた自動エンコーダーによって相乗的に融合されます。
FaceForensics ++、CelebameGafs、FFHQ-E4Sデータセットに対する6つの異なる高忠実度の顔のスワップ攻撃でDFRECを評価します。
さらに、DFRECは、高い発言で偽造画像から直接ターゲットの顔とターゲットの両方の顔を回復できる唯一のスキームです。

要約(オリジナル)

Recent advances in deepfake forensics have primarily focused on improving the classification accuracy and generalization performance. Despite enormous progress in detection accuracy across a wide variety of forgery algorithms, existing algorithms lack intuitive interpretability and identity traceability to help with forensic investigation. In this paper, we introduce a novel DeepFake Identity Recovery scheme (DFREC) to fill this gap. DFREC aims to recover the pair of source and target faces from a deepfake image to facilitate deepfake identity tracing and reduce the risk of deepfake attack. It comprises three key components: an Identity Segmentation Module (ISM), a Source Identity Reconstruction Module (SIRM), and a Target Identity Reconstruction Module (TIRM). The ISM segments the input face into distinct source and target face information, and the SIRM reconstructs the source face and extracts latent target identity features with the segmented source information. The background context and latent target identity features are synergetically fused by a Masked Autoencoder in the TIRM to reconstruct the target face. We evaluate DFREC on six different high-fidelity face-swapping attacks on FaceForensics++, CelebaMegaFS and FFHQ-E4S datasets, which demonstrate its superior recovery performance over state-of-the-art deepfake recovery algorithms. In addition, DFREC is the only scheme that can recover both pristine source and target faces directly from the forgery image with high fadelity.

arxiv情報

著者 Peipeng Yu,Hui Gao,Jianwei Fei,Zhitao Huang,Zhihua Xia,Chip-Hong Chang
発行日 2025-03-05 14:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DFREC: DeepFake Identity Recovery Based on Identity-aware Masked Autoencoder はコメントを受け付けていません

Perceptual Multi-Exposure Fusion

要約

高ダイナミックレンジ(HDR)シーン撮影に対するますます増え続ける需要として、マルチエクスポジュア画像融合(MEF)テクノロジーが存在しています。
近年、詳細強化に基づいたマルチスケール曝露融合アプローチが、ハイライトとシャドウの詳細の改善の道を導いています。
ただし、そのような方法のほとんどは、モバイルデバイスに展開するには計算上高すぎます。
このペーパーでは、細かいシャドウ/ハイライトの詳細を保証するだけでなく、詳細に覆われた方法よりも複雑さが低い知覚マルチエクスポジュア融合法を紹介します。
ディテールエンハンスメントコンポーネントを使用する代わりに、3つの古典的な暴露尺度の潜在的な欠陥を分析し、そのうち2つを改善します。
YCBCRカラースペースで設計されたAWEは、さまざまな露出画像の違いを考慮します。
3-Dグラジエントが採用されており、詳細を抽出します。
静的シーンに適した大規模なマルチエクスポスベンチマークデータセットを構築します。
構築されたデータセットでの実験は、提案された方法が視覚的およびMEF-SIM価値の観点から既存の8つの最先端のアプローチを超えることを示しています。
さらに、私たちのアプローチは、現在の画像強化技術のより良い改善を達成することができ、明るい光で細かい詳細を確保します。

要約(オリジナル)

As an ever-increasing demand for high dynamic range (HDR) scene shooting, multi-exposure image fusion (MEF) technology has abounded. In recent years, multi-scale exposure fusion approaches based on detail-enhancement have led the way for improvement in highlight and shadow details. Most of such methods, however, are too computationally expensive to be deployed on mobile devices. This paper presents a perceptual multi-exposure fusion method that not just ensures fine shadow/highlight details but with lower complexity than detailenhanced methods. We analyze the potential defects of three classical exposure measures in lieu of using detail-enhancement component and improve two of them, namely adaptive Wellexposedness (AWE) and the gradient of color images (3-D gradient). AWE designed in YCbCr color space considers the difference between varying exposure images. 3-D gradient is employed to extract fine details. We build a large-scale multiexposure benchmark dataset suitable for static scenes, which contains 167 image sequences all told. Experiments on the constructed dataset demonstrate that the proposed method exceeds existing eight state-of-the-art approaches in terms of visually and MEF-SSIM value. Moreover, our approach can achieve a better improvement for current image enhancement techniques, ensuring fine detail in bright light.

arxiv情報

著者 Xiaoning Liu
発行日 2025-03-05 14:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Perceptual Multi-Exposure Fusion はコメントを受け付けていません

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

要約

この作業では、深い生成モデルが、大規模な言語モデル(LLMS)などのテキストベースのモデルに一般的な焦点とは対照的に、視覚入力のみから複雑な知識を学ぶことができるかどうかを調査します。
Unlabled Video Dataで訓練された自動動的なビデオ生成モデルであるVideWorldを開発し、ビデオベースのGOおよびロボット制御タスクで知識習得能力をテストします。
私たちの実験では、2つの重要な調査結果が明らかになりました。(1)ビデオのみのトレーニングは、ルール、推論、計画能力を含む知識を学習するための十分な情報を提供し、(2)視覚変化の表現は知識の獲得に不可欠です。
このプロセスの効率と有効性の両方を改善するために、Videworldの重要なコンポーネントとして潜在ダイナミクスモデル(LDM)を紹介します。
驚くべきことに、VideWorldは、補強学習に典型的な検索アルゴリズムや報酬メカニズムに依存することなく、わずか3億パラメーターモデルでVideo-Gobenchで5ダンのプロフェッショナルレベルに達します。
ロボットタスクでは、VideoWorldは多様な制御操作を効果的に学習し、環境全体で一般化し、CalvinとRLBenchのOracleモデルのパフォーマンスに近づきます。
この調査では、視覚データからの知識獲得のための新しい手段を開き、すべてのコード、データ、モデルがオープンソーシングされ、さらなる研究のためにオープンソーシングされています。

要約(オリジナル)

This work explores whether a deep generative model can learn complex knowledge solely from visual input, in contrast to the prevalent focus on text-based models like large language models (LLMs). We develop VideoWorld, an auto-regressive video generation model trained on unlabeled video data, and test its knowledge acquisition abilities in video-based Go and robotic control tasks. Our experiments reveal two key findings: (1) video-only training provides sufficient information for learning knowledge, including rules, reasoning and planning capabilities, and (2) the representation of visual change is crucial for knowledge acquisition. To improve both the efficiency and efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional level in the Video-GoBench with just a 300-million-parameter model, without relying on search algorithms or reward mechanisms typical in reinforcement learning. In robotic tasks, VideoWorld effectively learns diverse control operations and generalizes across environments, approaching the performance of oracle models in CALVIN and RLBench. This study opens new avenues for knowledge acquisition from visual data, with all code, data, and models open-sourced for further research.

arxiv情報

著者 Zhongwei Ren,Yunchao Wei,Xun Guo,Yao Zhao,Bingyi Kang,Jiashi Feng,Xiaojie Jin
発行日 2025-03-05 14:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoWorld: Exploring Knowledge Learning from Unlabeled Videos はコメントを受け付けていません

Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation

要約

物理的特性に基づいてオブジェクト機能を推測する能力であるオブジェクトアフォーダンス推論は、人間と人工知能(AI)の両方におけるタスク指向の計画と活動の基本です。
この機能は、タスク指向の方法で日常の活動を計画および実行するために必要であり、オブジェクトの物理学と機能性に関する常識的な知識に依存し、単純なオブジェクト認識を超えて拡張されます。
認識からのアフォーダンス推論のための現在の計算モデルは、一般化可能性を欠いており、新しいシナリオでの適用性を制限しています。
一方、新たな推論機能を備えた包括的な大手言語モデル(LLM)は、タスク指向の操作のためにローカルデバイスに展開することが困難です。
ここでは、1,496のタスクと119kの画像を含む大規模なデータセットであるLVIS-AFFを紹介します。
このデータセットを利用して、マルチモーダル理解を改善するために動詞の注意と双融合モジュールを組み込んだエンドツーエンドのトレーニング可能なアフォーダンス推論モデルであるAffer-Xを開発します。
このモデルは、以前の会議論文と比較して1.2%の強化を実証すると同時に、非LLMメソッドからの最も報告された結果よりも最大12.1%のパフォーマンス改善を達成します。
さらに、コンパクトな187mパラメーターサイズを維持し、GPT-4V APIよりもほぼ50倍高速にインリングされます。
私たちの仕事は、タスク指向の操作のためにローカルデバイスに展開できる効率的で一般化可能なアフォーダンス推論モデルの可能性を示しています。
さまざまなタスクや環境にわたるロボットのタスク指向の操作を可能にする際に、Affer-Xの有効性を紹介し、その効率と、現実世界のアプリケーションでロボット工学とAIシステムを進めるための幅広い意味を強調しています。

要約(オリジナル)

Object affordance reasoning, the ability to infer object functionalities based on physical properties, is fundamental for task-oriented planning and activities in both humans and Artificial Intelligence (AI). This capability, required for planning and executing daily activities in a task-oriented manner, relies on commonsense knowledge of object physics and functionalities, extending beyond simple object recognition. Current computational models for affordance reasoning from perception lack generalizability, limiting their applicability in novel scenarios. Meanwhile, comprehensive Large Language Models (LLMs) with emerging reasoning capabilities are challenging to deploy on local devices for task-oriented manipulations. Here, we introduce LVIS-Aff, a large-scale dataset comprising 1,496 tasks and 119k images, designed to enhance the generalizability of affordance reasoning from perception. Utilizing this dataset, we develop Afford-X, an end-to-end trainable affordance reasoning model that incorporates Verb Attention and Bi-Fusion modules to improve multi-modal understanding. This model achieves up to a 12.1% performance improvement over the best-reported results from non-LLM methods, while also demonstrating a 1.2% enhancement compared to our previous conference paper. Additionally, it maintains a compact 187M parameter size and infers nearly 50 times faster than the GPT-4V API. Our work demonstrates the potential for efficient, generalizable affordance reasoning models that can be deployed on local devices for task-oriented manipulations. We showcase Afford-X’s effectiveness in enabling task-oriented manipulations for robots across various tasks and environments, underscoring its efficiency and broad implications for advancing robotics and AI systems in real-world applications.

arxiv情報

著者 Xiaomeng Zhu,Yuyang Li,Leiyao Cui,Pengfei Li,Huan-ang Gao,Yixin Zhu,Hao Zhao
発行日 2025-03-05 14:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation はコメントを受け付けていません

High-Quality Virtual Single-Viewpoint Surgical Video: Geometric Autocalibration of Multiple Cameras in Surgical Lights

要約

閉塞のないビデオ生成は、カメラの視野での外科医の妨害のために困難です。
一部のカメラが閉塞が少ない外科フィールドを観察することを期待して、外科的光に複数のカメラを設置することにより、以前の研究に対処しています。
ただし、この特別なカメラのセットアップは、外科医が光を移動するたびにカメラの構成が変更され、手動画像のアライメントが必要であるため、新しいイメージングの課題を提起します。
このペーパーでは、このアライメントタスクを自動化するアルゴリズムを提案します。
提案された方法は、照明システムが移動するフレームを検出し、それらを再調整し、最小の閉塞でカメラを選択します。
このアルゴリズムは、閉塞が少ない安定したビデオになります。
定量的結果は、私たちの方法が従来のアプローチよりも優れていることを示しています。
医師が関与するユーザー調査では、私たちの方法の優位性も確認されました。

要約(オリジナル)

Occlusion-free video generation is challenging due to surgeons’ obstructions in the camera field of view. Prior work has addressed this issue by installing multiple cameras on a surgical light, hoping some cameras will observe the surgical field with less occlusion. However, this special camera setup poses a new imaging challenge since camera configurations can change every time surgeons move the light, and manual image alignment is required. This paper proposes an algorithm to automate this alignment task. The proposed method detects frames where the lighting system moves, realigns them, and selects the camera with the least occlusion. This algorithm results in a stabilized video with less occlusion. Quantitative results show that our method outperforms conventional approaches. A user study involving medical doctors also confirmed the superiority of our method.

arxiv情報

著者 Yuna Kato,Mariko Isogawa,Shohei Mori,Hideo Saito,Hiroki Kajita,Yoshifumi Takatsume
発行日 2025-03-05 14:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | High-Quality Virtual Single-Viewpoint Surgical Video: Geometric Autocalibration of Multiple Cameras in Surgical Lights はコメントを受け付けていません