Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study

要約

本研究では、YOLOv8ベースのセグメンテーションモデルによる顔画像のしわ検出とセグメンテーションの性能を評価した。

要約(オリジナル)

This study evaluated the performance of a YOLOv8-based segmentation model for detecting and segmenting wrinkles in facial images.

arxiv情報

著者 Rana Poureskandar,Shiva Razzagzadeh
発行日 2025-05-16 16:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study はコメントを受け付けていません

Face Consistency Benchmark for GenAI Video

要約

人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可能にし、大幅に進歩しています。
ただし、ビデオシーケンス全体でキャラクターの一貫性を維持することは大きな課題であり、現在のモデルは外観と属性の一貫性を確保するのに苦労しています。
このペーパーでは、AIに生成されたビデオでのキャラクターの一貫性を評価して比較するためのフレームワークであるFace Consecanty Benchmark(FCB)を紹介します。
標準化されたメトリックを提供することにより、ベンチマークは既存のソリューションのギャップを強調し、より信頼性の高いアプローチの開発を促進します。
この作業は、AIビデオ生成テクノロジーのキャラクターの一貫性を改善するための重要なステップを表しています。

要約(オリジナル)

Video generation driven by artificial intelligence has advanced significantly, enabling the creation of dynamic and realistic content. However, maintaining character consistency across video sequences remains a major challenge, with current models struggling to ensure coherence in appearance and attributes. This paper introduces the Face Consistency Benchmark (FCB), a framework for evaluating and comparing the consistency of characters in AI-generated videos. By providing standardized metrics, the benchmark highlights gaps in existing solutions and promotes the development of more reliable approaches. This work represents a crucial step toward improving character consistency in AI video generation technologies.

arxiv情報

著者 Michal Podstawski,Malgorzata Kudelska,Haohong Wang
発行日 2025-05-16 16:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Face Consistency Benchmark for GenAI Video はコメントを受け付けていません

Evaluating Vision-Language Models as Evaluators in Path Planning

要約

複雑な推論を実行するという約束にもかかわらず、大規模な言語モデル(LLM)は、エンドツーエンドの計画において有効性が限られていることが示されています。
これは興味深い質問に影響を与えました。これらのモデルがうまく計画できない場合、それらはまだ有用な計画評価者として計画の枠組みに貢献できますか?
この作業では、この質問を一般化して、視覚的理解、つまりビジョン言語モデル(VLM)で増強されたLLMSを検討します。
VLMを複雑なパス計画シナリオの計画評価者として評価する新しいベンチマークであるPathevalを紹介します。
ベンチマークで成功するには、VLMがシナリオの説明から最適なパスの特性を抽象化することができる必要があり、各パスでの正確な低レベルの認識を示し、この情報をより良いパスを決定するために統合する必要があります。
最先端のVLMの分析により、これらのモデルはベンチマークで大きな課題に直面していることが明らかになりました。
VLMは、指定されたシナリオを正確に抽象的に抽象化して、望ましい特性を特定し、提供された情報を統合する際に混合性能を示すことができることを観察します。
しかし、彼らのビジョンコンポーネントは重要なボトルネックを提示し、モデルはパスに関する低レベルの詳細を知覚するのに苦労しています。
実験結果は、この問題をエンドツーエンドの微調整を介して簡単に対処できないことを示しています。
むしろ、これらのVLMが効果的なパス評価者になるには、これらのビジョンエンコーダのタスク固有の識別適応が必要です。

要約(オリジナル)

Despite their promise to perform complex reasoning, large language models (LLMs) have been shown to have limited effectiveness in end-to-end planning. This has inspired an intriguing question: if these models cannot plan well, can they still contribute to the planning framework as a helpful plan evaluator? In this work, we generalize this question to consider LLMs augmented with visual understanding, i.e., Vision-Language Models (VLMs). We introduce PathEval, a novel benchmark evaluating VLMs as plan evaluators in complex path-planning scenarios. Succeeding in the benchmark requires a VLM to be able to abstract traits of optimal paths from the scenario description, demonstrate precise low-level perception on each path, and integrate this information to decide the better path. Our analysis of state-of-the-art VLMs reveals that these models face significant challenges on the benchmark. We observe that the VLMs can precisely abstract given scenarios to identify the desired traits and exhibit mixed performance in integrating the provided information. Yet, their vision component presents a critical bottleneck, with models struggling to perceive low-level details about a path. Our experimental results show that this issue cannot be trivially addressed via end-to-end fine-tuning; rather, task-specific discriminative adaptation of these vision encoders is needed for these VLMs to become effective path evaluators.

arxiv情報

著者 Mohamed Aghzal,Xiang Yue,Erion Plaku,Ziyu Yao
発行日 2025-05-16 16:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Evaluating Vision-Language Models as Evaluators in Path Planning はコメントを受け付けていません

Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI

要約

人間の脳の組織原則を包括的に理解するには、他の要因の中でも、神経線維構造の十分に定量化できる記述子が必要です。
3次元偏光イメージング(3D-PLI)は、高解像度の有髄神経繊維のきめ細かい組織への洞察を可能にする顕微鏡画像技術です。
3D-PLIで観察されるファイバーアーキテクチャを特徴付ける記述子は、マルチモーダル相関研究、クラスタリング、マッピングなどのダウンストリーム分析タスクを可能にします。
ただし、3D-PLIにおける繊維アーキテクチャのオブザーバーに依存しない特性評価のベストプラクティスはまだ利用できません。
この目的のために、3D-PLI画像の神経繊維アーキテクチャを自己監視表現学習を使用して、神経繊維アーキテクチャを特徴付ける完全なデータ駆動型アプローチを適用することを提案します。
3Dコントラストの学習(CL-3D)の目的を導入し、3D再構築されたボリュームの組織学的脳セクション全体にテクスチャの例の空間近傍を利用して、対照学習のために正のペアをサンプリングします。
このサンプリング戦略と特別に設計された画像の増強を組み合わせて、3D-PLIパラメーターマップの典型的なバリエーションに堅牢性を獲得します。
このアプローチは、ベルベットモンキー脳の3D再構築された後頭葉について実証されています。
抽出された特徴は、神経繊維のさまざまな構成に非常に敏感であるが、組織学的処理から生じる連続した脳切片間の変動に対して堅牢であることを示しています。
均一な繊維アーキテクチャのクラスターを取得するための実用的な適用性、最小注釈付きの分類、およびUファイバーなどのファイバーアーキテクチャの特徴的なコンポーネントのクエリベースの検索を実施します。

要約(オリジナル)

A comprehensive understanding of the organizational principles in the human brain requires, among other factors, well-quantifiable descriptors of nerve fiber architecture. Three-dimensional polarized light imaging (3D-PLI) is a microscopic imaging technique that enables insights into the fine-grained organization of myelinated nerve fibers with high resolution. Descriptors characterizing the fiber architecture observed in 3D-PLI would enable downstream analysis tasks such as multimodal correlation studies, clustering, and mapping. However, best practices for observer-independent characterization of fiber architecture in 3D-PLI are not yet available. To this end, we propose the application of a fully data-driven approach to characterize nerve fiber architecture in 3D-PLI images using self-supervised representation learning. We introduce a 3D-Context Contrastive Learning (CL-3D) objective that utilizes the spatial neighborhood of texture examples across histological brain sections of a 3D reconstructed volume to sample positive pairs for contrastive learning. We combine this sampling strategy with specifically designed image augmentations to gain robustness to typical variations in 3D-PLI parameter maps. The approach is demonstrated for the 3D reconstructed occipital lobe of a vervet monkey brain. We show that extracted features are highly sensitive to different configurations of nerve fibers, yet robust to variations between consecutive brain sections arising from histological processing. We demonstrate their practical applicability for retrieving clusters of homogeneous fiber architecture, performing classification with minimal annotations, and query-based retrieval of characteristic components of fiber architecture such as U-fibers.

arxiv情報

著者 Alexander Oberstrass,Sascha E. A. Muenzing,Meiqi Niu,Nicola Palomero-Gallagher,Christian Schiffer,Markus Axer,Katrin Amunts,Timo Dickscheid
発行日 2025-05-16 16:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI はコメントを受け付けていません

SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision

要約

ロボット支援低侵襲手術(RMIS)における外科的ツールの正確なポーズ推定は、外科的航法とロボット制御に不可欠です。
従来のマーカーベースの方法は精度を提供しますが、閉塞、反射、ツール固有の設計で課題に直面しています。
同様に、監視された学習方法では、注釈付きデータセットに関する広範なトレーニングが必要であり、新しいツールへの適応性を制限します。
他のドメインでの成功にもかかわらず、ゼロショットポーズ推定モデルは、手術器具のポーズ推定のためにRMIで未開拓のままであり、目に見えない外科ツールへの一般化のギャップを生み出します。
このペーパーでは、手術器具の6つの新しい自由度(DOF)ポーズ推定パイプラインを紹介します。
Raft-Stereoメソッドを使用してビジョンベースの深さ推定を組み込むことにより、これらのモデルを進めて、反射的およびテクスチャーのない環境で堅牢な深さ推定を推定しました。
さらに、インスタンスセグメンテーションモジュールを置き換えてSAM-6Dを強化し、微調整されたマスクR-CNNを使用して、あらゆるモデル(SAM)をセグメント化し、オクルドおよび複雑な条件でのセグメンテーションの精度を大幅に向上させました。
広範な検証により、拡張されたSAM-6Dが目に見えない手術器具のゼロショットポーズ推定でFoundationPosesを上回り、RMIでのゼロショットRGB-Dポーズ推定の新しいベンチマークを設定します。
この作業は、目に見えないオブジェクトとパイオニアのポーズ推定の一般化が、RMISでのRGB-Dゼロショットメソッドの適用を強化します。

要約(オリジナル)

Accurate pose estimation of surgical tools in Robot-assisted Minimally Invasive Surgery (RMIS) is essential for surgical navigation and robot control. While traditional marker-based methods offer accuracy, they face challenges with occlusions, reflections, and tool-specific designs. Similarly, supervised learning methods require extensive training on annotated datasets, limiting their adaptability to new tools. Despite their success in other domains, zero-shot pose estimation models remain unexplored in RMIS for pose estimation of surgical instruments, creating a gap in generalising to unseen surgical tools. This paper presents a novel 6 Degrees of Freedom (DoF) pose estimation pipeline for surgical instruments, leveraging state-of-the-art zero-shot RGB-D models like the FoundationPose and SAM-6D. We advanced these models by incorporating vision-based depth estimation using the RAFT-Stereo method, for robust depth estimation in reflective and textureless environments. Additionally, we enhanced SAM-6D by replacing its instance segmentation module, Segment Anything Model (SAM), with a fine-tuned Mask R-CNN, significantly boosting segmentation accuracy in occluded and complex conditions. Extensive validation reveals that our enhanced SAM-6D surpasses FoundationPose in zero-shot pose estimation of unseen surgical instruments, setting a new benchmark for zero-shot RGB-D pose estimation in RMIS. This work enhances the generalisability of pose estimation for unseen objects and pioneers the application of RGB-D zero-shot methods in RMIS.

arxiv情報

著者 Utsav Rai,Haozheng Xu,Stamatia Giannarou
発行日 2025-05-16 16:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision はコメントを受け付けていません

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

要約

合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目を集めていますが、常識と物理的法則の違反になりやすいままです。
これは、そのような原則を理解し、幻覚に対して堅牢である信頼できる異常検出器の必要性を強調しています。
これに対処するために、ViedHalluを紹介します。VideoHalluは、Veo2、Sora、Klingなどのモデルによって生成された合成ビデオから構築された3,000を超えるビデオQAペアのベンチマークであり、専門家で作られたカウンターに反したQAと組み合わせて、マルチモーダル大言語モデル(MLLM)の批判的思考能力を評価します。
VideoHalluは、MLLMSの異常検出能力を、アラインメント、一貫性、常識、および物理学の例を使用して評価します。
GPT-4O、GEMINI-2.5-PRO、QWEN2.5-VL、Video-R1、およびVideoChat-R1を含むSota Mllmsをベンチマークします。
これらのモデルは、MVBenchやMovieChatなどの多くの現実世界のベンチマークでうまく機能しますが、合成ビデオでは基本的な物理ベースと常識的な推論に苦労しています。
さらに、ビデオQAと現実的および合成ビデオに対するカウンターに反したコモンセンスと物理学の推論を組み合わせたデータセットでのカリキュラム学習を使用して、グループ相対ポリシーの最適化(GRPO)を使用した後のトレーニングにより、MLLMの異常検出と批判的思考が改善され、ターゲットトレーニングの価値を改善するためのターゲットトレーニングの価値が示されます。

要約(オリジナル)

Synthetic video generation has gained significant attention for its realism and broad applications, but remains prone to violations of common sense and physical laws. This highlights the need for reliable abnormality detectors that understand such principles and are robust to hallucinations. To address this, we introduce VideoHallu, a benchmark of over 3,000 video QA pairs built from synthetic videos generated by models like Veo2, Sora, and Kling, paired with expert-crafted counterintuitive QA to evaluate the critical thinking abilities of Multi-modal Large Language Models (MLLMs) on abnormalities that are perceptually obvious to humans but often hallucinated due to language priors. VideoHallu evaluates MLLMs’ abnormality detection abilities with examples across alignment, consistency, commonsense, and physics. We benchmark SOTA MLLMs, including GPT-4o, Gemini-2.5-Pro, Qwen2.5-VL, Video-R1, and VideoChat-R1. We observe that these models perform well on many real-world benchmarks like MVBench and MovieChat, but still struggle with basic physics-based and commonsense reasoning in synthetic videos. We further show that post-training with Group Relative Policy Optimization (GRPO), using curriculum learning on datasets combining video QA with counterintuitive commonsense and physics reasoning over real and synthetic videos, improves MLLMs’ abnormality detection and critical thinking, demonstrating the value of targeted training for improving their understanding of commonsense and physical laws.

arxiv情報

著者 Zongxia Li,Xiyang Wu,Guangyao Shi,Yubin Qin,Hongyang Du,Tianyi Zhou,Dinesh Manocha,Jordan Lee Boyd-Graber
発行日 2025-05-16 16:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding はコメントを受け付けていません

Disentangling CLIP for Multi-Object Perception

要約

Clip Excelのようなビジョン言語モデルは、シーン内の単一の顕著なオブジェクトを認識します。
しかし、彼らは複数のオブジェクトを含む複雑なシーンで苦労しています。
この制限の背後にある基本的な理由を特定します。VLMS機能スペースは、重要なセマンティックエンタングルメントを示します。あるクラスの特徴には、相互の特徴情報(MFI)と呼ばれる他の無関係なクラスに関する実質的な情報が含まれています。
無関係なオブジェクトがクエリクラスとともにアクティブ化されるため、このエンタングルメントはクラス固有のクエリ中に明らかになります。
この制限に対処するために、2つの補完的な目的を使用してクリップ機能を解き放つフレームワークであるDCLIPを提案します。テキスト(クラス)の特徴を直交する新しいMFI損失は、クラス間の類似性を低下させます。
私たちの実験は、DCLIPがクリップと比較してクラス間の特徴の類似性を30 \%減少させ、マルチラベル認識(MLR)およびゼロショットセマンティックセグメンテーション(ZS3)の大幅なパフォーマンスを引き起こすことを示しています。
MLRでは、DCLIPは75%少ないパラメーターを使用しながら、VOC2007およびCOCO-14でSOTAアプローチを上回り、COCO-17でVOC2012および2.8 MIOUで3.4 MIOUでSOTA ZS3メソッドを上回ります。
これらの結果は、視覚言語モデルにおける効果的なマルチオブジェクト認識の重要な要因として、特徴の解き角を確立します。

要約(オリジナル)

Vision-language models like CLIP excel at recognizing the single, prominent object in a scene. However, they struggle in complex scenes containing multiple objects. We identify a fundamental reason behind this limitation: VLMs features space exhibits significant semantic entanglement, where features of one class contain substantial information about other unrelated classes, a phenomenon we term mutual feature information (MFI). This entanglement becomes evident during class-specific queries, as unrelated objects are activated alongside the queried class. To address this limitation, we propose DCLIP, a framework that disentangles CLIP features using two complementary objectives: a novel MFI Loss that orthogonalizes the text (class) features to reduce inter-class similarity, and the Asymmetric Loss (ASL) that aligns image features with the disentangled text features. Our experiment demonstrates that DCLIP reduces inter-class feature similarity by 30\% compared to CLIP, leading to significant performance gains on multi-label recognition (MLR) and zero-shot semantic segmentation (ZS3). In MLR, DCLIP outperforms SOTA approaches on VOC2007 and COCO-14 while using 75\% fewer parameters, and surpasses SOTA ZS3 methods by 3.4 mIoU on VOC2012 and 2.8 mIoU on COCO-17. These results establish feature disentanglement as a critical factor for effective multi-object perception in vision-language models.

arxiv情報

著者 Samyak Rawlekar,Yujun Cai,Yiwei Wang,Ming-Hsuan Yang,Narendra Ahuja
発行日 2025-05-16 17:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Disentangling CLIP for Multi-Object Perception はコメントを受け付けていません

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

要約

大規模なマルチモーダルモデル(LMMS)は現在、多くのビジョン言語ベンチマークに優れていますが、人間の価値観と整合するための鍵は、公平性、倫理、共感、包括性などの人間の中心的な基準と依然として闘っています。
スケーラブルなGPT4Oアシストパイプラインを介して注釈を付け、ドメインの専門家によって徹底的に検証された、32Kの実世界の画像質問ペアの全体的なベンチマークであるHumanibenchを紹介します。
Humanibenchは、7つの人間の中心的なAI(HCAI)の原則を評価します:公平性、倫理、理解、推論、言語の包括性、共感、堅牢性、オープンおよびクローズドエンドの視覚的質問の回答(VQA)、多言語QA、視覚接地、視覚的接地、感動的なキャプション、堅牢性テストを含む7つの多様なタスク。
ベンチマーク15最先端のLMMS(オープンソースとクローズソース)は、独自のモデルが一般的にリードしていることを明らかにしていますが、堅牢性と視覚的接地は弱い点のままです。
一部のオープンソースモデルは、精度と人間に並べられた原則の順守とのバランスをとるのに苦労しています。
Humanibenchは、HCAIの原則を中心に構築された最初のベンチマーク目的です。
これは、正確で社会的に責任のある行動に向けて、アライメントギャップを診断し、LMMを導くための厳密なテストベッドを提供します。
データセット、注釈プロンプト、および評価コードは、https://vectorinstitute.github.io/humanibenchで入手できます。

要約(オリジナル)

Large multimodal models (LMMs) now excel on many vision language benchmarks, however, they still struggle with human centered criteria such as fairness, ethics, empathy, and inclusivity, key to aligning with human values. We introduce HumaniBench, a holistic benchmark of 32K real-world image question pairs, annotated via a scalable GPT4o assisted pipeline and exhaustively verified by domain experts. HumaniBench evaluates seven Human Centered AI (HCAI) principles: fairness, ethics, understanding, reasoning, language inclusivity, empathy, and robustness, across seven diverse tasks, including open and closed ended visual question answering (VQA), multilingual QA, visual grounding, empathetic captioning, and robustness tests. Benchmarking 15 state of the art LMMs (open and closed source) reveals that proprietary models generally lead, though robustness and visual grounding remain weak points. Some open-source models also struggle to balance accuracy with adherence to human-aligned principles. HumaniBench is the first benchmark purpose built around HCAI principles. It provides a rigorous testbed for diagnosing alignment gaps and guiding LMMs toward behavior that is both accurate and socially responsible. Dataset, annotation prompts, and evaluation code are available at: https://vectorinstitute.github.io/HumaniBench

arxiv情報

著者 Shaina Raza,Aravind Narayanan,Vahid Reza Khazaie,Ashmal Vayani,Mukund S. Chettiar,Amandeep Singh,Mubarak Shah,Deval Pandya
発行日 2025-05-16 17:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation はコメントを受け付けていません

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

要約

変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。
この作業では、モーション予測に焦点を当てて、隠された状態を分析し、推論で変更します。
線形調査を使用して、解釈可能な特徴が隠された状態に埋め込まれているかどうかを分析します。
私たちの実験は、高度な精度が高いことを明らかにし、機能的に重要な方向を持つ潜在的な空間の規則性を示しています。
これに基づいて、コントロールベクトルを適合させるために、対立する特徴を備えた隠された状態間の方向を使用します。
推論では、制御ベクトルを隠された状態に追加し、予測への影響を評価します。
驚くべきことに、このような変更により、予測の実現可能性が維持されます。
スパース自動エンコーダー(SAE)を使用して、コントロールベクトルをさらに洗練します。
これにより、コントロールベクトルをスケーリングすると、予測の線形変化が増えます。
当社のアプローチにより、機械的解釈と、無視できる計算オーバーヘッドを使用して、目に見えないデータセット特性に対するゼロショットの一般化が可能になります。

要約(オリジナル)

Transformer-based models generate hidden states that are difficult to interpret. In this work, we analyze hidden states and modify them at inference, with a focus on motion forecasting. We use linear probing to analyze whether interpretable features are embedded in hidden states. Our experiments reveal high probing accuracy, indicating latent space regularities with functionally important directions. Building on this, we use the directions between hidden states with opposing features to fit control vectors. At inference, we add our control vectors to hidden states and evaluate their impact on predictions. Remarkably, such modifications preserve the feasibility of predictions. We further refine our control vectors using sparse autoencoders (SAEs). This leads to more linear changes in predictions when scaling control vectors. Our approach enables mechanistic interpretation as well as zero-shot generalization to unseen dataset characteristics with negligible computational overhead.

arxiv情報

著者 Omer Sahin Tas,Royden Wagner
発行日 2025-05-16 17:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers はコメントを受け付けていません

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

要約

ビジョンベースのロボット操作は、カメラを使用して、操作するオブジェクトを含むシーンの1つ以上の画像をキャプチャします。
複数の画像を使用すると、ある視点からオブジェクトが閉塞されているが、別の視点からより目立つ場合に役立ちます。
ただし、複数の画像をキャプチャするためにカメラを適切な位置に移動する必要があります。これは、到達可能性の制約のために時間を必要とし、常に可能であるとは限りません。
そのため、追加の情報が利用可能な追加情報により、より正確な把握ポーズを作成できますが、サンプリングされた追加ビューの数にはタイムコストが増加します。
Gaussian Splattingのようなシーン表現は、ユーザーが指定した新しい視点から正確なフォトリアリックな仮想画像をレンダリングすることができます。
この作業では、新しいビュー合成が把握ポーズを生成する際に追加のコンテキストを提供できることを示す初期結果を示します。
GraspNet-10億のデータセットでの実験は、まばらにサンプリングされた実際のビューから得られたフォースクローザスの把握に加えて、把握の範囲を改善したものに加えて、斬新なビューが力の閉鎖を把握したことを示しています。
将来的には、この作業を拡張して、拡散モデルや一般化可能な放射輝度フィールドなど、単一の入力画像で構築された放射磁場からの抽出を改善できることを願っています。

要約(オリジナル)

Vision based robot manipulation uses cameras to capture one or more images of a scene containing the objects to be manipulated. Taking multiple images can help if any object is occluded from one viewpoint but more visible from another viewpoint. However, the camera has to be moved to a sequence of suitable positions for capturing multiple images, which requires time and may not always be possible, due to reachability constraints. So while additional images can produce more accurate grasp poses due to the extra information available, the time-cost goes up with the number of additional views sampled. Scene representations like Gaussian Splatting are capable of rendering accurate photorealistic virtual images from user-specified novel viewpoints. In this work, we show initial results which indicate that novel view synthesis can provide additional context in generating grasp poses. Our experiments on the Graspnet-1billion dataset show that novel views contributed force-closure grasps in addition to the force-closure grasps obtained from sparsely sampled real views while also improving grasp coverage. In the future we hope this work can be extended to improve grasp extraction from radiance fields constructed with a single input image, using for example diffusion models or generalizable radiance fields.

arxiv情報

著者 Abhishek Kashyap,Henrik Andreasson,Todor Stoyanov
発行日 2025-05-16 17:23:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views はコメントを受け付けていません