Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey

要約

暗黙の神経表現(INR)は、知識表現のパラダイムとして浮上しており、多様なアプリケーションで並外れた柔軟性とパフォーマンスを提供しています。
INRSは、多層パーセプトロン(MLPS)を活用して、データを連続的に暗黙的な関数としてモデル化し、解像度の独立性、メモリ効率、離散データ構造を超えた一般化などの重要な利点を提供します。
複雑な逆問題を解決する能力は、オーディオ再構成、画像表現、3Dオブジェクトの再構築、高次元データ合成などのタスクに特に効果的です。
この調査では、最先端のINRメソッドの包括的なレビューを提供し、それらを4つの重要な領域に分類する明確な分類法を導入します:アクティベーション関数、位置エンコーディング、組み合わせ戦略、ネットワーク構造の最適化。
さまざまな解像度への完全な差別化、滑らかさ、コンパクトさ、適応性など、それらの重要な特性を厳密に分析し、地域のバイアスに対処し、細かい詳細をキャプチャする際の強みと制限を調べます。
実験的な比較は、さまざまなアプローチ間のトレードオフに関する新しい洞察を提供し、さまざまなタスクにわたる最新のINRテクニックの機能と課題を紹介します。
現在の方法が優れている領域を特定することに加えて、より表現力のある活性化関数の開発、位置エンコーディングメカニズムの強化、複雑で高次元データのスケーラビリティの改善など、改善の潜在的な方法を強調します。
この調査は、研究者のロードマップとして機能し、INRSの分野での将来の調査のための実用的なガイダンスを提供します。
私たちは、INRとアプリケーションの有望な研究の方向性を概説することにより、新しい方法論を促進することを目指しています。

要約(オリジナル)

Implicit Neural Representations (INRs) have emerged as a paradigm in knowledge representation, offering exceptional flexibility and performance across a diverse range of applications. INRs leverage multilayer perceptrons (MLPs) to model data as continuous implicit functions, providing critical advantages such as resolution independence, memory efficiency, and generalisation beyond discretised data structures. Their ability to solve complex inverse problems makes them particularly effective for tasks including audio reconstruction, image representation, 3D object reconstruction, and high-dimensional data synthesis. This survey provides a comprehensive review of state-of-the-art INR methods, introducing a clear taxonomy that categorises them into four key areas: activation functions, position encoding, combined strategies, and network structure optimisation. We rigorously analyse their critical properties, such as full differentiability, smoothness, compactness, and adaptability to varying resolutions while also examining their strengths and limitations in addressing locality biases and capturing fine details. Our experimental comparison offers new insights into the trade-offs between different approaches, showcasing the capabilities and challenges of the latest INR techniques across various tasks. In addition to identifying areas where current methods excel, we highlight key limitations and potential avenues for improvement, such as developing more expressive activation functions, enhancing positional encoding mechanisms, and improving scalability for complex, high-dimensional data. This survey serves as a roadmap for researchers, offering practical guidance for future exploration in the field of INRs. We aim to foster new methodologies by outlining promising research directions for INRs and applications.

arxiv情報

著者 Amer Essakine,Yanqi Cheng,Chun-Wun Cheng,Lipei Zhang,Zhongying Deng,Lei Zhu,Carola-Bibiane Schönlieb,Angelica I Aviles-Rivero
発行日 2025-02-18 16:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey はコメントを受け付けていません

LADDER: Language Driven Slice Discovery and Error Rectification

要約

エラースライスの発見は、モデルエラーを診断して軽減するために重要です。
現在のクラスタリングまたは離散属性ベースのスライスディスカバリーメソッドは重要な制限に直面しています。1)クラスタリングの結果、スライスに離散属性を割り当てると、属性が欠落または不十分な属性が不足しているため、エラーパターンの不完全なカバレッジにつながります。
2)これらの方法には複雑な推論がなく、モデルのバイアスを完全に説明できないようにします。
3)\ textit {ドメインナレッジ}を統合していないため、特殊な分野での使用法を制限します。
\ ladder(\ underline {la} nguage- \ underline {d} riven \ underline {d} iscovery and \ underline {e} rror \ underline {r} ectification)を提案します。
不完全さに対処するための自然言語の柔軟性、(2)LLMの潜在\ textit {domainを採用する
知識}および文を分析し、テスト可能な仮説を直接導き出すための高度な推論、偏った属性を識別し、クラスタリングなしで一貫したエラースライスを形成します。
既存の緩和方法は通常、最悪のパフォーマンスのグループのみに対処し、多くの場合、他のサブグループのエラーを増幅します。
対照的に、\ Ladderは、発見された仮説から擬似属性を生成し、明示的な属性注釈またはバイアスの事前知識なしに、すべてのバイアスにわたってエラーを緩和します。
自然および医療画像にまたがる6つのデータセットでの厳密な評価 – 200以上の分類器を多様なアーキテクチャ、前登録戦略、およびLLMSと比較して、\ Ladderがバイアスの発見と緩和において既存のベースラインを常に上回ることを示しています。

要約(オリジナル)

Error slice discovery is crucial to diagnose and mitigate model errors. Current clustering or discrete attribute-based slice discovery methods face key limitations: 1) clustering results in incoherent slices, while assigning discrete attributes to slices leads to incomplete coverage of error patterns due to missing or insufficient attributes; 2) these methods lack complex reasoning, preventing them from fully explaining model biases; 3) they fail to integrate \textit{domain knowledge}, limiting their usage in specialized fields \eg radiology. We propose\ladder (\underline{La}nguage-\underline{D}riven \underline{D}iscovery and \underline{E}rror \underline{R}ectification), to address the limitations by: (1) leveraging the flexibility of natural language to address incompleteness, (2) employing LLM’s latent \textit{domain knowledge} and advanced reasoning to analyze sentences and derive testable hypotheses directly, identifying biased attributes, and form coherent error slices without clustering. Existing mitigation methods typically address only the worst-performing group, often amplifying errors in other subgroups. In contrast,\ladder generates pseudo attributes from the discovered hypotheses to mitigate errors across all biases without explicit attribute annotations or prior knowledge of bias. Rigorous evaluations on 6 datasets spanning natural and medical images — comparing 200+ classifiers with diverse architectures, pretraining strategies, and LLMs — show that\ladder consistently outperforms existing baselines in discovering and mitigating biases.

arxiv情報

著者 Shantanu Ghosh,Rayan Syed,Chenyu Wang,Clare B. Poynton,Shyam Visweswaran,Kayhan Batmanghelich
発行日 2025-02-18 16:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LADDER: Language Driven Slice Discovery and Error Rectification はコメントを受け付けていません

SHADeS: Self-supervised Monocular Depth Estimation Through Non-Lambertian Image Decomposition

要約

目的:視覚的な3Dシーンの再構成は、大腸内視鏡検査のナビゲーションをサポートできます。
それは、コロンのどの部分が視覚化されているかを認識し、ポリープのサイズと形状を特徴付けるのに役立ちます。
これは、豊富な鏡面反射を含む複雑な照明の変動のために、依然として非常に困難な問題です。
この問題の光と深さを効果的に切り離す方法を調査します。
方法:視覚化された大腸内視鏡検査シーンの形状と照明を同時に特徴付ける自己監視モデルを紹介します。
私たちのモデルは、シングル画像からのシェーディング、アルベド、深さ、および鏡面性(色合い)を推定します。
以前のアプローチ(IID)とは異なり、鏡面反射を別の光成分として扱う非ランベルトモデルを使用します。
この方法の実装は、https://github.com/remadaher/shadesで入手できます。
結果:実際の大腸内視鏡検査画像(Hyper Kvasir)で、光分解(IID)および深さ推定(Monovit、Mododepth2)の以前のモデルが鏡面性によって悪影響を受けることを示しています。
対照的に、シェードは同時に、鏡面領域に対して堅牢な光分解と深度マップを生成できます。
また、ファントムデータ(C3VD)で定量的比較を実行し、モデルの堅牢性をさらに実証します。
結論:鏡面反射のモデリングは、大腸内視鏡検査の深さ推定を改善します。
この洞察を使用して、光の分解と深さを共同で推定する効果的な自己監視アプローチを提案します。
光分解は、結腸内の場所認識など、他の問題に役立つ可能性があります。

要約(オリジナル)

Purpose: Visual 3D scene reconstruction can support colonoscopy navigation. It can help in recognising which portions of the colon have been visualised and characterising the size and shape of polyps. This is still a very challenging problem due to complex illumination variations, including abundant specular reflections. We investigate how to effectively decouple light and depth in this problem. Methods: We introduce a self-supervised model that simultaneously characterises the shape and lighting of the visualised colonoscopy scene. Our model estimates shading, albedo, depth, and specularities (SHADeS) from single images. Unlike previous approaches (IID), we use a non-Lambertian model that treats specular reflections as a separate light component. The implementation of our method is available at https://github.com/RemaDaher/SHADeS. Results: We demonstrate on real colonoscopy images (Hyper Kvasir) that previous models for light decomposition (IID) and depth estimation (MonoVIT, ModoDepth2) are negatively affected by specularities. In contrast, SHADeS can simultaneously produce light decomposition and depth maps that are robust to specular regions. We also perform a quantitative comparison on phantom data (C3VD) where we further demonstrate the robustness of our model. Conclusion: Modelling specular reflections improves depth estimation in colonoscopy. We propose an effective self-supervised approach that uses this insight to jointly estimate light decomposition and depth. Light decomposition has the potential to help with other problems, such as place recognition within the colon.

arxiv情報

著者 Rema Daher,Francisco Vasconcelos,Danail Stoyanov
発行日 2025-02-18 16:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SHADeS: Self-supervised Monocular Depth Estimation Through Non-Lambertian Image Decomposition はコメントを受け付けていません

Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization

要約

高密度のローカリゼーション視聴覚イベント(Dave)は、トリミングされていないビデオで聞こえたり同時に見たりすることができるイベントの時間境界と対応するカテゴリを特定することを目的としています。
既存のDave Solutionsは、モダリティ固有のエンコーダーを介してオーディオと視覚の機能を抽出し、密集した相互通知を介して融合します。
各モダリティの独立した処理は相補性を無視し、モダリティ固有のノイズをもたらしますが、密な注意はイベントの局所的な時間的連続性を説明できず、無関係な信号の注意散漫を引き起こします。
この論文では、Daveの地域に対応するクロスモーダル通信学習フレームワークであるLocoを紹介します。
核となるアイデアは、視聴覚イベントのローカルな時間的連続性の性質を探ることです。これは、無関係な情報のフィルタリングを導くための有益でありながら自由な監督信号として機能し、非モーダル学習段階とクロスモーダル学習段階の両方で補完的なマルチモーダル情報の抽出を促します。
i)具体的には、Locoは、追加の注釈なしでクロスモーダルのローカル相関プロパティを活用することにより、ローカリティアウェア対応補正(LCC)を非モーダル機能に適用します。
これにより、Unimodalエンコーダーが実施され、オーディオと視覚的な機能が共有する同様のセマンティクスを強調します。
ii)このようなオーディオと視覚の機能をより適切に集約するために、クロスモーダル機能ピラミッドのクロスモーダル動的知覚層(CDP)をさらにカスタマイズして、データ内のマルチモーダル機能内の局所的な一貫性を課すことにより、視聴覚イベントのローカルな時間パターンを理解します。
ドライブマナー。
LCCとCDPを組み込むことにより、Locoは堅実なパフォーマンスの向上を提供し、既存のDaveメソッドよりも優れています。

要約(オリジナル)

Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that can be heard and seen concurrently in an untrimmed video. Existing DAVE solutions extract audio and visual features through modality-specific encoders and fuse them via dense cross-attention. The independent processing of each modality neglects their complementarity, resulting in modality-specific noise, while dense attention fails to account for local temporal continuity of events, causing irrelevant signal distractions. In this paper, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. The core idea is to explore local temporal continuity nature of audio-visual events, which serves as informative yet free supervision signals to guide the filtering of irrelevant information and inspire the extraction of complementary multimodal information during both unimodal and cross-modal learning stages. i) Specifically, LoCo applies Locality-aware Correspondence Correction (LCC) to unimodal features via leveraging cross-modal local-correlated properties without any extra annotations. This enforces unimodal encoders to highlight similar semantics shared by audio and visual features. ii) To better aggregate such audio and visual features, we further customize Cross-modal Dynamic Perception layer (CDP) in cross-modal feature pyramid to understand local temporal patterns of audio-visual events by imposing local consistency within multimodal features in a data-driven manner. By incorporating LCC and CDP, LoCo provides solid performance gains and outperforms existing DAVE methods.

arxiv情報

著者 Ling Xing,Hongyu Qu,Rui Yan,Xiangbo Shu,Jinhui Tang
発行日 2025-02-18 16:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization はコメントを受け付けていません

A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing

要約

エアライティングとは、6つの自由度を持つ3次元空間での手のジェスチャーを通じて、実質的に言語のキャラクターを書くことを指します。
このペーパーでは、一般的なビデオカメラを支援した畳み込み式ニューラルネットワーク(CNN)ベースの空気執筆フレームワークを提案します。
ジェスチャーは、一般的なビデオカメラの前で固定色のマーカーを使用して実行され、その後、色ベースのセグメンテーションが続き、マーカーを識別し、マーカーチップの軌跡を追跡します。
その後、事前に訓練されたCNNを使用して、ジェスチャーを分類します。
新たに取得したデータを使用した転送学習を使用して、認識精度がさらに改善されます。
システムの性能は、色ベースのセグメンテーションにより、照明条件で大きく異なります。
変動しない照明条件では、システムは複数の言語の孤立したユニストローク数値を認識できます。
提案されたフレームワークは、それぞれ英語、ベンガル語、デヴァナガリ数字に関する個人独立した評価で97.7%、95.4%、および93.7%の認識率を達成しました。

要約(オリジナル)

Air-writing refers to virtually writing linguistic characters through hand gestures in three-dimensional space with six degrees of freedom. This paper proposes a generic video camera-aided convolutional neural network (CNN) based air-writing framework. Gestures are performed using a marker of fixed color in front of a generic video camera, followed by color-based segmentation to identify the marker and track the trajectory of the marker tip. A pre-trained CNN is then used to classify the gesture. The recognition accuracy is further improved using transfer learning with the newly acquired data. The performance of the system varies significantly on the illumination condition due to color-based segmentation. In a less fluctuating illumination condition, the system is able to recognize isolated unistroke numerals of multiple languages. The proposed framework has achieved 97.7%, 95.4% and 93.7% recognition rates in person independent evaluations on English, Bengali and Devanagari numerals, respectively.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Umapada Pal
発行日 2025-02-18 16:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing はコメントを受け付けていません

Mean of Means: Human Localization with Calibration-free and Unconstrained Camera Settings (extended version)

要約

特にメタバース時代において、さまざまなアプリケーションにとって正確な人間のローカリゼーションが重要です。
既存の高精度ソリューションは、高価でタグ依存性のハードウェアに依存していますが、ビジョンベースの方法はより安価でタグフリーの代替品を提供します。
ただし、マルチステージSVDソルバーにおける剛性の視点変換の原理とエラー伝播によるステレオビジョンの顔の制限に基づく現在のビジョンソリューション。
また、これらのソリューションは、厳密なセットアップ制約を備えた複数の高解像度カメラを必要とします。これらの制限に対処するには、身体の幾何学的中心を中心とした分布によって生成される観測と見なす確率的アプローチを提案します。
これにより、サンプリングを大幅に改善し、関心のある各ポイントのサンプルの数を数百から数十億に増やすことができます。
世界座標とピクセル座標の分布の平均との関係をモデル化することにより、中央の限界定理を活用して、正常性を確保し、学習プロセスを促進します。
実験結果は、0.3 $ $ $の範囲内で96 \%のヒト局在精度、0.5 $ $ $の範囲内でほぼ100 \%の精度を示しています。
\ Times $ 480ピクセル。

要約(オリジナル)

Accurate human localization is crucial for various applications, especially in the Metaverse era. Existing high precision solutions rely on expensive, tag-dependent hardware, while vision-based methods offer a cheaper, tag-free alternative. However, current vision solutions based on stereo vision face limitations due to rigid perspective transformation principles and error propagation in multi-stage SVD solvers. These solutions also require multiple high-resolution cameras with strict setup constraints.To address these limitations, we propose a probabilistic approach that considers all points on the human body as observations generated by a distribution centered around the body’s geometric center. This enables us to improve sampling significantly, increasing the number of samples for each point of interest from hundreds to billions. By modeling the relation between the means of the distributions of world coordinates and pixel coordinates, leveraging the Central Limit Theorem, we ensure normality and facilitate the learning process. Experimental results demonstrate human localization accuracy of 96\% within a 0.3$m$ range and nearly 100\% accuracy within a 0.5$m$ range, achieved at a low cost of only 10 USD using two web cameras with a resolution of 640$\times$480 pixels.

arxiv情報

著者 Tianyi Zhang,Wengyu Zhang,Xulu Zhang,Jiaxin Wu,Xiao-Yong Wei,Jiannong Cao,Qing Li
発行日 2025-02-18 16:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Mean of Means: Human Localization with Calibration-free and Unconstrained Camera Settings (extended version) はコメントを受け付けていません

Detection and Geographic Localization of Natural Objects in the Wild: A Case Study on Palms

要約

手のひらは、熱帯の森林の健康、生物多様性、および地元の経済と世界の森林製品供給チェーンをサポートする人間の影響の生態学的および経済的な指標です。
プランテーションでのヤシの検出はよく研究されていますが、密集した森林に自然に発生する手のひらをマッピングする努力は、クラウン、不均一な陰影、不均一な風景によって制限されたままです。
私たちは、大きなオルソモサイック画像を使用して密な熱帯林の手のひらを検出および局在させるための柔軟なパイプラインであるプリズム(処理、推論、セグメンテーション、およびマッピング)を開発します。
オルソモサイクは、数千の航空画像から作成され、数百ギガバイトにまたがっています。
私たちの貢献は3つあります。
まず、エクアドル西部の21の生態学的に多様なサイトで収集された大規模なUAV由来のオルソモサイ類データセットを構築し、8,830の境界ボックスと5,026パームセンターポイントが注釈を付けました。
第二に、効率とパフォーマンスに基づいて複数の最先端のオブジェクト検出器を評価し、ゼロショットSAM 2をセグメンテーションバックボーンとして統合し、正確な地理マッピングの結果を改良します。
第三に、キャリブレーション方法を適用して、信頼スコアをIOUと整列させ、機能の説明可能性のために顕著性マップを調べます。
手のひらのために最適化されていますが、プリズムは東ホワイトパインズなどの他の自然な物体を識別するために適応できます。
将来の作業では、低解像度のデータセット(0.5〜1M)の転送学習を検討します。

要約(オリジナル)

Palms are ecologically and economically indicators of tropical forest health, biodiversity, and human impact that support local economies and global forest product supply chains. While palm detection in plantations is well-studied, efforts to map naturally occurring palms in dense forests remain limited by overlapping crowns, uneven shading, and heterogeneous landscapes. We develop PRISM (Processing, Inference, Segmentation, and Mapping), a flexible pipeline for detecting and localizing palms in dense tropical forests using large orthomosaic images. Orthomosaics are created from thousands of aerial images and spanning several to hundreds of gigabytes. Our contributions are threefold. First, we construct a large UAV-derived orthomosaic dataset collected across 21 ecologically diverse sites in western Ecuador, annotated with 8,830 bounding boxes and 5,026 palm center points. Second, we evaluate multiple state-of-the-art object detectors based on efficiency and performance, integrating zero-shot SAM 2 as the segmentation backbone, and refining the results for precise geographic mapping. Third, we apply calibration methods to align confidence scores with IoU and explore saliency maps for feature explainability. Though optimized for palms, PRISM is adaptable for identifying other natural objects, such as eastern white pines. Future work will explore transfer learning for lower-resolution datasets (0.5 to 1m).

arxiv情報

著者 Kangning Cui,Rongkun Zhu,Manqi Wang,Wei Tang,Gregory D. Larsen,Victor P. Pauca,Sarra Alqahtani,Fan Yang,David Segurado,David Lutz,Jean-Michel Morel,Miles R. Silman
発行日 2025-02-18 16:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Detection and Geographic Localization of Natural Objects in the Wild: A Case Study on Palms はコメントを受け付けていません

A deep learning framework for efficient pathology image analysis

要約

人工知能(AI)は、高解像度全体のスライド画像(WSI)からバイオマーカー予測を可能にすることにより、デジタル病理学を変換しました。
ただし、現在の方法は計算的に非効率的であり、WSIあたりの数千の冗長タイルを処理し、複雑なアグリゲーターモデルを必要とします。
有益な地域を選択的に分析することで病理学者をエミュレートする深い学習フレームワークであるEagle(Guided Local Examinationの効率的なアプローチ)を紹介します。
Eagleには、効率的なタイル選択のチーフと高品質の機能を抽出するためのVirchow2の2つの基礎モデルが組み込まれています。
ベンチマークは、形態、バイオマーカーの予測、予後にまたがる4つのがんタイプの31のタスクにわたる主要なスライドおよびタイルレベルの基礎モデルに対して実施されました。
イーグルは、最先端の基礎モデルを最大23%上回り、全体的に最高のAurocを達成しました。
2.27秒でスライドを処理し、既存のモデルと比較して計算時間を99%以上削減しました。
この効率により、リアルタイムのワークフローが可能になり、病理学者が分析中にモデルが使用するすべてのタイルを検証し、高性能コンピューティングへの依存を排除​​し、AIを駆動する病理をよりアクセスしやすくします。
有意義な地域を確実に識別し、アーティファクトを最小化することにより、Eagleは堅牢で解釈可能な出力を提供し、迅速なスライド検索、マルチオミクスパイプラインへの統合、および新たな臨床基盤モデルをサポートします。

要約(オリジナル)

Artificial intelligence (AI) has transformed digital pathology by enabling biomarker prediction from high-resolution whole slide images (WSIs). However, current methods are computationally inefficient, processing thousands of redundant tiles per WSI and requiring complex aggregator models. We introduce EAGLE (Efficient Approach for Guided Local Examination), a deep learning framework that emulates pathologists by selectively analyzing informative regions. EAGLE incorporates two foundation models: CHIEF for efficient tile selection and Virchow2 for extracting high-quality features. Benchmarking was conducted against leading slide- and tile-level foundation models across 31 tasks from four cancer types, spanning morphology, biomarker prediction and prognosis. EAGLE outperformed state-of-the-art foundation models by up to 23% and achieved the highest AUROC overall. It processed a slide in 2.27 seconds, reducing computational time by more than 99% compared to existing models. This efficiency enables real-time workflows, allows pathologists to validate all tiles which are used by the model during analysis, and eliminates dependence on high-performance computing, making AI-powered pathology more accessible. By reliably identifying meaningful regions and minimizing artifacts, EAGLE provides robust and interpretable outputs, supporting rapid slide searches, integration into multi-omics pipelines and emerging clinical foundation models.

arxiv情報

著者 Peter Neidlinger,Tim Lenz,Sebastian Foersch,Chiara M. L. Loeffler,Jan Clusmann,Marco Gustav,Lawrence A. Shaktah,Rupert Langer,Bastian Dislich,Lisa A. Boardman,Amy J. French,Ellen L. Goode,Andrea Gsur,Stefanie Brezina,Marc J. Gunter,Robert Steinfelder,Hans-Michael Behrens,Christoph Röcken,Tabitha Harrison,Ulrike Peters,Amanda I. Phipps,Giuseppe Curigliano,Nicola Fusco,Antonio Marra,Michael Hoffmeister,Hermann Brenner,Jakob Nikolas Kather
発行日 2025-02-18 16:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A deep learning framework for efficient pathology image analysis はコメントを受け付けていません

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

要約

オープンワールド環境でのロボット操作のタスク仕様は挑戦的であり、人間の意図と整合し、反復フィードバックを通じて進化する柔軟で適応的な目標を必要とします。
動的タスク仕様として機能する視覚的に接地されたPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介します。
当社のフレームワークは、VLMを活用して、マルチステップ操作タスクのこれらの報酬機能を生成および改良します。
RGB-Dの観察と自由形式の言語の指示を考えると、シーンのキーポイントをサンプリングし、これらのキーポイントに条件付けられた報酬関数を生成します。
Ikerは、キーポイント間の空間的関係を操作し、望ましい動作に関する常識的な事前を活用し、正確なSE(3)制御を可能にします。
シミュレーションで実世界のシーンを再構築し、生成された報酬を使用して補強学習(RL)ポリシーを訓練し、実際の世界からリアルへのループを実現する現実の世界に展開されます。
私たちのアプローチは、事前濃度と非充実したタスクの両方、マルチステップタスクの実行、自発的なエラー回復、オンザフライ戦略の調整など、さまざまなシナリオ全体で顕著な機能を示しています。
結果は、ロボットが反復的な報酬形状を通じて動的環境でマルチステップタスクを実行できるようにすることにおけるIkerの有効性を強調しています。

要約(オリジナル)

Task specification for robotic manipulation in open-world environments is challenging, requiring flexible and adaptive objectives that align with human intentions and can evolve through iterative feedback. We introduce Iterative Keypoint Reward (IKER), a visually grounded, Python-based reward function that serves as a dynamic task specification. Our framework leverages VLMs to generate and refine these reward functions for multi-step manipulation tasks. Given RGB-D observations and free-form language instructions, we sample keypoints in the scene and generate a reward function conditioned on these keypoints. IKER operates on the spatial relationships between keypoints, leveraging commonsense priors about the desired behaviors, and enabling precise SE(3) control. We reconstruct real-world scenes in simulation and use the generated rewards to train reinforcement learning (RL) policies, which are then deployed into the real world-forming a real-to-sim-to-real loop. Our approach demonstrates notable capabilities across diverse scenarios, including both prehensile and non-prehensile tasks, showcasing multi-step task execution, spontaneous error recovery, and on-the-fly strategy adjustments. The results highlight IKER’s effectiveness in enabling robots to perform multi-step tasks in dynamic environments through iterative reward shaping.

arxiv情報

著者 Shivansh Patel,Xinchen Yin,Wenlong Huang,Shubham Garg,Hooshang Nayyeri,Li Fei-Fei,Svetlana Lazebnik,Yunzhu Li
発行日 2025-02-18 16:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards はコメントを受け付けていません

Natural Language Generation from Visual Sequences: Challenges and Future Directions

要約

自然言語を使用して視覚コンテンツについて話す能力は、人間の知能の中核であり、人工知能システムの重要な特徴です。
さまざまな研究では、単一の画像のテキストの生成に焦点を当てています。
対照的に、複数のイメージのビジョンからテキストへの設定に関する作業を徹底的に分析および前進させることには、比較的注意が払われていません。
このポジションペーパーでは、複数の画像またはフレームの一時的に順序付けられたシーケンスを扱うタスクは、視覚コンテンツと対応するテキストの複雑な関係の理解を含む、より広く、より一般的な問題のインスタンスであると主張しています。
この問題のインスタンスである5つのタスクを包括的に分析し、モデリングと評価アプローチの観点から、共通の課題を提起し、類似点を共有すると主張します。
マルチイメージからテキストの生成のこれらのさまざまな側面と段階からの洞察に基づいて、いくつかの未解決の質問を強調し、将来の研究の方向性を提案します。
これらの方向は、このドメインの複雑な現象の理解とより良いモデルの開発を進めることができると考えています。

要約(オリジナル)

The ability to use natural language to talk about visual content is at the core of human intelligence and a crucial feature of any artificial intelligence system. Various studies have focused on generating text for single images. In contrast, comparatively little attention has been paid to exhaustively analyzing and advancing work on multiple-image vision-to-text settings. In this position paper, we claim that any task dealing with temporally ordered sequences of multiple images or frames is an instance of a broader, more general problem involving the understanding of intricate relationships between the visual content and the corresponding text. We comprehensively analyze five tasks that are instances of this problem and argue that they pose a common set of challenges and share similarities in terms of modeling and evaluation approaches. Based on the insights from these various aspects and stages of multi-image-to-text generation, we highlight several open questions and suggest future research directions. We believe that these directions can advance the understanding of complex phenomena in this domain and the development of better models.

arxiv情報

著者 Aditya K Surikuchi,Raquel Fernández,Sandro Pezzelle
発行日 2025-02-18 16:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Natural Language Generation from Visual Sequences: Challenges and Future Directions はコメントを受け付けていません