Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion

要約

ダイアディックな会話における現実的なリスナーの顔の動きを生成することは、高次元のアクション空間と時間的依存要件のために依然として困難です。
既存のアプローチでは、通常、3D Morphableモデル(3DMM)係数と3DMM空間でのモデリングを抽出することを検討します。
ただし、これにより3DMMの計算速度がボトルネックになり、リアルタイムのインタラクティブな応答を実現することが困難になります。
この問題に取り組むために、顔のアクション拡散(FAD)を提案します。これは、効率的な顔のアクション生成を達成するために、画像生成の分野から拡散方法を導入します。
さらに、スピーカーの視覚情報とオーディオ情報の両方に入力として対応するように特別に設計された効率的なリスナーネットワーク(ELNET)を構築します。
FADとELNETを考慮して、提案された方法は、効果的なリスナーの顔の動きの表現を学習し、99%の計算時間を短縮しながら、最先端の方法でパフォーマンスの改善につながります。

要約(オリジナル)

Generating realistic listener facial motions in dyadic conversations remains challenging due to the high-dimensional action space and temporal dependency requirements. Existing approaches usually consider extracting 3D Morphable Model (3DMM) coefficients and modeling in the 3DMM space. However, this makes the computational speed of the 3DMM a bottleneck, making it difficult to achieve real-time interactive responses. To tackle this problem, we propose Facial Action Diffusion (FAD), which introduces the diffusion methods from the field of image generation to achieve efficient facial action generation. We further build the Efficient Listener Network (ELNet) specially designed to accommodate both the visual and audio information of the speaker as input. Considering of FAD and ELNet, the proposed method learns effective listener facial motion representations and leads to improvements of performance over the state-of-the-art methods while reducing 99% computational time.

arxiv情報

著者 Zesheng Wang,Alexandre Bruckert,Patrick Le Callet,Guangtao Zhai
発行日 2025-04-29 12:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion はコメントを受け付けていません

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

要約

命令ベースの画像編集により、自然言語プロンプトを介した堅牢な画像変更が可能になりますが、現在の方法は精密効率のトレードオフに直面しています。
微調整方法には、重要な計算リソースと大規模なデータセットが必要になりますが、トレーニングなしのテクニックは、指導の理解と編集品質に苦労しています。
大規模な拡散変圧器(DIT)の強化された生成能力とネイティブの文脈的認識を活用することにより、このジレンマを解決します。
ソリューションでは、3つの貢献を紹介します。(1)コンテキスト内のプロンプトを使用したゼロショット命令コンプライアンスのコンテキスト内編集フレームワーク、構造的変更を回避します。
(2)大規模な再訓練なしに、効率的な適応とダイナミックな専門家ルーティングで柔軟性を高めるLora-Moeハイブリッドチューニング戦略。
(3)Vision-Language Models(VLMS)を使用した初期のフィルター推論時間スケーリング法で、初期ノイズを早期に選択し、編集品質を向上させます。
広範な評価は、私たちの方法の優位性を示しています。それは、従来のベースラインと比較して、0.5%のトレーニングデータと1%のトレーニング可能なパラメーターのみを必要としながら、最先端のアプローチよりも優れています。
この作業は、高精度でありながら効率的な指導ガイド付き編集を可能にする新しいパラダイムを確立します。
コードとデモは、https://river-zhang.github.io/icedit-gh-pages/にあります。

要約(オリジナル)

Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)’ enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method’s superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

arxiv情報

著者 Zechuan Zhang,Ji Xie,Yu Lu,Zongxin Yang,Yi Yang
発行日 2025-04-29 12:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer はコメントを受け付けていません

Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images

要約

医療画像の識別は、研究および臨床環境でのデータ共有中にプライバシーを確​​保するための重要なステップです。
このプロセスの最初のステップでは、保護された健康情報(PHI)の検出が含まれます。これは、画像メタデータにあるか、画像ピクセル内に刻印されています。
このようなシステムの重要性にもかかわらず、既存のAIベースのソリューションの評価は限られており、信頼できる堅牢なツールの開発に対する障壁を生み出しています。
この研究では、テキスト検出、テキスト抽出、テキスト分析の3つの重要なコンポーネントで構成されるPHI検出のためのAIベースのパイプラインを提示します。
これらのコンポーネントに対応するさまざまなセットアップにわたって、3つのモデル、Yolov11、Easyocr、およびGPT-4Oのベンチマークを施し、精度、リコール、F1スコア、および精度に基づいてパフォーマンスを評価します。
すべてのセットアップは、すべてのメトリックが0.9を超える優れたPHI検出を示しています。
テキストのローカリゼーションのためのYolov11と抽出および分析のためのGPT-4Oの組み合わせにより、最良の結果が得られます。
ただし、このセットアップは、GPT-4Oのトークン生成により、より高いコストが発生します。
逆に、GPT-4Oのみに依存するエンドツーエンドのパイプラインは、パフォーマンスが低いことを示していますが、複雑なタスクのマルチモーダルモデルの可能性を強調しています。
専用のオブジェクト検出モデルを微調整し、組み込みのOCRツールを利用して、最適なパフォーマンスと費用対効果を実現することをお勧めします。
さらに、GPT-4Oなどの言語モデルを活用すると、テキストコンテンツの徹底的かつ柔軟な分析が促進されます。

要約(オリジナル)

De-identification of medical images is a critical step to ensure privacy during data sharing in research and clinical settings. The initial step in this process involves detecting Protected Health Information (PHI), which can be found in image metadata or imprinted within image pixels. Despite the importance of such systems, there has been limited evaluation of existing AI-based solutions, creating barriers to the development of reliable and robust tools. In this study, we present an AI-based pipeline for PHI detection, comprising three key components: text detection, text extraction, and text analysis. We benchmark three models, YOLOv11, EasyOCR, and GPT-4o, across different setups corresponding to these components, evaluating the performance based on precision, recall, F1 score, and accuracy. All setups demonstrate excellent PHI detection, with all metrics exceeding 0.9. The combination of YOLOv11 for text localization and GPT-4o for extraction and analysis yields the best results. However, this setup incurs higher costs due to GPT-4o’s token generation. Conversely, an end-to-end pipeline that relies solely on GPT-4o shows lower performance but highlights the potential of multimodal models for complex tasks. We recommend fine-tuning a dedicated object detection model and utilizing built-in OCR tools to achieve optimal performance and cost-effectiveness. Additionally, leveraging language models such as GPT-4o can facilitate thorough and flexible analysis of text content.

arxiv情報

著者 Tuan Truong,Ivo M. Baltruschat,Mark Klemens,Grit Werner,Matthias Lenga
発行日 2025-04-29 12:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images はコメントを受け付けていません

Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions

要約

人間の知性は、視覚と言語の両方の説明に従って、すべての人を取得できます。
ただし、現在のコンピュータービジョンコミュニティは、特定の人の再識別(REID)のタスクを別々に研究しているため、現実世界のアプリケーションが制限されています。
この論文は、特定の画像または言語の指示に従って画像を取得するためにモデルが必要とする新しい指示REIDタスクを提案することにより、この問題を解決するよう努めています。
私たちのInstruct-reidは、より一般的なReidの設定であり、既存の6つのReidタスクは、さまざまな指示を設計することで特別なケースと見なすことができます。
この新しい設定での研究を促進するためのベースライン方法として、大規模なオムニレイトベンチマークと適応的なトリプレット損失を提案します。
実験結果は、微調整なしでオムナイレッドのベンチマークで訓練された提案された多目的Reidモデルが、 +0.5%、 +0.6%、 +7.7%マップをMarket1501、MSMT17、CUHK03で改善できることを示しています。
RGB画像のみを使用する場合、衣類テンプレートベースの衣服を変えるReidのCocas +Real2、新たに定義された言語にインストールされたReidの +24.9%マップ、 +24.9%のCocas +Real2、LLCMで +4.3%、目に見えるインドラードリードの4.3%、テキストからイメージへのCuhk-Pedesで +2.6%。
データセット、モデル、およびコードは、https://github.com/hwz-zju/instruct-reidで入手できます。

要約(オリジナル)

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a new instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Our instruct-ReID is a more general ReID setting, where existing 6 ReID tasks can be viewed as special cases by designing different instructions. We propose a large-scale OmniReID benchmark and an adaptive triplet loss as a baseline method to facilitate research in this new setting. Experimental results show that the proposed multi-purpose ReID model, trained on our OmniReID benchmark without fine-tuning, can improve +0.5%, +0.6%, +7.7% mAP on Market1501, MSMT17, CUHK03 for traditional ReID, +6.4%, +7.1%, +11.2% mAP on PRCC, VC-Clothes, LTCC for clothes-changing ReID, +11.7% mAP on COCAS+ real2 for clothes template based clothes-changing ReID when using only RGB images, +24.9% mAP on COCAS+ real2 for our newly defined language-instructed ReID, +4.3% on LLCM for visible-infrared ReID, +2.6% on CUHK-PEDES for text-to-image ReID. The datasets, the model, and code will be available at https://github.com/hwz-zju/Instruct-ReID.

arxiv情報

著者 Weizhen He,Yiheng Deng,Shixiang Tang,Qihao Chen,Qingsong Xie,Yizhou Wang,Lei Bai,Feng Zhu,Rui Zhao,Wanli Ouyang,Donglian Qi,Yunfeng Yan
発行日 2025-04-29 12:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions はコメントを受け付けていません

SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation

要約

慣用的な表現は、NLPにユニークな課題を提示します。その意味は、構成要素の単語から直接推測されないことが多いためです。
最近の大規模な言語モデル(LLMS)における進歩にもかかわらず、慣用度は堅牢なセマンティック表現に対する重要な障害のままです。
SEMVAL-2025のデータセットとタスクを提示します。タスク1:賞賛(マルチモーダルの慣用度表現の進歩)。これは、マルチモーダルコンテキストおよび複数の言語での慣用表現を解釈するモデルの能力を評価および改善するようコミュニティに挑戦します。
参加者は、2つのサブタスクで競い合いました。慣用的または文字通りの意味との調整に基づいて画像をランキングし、次の画像をシーケンスで予測します。
最も効果的な方法は、混合物の設定で前処理されたLLMSおよび視覚言語モデルを活用することにより、人間レベルのパフォーマンスを達成しました。

要約(オリジナル)

Idiomatic expressions present a unique challenge in NLP, as their meanings are often not directly inferable from their constituent words. Despite recent advancements in Large Language Models (LLMs), idiomaticity remains a significant obstacle to robust semantic representation. We present datasets and tasks for SemEval-2025 Task 1: AdMiRe (Advancing Multimodal Idiomaticity Representation), which challenges the community to assess and improve models’ ability to interpret idiomatic expressions in multimodal contexts and in multiple languages. Participants competed in two subtasks: ranking images based on their alignment with idiomatic or literal meanings, and predicting the next image in a sequence. The most effective methods achieved human-level performance by leveraging pretrained LLMs and vision-language models in mixture-of-experts settings, with multiple queries used to smooth over the weaknesses in these models’ representations of idiomaticity.

arxiv情報

著者 Thomas Pickard,Aline Villavicencio,Maggie Mi,Wei He,Dylan Phelps,Marco Idiart
発行日 2025-04-29 12:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.7 | SemEval-2025 Task 1: AdMIRe — Advancing Multimodal Idiomaticity Representation はコメントを受け付けていません

Practical solutions to the relative pose of three calibrated cameras

要約

4つのポイント通信から3つの較正カメラの相対的なポーズを推定するという挑戦的な問題を研究します。
この問題に対する新しい効率的なソリューションを提案します。これは、4つの対応を使用して最初の2つのビューの近似ジオメトリを推定するという単純なアイデアに基づいています。
このジオメトリは、1つの追加の近似対応を使用して推定されたアフィンまたは完全に視点のジオメトリとしてモデル化します。
非常にシンプルで効率的な戦略を使用して、このような近似通信を生成します。ここで、新しいポイントは3つの対応する入力ポイントの平均ポイントです。
新しいソルバーは、既存の効率的な最小ソルバー、つまり4点アフィンの基本マトリックス、よく知られている5ポイント相対ポーズソルバー、P3Pソルバーに基づいているため、効率的で実装が簡単です。
実際のデータに関する広範な実験は、提案されたソルバーがローカルの最適化と適切に結合した場合、最先端の結果を達成し、近似平均点通信に基づく新しいソルバーがアフィンベースのソルバーよりも堅牢で正確であることを示しています。

要約(オリジナル)

We study the challenging problem of estimating the relative pose of three calibrated cameras from four point correspondences. We propose novel efficient solutions to this problem that are based on the simple idea of using four correspondences to estimate an approximate geometry of the first two views. We model this geometry either as an affine or a fully perspective geometry estimated using one additional approximate correspondence. We generate such an approximate correspondence using a very simple and efficient strategy, where the new point is the mean point of three corresponding input points. The new solvers are efficient and easy to implement, since they are based on existing efficient minimal solvers, i.e., the 4-point affine fundamental matrix, the well-known 5-point relative pose solver, and the P3P solver. Extensive experiments on real data show that the proposed solvers, when properly coupled with local optimization, achieve state-of-the-art results, with the novel solver based on approximate mean-point correspondences being more robust and accurate than the affine-based solver.

arxiv情報

著者 Charalambos Tzamos,Viktor Kocur,Yaqing Ding,Daniel Barath,Zuzana Berger Haladova,Torsten Sattler,Zuzana Kukelova
発行日 2025-04-29 12:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Practical solutions to the relative pose of three calibrated cameras はコメントを受け付けていません

Learning a General Model: Folding Clothing with Topological Dynamics

要約

高度の自由度と衣服の複雑な構造は、衣服の操作に大きな課題をもたらします。
この論文では、複雑な衣服を折り畳むための一般的なトポロジカルダイナミクスモデルを提案します。
目に見える折り畳み構造をトポロジースケルトンとして利用することにより、衣類状態を表すために新しいトポロジグラフを設計します。
このトポロジグラフは低次元であり、さまざまな折りたたみ状態の複雑な衣服に適用されます。
それは衣服の制約を示し、衣服の動きに関する予測を可能にします。
自己閉鎖からグラフを抽出するために、セマンティックセグメンテーションを適用して、閉塞関係を分析し、衣服構造を分解します。
次に、分解された構造をキーポイント検出と組み合わせて、トポロジーグラフを生成します。
トポロジグラフの動作を分析するために、改善されたグラフニューラルネットワーク(GNN)を使用して、一般的なダイナミクスを学習します。
GNNモデルは、衣服の変形を予測でき、コントロールのための変形Jacobi Matrixを計算するために使用されます。
ジャケットを使用した実験は、アルゴリズムの有効性を検証し、複雑な衣服を自己閉鎖で認識して折ります。

要約(オリジナル)

The high degrees of freedom and complex structure of garments present significant challenges for clothing manipulation. In this paper, we propose a general topological dynamics model to fold complex clothing. By utilizing the visible folding structure as the topological skeleton, we design a novel topological graph to represent the clothing state. This topological graph is low-dimensional and applied for complex clothing in various folding states. It indicates the constraints of clothing and enables predictions regarding clothing movement. To extract graphs from self-occlusion, we apply semantic segmentation to analyze the occlusion relationships and decompose the clothing structure. The decomposed structure is then combined with keypoint detection to generate the topological graph. To analyze the behavior of the topological graph, we employ an improved Graph Neural Network (GNN) to learn the general dynamics. The GNN model can predict the deformation of clothing and is employed to calculate the deformation Jacobi matrix for control. Experiments using jackets validate the algorithm’s effectiveness to recognize and fold complex clothing with self-occlusion.

arxiv情報

著者 Yiming Liu,Lijun Han,Enlin Gu,Hesheng Wang
発行日 2025-04-29 13:00:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Learning a General Model: Folding Clothing with Topological Dynamics はコメントを受け付けていません

4D mmWave Radar for Sensing Enhancement in Adverse Environments: Advances and Challenges

要約

インテリジェントな輸送システムには、正確で信頼できるセンシングが必要です。
ただし、雨、雪、霧などの不利な環境は、ライダーとカメラの性能を大幅に低下させる可能性があります。
対照的に、4D MMWaveレーダーは、3Dポイントクラウドと速度測定を提供するだけでなく、挑戦的な状況で堅牢性を維持します。
最近、不利な環境の下での4D MMWaveレーダーに関する研究は増加していますが、包括的なレビューはまだ不足しています。
このギャップを埋めるために、この作業は、不利な環境の下で4D MMWaveレーダーに関する現在の研究をレビューします。
まず、多様な天気や照明シナリオを含む既存の4D MMWaveレーダーデータセットの概要を示します。
その後、4D MMWaveレーダーを活用する既存の学習ベースの方法を分析して、さまざまな不利益に応じてパフォーマンスを向上させます。
最後に、過酷な環境で4D MMWaveレーダーアプリケーションを進めるための課題と潜在的な将来の方向性について説明します。
私たちの知る限り、これは不利な環境で4D MMWaveレーダーに特に集中する最初のレビューです。
関連する研究は、https://github.com/xiangypeng/4d-mmwave-radar-in-adverse-environmentsにリストされています。

要約(オリジナル)

Intelligent transportation systems require accurate and reliable sensing. However, adverse environments, such as rain, snow, and fog, can significantly degrade the performance of LiDAR and cameras. In contrast, 4D mmWave radar not only provides 3D point clouds and velocity measurements but also maintains robustness in challenging conditions. Recently, research on 4D mmWave radar under adverse environments has been growing, but a comprehensive review is still lacking. To bridge this gap, this work reviews the current research on 4D mmWave radar under adverse environments. First, we present an overview of existing 4D mmWave radar datasets encompassing diverse weather and lighting scenarios. Subsequently, we analyze existing learning-based methods leveraging 4D mmWave radar to enhance performance according to different adverse conditions. Finally, the challenges and potential future directions are discussed for advancing 4D mmWave radar applications in harsh environments. To the best of our knowledge, this is the first review specifically concentrating on 4D mmWave radar in adverse environments. The related studies are listed at: https://github.com/XiangyPeng/4D-mmWave-Radar-in-Adverse-Environments.

arxiv情報

著者 Xiangyuan Peng,Miao Tang,Huawei Sun,Kay Bierzynski,Lorenzo Servadei,Robert Wille
発行日 2025-04-29 13:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 4D mmWave Radar for Sensing Enhancement in Adverse Environments: Advances and Challenges はコメントを受け付けていません

UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities

要約

検索された生成(RAG)は、クエリに関連する外部知識をモデルの応答に接地することにより、事実上の正確性を改善することに大きな約束を示しています。
ただし、ほとんどの既存のRAGアプローチはテキストのみのコーパスに限定されており、最近の取り組みにより、画像やビデオなどの他のモダリティにRAGが拡張されていますが、通常、単一のモダリティ固有のコーパスで動作します。
対照的に、実際のクエリは、必要な知識の種類が大きく異なり、単一のタイプの知識ソースが対処できません。
これに対処するために、多様なモダリティと粒度を備えた不均一なソースから知識を取得および統合するために設計された新しいRAGフレームワークであるUniversalRagを紹介します。
具体的には、すべてのモダリティを単一の結合コーパスから派生した統合表現空間に強制するという観察によって動機付けられていることに動機付けられます。モダリティギャップは、クエリと同じモダリティからアイテムを支持する傾向があるモダリティギャップを引き起こします。
また、モダリティを超えて、各モダリティを複数の粒度レベルに整理し、クエリの複雑さと範囲に合わせた微調整された検索を可能にします。
複数のモダリティにまたがる8つのベンチマークでUniversalRagを検証し、モダリティ固有の統一ベースラインに対する優位性を示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has shown substantial promise in improving factual accuracy by grounding model responses with external knowledge relevant to queries. However, most existing RAG approaches are limited to a text-only corpus, and while recent efforts have extended RAG to other modalities such as images and videos, they typically operate over a single modality-specific corpus. In contrast, real-world queries vary widely in the type of knowledge they require, which a single type of knowledge source cannot address. To address this, we introduce UniversalRAG, a novel RAG framework designed to retrieve and integrate knowledge from heterogeneous sources with diverse modalities and granularities. Specifically, motivated by the observation that forcing all modalities into a unified representation space derived from a single combined corpus causes a modality gap, where the retrieval tends to favor items from the same modality as the query, we propose a modality-aware routing mechanism that dynamically identifies the most appropriate modality-specific corpus and performs targeted retrieval within it. Also, beyond modality, we organize each modality into multiple granularity levels, enabling fine-tuned retrieval tailored to the complexity and scope of the query. We validate UniversalRAG on 8 benchmarks spanning multiple modalities, showing its superiority over modality-specific and unified baselines.

arxiv情報

著者 Woongyeong Yeo,Kangsan Kim,Soyeong Jeong,Jinheon Baek,Sung Ju Hwang
発行日 2025-04-29 13:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities はコメントを受け付けていません

A Survey on Event-based Optical Marker Systems

要約

レイテンシが低く、ダイナミックレンジが高く、消費電力が削減されたイベントベースのカメラの出現は、ロボットビジョンとマシンの知覚の大きな変化を示しました。
特に、これらの神経型センサーと、広く利用できるパッシブまたはアクティブな光学マーカー(例えば、アプリタグ、点滅LEDの配列など)を備えた組み合わせは、最近、広い分野の可能性を開きました。
この調査論文は、イベントベースの光マーカーシステム(EBOM)に関する包括的なレビューを提供します。
これらのシステムが基づいている基本原則と技術を分析し、非同期操作と有害な照明条件に対する堅牢性に特に焦点を当てています。
また、オブジェクトの検出と追跡、ポーズ推定、光学通信など、EBOMの最も関連性の高いアプリケーションについても説明します。
この記事は、この急速に発生した学際的な分野での将来の研究の方向性についての議論で締めくくります。

要約(オリジナル)

The advent of event-based cameras, with their low latency, high dynamic range, and reduced power consumption, marked a significant change in robotic vision and machine perception. In particular, the combination of these neuromorphic sensors with widely-available passive or active optical markers (e.g. AprilTags, arrays of blinking LEDs), has recently opened up a wide field of possibilities. This survey paper provides a comprehensive review on Event-Based Optical Marker Systems (EBOMS). We analyze the basic principles and technologies on which these systems are based, with a special focus on their asynchronous operation and robustness against adverse lighting conditions. We also describe the most relevant applications of EBOMS, including object detection and tracking, pose estimation, and optical communication. The article concludes with a discussion of possible future research directions in this rapidly-emerging and multidisciplinary field.

arxiv情報

著者 Nafiseh Jabbari Tofighi,Maxime Robic,Fabio Morbidi,Pascal Vasseur
発行日 2025-04-29 13:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Survey on Event-based Optical Marker Systems はコメントを受け付けていません