要約
正確な固有および外因性カメラのキャリブレーションは、視力に依存するロボットアプリケーションにとって重要な前提条件となる可能性があります。
自然な画像を使用したカメラのキャリブレーションの有効化に関する継続的な研究がありますが、実際の多くのシステムは、たとえば。
チェッカーボードパターンまたは4月のタググリッド。
さまざまな視点からのキャリブレーション画像が取得され、機能記述子が検出されると、それらは通常、幾何学的再注入誤差を最小限に抑えるために最適化プロセスで使用されます。
この最適化が収束するためには、入力画像は十分な品質、特にシャープネスである必要があります。
画像キャプチャ中にキャリブレーションボードが静的でなかったときに発生する可能性のあるモーションブラーやローリングシャッターアーティファクトを含めるべきではありません。
この作業では、クリップオンマイクで記録された音声コマンドを介して制御された新しいキャリブレーション画像取得技術を提示します。
リモートコントロールでキャプチャをトリガーするか、ポストプロセスのビデオシーケンスからぼやけたフレームをフィルタリングします。
これを達成するために、正確な単語ごとのタイムスタンプを使用した最先端の音声からテキストへの転写モデルを使用して、トリガーワードを正確な時間的アライメントでキャプチャします。
私たちの実験は、提案された方法が迅速かつ効率的であることによりユーザーエクスペリエンスを改善し、複雑なマルチカメラセットアップをうまく調整できることを示しています。
要約(オリジナル)
Accurate intrinsic and extrinsic camera calibration can be an important prerequisite for robotic applications that rely on vision as input. While there is ongoing research on enabling camera calibration using natural images, many systems in practice still rely on using designated calibration targets with e.g. checkerboard patterns or April tag grids. Once calibration images from different perspectives have been acquired and feature descriptors detected, those are typically used in an optimization process to minimize the geometric reprojection error. For this optimization to converge, input images need to be of sufficient quality and particularly sharpness; they should neither contain motion blur nor rolling-shutter artifacts that can arise when the calibration board was not static during image capture. In this work, we present a novel calibration image acquisition technique controlled via voice commands recorded with a clip-on microphone, that can be more robust and user-friendly than e.g. triggering capture with a remote control, or filtering out blurry frames from a video sequence in postprocessing. To achieve this, we use a state-of-the-art speech-to-text transcription model with accurate per-word timestamping to capture trigger words with precise temporal alignment. Our experiments show that the proposed method improves user experience by being fast and efficient, allowing us to successfully calibrate complex multi-camera setups.
arxiv情報
著者 | Timm Linder,Kadir Yilmaz,David B. Adrian,Bastian Leibe |
発行日 | 2025-04-15 09:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google