Automatic Camera Control and Directing with an Ultra-High-Definition Collaborative Recording System

要約

ある出来事を複数のカメラで撮影すると、視聴者はその出来事の全体像を把握することができ、興味深いものになります。しかし、放送に適した映像にするためには、各時点で何を見せるか、人間のディレクターが判断する必要があります。しかし、カメラアングルの数が増えると、この作業が煩雑になります。また、全方位カメラや広角カメラの導入により、イベントをより完全に撮影できるようになり、ディレクターが良いショットを選ぶことはさらに難しくなっている。本論文では、イベントの複数の超高解像度ビデオストリームが与えられた場合、イベントの関連するアクションを追跡するように管理し、視覚的に美しいショットのシーケンスを生成できるシステムを紹介する。このアルゴリズムは汎用的であるため、人間が登場するほとんどのシナリオに適用することができる。提案手法では、リアルタイム放送が必要な場合はオンライン処理、カメラ操作の品質を優先する場合はオフライン処理が可能です。入力ストリームから人物やその他の注目対象を検出するために、物体検出を行います。検出された人物は、映画的な慣習に基づく一連のルールとともに、どのビデオストリームを表示するか、そのストリームのどの部分を仮想的にフレーム化するかを決定するために使用される。ユーザーは、これらのルールがどのように解釈されるかを決定するために、いくつかの設定を行うことができます。このシステムは、レンズの歪みを除去することにより、異なる広角のビデオストリームからの入力を扱うことができる。提案する自動監督は、美しい映像構成と人間のようなショットスイッチング動作でイベントを撮影できることが、ユーザー調査により示された。

要約(オリジナル)

Capturing an event from multiple camera angles can give a viewer the most complete and interesting picture of that event. To be suitable for broadcasting, a human director needs to decide what to show at each point in time. This can become cumbersome with an increasing number of camera angles. The introduction of omnidirectional or wide-angle cameras has allowed for events to be captured more completely, making it even more difficult for the director to pick a good shot. In this paper, a system is presented that, given multiple ultra-high resolution video streams of an event, can generate a visually pleasing sequence of shots that manages to follow the relevant action of an event. Due to the algorithm being general purpose, it can be applied to most scenarios that feature humans. The proposed method allows for online processing when real-time broadcasting is required, as well as offline processing when the quality of the camera operation is the priority. Object detection is used to detect humans and other objects of interest in the input streams. Detected persons of interest, along with a set of rules based on cinematic conventions, are used to determine which video stream to show and what part of that stream is virtually framed. The user can provide a number of settings that determine how these rules are interpreted. The system is able to handle input from different wide-angle video streams by removing lens distortions. Using a user study it is shown, for a number of different scenarios, that the proposed automated director is able to capture an event with aesthetically pleasing video compositions and human-like shot switching behavior.

arxiv情報

著者 Bram Vanherle,Tim Vervoort,Nick Michiels,Philippe Bekaert
発行日 2022-08-10 08:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク