Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input

要約

イベント カメラは、低遅延で出力応答がまばらなビジョン センサーを必要とするタスクに有利です。
しかし、ネットワーク トレーニング用の大規模なラベル付きイベント カメラ データセットが不足しているため、イベント カメラを使用したディープ ネットワーク アルゴリズムの開発は遅れています。
この論文では、text-to-X モデルを使用して新しいラベル付きイベント データセットを作成する方法について報告します。ここで、X は 1 つまたは複数の出力モダリティ (この研究の場合はイベント) です。
私たちが提案するテキストからイベントへのモデルは、テキスト プロンプトから直接合成イベント フレームを生成します。
イベント カメラ出力を表すスパース イベント フレームを生成するようにトレーニングされたオートエンコーダーを使用します。
事前トレーニングされたオートエンコーダーを拡散モデル アーキテクチャと組み合わせることで、新しいテキストからイベントへのモデルは、移動オブジェクトのスムーズな合成イベント ストリームを生成できます。
オートエンコーダーは、さまざまなシーンのイベント カメラ データセットで最初にトレーニングされました。
拡散モデルと組み合わせたトレーニングでは、DVS ジェスチャ データセットが使用されました。
このモデルが、さまざまなテキスト ステートメントによって促される人間のジェスチャーの現実的なイベント シーケンスを生成できることを示します。
実際のデータセットでトレーニングされた分類器を使用した、生成されたシーケンスの分類精度は、ジェスチャ グループに応じて 42% ~ 92% の範囲になります。
結果は、イベント データセットの合成におけるこのメソッドの機能を示しています。

要約(オリジナル)

Event cameras are advantageous for tasks that require vision sensors with low-latency and sparse output responses. However, the development of deep network algorithms using event cameras has been slow because of the lack of large labelled event camera datasets for network training. This paper reports a method for creating new labelled event datasets by using a text-to-X model, where X is one or multiple output modalities, in the case of this work, events. Our proposed text-to-events model produces synthetic event frames directly from text prompts. It uses an autoencoder which is trained to produce sparse event frames representing event camera outputs. By combining the pretrained autoencoder with a diffusion model architecture, the new text-to-events model is able to generate smooth synthetic event streams of moving objects. The autoencoder was first trained on an event camera dataset of diverse scenes. In the combined training with the diffusion model, the DVS gesture dataset was used. We demonstrate that the model can generate realistic event sequences of human gestures prompted by different text statements. The classification accuracy of the generated sequences, using a classifier trained on the real dataset, ranges between 42% to 92%, depending on the gesture group. The results demonstrate the capability of this method in synthesizing event datasets.

arxiv情報

著者 Joachim Ott,Zuowen Wang,Shih-Chii Liu
発行日 2024-06-05 16:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T99, cs.AI, cs.CV, I.2.10 パーマリンク