TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments

要約

コンピューター ビジョンは、長い間、視覚障害者が周囲を移動し、障害物や転倒を回避するのを支援するために使用されてきたツールです。
解決策は屋内または屋外のシーンに限定されており、劇場などの娯楽施設を含め、視覚障害者が立ち入ることができる場所やシーンの種類が制限されます。
さらに、提案されているコンピューター ビジョン ベースの手法のほとんどは、RGB ベンチマークに依存してモデルをトレーニングしているため、深度モダリティがないためパフォーマンスが制限されます。
この論文では、グラウンドトゥルースの人間の行動と、画像キャプションと人間の行動認識のための高密度キャプションアノテーションを含む劇場シーンを含む新しい RGB-D データセット、TS-RGBD データセットを提案します。
これには、Microsoft Kinect によってキャプチャされた RGB、深度、およびスケルトン シーケンスの 3 種類のデータが含まれています。
私たちは、人間の行動を検出し、劇場内の関心領域の外観をテキストで記述することによって、視覚障害者が存在できる環境タイプの範囲を拡大するために、データセットで画像キャプション モデルといくつかのスケルトンベースの人間の行動認識モデルをテストします。
シーン。

要約(オリジナル)

Computer vision was long a tool used for aiding visually impaired people to move around their environment and avoid obstacles and falls. Solutions are limited to either indoor or outdoor scenes, which limits the kind of places and scenes visually disabled people can be in, including entertainment places such as theatres. Furthermore, most of the proposed computer-vision-based methods rely on RGB benchmarks to train their models resulting in a limited performance due to the absence of the depth modality. In this paper, we propose a novel RGB-D dataset containing theatre scenes with ground truth human actions and dense captions annotations for image captioning and human action recognition: TS-RGBD dataset. It includes three types of data: RGB, depth, and skeleton sequences, captured by Microsoft Kinect. We test image captioning models on our dataset as well as some skeleton-based human action recognition models in order to extend the range of environment types where a visually disabled person can be, by detecting human actions and textually describing appearances of regions of interest in theatre scenes.

arxiv情報

著者 Leyla Benhamida,Khadidja Delloul,Slimane Larabi
発行日 2023-08-02 09:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク