Deep Learning to See: Towards New Foundations of Computer Vision

要約

過去数年間のコンピュータービジョンの目覚ましい進歩は、概して、ディープラーニングに起因し、ラベル付けされたデータの膨大なセットの可用性に支えられ、GPUパラダイムの爆発的な成長と対になっています。
この見解に同意している間、この本は、この分野で想定される科学的進歩を批判し、情報に基づく自然法則の枠組みの中で視覚の調査を提案します。
具体的には、現在の作業は、まだ理解されていないビジョンに関する基本的な質問を提起し、機械学習の基礎と共鳴する新しい課題が存在する旅に読者を導きます。
視覚的な計算プロセスをより深く理解するには、汎用の機械学習アルゴリズムのアプリケーションを超えて、視覚信号の時空間的性質を考慮した適切な学習理論に焦点を当てる必要があるというのが中心的な理論です。

要約(オリジナル)

The remarkable progress in computer vision over the last few years is, by and large, attributed to deep learning, fueled by the availability of huge sets of labeled data, and paired with the explosive growth of the GPU paradigm. While subscribing to this view, this book criticizes the supposed scientific progress in the field and proposes the investigation of vision within the framework of information-based laws of nature. Specifically, the present work poses fundamental questions about vision that remain far from understood, leading the reader on a journey populated by novel challenges resonating with the foundations of machine learning. The central thesis is that for a deeper understanding of visual computational processes, it is necessary to look beyond the applications of general purpose machine learning algorithms and focus instead on appropriate learning theories that take into account the spatiotemporal nature of the visual signal.

arxiv情報

著者 Alessandro Betti,Marco Gori,Stefano Melacci
発行日 2022-06-30 15:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク