Deep Dependency Networks for Multi-Label Classification


我々は、画像とビデオデータに特に焦点を当て、マルチラベル分類タスクを解決するための確率的グラフィカルモデルと深層学習アーキテクチャの長所を組み合わせたシンプルなアプローチを提案する。まず、マルコフランダムフィールドとニューラルネットワークを組み合わせた従来のアプローチの性能が、反復結合グラフ伝搬、整数線形計画法、及び、正則化に基づく構造学習といった、より強力な手法を活用することによって、適度に改善されることを示す。次に、学習が容易で、より正確な依存関係を学習するが、推論がギブスサンプリングに限定される依存関係ネットワークを、ニューラルネットワークの出力層に補強する、深層依存関係ネットワークという新しいモデリングフレームワークを提案する。我々は、この新しいアーキテクチャを共同学習することで、その単純さにもかかわらず、ベースラインのニューラルネットワークに比べて大幅な性能向上が得られることを示す。特に、3つのビデオ活動分類データセットに対する我々の実験的評価では、以下のような結果が得られた。特に、3つの動画像アクティビティ分類データセット(Charades, Textually Annotated Cooking Scenes (TACoS), Wetlab)と、3つのマルチラベル画像分類データセットに対する実験的評価を行った。MS-COCO, PASCAL VOC, NUS-WIDEの3つのデータセットに対する実験評価では、深い依存性ネットワークが依存性ネットワークを用いない純粋なニューラルアーキテクチャよりもほぼ常に優れていることが示されている。


We propose a simple approach which combines the strengths of probabilistic graphical models and deep learning architectures for solving the multi-label classification task, focusing specifically on image and video data. First, we show that the performance of previous approaches that combine Markov Random Fields with neural networks can be modestly improved by leveraging more powerful methods such as iterative join graph propagation, integer linear programming, and $\ell_1$ regularization-based structure learning. Then we propose a new modeling framework called deep dependency networks, which augments a dependency network, a model that is easy to train and learns more accurate dependencies but is limited to Gibbs sampling for inference, to the output layer of a neural network. We show that despite its simplicity, jointly learning this new architecture yields significant improvements in performance over the baseline neural network. In particular, our experimental evaluation on three video activity classification datasets: Charades, Textually Annotated Cooking Scenes (TACoS), and Wetlab, and three multi-label image classification datasets: MS-COCO, PASCAL VOC, and NUS-WIDE show that deep dependency networks are almost always superior to pure neural architectures that do not use dependency networks.


