Real Estate Attribute Prediction from Multiple Visual Modalities with Missing Data

要約

不動産の査定と評価には、不動産情報を含む大規模なデータセットが必要です。
残念ながら、不動産データベースは通常、実際にはまばらです。つまり、各プロパティについてすべての重要な属性が利用できるわけではありません。
このホワイト ペーパーでは、視覚データ、特に屋内 (インテリア) と屋外 (ファサード) の 2 つの視覚的モダリティから高レベルの不動産属性を予測する可能性について検討します。
異なるマルチモーダル フュージョン戦略を使用して 3 つのモデルを設計し、それらを 3 つの異なるユース ケースで評価します。
そのため、特定の課題は、欠落しているモダリティを処理することです。
さまざまな融合戦略を評価し、さまざまな予測タスクのベースラインを提示し、追加の不完全なサンプルでトレーニング データを強化すると、予測精度が向上する可能性があることがわかりました。
さらに、屋内と屋外の写真からの情報の融合により、マクロ F1 スコアで最大 5% のパフォーマンス向上が実現します。

要約(オリジナル)

The assessment and valuation of real estate requires large datasets with real estate information. Unfortunately, real estate databases are usually sparse in practice, i.e., not for each property every important attribute is available. In this paper, we study the potential of predicting high-level real estate attributes from visual data, specifically from two visual modalities, namely indoor (interior) and outdoor (facade) photos. We design three models using different multimodal fusion strategies and evaluate them for three different use cases. Thereby, a particular challenge is to handle missing modalities. We evaluate different fusion strategies, present baselines for the different prediction tasks, and find that enriching the training data with additional incomplete samples can lead to an improvement in prediction accuracy. Furthermore, the fusion of information from indoor and outdoor photos results in a performance boost of up to 5% in Macro F1-score.

arxiv情報

著者 Eric Stumpe,Miroslav Despotovic,Zedong Zhang,Matthias Zeppelzauer
発行日 2022-11-16 16:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク