Images in Discrete Choice Modeling: Addressing Data Isomorphism in Multi-Modality Inputs

要約

このペーパーでは、画像データの DCM のユーティリティ関数への統合と、それがモデルの解釈可能性に与える影響に焦点を当てながら、離散選択モデリング (DCM) と機械学習の交差点を探ります。
私たちは、DCM フレームワーク内で従来の表形式の入力と同型情報を共有する高次元画像データを埋め込んだ場合の結果を調査します。
私たちの研究では、共起が存在する場合、ニューラル ネットワーク (NN) コンポーネントが画像から表形式の変数表現を学習して複製するため、DCM パラメーターの解釈可能性が損なわれることが明らかになりました。
私たちは、この課題に対処するために、冗長な情報を分離するためのアーキテクチャ設計の調整と、ソース情報のマスキングと修復による同型情報の軽減という 2 つの方法論を提案し、ベンチマークします。
半合成データセットに対して行われた実験では、アーキテクチャの変更は決定的ではないものの、データ ソースでの直接的な緩和が DCM の解釈可能なパラメータの整合性を維持する上でより効果的な戦略であることが示されました。
この論文は、現実世界の状況における私たちの発見の適用可能性についての洞察で締めくくられ、複雑なデータモダリティを組み合わせたハイブリッドモダリングにおける将来の研究への影響について議論しています。
MIT モラル マシン データセットを使用することで表形式データと画像データの一致性を完全に制御でき、学習多項ロジット (L-MNL) フレームワークを展開することで両方の入力が選択モデルにマージされます。

要約(オリジナル)

This paper explores the intersection of Discrete Choice Modeling (DCM) and machine learning, focusing on the integration of image data into DCM’s utility functions and its impact on model interpretability. We investigate the consequences of embedding high-dimensional image data that shares isomorphic information with traditional tabular inputs within a DCM framework. Our study reveals that neural network (NN) components learn and replicate tabular variable representations from images when co-occurrences exist, thereby compromising the interpretability of DCM parameters. We propose and benchmark two methodologies to address this challenge: architectural design adjustments to segregate redundant information, and isomorphic information mitigation through source information masking and inpainting. Our experiments, conducted on a semi-synthetic dataset, demonstrate that while architectural modifications prove inconclusive, direct mitigation at the data source shows to be a more effective strategy in maintaining the integrity of DCM’s interpretable parameters. The paper concludes with insights into the applicability of our findings in real-world settings and discusses the implications for future research in hybrid modeling that combines complex data modalities. Full control of tabular and image data congruence is attained by using the MIT moral machine dataset, and both inputs are merged into a choice model by deploying the Learning Multinomial Logit (L-MNL) framework.

arxiv情報

著者 Brian Sifringer,Alexandre Alahi
発行日 2023-12-22 14:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML パーマリンク