POV Learning: Individual Alignment of Multimodal Models using Human Perception

要約

機械学習システムを人間の期待に合わせて調整することは、主に手動で精査された人間の行動サンプル、通常は明示的なフィードバックを使用してトレーニングすることによって試みられます。
特定の状況コンテキストにおける特定の人物の主観的な視点 (POV) をキャプチャするコンテキストがデータに保持されないため、これは母集団レベルで行われます。
ただし、個人レベルでの調整により、システムと対話する個々のユーザーの主観的な予測パフォーマンスが大幅に向上する可能性があると私たちは主張します。
人によって感じ方は異なるため、同じ状況でも見え方が異なります。
したがって、意思決定の根拠と、その後の推論プロセスおよび観察可能な反応が異なります。
私たちは、個人の知覚パターンを個人レベルでの調整を改善するために使用できると仮説を立てています。
私たちは、知覚情報を機械学習システムに統合し、個人の主観的な評価に関する予測パフォーマンスを測定することで、これをテストします。
私たちの実証研究では、知覚誘導クロスモーダル含意という新しいタスクのために、マルチモーダル刺激の新しいデータセットと対応する視線追跡シーケンスを収集し、知覚誘導マルチモーダル トランスフォーマーでそれに取り組みます。
私たちの調査結果は、人間の主観的な評価を機械学習するために個人の知覚信号を利用することで、個人の調整のための貴重な手がかりが得られることを示唆しています。
これは、個々のユーザーの観点から全体的な予測パフォーマンスを向上させるだけでなく、AI システムを各人の個別の期待や価値観に向けて導くことにも貢献する可能性があります。

要約(オリジナル)

Aligning machine learning systems with human expectations is mostly attempted by training with manually vetted human behavioral samples, typically explicit feedback. This is done on a population level since the context that is capturing the subjective Point-Of-View (POV) of a concrete person in a specific situational context is not retained in the data. However, we argue that alignment on an individual level can boost the subjective predictive performance for the individual user interacting with the system considerably. Since perception differs for each person, the same situation is observed differently. Consequently, the basis for decision making and the subsequent reasoning processes and observable reactions differ. We hypothesize that individual perception patterns can be used for improving the alignment on an individual level. We test this, by integrating perception information into machine learning systems and measuring their predictive performance wrt.~individual subjective assessments. For our empirical study, we collect a novel data set of multimodal stimuli and corresponding eye tracking sequences for the novel task of Perception-Guided Crossmodal Entailment and tackle it with our Perception-Guided Multimodal Transformer. Our findings suggest that exploiting individual perception signals for the machine learning of subjective human assessments provides a valuable cue for individual alignment. It does not only improve the overall predictive performance from the point-of-view of the individual user but might also contribute to steering AI systems towards every person’s individual expectations and values.

arxiv情報

著者 Simon Werner,Katharina Christ,Laura Bernardy,Marion G. Müller,Achim Rettinger
発行日 2024-05-07 16:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク