Tonguescape: Exploring Language Models Understanding of Vowel Articulation

要約

母音は主に舌の位置によって特徴付けられます。
人間は、MRIの使用などの自分の経験と明示的な客観的観察を通じて、母音の明確化のこれらの特徴を発見しました。
この知識と私たちの経験により、舌の位置と母音の関係を説明し、理解することができます。この知識は、言語学習者が発音を学ぶのに役立ちます。
言語モデル(LMS)は言語および医療分野を含む大量のデータでトレーニングされているため、我々の予備研究は、LMが母音の発音メカニズムを説明できることを示しています。
ただし、Vision LMSなどのマルチモーダルLMSがテキスト情報を視覚情報に合わせるかどうかは不明です。
1つの疑問が発生します:LMSは本物の舌の位置を母音の明確化と関連付けますか?
この調査では、既存のリアルタイムMRIデータセットからビデオおよび画像データセットを作成し、LMSがビジョンベースの情報を使用して舌の位置に基づいて母音の明確化を理解できるかどうかを調査しました。
私たちの調査結果は、LMSが母音と舌の位置を理解する可能性を示すことを示唆しています。
データセットビルディングのコードはGitHubで入手できます。

要約(オリジナル)

Vowels are primarily characterized by tongue position. Humans have discovered these features of vowel articulation through their own experience and explicit objective observation such as using MRI. With this knowledge and our experience, we can explain and understand the relationship between tongue positions and vowels, and this knowledge is helpful for language learners to learn pronunciation. Since language models (LMs) are trained on a large amount of data that includes linguistic and medical fields, our preliminary studies indicate that an LM is able to explain the pronunciation mechanisms of vowels. However, it is unclear whether multi-modal LMs, such as vision LMs, align textual information with visual information. One question arises: do LMs associate real tongue positions with vowel articulation? In this study, we created video and image datasets from the existing real-time MRI dataset and investigated whether LMs can understand vowel articulation based on tongue positions using vision-based information. Our findings suggest that LMs exhibit potential for understanding vowels and tongue positions when reference examples are provided while they have difficulties without them. Our code for dataset building is available on GitHub.

arxiv情報

著者 Haruki Sakajo,Yusuke Sakai,Hidetaka Kamigaito,Taro Watanabe
発行日 2025-01-29 13:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク