要約
人間の発話や特定の動物の鳴き声は、特定の発話が伝える内容を解読できるため、意味のある内容を伝えることができることが知られています。
この論文では、信号が意味があるかどうかを判断するための代替アプローチ、つまり、伝達される意味とは無関係に信号自体のみを分析するアプローチを検討します。
波形を入力として、その「意味深さ」の度合いを示すスコアを出力する方法を考案しました。
入力の連続部分をクラスタリングして記述の合計長を最小限に抑え、割り当てられたクラスタ ラベルのコードの長さを有意性スコアとして取得します。
私たちは、いくつかのベースラインに対してこの方法を経験的に評価し、さまざまな言語およびさまざまな話者による人間の音声に高いスコアを与え、鳥やシャチの動物の鳴き声に中程度のスコアを与え、
さまざまな発生源からの周囲の騒音。
要約(オリジナル)
It is known that human speech and certain animal vocalizations can convey meaningful content because we can decipher the content that a given utterance does convey. This paper explores an alternative approach to determining whether a signal is meaningful, one that analyzes only the signal itself and is independent of what the conveyed meaning might be. We devise a method that takes a waveform as input and outputs a score indicating its degree of `meaningfulness`. We cluster contiguous portions of the input to minimize the total description length, and then take the length of the code of the assigned cluster labels as meaningfulness score. We evaluate our method empirically, against several baselines, and show that it is the only one to give a high score to human speech in various languages and with various speakers, a moderate score to animal vocalizations from birds and orcas, and a low score to ambient noise from various sources.
arxiv情報
著者 | Louis Mahon |
発行日 | 2024-09-04 10:42:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google