Вот есть звуковая волна. Она имеет амплитуду и частоту. Амплитуда отвечает за громкость, частота, как я понимаю, за тембр. НО! Когда мы слышим песню, мы ведь слышим слова и голос. Как это кодируется?
Чтобы было понятнее:
1. Мужским и женским голосами произнесли "Алё". Чем будут отличаться звуковые волны?
2. Одним и тем же голосом произнесли "Ubuntu" и "Линукс". Чем будут отличаться звуковые волны?
Как я понимаю, тема эта разрабатывалась, ведь есть же и проги, синтезирующие речь (а значит, есть алгоритмы "выработки звуков с нужными словами") и проги, с помощью которых криминалисты могут определить, чей голос записан.
Посоветуйте какие-нибудь книги на данную тему. Ну или на крайний случай проги с открытым кодом, в которых есть вышеописанные функции.