Автор Тема: Как кодируется звук? (Прочитано 1583 раз)

Ururu_2 · « : 08 Апреля 2010, 13:08:10 »

Вот есть звуковая волна. Она имеет амплитуду и частоту. Амплитуда отвечает за громкость, частота, как я понимаю, за тембр. НО! Когда мы слышим песню, мы ведь слышим слова и голос. Как это кодируется?
Чтобы было понятнее:
1. Мужским и женским голосами произнесли "Алё". Чем будут отличаться звуковые волны?
2. Одним и тем же голосом произнесли "Ubuntu" и "Linux". Чем будут отличаться звуковые волны?

Как я понимаю, тема эта разрабатывалась, ведь есть же и проги, синтезирующие речь (а значит, есть алгоритмы "выработки звуков с нужными словами") и проги, с помощью которых криминалисты могут определить, чей голос записан.

Посоветуйте какие-нибудь книги на данную тему. Ну или на крайний случай проги с открытым кодом, в которых есть вышеописанные функции.

baklan · « **Ответ #1 :** 08 Апреля 2010, 13:20:19 »

Цитата: Ururu_2 от 08 Апреля 2010, 13:08:10

Вот есть звуковая волна. Она имеет амплитуду и частоту. Амплитуда отвечает за громкость, частота, как я понимаю, за тембр.

Неправильно понимаете. За тембр отвечает набор частот со своими амплитудами. Это уже физика+математика. Разложение на спектр. Без понимания физико-математических основ не стоит идти дальше. Ну а источник - учебник физики и математики. Вообще тема интересная, когда-то тоже увлекался, когда еще компов не было. Вот тоже вопрос - один аккорд минорный, другой мажорный, а ведь всего лишь один из входящих звуков изменился на полтона. Видимо к физике и математике нужно еще и физиологию, а там еще что-то прицепится. Сложно, но интересно.

inikakinache · « **Ответ #2 :** 08 Апреля 2010, 13:42:18 »

Цитата: Ururu_2 от 08 Апреля 2010, 13:08:10

Вот есть звуковая волна. Она имеет амплитуду и частоту. Амплитуда отвечает за громкость, частота, как я понимаю, за тембр. НО! Когда мы слышим песню, мы ведь слышим слова и голос. Как это кодируется?

Если грубо то, например, характеристики звука 16bit (1) / 44KHz (2):

65536 (1) различных вариантов "трещалок"(уровней) и генерация их в различной последовательности с частотой ~44000раз/сек (2) дают вам возможность наслаждаться Моцартом в вагоне метро

Ururu_2 · « **Ответ #3 :** 08 Апреля 2010, 13:57:31 »

Поэтому и спрашиваю, что почитать по теме. Желательно в приложении к программированию.

Lucius · « **Ответ #4 :** 08 Апреля 2010, 14:03:43 »

Очень советую ознакомиться с теорией вейвлетов http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B9%D0%B2%D0%BB%D0%B5%D1%82
Там не особо-то тривиально, но для понимания достаточно.
ЗЫ есть даже случай интересный:
Один человек писал докторскую по вейвлетам и не показывал работу своему научнику, чтобы тот не украл идею, потому что этот чувак придумывал революционную систему кодирования

pterodaktil · « **Ответ #5 :** 08 Апреля 2010, 14:10:57 »

Цитата: Ururu_2 от 08 Апреля 2010, 13:57:31

Поэтому и спрашиваю, что почитать по теме. Желательно в приложении к программированию.

Для начала классический учебник Рабинер и Голд Теория цифровой обработки сигналов
Ну и здесь посмотреть не мешает

Ururu_2 · « **Ответ #6 :** 08 Апреля 2010, 14:36:19 »

Господа, это всё немного не то! слова и характеристики голоса в звуковой волне появляются не в результате цифровой обработки, они там есть изначально!
Чтобы было понятнее: задача стоит так: есть пример голоса (звуковой файл) и есть текст. Нужно "вытащить" из звукового файла особенности голоса и "произнести" этим голосом текст.
Ведь есть же программы для синтеза голоса! Должна, значит, быть и литература по теме, описание алгоритмов и т.д.

pterodaktil · « **Ответ #7 :** 08 Апреля 2010, 14:41:27 »

http://text2speech.sourceforge.net/
http://www.speech.cs.cmu.edu/festival/download.html
Да, четче формулировать задачу надо.

wl · « **Ответ #8 :** 08 Апреля 2010, 16:21:33 »

Цитата: Ururu_2 от 08 Апреля 2010, 14:36:19

Чтобы было понятнее: задача стоит так: есть пример голоса (звуковой файл) и есть текст. Нужно "вытащить" из звукового файла особенности голоса и "произнести" этим голосом текст.
Ведь есть же программы для синтеза голоса! Должна, значит, быть и литература по теме, описание алгоритмов и т.д.

Конечно, есть, ворох. Идем в гугл, пишем "voise synthesis" - и получаем кучу ссылок. В конце статьи из Википедии на эту тему есть ссылки и на теоретические научные работы, и на реализации. Ну и дальше, там тоже есть ссылки.

Пользователь решил продолжить мысль [time]Thu Apr 8 14:27:14 2010[/time]:

Цитата: Lucius от 08 Апреля 2010, 14:03:43

ЗЫ есть даже случай интересный:
Один человек писал докторскую по вейвлетам и не показывал работу своему научнику, чтобы тот не украл идею, потому что этот чувак придумывал революционную систему кодирования

Занятно. А можно узнать название, тему, авторов, ссылки на публикации?
У соискателей степени доктора наук, насколько мне известно, научных руководителей не бывает.

Yurror · « **Ответ #9 :** 08 Апреля 2010, 19:11:10 »

Думаю топикстартер насмотрелся фантастики. Пока задача не решена. Решишь и тебя сразу же скрутят ФБР/ФСБ (кто быстрее успеет) и увезут в свой бункер хе хе =)
Ты бы реально задачку ближе к земле поставил и с понятиями разобрался. А вообще звук кодируется аудио кодеками =)

Ururu_2 · « **Ответ #10 :** 08 Апреля 2010, 23:25:07 »

ААА! Не хочу в бункер ФСБ! Там футбол сто процентов не показывают!

А с чего ты взял, что не решена? Я нарыл в инете несколько прог, который издеваются над голосом - искажают, преобразуют женский в мужской и т.д. А значит, тема проработана хотя бы отчасти, есть способы редактирования особенностей голоса. Но к сожалению всё, что я нашёл - с закрытым кодом.

Прога text2speech вообще сама нифига не делает, только использует чью-то длл для синтеза голоса.

Yurror · « **Ответ #11 :** 09 Апреля 2010, 17:39:59 »

женский в мужской голос делается понижением тембра. ну в самом примитивном случае просто замедляют воспроизведение если не охота возиться с преобразованием сигнала. это можно не спорю.
Можно из текста делать речь. Но качество... Аля Magick Goody и The Microsoft Sam as the computer default vooooice это слегка не дотягивает до поставленной задачи. не находишь. ну а вообще посмотри orca c открытыми текстами. читает по русски

bektau · « **Ответ #12 :** 12 Апреля 2010, 23:55:40 »

http://www.websound.ru/faq.htm

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как кодируется звук? (Прочитано 1583 раз)

Ururu_2

Как кодируется звук?

baklan

Re: Как кодируется звук?

inikakinache

Re: Как кодируется звук?

Ururu_2

Re: Как кодируется звук?

Lucius

Re: Как кодируется звук?

pterodaktil

Re: Как кодируется звук?

Ururu_2

Re: Как кодируется звук?

pterodaktil

Re: Как кодируется звук?

wl

Re: Как кодируется звук?

Yurror

Re: Как кодируется звук?

Ururu_2

Re: Как кодируется звук?

Yurror

Re: Как кодируется звук?

bektau

Re: Как кодируется звук?