Форум русскоязычного сообщества Ubuntu


Получить помощь и пообщаться с другими пользователями Ubuntu можно
на irc канале #ubuntu-ru в сети Freenode
и в Jabber конференции ubuntu@conference.jabber.ru

Автор Тема: Ищу народ со схожими интересами в прогании  (Прочитано 3779 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн q4a

  • Автор темы
  • Любитель
  • *
  • Сообщений: 56
    • Просмотр профиля
Мне лично интересно интересны следующие вещи:
1. Операционные системы и все что с ними связано (дрова, файловые системы, процессы, потоки...) - windows, linux и http://ru.wikipedia.org/wiki/ReactOS
2. OCR (Оптическое распознавание символов) - FineReader и http://ru.wikipedia.org/wiki/CuneiForm
3. Machine translation (машинный перевод) - promt и http://www.prawda.newmail.ru/
4. Text2speech engines (перевод текста в голос, говорилка) - http://en.wikipedia.org/wiki/Festival_Speech_Synthesis_System
5. Создание djvu, их распознавание и конвертация pdf2djvu.
6. Speech recognition (Распознавание речи) - http://ru.wikipedia.org/wiki/Распознавание_речи

Готов прогать в любой из 1-6 областей по очереди или несколько сразу, но одному начинать тяжеловато..
1. ReactOS народ пишет, причем активно.
2. Фирма открывшая CuneiForm шевелиться не хочет, а так есть человек, который портирует её под линукс.
3. Prawda уже не обнавлялась 2 года - это самое больное для меня место. Может быть стоит получше погуглить, но ИМХО - это лучшее, что есть. Её создали наши и там много документации на русском, т.е. разобраться вполне реально.
4. Festival разрабатывают, причем дела идут вроде хорошо. Не так давно нашли чела, который согласился записать голосовую базу то ли на профессиоальном оборудовании, то ли на полупрофессиональном - в общем как послушал - качество как небо и земля.. Хотя нет пределу совершенства.

5. Это очень тесно связано с 1-ым пунктом и библиотекой DjVuLibre ( http://djvu.sourceforge.net/ ), если посмотреть в вики: http://en.wikipedia.org/wiki/Djvu#DjVu_-_programs - то прог, работающих с djvu - не так много, но  в вики не сказано следющее - Pdf To Djvu GUI - это виндовый порт линуксовской проги pdf2djvu ( http://code.google.com/p/pdf2djvu/ ), причем обе они под GPL. Про них узнал только сегодня => ещё не пробовал.

6. По этой теме гуглил довольно тщательно. Собственно вот список всевозможного софта: http://en.wikipedia.org/wiki/List_of_speech_recognition_software - там около 6 open source проектов - из них с русским умеет работать вроде как только один - VoxForge. Я пока его не пробовал, но помнится ещё сидя под виндой он мне приглянулся свои сайтом, открытостью (GPL), наличием русского языка и наличием версии под винду и линукс.

Если кто-чем заинтересовался - пишите здесь...

Примечание:
1. Лингвисты и люди хорошо знающие правила построения предложений и орфоргафию на русском, английском или ещё лучше других языках тоже очень нужны..

2. Сейчас я сижу под линуксом, но версии под винду меня тоже оч. интересуют, т.к. в будущем хотул бы сидеть под ReactOS, который бинарно совместим с виндой. Так что можно заняться портированием под винду Prawda или Festival, хотя я почитал - вроде как Festival должен скомпилиться gcc-шкой под виндой без исправления исходников.

3. Может кто подскажет форум open source программистов, среди которых можно было бы найти единомышленников, с которыми бы можно было пообщаться - а то мало ли я в очередной раз велосипед хочу изобрести...

Оффлайн Fullerene

  • Участник
  • *
  • Сообщений: 177
    • Просмотр профиля
Цитировать
4. Text2speech engines (перевод текста в голос, говорилка) - http://en.wikipedia.org/wiki/Festival_Speech_Synthesis_System

Правильно, сделай голосовой движок :)

Оффлайн q4a

  • Автор темы
  • Любитель
  • *
  • Сообщений: 56
    • Просмотр профиля
Правильно, сделай голосовой движок :)
Зачем? Я как раз не хотел изобретать велосипед, ведь уже есть Festival, который довольно прилично работает с русским языком - вот пример звучания русского языка: russian_cl_urp.wav - имхо очень хорошо звучит, но как говорится нет предела совершенству..

Оффлайн Fullerene

  • Участник
  • *
  • Сообщений: 177
    • Просмотр профиля
Это не голос, это позор... :(

Оффлайн q4a

  • Автор темы
  • Любитель
  • *
  • Сообщений: 56
    • Просмотр профиля
Это не голос, это позор... :(
Все в мире относительно.. С чем ты сравнивал этот голос? со свои голосом, с красивым голосом девушки или с голосом другой программы, синтезирующей речь? ИМХО относительно других программ, синтезирующих речь, Festival если и уступает дорогостоящим аналогам, то совсем не на много.

В принципе было бы здорово записать голосовую базу с женским голосом хотя бы такого же качества - это бы повысило привлекательность проги.. но этим надо заниматься..

Оффлайн Fullerene

  • Участник
  • *
  • Сообщений: 177
    • Просмотр профиля
Все в мире относительно.. С чем ты сравнивал этот голос? со свои голосом, с красивым голосом девушки или с голосом другой программы, синтезирующей речь?

Digalo Russian Nikolai. Стандарт де факто.

Оффлайн q4a

  • Автор темы
  • Любитель
  • *
  • Сообщений: 56
    • Просмотр профиля
Digalo Russian Nikolai. Стандарт де факто.
В каком месте это стандарт? У виндузятников кроме него есть RealSpeak Russian Voice - Katerina.
По поводу Digalo Russian Nikolai: есть тока под винду и к тому же врез - ставить даже пытаться не стал. На оф. сайте http://www.digalo.com/ послушать тест нельзя. Можно найти файлы, созданные с помощью Говорилки и движка Digalo Russian, на http://www.vector-ski.com/vecs/govorilka/ : http://www.vector-ski.com/vecs/govorilka/snd/fedot%20(govorilka%2Bdigalo).mp3 - похоже на прошлую версию русского языка в Festival, которая была просто ужасна.
Ещё хочется отметить, что голос Digalo Russian Nikolai создан русскими людьми на кафедре экспериментальной фонетики Санкт-Петербургского Государственного Университета (узнал отсюда: http://www.softkey.info/reviews/review1140.php ) Так что имхо при желании есть возможность прикрутить этот к Festival.

Собственно, если выложишь или найдешь примеры звучания Digalo Russian Nikolai, можно будет дальше обсуждать..

Оффлайн q4a

  • Автор темы
  • Любитель
  • *
  • Сообщений: 56
    • Просмотр профиля
Щастье есть!!! Поясняю:
Первоначально план был такой:
Решить следующие задачи:
1.Нечто вроде синхронного перевода: человек говорит на англ(рус) языке, а система с некоторой задержкой произносит то, что говорит человек, но на другом языке - рус(англ) соотв.
-Решается следующим путем: 6>3>4
2.Произнести то, что человек написал от руки, возможно произнести на другом языке.
-Решается: 2>(при необходимости 3)>4
3.Конвертация электронных книг из doc, odt, pdf и прочего в djvu с ocr слоем. Это вовсе не обязательно, но я формат pdf просто не переношу - когда-то сконвертировал pdf в djvu, получив из 100мб книги 50мб книгу такого же качества..
-Решается: 5(+2 при необходимости)
4.Сугубо моё ИМХО, но я считаю, что моск должен сидеть в тюрьме.. =) Есть жестокая идея перегонять электронные книги в аудио книги и слушать постоянно, вместо музыки. Код конечно слушать жестко, но для решения этой проблемы есть специальные устройства, предназначенные только для чтения электронных книг. У xni есть такая.. мне надо будет тоже обзавестись.. думаю формата A5 пойдет. И вот когда в аудиокниге код или непонятное место - смотреть в этот девайс.
5. Все проги разработанные в пунктах 2-6 сначала будут под линукс, а потом и под винду, т.е. ReactOS

Но сегодня в Инете я познакомился с челом - он слепой.. у него стоит Ubuntu 8.04, имеется огромные знания и опыт по части русскоязычных говорилок и скринридеров + широкополосный анлим - просто находка для меня.. Из минусов - он: под линуксом всего пару недель и ему пока тяжело с ней приходится + плохо знает английский, а скринридеры навороченные, имеют кучу настроек и почти вся документация на английском..

Намечается симбиоз - хочу от него по больше узнать и помочь ему с переводом документации..

Собственно первоначальный план меняется в сторону программ чтения с экрана и первоначальную ориентацию разработки на незряцих и слабовидящих..

Помнится был (а может и сейчас есть) дистрибутив линукса. ориентированный на незрячих - надо будет найти, поставить, посмотреть что в нем за софт...

Оффлайн aliftin

  • Старожил
  • *
  • Сообщений: 1398
    • Просмотр профиля
Re: Ищу народ со схожими интересами в прогании
« Ответ #8 : 21 Октября 2008, 17:14:28 »
Конечно тема эта дела давно менувших дней, но все же: q4a, чем ты конвертировал в djvu и возможно ли конвертировать обратно в pdf?
Если мы не можем до чего то дотянуться, мы виним в этом не свой рост, не отсутствие табуретки, а свою цель.

Оффлайн WerWolf_bk

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
Re: Ищу народ со схожими интересами в прогании
« Ответ #9 : 25 Октября 2008, 11:20:25 »
Имеется вопрос - на чем ты пишешь, я бы хотел участвовать в реализации какой-нить проги, но: я знаю тока делфи и писал проги тока под Windows

Оффлайн nixoid

  • Любитель
  • *
  • Сообщений: 81
  • Бубунтовод
    • Просмотр профиля
Re: Ищу народ со схожими интересами в прогании
« Ответ #10 : 16 Ноября 2008, 20:26:54 »
To q4a:
здравствуйте, случайно встретил эту тему, интересуюсь 5 пунктом из списка Ваших тем. Я сам не программист, хотя интересуюсь данным вопросом. Собственно мне интересно было бы написать графический интерфейс к набору из djvulibre, поначалу пускай будет лишь возможность передачи в консольные утилиты параметров командной строки. Сейчас пытаюсь осваивать GTK+ для данной цели.

Оффлайн GrandPeter

  • Любитель
  • *
  • Сообщений: 78
    • Просмотр профиля
    • Проект Голос это простой граф. интерфейс  для festival
Здравствуйте!
Я бы тоже присоединился, хотя еще не программист, но интерес к синтезу и распознаванию речи имею.
Вопрос у меня банальный, и если кто поможет буду рад: как установить систему для распознавания русской речи? Узнал что существуют проекты по данной тематике  VoxForge.org, CMU Sphinx, HTK и Julius, Simon и проч. Но как все это скомпоновать и "завести"?  :idiot2:
Всё что не происходит - всё к лучшему!

Оффлайн unimix

  • Активист
  • *
  • Сообщений: 537
    • Просмотр профиля
Можно было бы объединить некоторые пункты в один проект:
1. распознование речи с переводом в текст;
2. оптическое распознавание символов (OCR) с переводом в текст;
3. перевод текста с одного языка на другой;
4. перевод текста в голос (говорилка).

Тема работы над каждым этим пунктом тесно связана с использованием искуственного интеллекта и над каждой этой проблемой работают конторы, выпускающие свои продукты не бесплатно.

Меня интересует вопрос: под какой лицензией все это будет выпускаться? Уж если я напишу какую-нибудь библиотеку бесплатно, то не хочу, что бы кто-то получал с нее деньги, разработав свой интерфейс.

Оффлайн Sova777

  • Участник
  • *
  • Сообщений: 208
    • Просмотр профиля
    • Несколько слов о NetBeans C/C++ Pack'е
GPL лицензия не запрещает, как минимум, создавать коммерческии GPL программы на основе вашей библиотеки
Пользователь OpenSolaris 2008.11, Ubuntu 8.10, Windows XP. Mac OS X не нравится, стараюсь не использовать.

 

Страница сгенерирована за 0.049 секунд. Запросов: 25.