Вариантов, насколько я вижу, немного — есть два API, от Яндекса и от Гугла, и есть некоторое количество софтов, которые эти API используют. Софтов для винды, которые бы использовали Яндекс API, я не нашёл, и потому тестировал только гугловские наработки. Практика показала, что API довольно прилично распознают качественный звук, а вот с диктофонными записями беда — много шумов и искажений. СтОит ли пробовать как-то вычистить записи? Если стОит — то был бы рад ссылкам по теме, ибо в обработке звука мало чего понимаю... Или же из дерьма конфетку не сделать, и надо думать о использовании приличного микрофона при осуществлении записи?
Страница 1 из 1
Распознавание речи и всё, что с этим связано
#1
Отправлено 01 января 2015 - 19:34
Озадачили меня проблемой — есть диктофонные записи, нужно преобразовать их в текст.
Вариантов, насколько я вижу, немного — есть два API, от Яндекса и от Гугла, и есть некоторое количество софтов, которые эти API используют. Софтов для винды, которые бы использовали Яндекс API, я не нашёл, и потому тестировал только гугловские наработки. Практика показала, что API довольно прилично распознают качественный звук, а вот с диктофонными записями беда — много шумов и искажений. СтОит ли пробовать как-то вычистить записи? Если стОит — то был бы рад ссылкам по теме, ибо в обработке звука мало чего понимаю... Или же из дерьма конфетку не сделать, и надо думать о использовании приличного микрофона при осуществлении записи?
Вариантов, насколько я вижу, немного — есть два API, от Яндекса и от Гугла, и есть некоторое количество софтов, которые эти API используют. Софтов для винды, которые бы использовали Яндекс API, я не нашёл, и потому тестировал только гугловские наработки. Практика показала, что API довольно прилично распознают качественный звук, а вот с диктофонными записями беда — много шумов и искажений. СтОит ли пробовать как-то вычистить записи? Если стОит — то был бы рад ссылкам по теме, ибо в обработке звука мало чего понимаю... Или же из дерьма конфетку не сделать, и надо думать о использовании приличного микрофона при осуществлении записи?
#4
Отправлено 01 января 2015 - 19:56
СтОит ли пробовать как-то вычистить записи?
Мне кажется для правильного распознавания нужна не разговорная речь и темп речи, а четко проговариваемая и лучше с одной интонацией, типа машинной (или как на кассетах по обучению языкам). Имхо проще слушать диктофон и одновременно проговаривать то что говорят членораздельно и последовательно нежели чистить звук, а потом по любому править ошибки от не точного распознавания.
По софту не подскажу, не интересовался. Но на работе сотрудник как то хвастался\удивлялся что девочки-машинистки до сих пор не освоили распознавание речи, а у него получалось. Но он будет лишь после праздников что б спросить что и как...
Поблагодарили: 1
|
#5
Отправлено 01 января 2015 - 20:11
Den3
Попробовал сейчас эту методику — качество распознавания, конечно, выше... но практического смысла для решения именно данной задачи в ней нет — человек, который обычно с записями этими работает, набирает очень быстро, потому смысл передиктовки пропадает. Вот для распознавания рукописей или очень плохих копий старых документов способ подходит, возьму на вооружение.
Попробовал сейчас эту методику — качество распознавания, конечно, выше... но практического смысла для решения именно данной задачи в ней нет — человек, который обычно с записями этими работает, набирает очень быстро, потому смысл передиктовки пропадает. Вот для распознавания рукописей или очень плохих копий старых документов способ подходит, возьму на вооружение.
#6
Отправлено 01 января 2015 - 20:17
В общем, насколько я вижу, пока прогресс в данной области не настолько заметен, чтобы в лоб решать поставленную задачу — требуется и дополнительное оборудование (хороший микрофон, например), и условия к самой речи (ну или дополнительные манипуляции, время на проведение которых практически лишает смысла использование данных технологий).
Печаль
Печаль
#8
Отправлено 02 января 2015 - 13:30
Юзаю на смарте клаву SWYPE+DRAGON. Там кроме набора движением, есть голосовой ввод (НЕ ГУГЛ)!!! Раньше "набирал" СМС только монотонным, небыстрым голосом. Только что, ради интереса попробовал усложнить ему/ей задачу: говорил быстро, специально не выделяя слова... Качество распознавания приятно удивило. Может покопать в сторону этой разработки?
Поблагодарили: 1
|
#9
Отправлено 02 января 2015 - 15:16
человек обходится в 20$ за час обработанной записи. Если запись шумная, трудноразличимая , то дороже. Качество лучше чем у программного продукта.
если цель найти программу для надиктовывания - лучше dragon под макось не видел.
если цель найти программу для надиктовывания - лучше dragon под макось не видел.
Я детей вообще то боюсь, милостивый мой государь, - шумливы, жестоки и себялюбивы, а коли дети правят державой? ©Юлиан Семёнов
Ничего не делается к лучшему © Борис Раушенбах
Люди, люди — это самое главное. Люди дороже даже денег. © Ф.М. Достоевский
#10
Отправлено 02 января 2015 - 21:02
Rumlin
Не, надиктовывание реально практически не нужно.
trespa
Попробую виндовую версию, но не особо верю в успех.
Не, надиктовывание реально практически не нужно.
trespa
Попробую виндовую версию, но не особо верю в успех.
Поделиться темой:
Страница 1 из 1