Jump to content

Распознавание речи и всё, что с этим связано


Neinsager

Recommended Posts

Озадачили меня проблемой — есть диктофонные записи, нужно преобразовать их в текст.

Вариантов, насколько я вижу, немного — есть два API, от Яндекса и от Гугла, и есть некоторое количество софтов, которые эти API используют. Софтов для винды, которые бы использовали Яндекс API, я не нашёл, и потому тестировал только гугловские наработки. Практика показала, что API довольно прилично распознают качественный звук, а вот с диктофонными записями беда — много шумов и искажений. СтОит ли пробовать как-то вычистить записи? Если стОит — то был бы рад ссылкам по теме, ибо в обработке звука мало чего понимаю... Или же из дерьма конфетку не сделать, и надо думать о использовании приличного микрофона при осуществлении записи?

Link to comment
Share on other sites

СтОит ли пробовать как-то вычистить записи?

Крапотливая и долгая работа

приличного микрофона при осуществлении записи?

да

есть диктофонные записи, нужно преобразовать их в текст.

с существующими могу помочь

Link to comment
Share on other sites

СтОит ли пробовать как-то вычистить записи?

Мне кажется для правильного распознавания нужна не разговорная речь и темп речи, а четко проговариваемая и лучше с одной интонацией, типа машинной (или как на кассетах по обучению языкам). Имхо проще слушать диктофон и одновременно проговаривать то что говорят членораздельно и последовательно нежели чистить звук, а потом по любому править ошибки от не точного распознавания.

По софту не подскажу, не интересовался. Но на работе сотрудник как то хвастался\удивлялся что девочки-машинистки до сих пор не освоили распознавание речи, а у него получалось. Но он будет лишь после праздников что б спросить что и как...

Link to comment
Share on other sites

Den3

Попробовал сейчас эту методику — качество распознавания, конечно, выше... но практического смысла для решения именно данной задачи в ней нет — человек, который обычно с записями этими работает, набирает очень быстро, потому смысл передиктовки пропадает. Вот для распознавания рукописей или очень плохих копий старых документов способ подходит, возьму на вооружение.

Link to comment
Share on other sites

В общем, насколько я вижу, пока прогресс в данной области не настолько заметен, чтобы в лоб решать поставленную задачу — требуется и дополнительное оборудование (хороший микрофон, например), и условия к самой речи (ну или дополнительные манипуляции, время на проведение которых практически лишает смысла использование данных технологий).

Печаль :(

Link to comment
Share on other sites

Юзаю на смарте клаву SWYPE+DRAGON. Там кроме набора движением, есть голосовой ввод (НЕ ГУГЛ)!!! Раньше "набирал" СМС только монотонным, небыстрым голосом. Только что, ради интереса попробовал усложнить ему/ей :) задачу: говорил быстро, специально не выделяя слова... Качество распознавания приятно удивило. Может покопать в сторону этой разработки?
Link to comment
Share on other sites

человек обходится в 20$ за час обработанной записи. Если запись шумная, трудноразличимая , то дороже. Качество лучше чем у программного продукта.

 

если цель найти программу для надиктовывания - лучше dragon под макось не видел.


Я детей вообще то боюсь, милостивый мой государь, - шумливы, жестоки и себялюбивы, а коли дети правят державой? ©Юлиан Семёнов

Ничего не делается к лучшему © Борис Раушенбах

Люди, люди — это самое главное. Люди дороже даже денег. © Ф.М. Достоевский

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...