3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим

В «Фейсбуке» нам задали вопрос:
«Для работы с текстом мне нужно расшифровать 3 часа диктофонной записи. Пробовал загрузить аудиофайл с картинкой в YouTube и воспользоваться их расшифровщиком текста, но получается какая-то абракадабра. Подскажите, как можно решить это технически? Спасибо!
Александр Коновалов»

Александр, простое техническое решение есть – но результат будет зависеть исключительно от качества вашей записи. Поясню, о каком качестве речь.

За последние годы технологии распознавания русской речи сильно продвинулись вперед. Процент ошибок распознавания снизился до такого уровня, что иной текст стало проще «наговорить» в специальном мобильном приложении или интернет-сервисе, откорректировав вручную отдельные «очепятки» – чем целиком набирать весь текст на клавиатуре.

Но, чтобы искусственный интеллект системы распознавания смог проделать свою работу – пользователь должен проделать свою. А именно: говорить в микрофон четко и размеренно, избегать сильных фоновых шумов, по возможности использовать стереогарнитуру или выносной микрофон, прикрепленный к петлице (для качества распознавания важно, чтобы микрофон все время находился на одном расстоянии от губ, а вы сами говорили с одинаковой громкостью). Естественно, чем выше класс аудиоустройства – тем лучше.

Несложно придерживаться этих условий, если вы, вместо того, чтобы обращаться к интернет-сервису распознавания речи напрямую, применяете в качестве промежуточного устройства-посредника диктофон. К слову, такой «персональный секретарь» особенно незаменим, когда у вас нет доступа к онлайну. Естественно, лучше использовать хотя бы недорогой профессиональный диктофон, нежели записывающее устройство, встроенное в дешевый mp3-плеер или смартфон. Это даст гораздо больше шансов «скормить» полученные записи сервису распознавания речи.

Сложно, но можно уговорить соблюдать эти правила собеседника, у которого вы берете интервью (еще один совет: если у вас нет в комплекте выносного микрофона на прищепке – хотя бы держите диктофон рядом с собеседником, а не с собой).

А вот «законспектировать» на нужном уровне в автоматическом режиме конференцию или семинар – дело, на мой взгляд, практически нереальное (ведь вы не сможете контролировать речь спикеров и реакцию слушателей). Хотя достаточно интересный вариант: превращение в текст профессионально записанных аудиолекций и аудиокниг (если на них не накладывалась фоновая музыка и шумы).

Будем надеяться, что качество вашей диктофонной записи – достаточно высокое, чтобы ее удалось расшифровать в автоматическом режиме.

Если же нет – практически при любом качестве записи вы сможете провести расшифровку в полуавтоматическом режиме.

Кроме того, в ряде ситуаций наибольшую экономию времени и сил вам принесет, как ни парадоксально, расшифровка в ручном режиме. Точнее, тот ее вариант, который сам я использую уже с десяток лет. 🙂

Итак, по порядку.

1. Автоматическое распознавание речи

Многие советуют расшифровывать диктофонные записи на YouTube. Но этот метод заставляет пользователя тратить время на этапе загрузки аудиофайла и фоновой картинки, а затем – в ходе очистки итогового текста от меток времени. Между тем, это время несложно сэкономить. 🙂

Вы можете распознавать аудиозаписи прямо со своего компьютера, воспользовавшись возможностями одного из интернет-сервисов, работающих на движке распознавания Google (рекомендую Speechpad.ru или Speechlogger.com). Все, что нужно – проделать маленький трюк: вместо вашего голоса, воспроизводимого с микрофона, перенаправить на сервис аудиопоток, воспроизводимый вашим компьютерным проигрывателем.

Этот трюк называется программным стерео микшером (его обычно применяют для записи музыки на компьютере или ее трансляции с компьютера в интернет).

Стерео микшер входил в состав Windows XP – но был удален разработчиками из более поздних версий этой операционной системы (говорят, в целях защиты авторских прав: чтобы геймеры не воровали музыку из игр и т.п.). Однако стерео микшер нередко поставляется вместе с драйверами аудиокарт (например, карт Realtec, встраиваемых в материнскую плату). Если вы не найдете стерео микшер на своем ПК с помощью предлагаемых ниже скриншотов – попробуйте переустановить аудиодрайверы с CD-диска, который шел в комплекте с материнской платой – либо с сайта ее производителя.

Если и это не поможет – установите на компьютер альтернативную программу. Например – бесплатный VB-CABLE Virtual Audio Device: использовать его рекомендует владелец вышеупомянутого сервиса Speechpad.ru.

Первым шагом вы должны отключить для использования в режиме записи микрофон и включить вместо него стерео микшер (либо виртуальный VB-CABLE).

Для этого нажмите по иконке громкоговорителя в правом нижнем углу (возле часов) – либо выберите раздел «Звук» в «Панели управления». Во вкладке «Запись» открывшегося окна щелкните правой кнопкой мыши и поставьте птички напротив пунктов «Показать отключенные устройства» и «Показать отсоединенные устройства». Нажмите правой кнопкой по иконке микрофона и выберите пункт «Отключить» (вообще, отключите все устройства, отмеченные зеленым значком).

Нажмите правой кнопкой по иконке стерео микшера и выберите пункт «Включить». На иконке появится зеленый значок, что будет означать, что стерео микшер стал устройством по умолчанию.

Если вы решили использовать VB-CABLE – то тем же способом включите его во вкладке «Запись».

А также – во вкладке «Воспроизведение».

Второй шаг. Включите аудиозапись в любом проигрывателе (если нужно расшифровать аудиодорожку видеоролика – можно запустить и видеопроигрыватель). Параллельно загрузите в браузере Chrome сервис Speechpad.ru и нажмите в нем кнопку «Включить запись». Если запись достаточно высокого качества, вы увидите, как сервис на глазах превращает речь в осмысленный и близкий к оригиналу текст. Правда, без знаков препинания, которые вам придется расставить самостоятельно.

В качестве аудиопроигрывателя советую использовать AIMP, о котором будет подробнее рассказано в третьей подглавке. Сейчас лишь отмечу, что этот плеер позволяет замедлить запись без искажений речи, а также исправить некоторые другие погрешности. Это может несколько улучшить распознавание не слишком качественной записи. (Иногда даже советуют предварительно подвергать плохие записи обработке в профессиональных программах редактирования звука. Однако, на мой взгляд, это слишком трудоемкая задача для большинства пользователей, которые гораздо быстрее наберут текст вручную. 🙂 )

2. Полуавтоматическое распознавание речи

Тут все просто. Если запись некачественная и распознавание «захлебывается» либо сервис выдает слишком много ошибок – помогите делу сами, «встроившись» в цепочку: «аудиоплеер – диктор – система распознавания».

Ваша задача: прослушивать в наушниках записанную речь – и параллельно надиктовывать ее через микрофон интернет-сервису распознавания. (Естественно, вам не нужно, как в предыдущем разделе, переключаться в списке записывающих устройств с микрофона на стерео микшер или виртуальный кабель). А в качестве альтернативы упоминавшимся выше интернет-сервисам можете использовать смартфонные приложения вроде бесплатной «Яндекс.Диктовки» либо функцию диктовки в iPhone с операционной системой iOS 8 и выше.

Отмечу, что в полуавтоматическом режиме вы имеете возможность сразу диктовать знаки препинания, расставлять которые в автоматическом режиме сервисы пока не способны.

Если у вас получится диктовать синхронно с воспроизведением записи на плеере – предварительная расшифровка займет практически столько же времени, сколько и сама запись (не считая последующих затрат времени на исправление орфографических и грамматических ошибок). Но даже работа по схеме: «прослушать фразу – надиктовать – прослушать фразу – надиктовать», – может вам дать неплохую экономию времени по сравнению с традиционным набором текста.

В качестве аудиоплеера рекомендую использовать тот же AIMP. Во-первых, с его помощью вы можете замедлить воспроизведение до скорости, на которой вам будет комфортно работать в режиме синхронной диктовки. Во-вторых, этот плеер умеет возвращать запись на заданное количество секунд: это бывает необходимо, чтобы лучше расслышать неразборчивую фразу.

3. Расшифровка диктофонной записи в ручном режиме

Вы можете установить на практике, что слишком быстро устаете от диктовки в полуавтоматическом режиме. Или делаете вместе с сервисом слишком много ошибок. Или, благодаря навыкам быстрого набора, гораздо легче создаете готовый исправленный текст на клавиатуре, чем с помощью диктовки. Или ваш диктофон, микрофон на стереогарнитуре, аудиокарта не обеспечивают приемлемое для сервиса качество звука. А может, у вас просто нет возможности диктовать вслух в своем рабочем или домашнем офисе.

Во всех этих случаях вам поможет мой фирменный способ расшифровки вручную (прослушиваете запись в AIMP – набираете текст в Word). С его помощью вы превратите запись в текст быстрее, чем это сделают многие профессиональные журналисты, чья скорость набора на клавиатуре аналогична вашей! При этом вы потратите гораздо меньше, чем они, сил и нервов. 🙂

Из-за чего, в основном, теряются силы и время в ходе расшифровки аудиозаписей традиционным способом? Из-за того, что пользователь совершает очень много лишних движений.

Пользователь постоянно протягивает руку то к диктофону, то к клавиатуре компьютера. Остановил воспроизведение – набрал прослушанный отрывок в текстовом редакторе – снова включил воспроизведение – отмотал неразборчивую запись назад – и т.д., и т.п.

Использование обычного программного плеера на компьютере мало облегчает процесс: пользователю приходится постоянно сворачивать/разворачивать Word, останавливать/запускать плеер, да еще елозить туда-сюда слайдером плеера, чтобы найти неразборчивый фрагмент, а затем вернуться к последнему прослушанному месту в записи.

Чтобы сократить эти и другие потери времени, специализированные IT-компании разрабатывают программные и аппаратные транскрайберы. Это достаточно дорогие решения для профессионалов – тех же журналистов, судебных стенографистов, следователей и т.д. Но, собственно, для наших целей требуются только две функции:

возможность замедлить воспроизведение диктофонной записи без ее искажения и понижения тона (замедлить скорость воспроизведения позволяют многие плееры – но, увы, при этом человеческий голос превращается в монструозный голос робота, который сложно воспринимать на слух продолжительное время);
возможность остановить запись или откатить ее на заданное количество секунд и вернуть обратно, не останавливая набор текста и не сворачивая окно текстового редактора.

В свое время я протестировал десятки аудиопрограмм – и нашел лишь два доступных платных приложения, отвечающих этим требованиям. Приобрел одно из них. Поискал еще немного для своих дорогих читателей 🙂 – и нашел замечательное бесплатное решение – проигрыватель AIMP, которым сам пользуюсь до сих пор.

Далее просто процитирую отрывок из своего удаленного ЖЖ (что бы я делал, если б его не сохранил интернет 🙂 ).

«Войдя в настройки AIMP, найдите раздел Глобальные клавиши и перенастройте Стоп/Пуск на клавишу Эскейп (Esc). Поверьте, это наиболее удобно, поскольку не придется задумываться и палец не попадет случайно на другие клавиши. Пункты «Немного перейти назад» и «Немного перейти вперед» настройте, соответственно, на клавиши Ctrl + клавиши курсора назад/вперед (у вас на клавиатуре есть четыре клавиши со стрелками – выберите две из них). Эта функция нужна, чтобы заново прослушать последний фрагмент или перейти немного вперед.

Затем, вызвав эквалайзер, вы можете уменьшить значения «Скорость» и «Темп» – и увеличить значение «Питч». При этом Вы заметите, что скорость воспроизведения замедлится, но высота голоса (если хорошо подберете значение «Питч») – не изменится. Подберите эти два параметра так, чтобы вы практически синхронно успевали набирать текст, лишь изредка останавливая его.

Когда все будет настроено, набор будет занимать у вас меньше времени, и руки будут уставать меньше. Вы сможете расшифровывать аудиозапись спокойно и комфортно, практически не отрывая пальцев от набора текста на клавиатуре».

Могу только добавить к сказанному, что, если запись не очень качественная – вы можете попытаться улучшить ее воспроизведение, экспериментируя с другими настройками в «Менеджере звуковых эффектов» AIMP.

А количество секунд, на которое вам будет наиболее удобно перемещаться по записи назад или вперед с помощью горячих клавиш – установите в разделе «Плеер» окна «Настройки» (которое можно вызвать нажатием горячих клавиш «Ctrl + P»).

Желаю сэкономить побольше времени на рутинных задачах – и плодотворно использовать его для главных дел! 🙂 И не забудьте включить микрофон в списке записывающих устройств, когда соберетесь поговорить по скайпу! 😉

P.S. Как улучшить информационную поддержку своих рабочих, самообразовательных, личных проектов? Как найти приложения, «заточенные» именно под ваши задачи? Как навести порядок в файлах, чтобы каждый находился «на расстоянии вытянутой руки»? Приходите к нам на курс «Порядок на компьютере»! Все, что мы там объясняем и подсказываем, вы тут же при нашей поддержке внедряете на своих цифровых устройствах.

3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим

Метки: Вопрос-ответ Публикации Юрия Смирнова

17 мыслей о “3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим”

Шухрат
18.05.2016 в 12:29
Постоянная ссылка

Спасибо большое! Я и раньше пользовался аимпом, но просто переключался через горячие клавиши. Ваша статья ещё немножко оптимизировала мою работу!
Ответ
- Юрий СмирновАвтор записи
  18.05.2016 в 23:14
  Постоянная ссылка
  
  Спасибо, Шухрат! Рад, что статья пригодилась! 🙂
  Ответ
Антон
03.06.2017 в 22:16
Постоянная ссылка

Спасибо большое! Очень ценные инструкции 🙂
Ответ
- Юрий СмирновАвтор записи
  03.06.2017 в 22:59
  Постоянная ссылка
  
  Спасибо Вам, Антон! Вот, можете еще посмотреть статью на близкую тему: https://hypertext.by/kak-sdelat-gibridnyy-tekst-audio/
  Ответ
- Сонсан
  18.06.2020 в 09:54
  Постоянная ссылка
  
  Спасибо большое. Возьму на вооружение. Как раз предстоит расшифровка 30 часов не очень качественных записей
  Ответ
no spam
26.02.2018 в 18:22
Постоянная ссылка

AIMP только для ОС от Майкрософт. На Apple не запустить
Ответ
- Юрий СмирновАвтор записи
  05.11.2018 в 17:13
  Постоянная ссылка
  
  Попробуйте онлайновый сервис https://otranscribe.com/ Он также позволяет с помощью горячих клавиш замедлять-ускорять воспроизведение, останавливать-возобновлять запись, перемещаться по ней на несколько секунд назад-вперед.
  Ответ
Рада
23.08.2018 в 12:36
Постоянная ссылка

Очень признательна за статью. Никогда не занималась звуком и понадобилось распознать речь в записи с большими помехами. И ваши рекомендации по AIMP помогли.
Ответ
- Юрий СмирновАвтор записи
  26.08.2018 в 15:18
  Постоянная ссылка
  
  Спасибо большое за отзыв, Рада! Обратная связь для нас очень важна. Если будут какие-то вопросы по решению Ваших практических задач — обращайтесь, постараемся ответить.
  Ответ
Искандер
30.06.2019 в 01:40
Постоянная ссылка

Для переназначения горячих клавиш из любых программ и с любых на любые — можно воспользоваться программой AutoHotkey.
Ответ
Татьяна
26.07.2019 в 11:02
Постоянная ссылка

Огромное спасибо! Очень помогли с AIMP.
Ответ
- Юрий СмирновАвтор записи
  09.08.2019 в 19:23
  Постоянная ссылка
  
  Пожалуйста, мы рады. 🙂
  Ответ
Николай
25.09.2019 в 19:54
Постоянная ссылка

Требуется в диктофонной записи убрать посторонние шумы. Привести в нормальный вид для восприятия и сохранить голоса собеседников
Ответ
- Юрий СмирновАвтор записи
  10.10.2019 в 22:11
  Постоянная ссылка
  
  Николай, мы для этого используем бесплатную программу Audacity. Но не обучаем работе с ней: это не наша тема. Есть много специалистов, которые хорошо пишут в сети про обработку звука в Audacity и делятся советами.
  Ответ
Ольга
03.02.2020 в 09:46
Постоянная ссылка

А я хотела поделиться своим способом: Отслушиваю в ручном режиме, и повторяю каждое предложение в «записки» на смартфоне. Потом отправляю как текстовое сообщение на гугл-диск и копирую в ворд.
Ответ
- Лиля
  14.04.2020 в 22:57
  Постоянная ссылка
  
  не на всех телефонах видимо есть такая возможность. не нашла у себя…
  Ответ
neon
05.06.2021 в 15:09
Постоянная ссылка

Можно, также, использовать связку «Телефон» -> «Компьютер».
Т.е., производить голосовой ввод текста/данных с телефона (под Android) — в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows).
См., например, здесь: http://roamer55.ru/!_info/spDSW/
Ответ

Добавить комментарий Отменить ответ

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Порядок на компьютере

Практический курс для всех, кто хочет эффективно работать с информацией. Получите консультацию бесплатно! Создайте удобную и практичную среду для работы, ...

Подробнее

Понятная пунктуация

Курс повышения пунктуационной грамотности для старшеклассников и взрослых. Научитесь слышать запятые и различать пунктуационные и "ложные" паузы по синтаксическим признакам ...

Подробнее

Ключевые элементы стиля

Дистанционный курс практической стилистики текста для всех, кто пишет. Мастерство письма — это мастерство редактирования ...

Подробнее

Сергей Карелов: «Гибридный интеллект производительнее искусственного и человеческого по отдельности»

02.12.2024 / Управление информацией

Так называемая «революция ChatGPT» развивается с беспрецедентной скоростью. Большинство компаний не успевают не то что внедрять, но и просто осмысливать ... >>>

5 вариантов быстрого поиска софта

03.04.2022 / Управление информацией

Пользователи часто спрашивают нас, где найти подходящую программу для работы, самообразования, развлечений, обслуживания компьютера. Обычно мы предлагаем начать с вариантов, ... >>>

Тонкая настройка синхронизации с Google Drive

11.01.2022 / Управление информацией

Вы можете спросить: а зачем вообще настраивать – хоть тонко, хоть толсто – синхронизацию с облаком своих компьютерных устройств (например, ... >>>

Как написать полезную книгу «без воды»

17.11.2021 / Управление информацией

От читателей деловой литературы часто слышу два полярных высказывания. Например: "Книга неплохая. Автор местами пишет весьма увлекательно. Но в ней ... >>>