Основные разделы


Состояние проблемы автоматического распознавания речи

Задача машинного распознавания речи привлекает внимание специалистов уже очень давно. Тем не менее, продвинуться в этом направлении удалось относительно недалеко. Процесс распознавания речи представляет собой преобразование акустического сигнала, полученного от микрофона, в последовательность слов. Полученный набор гипотез цепочек слов далее используется для понимания речи [2].

При этом возникает ряд проблем. Во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов из потока речи, что заведомо более сложно. Возникает необходимость выделять односложные слова - именно с ними и связано максимальное число ошибок реально существующих систем. Можно потребовать, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы или чтобы каждое следующее слово произносилось после звукового сигнала. Но данный подход не удобен и может быть применён только для подачи простых команд [3].

Следующая проблема - различие голосов, диалектов, дикций, возрастных различий, эмоциональное и физическое состояния диктора. Значительное влияние вносит акустический аспект, т.е. смена микрофона, расположение микрофона относительно рта, акустическая обстановка в помещении [4,5,6,7,8].

Именно из-за этих и многих других проблем до полного решения задачи распознавания речи по-прежнему весьма далеко. Существует два существенно различающихся режима работы: с настройкой на голос определенного диктора и без такой настройки. Размеры словаря при работе с настройкой на диктора (speaker-dependent) в настоящее время могут достигать нескольких (и даже многих) тысяч слов при слитном произнесении. Процедура настройки на диктора выглядит следующим образом: диктор читает некий специальным образом составленный текст, компьютер распознает слова и выдает вариант распознавания. Диктор помечает ошибки и читает текст снова. После нескольких таких итераций процесс сходится, и компьютер оказывается в состоянии распознавать речь [9,10,11,12,13].

Наконец, последний, наиболее сложный для реализации, но одновременно и наиболее перспективный режим работы - распознавание без настройки на диктора. При этом гарантируется, что система распознает любое включенное в словарь слово, кем бы оно ни было произнесено. Здесь, как правило, словари насчитывают небольшое количество слов (обычно не более двух десятков) и существуют для относительно небольшого числа языков (примерно тридцати). Русский язык в это число хотя и входит, однако количество распознаваемых русских слов невелико.

Создание словаря для распознавания речи без настройки на голос требует больших затрат. Для решения этой задачи разработчикам приходится опрашивать большое число (несколько сотен или тысяч) носителей языка, выделять некие общие элементы речи, усреднять их - и все этого для того, чтобы обеспечить распознавание десяти-двадцати слов. Чаще всего словарь без настройки на голос пользователя требует раздельного произнесения слов. Для целого ряда приложений этого, однако, оказывается вполне достаточно.

Прочитайте еще и эти статьи:

Проект базового блока радиотелефона
В настоящее время широкое распространение получили различные виды беспроводной связи: сотовая, транковая, связь посредством радиостанций и т.п. В их ряду важное место занимает радиотелефонная связь. Существуют различные модели радиотелефонов, в ...

Расчет операционного усилителя с использованием типовых электронных функциональных микроузлов
операционный усилитель электронный цифровой микроузел Операционный усилитель (ОУ) - это усилитель электрических сигналов, предназначенный для выполнения различных операций над аналоговыми величинами при работе в схеме с отрицательной обратной св ...

© Copyright 2019 | www.techattribute.ru