Голосовой интерфейс

Голосовой интерфейс (или «голосовой интерфейс пользователя») при помощи голосовой\речевой платформы делает возможным взаимодействие человека и компьютера для запуска автоматизированного сервиса или процесса.

Ранее контролировать устройство при помощи голоса было возможно только в научной фантастике. До недавнего времени считалось областью искусственного интеллекта. Тем не менее, с развитием технологий ГИ стал всё более распространённым, человек всё чаще пользуется преимуществами этой бесконтактной технологии.

Однако, использование ГИ имеет свои сложности. Люди с малой долей терпения относятся к «машине, которая не понимает». Следовательно, ГИ должен работать почти безошибочно, а значит, стабильно реагировать на входные данные, иначе пользователи не будут применять ГИ, либо ГИ станет объектом насмешек. Для того, чтобы создать стоящий голосовой интерфейс, необходимы междисциплинарные знания в информатике, лингвистике и психологии — дорогостоящие навыки, которые нелегко приобрести. Даже при наличии продвинутых средств разработки, создавая эффективный ГИ, нужно отдавать себе отчёт в том, какие задачи будет выполнять ГИ, и на какую целевую аудиторию он ориентирован. Чем лучше ГИ будет подходить под когнитивную модель задания пользователя, тем легче будет использовать ГИ без или с минимальным обучением, что повысит его эффективность и степень удовлетворённости пользователей.

Очень важны особенности целевой аудитории. К примеру, создавая ГИ для широкой публики, нужно уделить особое внимание простоте использования и большому количеству инструкций и подсказок для начинающих. В то время, как придумывая ГИ для небольшой группы продвинутых пользователей (в том числе для техподдержки), нужно больше думать о продуктивности, чем о подсказках и инструкциях. Такие приложения должны систематизировать обработку вызовов, минимизировать количество подсказок, устранить ненужные повторения, использовать принцип «смешанной инициативы», который позволит звонящему вносить разные типы информации в одном высказывании и в любом порядке или комбинации. Иными словами, ГИ должен быть специально создан для конкретных технологических процессов, которые нужно автоматизировать.

Голосовой интерфейс подойдёт не для каждого технологического процесса. В общем, чем более многогранны запросы и операции, тем сложнее их будет автоматизировать, и тем большая существует вероятность, что ГИ не подойдет для использования широкой публикой. В некоторых случаях, автоматизация процесса в принципе невозможна, поэтому единственный выход — использование консультанта-человека. К примеру, будет очень сложно автоматизировать горячую линию юридической поддержки. С другой стороны, ГИ прекрасно подойдёт для обработки быстрых и однообразных операций, таких как изменение статуса заказа, заполнение графы «время» или «стоимость», или перевод средств между счетами.

Дальнейшее использование

В карманных устройствах, таких как КПК или мобильные телефоны, для ввода информации используются маленькие кнопки, которые либо встроены в гаджет, либо являются частью интерфейса с сенсорным экраном, как на Apple iPod Touch или iPhone. Постоянно нажимать на кнопки таких девайсов утомительно, к тому же может привести к ошибкам, поэтому лёгкий в использовании, точный и надёжный голосовой интерфейс мог бы стать глобальным прорывом в использовании карманных устройств. Кроме того, ГИ мог бы стать эффективным в использовании ноутбуков и стационарных компьютеров, так как решил бы проблемы, связанные с использованием клавиатуры и мыши, в том числе травмы, связанные с постоянными нагрузками, такие как синдром запястного канала, а также устранил бы препятствие в виде низкой скорости печати, что важно для начинающих пользователей. Более того, если вы используете клавиатуру, то это предполагает, что постоянно находитесь перед монитором, в то время, как голосовой интерфейс позволяет вам свободно передвигаться, так как голосовой ввод информации совсем не подразумевает, что вы будете смотреть на клавиатуру.

Такие усовершенствования буквально изменят дизайн устройств, а также полностью преобразят взаимодействие с ними. Экраны мобильных устройств станут больше, так как клавиатура больше будет не нужна. На сенсорных аппаратах будет не нужно делить дисплей на содержимое и на экранную клавиатуру, а значит, информацию можно будет просматривать в полный экран. Ноутбуки фактически уменьшатся вдвое, так как клавиатура будет ни к чему, все внутренние компоненты поместятся за дисплеем, следовательно, ноутбук просто превратится в планшетный компьютер. Стационарный компьютер состоял бы из системного блока и монитора, а место на рабочем столе, занимаемое простой клавиатурой, а также клавиатурой выдвигаемой, освободилось бы. Пульты дистанционного управления телевизором, панели управления на десятках устройств — от микроволновой печи до копировального аппарата — также стали бы не нужны.

Тем не менее, пришлось бы преодолеть большое количество проблем, чтобы претворить ГИ в жизнь. Во-первых, ГИ должен быть настолько хорошо устроен, чтобы различать голосовые команды и обычный разговор; в противном случае будет зафиксирован неверный ввод данных, и устройство отреагирует ошибочно. Стандартная реплика «Компьютер!» как говорят персонажи известной научно-фантастических киноэпопеи «Звёздный путь», могла бы активировать ГИ и подготовить устройство принять информацию того же говорящего. Предположительно, ГИ мог бы иметь человеческий облик: голос или экранный персонаж, который бы, например, мог отвечать и поддерживать диалог для уточнения запроса пользователя.

Во-вторых, ГИ мог бы взаимодействовать с высокотехнологичным программным обеспечением, чтобы тщательно обработать и найти (получить) информацию, или осуществить действие в соответствии с преференциями пользователя. К примеру, если вам нужна информация из определённой газеты и в виде списка, то вы можете сказать: «Компьютер, найди информацию о прошедшем вчера наводнении на юге Китая», а в ответ ГИ, учитывая преференции, «найдёт» факты о «наводнении» на «юге Китая» из нужного источника, преобразует в форму списка и представит на экране или в звуковой форме, приведя цитату. Таким образом, будет необходим точный механизм распознавания речи, с некоторой долей искусственного интеллекта по части устройства ГИ.

См. также

Пользовательский интерфейс
Пользовательский интерфейс технических
Распознавание речи
Список распознавание речи программного обеспечения
Голосовой браузер

Ссылки

Голосовые Интерфейсы: Оценка потенциала Якоб Нильсен
Создание голосового пользовательского интерфейса Майкл Х. Коэн, Джеймс П. Джиангола, Дженнифер Балог
Элементы голосового пользовательского интерфейса Ахмед Зид & Уэйи Ма

Обработка естественного языка
Общие определения	Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература