Голосовой интерфейс

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Голосовой интерфейс (или «голосовой интерфейс пользователя») при помощи голосовой\речевой платформы делает возможным взаимодействие человека и компьютера для запуска автоматизированного сервиса или процесса.

Ранее контролировать устройство при помощи голоса было возможно только в научной фантастике. До недавнего времени считалось областью искусственного интеллекта. Тем не менее, с развитием технологий ГИ стал всё более распространённым, человек всё чаще пользуется преимуществами этой бесконтактной технологии.

Однако, использование ГИ имеет свои сложности. Люди с малой долей терпения относятся к «машине, которая не понимает». Следовательно, ГИ должен работать почти безошибочно, а значит, стабильно реагировать на входные данные, иначе пользователи не будут применять ГИ, либо ГИ станет объектом насмешек. Для того, чтобы создать стоящий голосовой интерфейс, необходимы междисциплинарные знания в информатике, лингвистике и психологии — дорогостоящие навыки, которые нелегко приобрести. Даже при наличии продвинутых средств разработки, создавая эффективный ГИ, нужно отдавать себе отчёт в том, какие задачи будет выполнять ГИ, и на какую целевую аудиторию он ориентирован. Чем лучше ГИ будет подходить под когнитивную модель задания пользователя, тем легче будет использовать ГИ без или с минимальным обучением, что повысит его эффективность и степень удовлетворённости пользователей.

Очень важны особенности целевой аудитории. К примеру, создавая ГИ для широкой публики, нужно уделить особое внимание простоте использования и большому количеству инструкций и подсказок для начинающих. В то время, как придумывая ГИ для небольшой группы продвинутых пользователей (в том числе для техподдержки), нужно больше думать о продуктивности, чем о подсказках и инструкциях. Такие приложения должны систематизировать обработку вызовов, минимизировать количество подсказок, устранить ненужные повторения, использовать принцип «смешанной инициативы», который позволит звонящему вносить разные типы информации в одном высказывании и в любом порядке или комбинации. Иными словами, ГИ должен быть специально создан для конкретных технологических процессов, которые нужно автоматизировать.

Голосовой интерфейс подойдёт не для каждого технологического процесса. В общем, чем более многогранны запросы и операции, тем сложнее их будет автоматизировать, и тем большая существует вероятность, что ГИ не подойдет для использования широкой публикой. В некоторых случаях, автоматизация процесса в принципе невозможна, поэтому единственный выход — использование консультанта-человека. К примеру, будет очень сложно автоматизировать горячую линию юридической поддержки. С другой стороны, ГИ прекрасно подойдёт для обработки быстрых и однообразных операций, таких как изменение статуса заказа, заполнение графы «время» или «стоимость», или перевод средств между счетами.

Дальнейшее использование

В карманных устройствах, таких как КПК или мобильные телефоны, для ввода информации используются маленькие кнопки, которые либо встроены в гаджет, либо являются частью интерфейса с сенсорным экраном, как на Apple iPod Touch или iPhone. Постоянно нажимать на кнопки таких девайсов утомительно, к тому же может привести к ошибкам, поэтому лёгкий в использовании, точный и надёжный голосовой интерфейс мог бы стать глобальным прорывом в использовании карманных устройств. Кроме того, ГИ мог бы стать эффективным в использовании ноутбуков и стационарных компьютеров, так как решил бы проблемы, связанные с использованием клавиатуры и мыши, в том числе травмы, связанные с постоянными нагрузками, такие как синдром запястного канала, а также устранил бы препятствие в виде низкой скорости печати, что важно для начинающих пользователей. Более того, если вы используете клавиатуру, то это предполагает, что постоянно находитесь перед монитором, в то время, как голосовой интерфейс позволяет вам свободно передвигаться, так как голосовой ввод информации совсем не подразумевает, что вы будете смотреть на клавиатуру.

Такие усовершенствования буквально изменят дизайн устройств, а также полностью преобразят взаимодействие с ними. Экраны мобильных устройств станут больше, так как клавиатура больше будет не нужна. На сенсорных аппаратах будет не нужно делить дисплей на содержимое и на экранную клавиатуру, а значит, информацию можно будет просматривать в полный экран. Ноутбуки фактически уменьшатся вдвое, так как клавиатура будет ни к чему, все внутренние компоненты поместятся за дисплеем, следовательно, ноутбук просто превратится в планшетный компьютер. Стационарный компьютер состоял бы из системного блока и монитора, а место на рабочем столе, занимаемое простой клавиатурой, а также клавиатурой выдвигаемой, освободилось бы. Пульты дистанционного управления телевизором, панели управления на десятках устройств — от микроволновой печи до копировального аппарата — также стали бы не нужны.

Тем не менее, пришлось бы преодолеть большое количество проблем, чтобы претворить ГИ в жизнь. Во-первых, ГИ должен быть настолько хорошо устроен, чтобы различать голосовые команды и обычный разговор; в противном случае будет зафиксирован неверный ввод данных, и устройство отреагирует ошибочно. Стандартная реплика «Компьютер!» как говорят персонажи известной научно-фантастических киноэпопеи «Звёздный путь», могла бы активировать ГИ и подготовить устройство принять информацию того же говорящего. Предположительно, ГИ мог бы иметь человеческий облик: голос или экранный персонаж, который бы, например, мог отвечать и поддерживать диалог для уточнения запроса пользователя.

Во-вторых, ГИ мог бы взаимодействовать с высокотехнологичным программным обеспечением, чтобы тщательно обработать и найти (получить) информацию, или осуществить действие в соответствии с преференциями пользователя. К примеру, если вам нужна информация из определённой газеты и в виде списка, то вы можете сказать: «Компьютер, найди информацию о прошедшем вчера наводнении на юге Китая», а в ответ ГИ, учитывая преференции, «найдёт» факты о «наводнении» на «юге Китая» из нужного источника, преобразует в форму списка и представит на экране или в звуковой форме, приведя цитату. Таким образом, будет необходим точный механизм распознавания речи, с некоторой долей искусственного интеллекта по части устройства ГИ.

См. также

Ссылки