2009-05-22 2 views
0

Мы видим, что все больше распознавания речи реализовано и запрашивает библиотеки, которые хорошо распознают речь. Какое обоснование (с точки зрения удобства использования) стоит за клавиатурой или клавиатурой? Какие причины вы должны были бы инвестировать в это развитие?Юзабилити: распознавание речи по сравнению с клавиатурой

Например, возьмем центры обработки вызовов. Несколько лет назад почти во всех колл-центрах использовался IVR, который подсказывал ключ для меню. Теперь мы видим все больше меню с подсказкой для произнесенного ключевого слова и/или нажатой клавиатуры: «Пожалуйста, скажите счет или нажмите« 1 », чтобы увидеть свой счет». Или мы видим то же самое в телефонном справочнике компаний: «Пожалуйста, скажите имя человека, которого вы пытаетесь достичь» ... «Franck Loyd» ... «Вы сказали Джек Фрейд? Пожалуйста, скажите« да », если хотите чтобы достичь этого человека или сказать «нет», чтобы повторить попытку ».

Я полагаю, что это плюс, когда вы находитесь в своем автомобиле, не держа телефон, но стоит ли ждать дополнительного времени? Более длительное взаимодействие для всех вариантов, более длительное время при попытке проанализировать, если что-то было сказано и так далее? Кроме того, надежность лучше, чем это было, определенно, но когда-то это больше похоже на игрушку, которую кто-то решил подключить к системе, чтобы она чувствовала себя футуристической.

Любой опыт проектирования IVR или программного обеспечения, которое использовало (или не выбрало) распознавание речи?

Спасибо!

ответ

1

Что обоснование (в срок практичности) за ней по сравнению с клавиатурой или клавиатуры?

Удобство использования - очень широкий термин. Если я попытаюсь ввести свой адрес с помощью сенсорной панели, это не будет считаться очень удобным. Некоторые утверждают, что использование речевого механизма с общим коэффициентом успеха 70-80% тоже не очень удобно. Как указано в других сообщениях, вход для рук может быть намного проще для тех, кто на мобильном телефоне. Однако использование слов по сравнению с цифровым входом может быть менее интуитивным, чем телефон с тональным набором, если тема несколько чуждо вызывающей. Выслушивающие слова и фразы звонящего, которые не очень хорошо знакомы, не могут запомнить их в течение 10-30 секунд подсказки, но они могут навешиваться на лучший выбор звучания пальцем или запоминать порядок выбора.

Какие причины у вас есть , чтобы инвестировать в эту разработку?

Это странный вопрос. Обычно решение использовать речь или нет в среде IVR не зависит от взгляда на мир в мире. Если у вас нет конкретного требования, которое действительно требует речи, вы почти всегда снижаете общие показатели успеха. Речь обычно является фактором корпоративного имиджа ... или имеет новейшую технологическую игрушку.

Я полагаю, что это плюс, когда вы находитесь в своем автомобиле, не удерживая телефон , но стоит ли дополнительно ждать?

Задержки распознавания речи не очень высоки в наши дни при использовании современных ASR. В большинстве случаев вход обрабатывается параллельно с речью и временем между окончанием распознавания речи - от 0,5 до 1 с. Имейте в виду, что многие IVR затем должны выполнять просмотр данных после некоторых входов, и это может выглядеть как более медленная система. Нормальные входные сигналы, выходящие за пределы 1s, обычно являются признаком слабого развертывания.

Возможно, он не был подключен к источнику питания, когда оригинал был выполнен, но благодаря усилиям по настройке вы принимаете много решений по эффективности и точности. Чтобы получить следующий .1%, ресурсы могут быть вытеснены за пределы того, что должно быть на пике.

Кроме того, надежность лучше, чем это было, безусловно, , но иногда он чувствует себя больше как игрушка кто-то решило к подключены к системе, чтобы он мог чувствовать себя футуристическим.

В общем, да. В примечании о надежности вам нужно действительно посмотреть на общие цифры, чтобы понять систему. Это битва статистики, где человек не очень важен (если они не имеют титул VP или выше). Благодаря оптимизации ввода (смещение подсказки), использованию ресурсов и другим параметрам настройки речевого реко, вы пытаетесь максимизировать точность. Для основных ответов на естественный язык вы можете попасть в верхние 90-е годы. Однако общий коэффициент успеха намного ниже. Представьте, что 5 подсказок все на 98% (на самом деле у вас, как правило, есть пучок 99, а затем несколько середин 90 или чуть ниже): .98 * .98 * .98 * .98 * .98 = 90%. Это означает, что 1 из 10 неудачно. Это до смешения и бизнес-правил вызывающего абонента.Вход DTMF обычно очень близок к 100%, даже после нескольких входов.

Любой опыт проектирования IVR или программного обеспечения, которое использовал (или не выбрал) распознавание речи? Да. Но я подозреваю, что это действительно не тот вопрос, который вы хотите. Как кто-то на стороне технологии, это обычно не ваше решение, и вы имеете ограниченное влияние на него. Если вы действительно ищете плюсы/минусы речи:

. Плюсы:

  • Прохладный/бедра (заметьте, одна речь не достаточно Вам нужен большой VUI и дикторы)
  • Хорошо подходит для высокомобильной толпы, которая избегает частей уха. Предполагается, что будущее будет смешивать речь с тактильным входом. Может быть. Вероятно, это произойдет не с IVR-рынка.
  • Хорошо подходит для задач, которые не могут быть выполнены с помощью DTMF. Обратите внимание: многие из этих проблем, как правило, имеют низкие показатели успеха в речи. Стоимость (по сравнению с людьми), как правило, является движущей силой, а не удобством использования. Отключение вызова в поле голосовой почты для таких вещей, как изменение адреса, может быть очень экономичным.

Минусы:

  • Дорого развития, развертывания и поддержки. Добавление новых вариантов может существенно повлиять на показатели успеха, если вы не будете осторожны. Всегда отслеживайте влияние изменений.
  • Часто развертывается ненадлежащим образом. Например, просто укажите свой выбор в цифровом меню. Это почти часто случается, когда мы хотим спокойствия речи, но не можем позволить себе то, что действительно нужно для достижения речевой прохлады.
  • Успех будет ниже, и поэтому стоимость центра обработки вызовов будет выше.
  • Неудачи, как правило, фокусируются на конкретных подсказках и отдельных абонентах. Вызывающий, который регулярно испытывает проблемы с вашей системой, будет очень недоволен вами.
  • Звонящие злятся, когда их не понимают. Ваша цель определить подмножество вашей клиентской базы и действительно рассердить их?
+0

Отличный ответ. Благодарю. Что касается дополнительного времени ожидания, я в основном ссылался на более длинные подсказки, часто требуемые для описания того, как взаимодействовать с системой, а не времени системы, необходимого для анализа голоса. Запросы часто: «нажмите 1, чтобы получить доступ к своим счетам или сказать« счета-фактуры »громко и ясно, нажмите 2, чтобы поговорить с кем-то или сказать« невозможно », бормоча». – lpfavreau

1

Я считаю, что распознавание речи, как и любой метод ввода, имеет про-и -кон.

  • Нет кривой обучения Pro, мы не говорили, так как в очень молодом возрасте.
  • Очень интуитивно понятный пользователь.
  • По телефону нет необходимости постоянно перемещать гарнитуру из уха.

  • Дольше время ожидания Con в
  • Если плохое качество звука, требуется несколько попыток, чтобы получить право выбора.
+1

У этого также есть ограничение, требующее обучения пользователя для оптимизации производительности. Если вы обладаете необычным акцентом, то, что вы столкнулись с обученными телефонами, может дать вам грубое время. –

+0

Мне нравится аргумент «переместите гарнитуру из уха», но, с другой стороны, в большинстве систем вам нужно ввести хотя бы что-то на клавиатуре (ваш NIP, номер кредитной карты и т. Д.) И хороший IVR shouldn у вас больше, чем у 4 или 5 уровней? Не нужно забирать слишком много. – lpfavreau

+0

@ Ipfavreau: Я столкнулся с системами, которые на самом деле говорят вам каждое число, хотя это, как правило, разочаровывает. –

1

В некоторых случаях компания должна обрабатывать вращающиеся телефоны. Это может быть найдено как более затратная аффективность, чтобы просто настроить систему распознавания вместо того, чтобы и то, и другое.

Распознавание голоса имеет намного больше накладных расходов, чем сенсорные мелодии. Если вам нужны лучшие результаты, вам нужно постоянно настраивать приложение и обучать систему непризнанным произношениям слов. Вы также должны быть очень конкретными в отношении того, как вы запрашиваете у пользователя распознавание голоса, или вы можете получить неожиданные ответы.

Общий сенсорный тон намного проще, поскольку в любой момент времени существует только ограниченный набор возможных параметров.

Если ваше приложение достаточно прямо вперед, вы можете сказать, что многие из них только усложняют его. Нажмите 2 для некоторых других языков.

1

Распознавание речи - определенно волна будущего в сочетании с технологией сенсорного экрана. В качестве примера я использую распознавание речи тазти. Он доступен в версии XP и Vista. Поскольку сенсорная платформа Microsoft «Surface» работает на Vista, я уверен, что tazti будет работать с сенсорной технологией. Когда я пробовал распознавание речи тазти, встроенные команды отлично работали.Также он позволяет мне создавать собственные речевые команды, и они также отлично работают. Голосовой поиск Google и Yahoo, Wikipedia Youtube и многих других поисковых систем отлично работает. Имеет много других функций. Но у него нет диктата. Я обнаружил, что я удаляю 70% или более моих кликов, вызванных интернетом .... возможно, больше. ПРИМЕЧАНИЕ. Tazti - это бесплатная загрузка с их сайта.