Ведомости: О чем речь
Ваш разговор будет записан
Создание голосовых ассистентов, распознавание телефонных разговоров в
Существует множество направлений применения речевых технологий: транскрибация звуковых файлов в текст или автоматический перевод на иностранные языки, голосовой ввод данных в приложениях, помощь клиентам по типовым запросам, прием и маршрутизация голосовых обращений в техподдержку, протоколирование заседаний, управление умными устройствами и многое другое.
Сегодня объем отечественного рынка речевых технологий и продуктов на их базе составляет около 24 млрд рублей. На нем работает более 15 локальных вендоров, в числе ключевых игроков — Яндекс, Тинькофф, Сбер, 3iTech. Их решения построены на общем принципе «из речи в текст и обратно», но отличаются по ряду параметров дополнительных возможностей. Рассмотрим на что способны российские речевые платформы.
Человеческий фактор
Речевые технологии не просто превращают голосовые файлы в текст и наоборот озвучивают его, они еще и анализируют полученные данные и делают определенные выводы, позволяющие организациям совершенствовать свое взаимодействие с клиентами. Это так называемая речевая аналитика. Чаще всего она используется для оценки качества обслуживания клиентов.
«По большому массиву аудиоданных можно собирать информацию о том, насколько эффективна работа каждого сотрудника и всего подразделения, насколько точные ответы получает клиент, насколько качественно менеджер по продажам «идет по скрипту», часто ли в разговорах проскакивают негативные эмоции, — перечисляет эксперт Центра искусственного интеллекта СКБ Контур Елена Волкова.
Следующий этап эволюции речевых технологий — не просто слушать человека и записывать сказанное им, а самому вступать с ним в контакт, освобождая операторов для решения более сложных задач. При покупке товаров робот информирует покупателя о статусе заказа, при записи на прием — согласовывает время и дату, при найме — проводит первичное собеседование. Сокращаются затраты на персонал, бот не «выгорает» и показывает конверсию в среднем на четверть выше, чем человек, за счёт четкого следования скрипту и безразличия к негативу.
Сильные стороны
При выборе вендора большую роль играет качество технологии распознавания. «Точность исчисляется показателем WER — частотой ошибок в словах, — поясняет директор департамента контактных центров и роботизированных систем компании NAUMEN Сергей Попов. — Распознавание, работающее на широком домене, то есть обученное на датасетах из разных предметных областей, сможет эффективнее работать с вариативной речью клиентов, не ограничиваясь узким набором возможных ответов».
У решений ключевых игроков точность распознавания приблизительно одинаково высокая, поэтому заказчики смотрят на добавочный функционал.
Например, у платформы SaluteSpeech от Сбера есть
Сильная сторона Yandex SpeechKit — скорость распознавания и возможность быстро генерировать большой объём текста. Функция «Пунктуатор» повышает точность автоматической расстановки знаков препинания, поэтому итоговый текст проще воспринимается читателем. Движок Yandex SpeechKit используется не только в сервисах Яндекса, например в Навигаторе, он также доступен разработчикам мобильных приложений для iOS и Android. Предусмотрена возможность голосовой активации — включение по голосовой команде. Система запускается прямо на устройстве, анализирует весь входящий звуковой поток и при обнаружении речи начинает искать в ней кодовую фразу, заданную разработчиком. Это позволяет экономить заряд батареи в смартфоне или планшете.
Платформа Tinkoff VoiceKit при сортировке звонков отбирает записи по более чем 20 фильтрам, к примеру, по дате, фамилии оператора, по продолжительности разговора, по длительности пауз в нем, по темпу речи, по результату разговора. Система ищет не просто однокоренные слова, а близкие по контексту синонимы. Если фраза была произнесена, то сервис найдет ее из 20 миллиардов выражений за пару секунд. Технологии Tinkoff VoiceKit тоже имеют «надстройку» — телефонного секретаря Олега. Он предназначен для абонентов любых сотовых операторов. Олег защищает от спама и нежелательных звонков, записывает разговор и присылает владельцу расшифровку речи, причем клиент может заранее решить, на какие номера сервис будет отвечать, а на какие — нет.
Платформа 3i VOX предлагает голосовую биометрию для идентификации и поиска целевых голосов в аудиозаписях, а также голосовой антифрод для минимизации рисков от мошеннических действий и внешних угроз. Разработчики ПО и сервисов также могут создавать интеллектуальные приложения с 3i VOX и встраивать в них различные функции платформы по частям или комплексно. Легко создавать субтитры для
Всегда под рукой
Для заказчиков важен и доступ к быстрому тестированию технологии. Вендоры предлагают демоверсии разной степени «погружения в продукт».
Tinkoff VoiceKit на своем сайте предлагает и синхрон, и асинхрон, кроме того, есть
У SaluteSpeech тоже есть
3i VOX формирует текстовый файл по итогам расшифровки аудио, загруженного на сайт. Помимо русского и английского поддерживает казахский и узбекский. Малейшая пауза в разговоре воспринимается как конец предложения, кроме того, собеседникам в диалоге присваиваются номера, с которых начинается каждая фраза,
У Yandex SpeechKit нет возможности протестировать асинхронную расшифровку.
Не словом единым
Голосовые ассистенты постепенно учатся распознавать эмоции, чтобы строить более глубокий диалог. «Заказчики обращают внимание на возможность легкой настройки скриптов, позволяющих предоставить ответ клиенту, оперативной публикации новых веток ответов, а также качество распознавания голоса и естественность синтеза речи», — убежден директор
«Роботы уже сейчас способны улавливать в интонациях ту или иную эмоцию и реагировать на это соответствующими речевыми конструкциями, — отмечает руководитель AI/ML проектов компании ITentika Дмитрий Ходыкин. — Для реализации такого поведения нейронные сети обучают на участках речи человека, которые изначально помечены как „грустные“, „гневные“ и так далее».
Также важную роль играет сам голос ассистента. Все больше компаний уделяет этому особое внимание, бизнесу становится важно, чтобы голос их цифрового представителя был уникальным и запоминался клиентам.
«Крупные компании стремятся наделять своих помощников уникальным голосом, который отражает их позиционирование и имидж», — подтверждает Сергей Попов из NAUMEN.
Для создания голоса бренда у Yandex SpeechKit есть Brand Voice, а SaluteSpeech предлагает услугу YourVoice. После получения готового голоса заказчик с помощью технологии синтеза может озвучить необходимый ему текст.
Yandex SpeechKit в опции Brand Voice Adaptive синтезирует голос по записанным заранее
Цена слова
Среди других важных факторов, влияющих на заказчика при выборе голосового сервиса, можно выделить: легкую интеграцию по API, наличие разных форматов поставки и, конечно, стоимость самого решения. Стоимость на развертывание решения в контуре компании рассчитывается индивидуально, а вот стоимость облачного использования вполне можно сопоставить.
Синтез Yandex SpeechKit стоит от 1 320 рублей за 1 млн символов, синхронное распознавание — 0,1600 рублей, асинхронное — 0,0025 рублей.
Синтез Tinkoff VoiceKit в реальном времени стоит 820 рублей за млн символов, минута распознавания при
Минимальная стоимость использования SaluteSpeech — 600 рублей в месяц, синтез речи — 186 рублей за 1 млн символов, распознавание — 1 копейка за секунду.
А вот 3i VOX свои цены не афиширует.
Еще один критерий, который дает важное преимущество при выборе вендора, это вхождение в реестр отечественного ПО. SaluteSpeech и Yandex SpeechKit в реестре, а вот 3i VOX и Tinkoff VoiceKit пока нет. Возможно, это связано с тем, что эти разработчики не ориентированы на крупный бизнес и госкорпорации.