Облачные решения Cloud4Y для речевой аналитики

Наверняка вы хотя бы раз общались по телефону с ботом, который отвечал на ваши вопросы и переадресовывал к нужному специалисту. Эти и другие голосовые технологии становятся привычной частью жизни. Качество голосовых решений постоянно повышается, предлагая всё больше возможностей. Если раньше машина понимала речь не с первого раза и зачастую неправильно, то теперь можно свободно общаться с ней голосом.

Сфера применения технологий распознавания и синтеза речи становится всё шире. ИИ успешно подменяет человека при обзвоне клиентов или в обработке онлайн заказов, тем самым избавляя живых сотрудников от рутинной работы. Однако отрасль эта достаточно сложная, и для создания качественного продукта требуется много сил, специфических знаний и умений.

Российская компания Fonemica – один из лидеров рынка по предоставлению инструментов речевых технологий и сервиса речевой аналитики. Она разрабатывает технологии распознавания и синтеза речи, речевую аналитику и создаёт голосовых роботов. Компания также разрабатывает технологии модерации аудио- и видеопотоков онлайн и офлайн, предлагая бизнес-аналитику и hardware-решения. С 2019 года Fonemica является членом Ассоциации лабораторий по развитию искусственного интеллекта, а также включена в Национальную стратегию поддержки и развития искусственного интеллекта в РФ.

В отличие от компаний-конкурентов, Fonemica умеет работать как в облаке, так и в закрытом контуре, путём отчуждения лицензий. Благодаря технологическим преимуществам компания может подбирать индивидуальные решения для каждого заказчика. А собственные разработки позволяют не зависеть от внешних поставщиков.

речевая аналитика

Чем занимается Fonemica?

Компания Fonemica разрабатывает технологии и решения на основе ИИ и машинного обучения в области распознавания речи, речевой аналитики и создания голосовых ботов. Основными решениями компании являются речевая аналитика для звонков (перевод устной речи в текст, анализ содержания разговоров сотрудников), голосовые боты (полновесная замена работников колл-центров), диктофоны для записи речи и звуковой аналитики для сотрудников розницы.

Система речевой аналитики распознаёт устную речь и переводит её в текст. Это позволяет компаниям узнать содержание разговоров сотрудников с клиентами, оценить качество обслуживания, найти и устранить проблемы во внешних коммуникациях.

Платформа речевой аналитики для звонков может быть легко подключена к мобильной связи, стационарным телефонам, аппаратным, программным и виртуальным АТС, чатам и мессенжерам, CRM-системам.

Кому и зачем это нужно?

Голосовые технологии актуальны во многих отраслях. Практически в любой сфере они способны заменить людей для выполнения обзвона и информирования клиентов, для сбора информации и проведения опросов. А расшифровка звонков позволяет быстро и без лишних затрат оценить эффективность работы сотрудников.

Голосовые технологии уже используются в разных отраслях:

Маркетинг. Разработка сценариев диалогов, анализ тенденций в разговорах, настроение клиентов.
Для продаж. Поиск лидов и холодный обзвон, приём заказов, отработка возражений, выявление успешных методик продаж.
Колл-центры. Ответы на часто задаваемые вопросы, приём звонков, автоматическая запись на приём к специалистам.
В сфере HR. Поиск и обзвон кандидатов, проведение первичных интервью и собеседований, рассказ о вакансиях и условиях, анализ речи соискателей.

Наибольший интерес для компании Fonemica представляет российский рынок из-за низкого проникновения облачных технологий. В некоторых отраслях оно составляет менее 5%. Также перспективными направлениями являются страны СНГ — Казахстан, Узбекистан, Украина, — и страны Азии, особенно Индия.

Получить консультацию об облачных сервисахЗаказать звонок

Как это работает?

Технологии распознавания позволяют трансформировать устную речь в текст. Благодаря этому можно без прослушивания всех звонков узнать, о чём говорил сотрудник с клиентами, оценить слабые и сильные места. Причём точность распознавания составляет 85-87%. Как это происходит?

На самом деле сейчас нет смысла изобретать велосипед, то есть искать новые концепции и алгоритмы. Рабочих вариантов под разные задачи достаточно и при необходимости любой желающий может ими воспользоваться. ИИ распознаёт и синтезирует голос вполне уверенно. Основная сложность заключается именно в тонкостях машинного обучения. Снижение доли ошибок, повышение уровня естественности звучания, адекватных реакций и т.п. Fonemica обучает свой "движок" и модели на широком спектре реальных данных, что даёт преимущество перед многими игроками на рынке.

Механизм распознавания

Входящую звуковую волну система разделяет на отдельные потоки. Таким образом она понимает, какие фразы принадлежат сотруднику компании, а какие – клиентам. Можно отмотать и прослушать записи диалогов с любого места.

Чтобы перевести голос в текст, звуковой поток делится на небольшие фрагменты, так называемые фреймы. Длина каждого — около 25 мс, шаг — 10 мс. Обычно фрейм захватывает участки с соседних фреймов, чтобы уловить переходы между звуками.

Далее из аудиопотока удаляются все лишние признаки (тембр, половая принадлежность) для облегчения распознавания. После этого подключается нейронная сеть. Она выдает свои предсказания по фонемам на каждом фрейме, то есть пытается угадать, какая именно фонема использовалась.

После этого происходит анализ вероятностей, исходя из языковой модели. То есть из группы вариантов выбирается наиболее логичное слово в данном контексте. Учитываются и интонации, с которыми произносятся фонемы.

Это базовые принципы, а дальше можно улучшать конечный результат.

В конечном итоге звонок превращается в текстовый диалог по ролям. Платформа способна распознавать 100% устной речи. Решение от Fonemica распознаёт речь на 35 языках. Конечно, языки кардинально отличаются, самая сложная область — это обучение нейросети и подбор данных для этого обучения. С распознаванием русского языка практически нет проблем, но могут возникать сложности с акцентами и диалектами. В этом случае требуются дополнительные усилия по обработке.

Помимо распознавания, система Fonemica занимается речевой аналитикой. То есть может оценить наличие в разговоре ключевых слов и выражений, распределить их по категориям, выявить тематику, найти нужное слово и тому подобное. Платформа может понимать и учитывать при обработке смысл предложений, оценивать эмоциональный фон. То есть система самостоятельно делает вывод о результате общения, о настроении клиента и его лояльности.

Что ещё умеет платформа

Боты способны общаться, как живые операторы. Они распознают речь и понимают запросы и намерения собеседника, задают уточняющие вопросы, самостоятельно дают ответы, записывают полученную информацию. В результате бот заменяет целый штат операторов и решает основную массу рутинных задач.

Решение от Fonemica способно грамотно отреагировать, если клиент перебил робота. Тот останавливается и перестраивает диалог исходя из новой потребности клиента. В голосе нет роботизированных ноток, он умеет создавать нужные интонации и эмоции, поэтому его легко перепутать с человеческим. Но при желании роботизированные нотки можно добавить.

Если собеседник недоволен или хамит, робот способен это опознать. В случае прерывания диалога, робот запоминает последний момент, самостоятельно перезванивает и продолжает с той же точки.

Облачные вычисления в голосовых технологиях

Тема распознавания и синтеза речи непосредственно связана с облачными технологиями. Анализ речи, машинное обучение – всё это требует огромных вычислительных мощностей, которые проще получить через облако.

Для обучения движков и языковых моделей (инференса) требуются высокомощные вычисления. Для этого активно применяются GPU-технологии. Одна GPU заменяет 100 CPU.

В том числе сервис требует мгновенного расширения и сворачивания при пиковых нагрузках. Fonemica поддерживает все способы виртуализации, что даёт клиентам максимальную гибкость.

Облачный провайдер Cloud4Y смог предоставить Fonemica необходимые компьютерные мощности для успешной работы. За один месяц на платформе VMware была развёрнута облачная модель инфраструктуры с сервисами, настроенными по индивидуальным параметрам компании Fonemica под собственным администрированием.

На текущий момент только 20% процессов идет через облачные ЦОДы, но в будущем компания ожидает двукратного роста использования облачных технологий в России и СНГ.

gpu render farm cloud server

Облака для речевой аналитики