Распознавание речи

Распознавание речи

Система распознавания речи позволяет транскрибировать — преобразовывать в текст разговорную речь в online и offline режимах. Сервис дополнен нейросетевыми моделями отсеивания шумов, распознавания эмоций, оценки пола и возраста абонента
Узнать подробности Узнать подробности
Нейросетевая модель отсеивания шумов
Гибкие программные интерфейсы
Распознавание эмоций
Определение пола и возраста
  • Online и offline преобразование в текст (транскрибирование) спонтанной разговорной речи
  • Быстрая адаптация под любые задачи заказчика
  • Интеграция с коммуникационной платформой заказчика
  • Временные метки для быстрого поиска нужного фрагмента
  • Поддержка форматов аудиофайлов WAV, MP3, AIFF, WMA, FLAC, OGG и др.
  • Расшифровывать записи телефонных разговоров низкого качества
  • Определение и обработка многоканальных аудио- и видеофайлов
  • Обучение модели распознавания речи для любой сферы
  • Система распознавания речи обучена
    на 1 000+
    часов реальных разговоров
  • Скорость распознавания
    речи за 0,3c
    процессорного времени
  • Тематические словари, общим объёмом более
    2 млн
    слов с возможностью пополнения

Сферы применения

  • Протоколирование
  • Call-центры
  • Расшифровка телефонных обращений
  • Smart гаджеты
  • Голосовое заполнение документов
  • Cоздание субтитров для аудио и видеоконтента
  • Интеллектуальный агент (голосовой робот, помощник оператора, голосовой офисный ассистент)

Демонстрация

Как это работает

Речь абонента поступает в сервер распознавания. Для обработки речь разбивается на фреймы по 10 миллисекунд.
Фреймы с шумом отсеиваются при помощи рекуррентной нейросети.
Очищенная речь абонента поступает в акустическую модель, которая преобразует последовательность звуковых импульсов в фонемы.
Поток фонем проходит через лингвистическую модель, представляющую собой конечный автомат для преобразования последовательностей. Таким образом речь преобразуется в текст фразы.
Для уточнения результатов распознавания используется дополнительная лингвистическая модель, основанная на нейросетевой архитектуре RNNLM.
Используя свёрточную нейронную сеть, робот способен с точностью до 97% определять пол абонента и его возраст со средней погрешностью в 6 лет.
Распознавание речи

Стоимость

Свяжитесь с нами — мы расскажем больше о возможностях продукта и ответим на все ваши вопросы

Решение под ключ

Реализация от 1 мес.
  • Оценка объемов речевых данных и параметров звуковых потоков
  • Подготовка и настройка оборудования на стороне Заказчика
  • Интеграция с коммуникационной платформой заказчика
  • Адаптация модели распознавания речи на основе разметки 100-200 часов разговоров
  • Интеграция с CRM
  • Запуск в эксплуатацию
  • Гарантийная и постгарантийная поддержка

Аренда

Реализация от 3 дней до 1 мес.
  • Оценка объемов речевых данных и параметров звуковых потоков
  • Настройка оборудования на стороне АБК
  • Предоставление доступа к API (интерфейс)
  • Адаптация модели распознавания речи на основе разметки 100-200 часов разговоров
  • Сопровождение и поддержка

Оставить заявку

Свяжитесь с нами — мы расскажем о продукте больше и ответим на все ваши вопросы

Введите имя
Введите название организации
Введите телефон
Введите электронную почту
Подтвердите согласие
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
 

Вас может заинтересовать

Все продукты