Станислав Ежов, «Группа Астра»: «Доверенный ИИ начинается не с выбора модели, а с проектирования контура»
Разработка системы технической целостности оборудования для нефтегазовой компании
Система защиты конечных устройств для международной промышленной компании
Эксперт компании «Газинформсервис» предложила инструмент, оценивающий безопасность ИИ
Обзор обновленной версии платформы автоматизации ИТ-операций Astra Automation 2.0
ЦБ
°
среда, 6 мая 2026

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи

Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи
Компания BSS значительно улучшила производительность своего модуля автоматического распознавания речи (ASR), используемого в диалоговой платформе Digital2Speech. Новая версия ASR работает более чем в три раза быстрее, сохраняя при этом высокое качество распознавания.

Благодаря недавнему обновлению скорость реакции голосового робота увеличилась более чем в три раза. Это означает, что голосовой ассистент теперь отвечает на запросы пользователей ощутимо быстрее, поэтому взаимодействие с ним стало более плавным и естественным. Несмотря на значительное увеличение скорости, качество распознавания речи не только не пострадало, но и улучшилось. 

Основным фактором, позволившим реализовать эти улучшения и достичь результата, стал переход на новую архитектуру нейросети Zipformer. Эта архитектура существенно ускоряет процесс распознавания и увеличивает его точность за счет уменьшенного количества слоев нейросети, специальных методов сжатия данных и ряда других механик. Ранее компания использовала технологию Conformer.

Новая архитектура позволяет значимо снизить требования к аппаратному обеспечению и экономить на вычислительных мощностях благодаря увеличению эффективности. Оптимизированное решение адаптировано для использования в контуре заказчика. Поэтому обновленный ASR по-прежнему можно запускать как на GPU картах для обеспечения максимальной производительности, так и на более доступных x86 серверах.

«Скорость отклика голосового робота является одной из трех важнейших характеристик, по которым пользователи оценивают "человечность" и "приятность" голосового ассистента. И мы смогли, как минимум, в три раза ускорить распознавание вопроса абонента, сделав взаимодействие с нашим голосовым роботом еще более комфортным. Сегодня Zipformer это новейшая и самая эффективная архитектура для задач распознавания речи, которая появилась только год назад. Я рад, что мы одни из первых смогли представить ее своим клиентам и подготовить надежное решение Enterprise уровня», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.

Тематики: Фиксированная связь, Интеграция

Ключевые слова: BSS

Свежее по теме