Голосовые ассистенты перестали быть игрушкой. В 2026 году бизнес использует их для обработки входящих звонков, голосовых сообщений в Telegram, виджетов на сайте. Разберём архитектуру и реальные цифры.
Пайплайн: три компонента
Любой голосовой AI строится по схеме:
Аудио пользователя
→ STT (Speech-to-Text): аудио → текст
→ LLM: текст → текст-ответ
→ TTS (Text-to-Speech): текст → аудио
→ Аудио пользователю
Задержка на каждом этапе складывается в итоговый time-to-first-audio. Цель — менее 3 секунд для естественного ощущения разговора.
STT: варианты распознавания речи
Whisper (OpenAI)
- API: $0.006 за минуту аудио. Хорошее качество, поддержка русского.
- Self-hosted: модель Whisper Large V3 Turbo (3 GB VRAM). На RTX 4090 — реального времени достаточно для 10+ параллельных потоков.
- Latency: API ~1 – 2 сек, self-hosted на GPU ~0.3 – 0.5 сек.
Yandex SpeechKit
- Хороший вариант для русского языка, стриминг распознавания в реальном времени.
- От 0.16 руб за секунду аудио (стриминг дешевле пакетного).
- Интеграция через gRPC — быстрее REST.
Deepgram Nova‑3
- Лучший на сегодня по соотношению скорость/качество для английского, русский хуже.
- Latency ~300 мс в streaming режиме.
Для русскоязычного бизнеса: Yandex SpeechKit или self-hosted Whisper на GPU.
TTS: синтез голоса
Edge-TTS (Microsoft)
- Полностью бесплатный, нет API-ключа.
- Голос
ru-RU-SvetlanaNeural— приемлемое качество для бизнес-ботов. - Latency: 0.5 – 1 сек на типичный ответ.
import edge_tts
import asyncio
async def text_to_speech(text: str, output_file: str):
communicate = edge_tts.Communicate(text, "ru-RU-SvetlanaNeural")
await communicate.save(output_file)
asyncio.run(text_to_speech("Добрый день, чем могу помочь?", "response.mp3"))
ElevenLabs
- Высокое качество, клонирование голоса из 1‑минутного семпла.
- От $5/мес (10K символов). Хорошо для ответственных кейсов (презентации, аудиогиды).
- Latency: 0.8 – 1.5 сек через streaming API.
CosyVoice 3 (Alibaba, self-hosted)
- Клонирование голоса из 3‑секундного семпла — лучший результат среди open-source.
- Требует GPU (16+ GB VRAM для комфортной работы).
- Подходит для брендового голоса компании без привязки к вендору.
Yandex SpeechKit TTS
- Голос Алисы и другие — очень хорошее качество для русского.
- Streaming: первые чанки приходят через 200 – 400 мс.
- Цена: ~0.25 руб за 1000 символов.
Bi-streaming: ключ к низкой задержке
Наивный подход — ждать полного ответа LLM, потом отдавать в TTS. Это добавляет 1 – 3 сек.
Bi-streaming устраняет проблему:
- LLM генерирует токены по мере готовности (streaming)
- TTS получает первое предложение и сразу начинает синтез
- Пользователь слышит начало ответа, пока LLM ещё генерирует продолжение
Итоговый time-to-first-audio с bi-streaming: 0.8 – 1.5 сек против 3 – 5 сек без него.
Интеграция с телефонией
Asterisk (self-hosted АТС)
- Asterisk + AGI скрипт: Asterisk передаёт аудио на обработку, получает ответ.
- Сложная настройка, но полный контроль. Подходит для call-центров.
- Протокол: SIP, аудио через RTP.
Облачные АТС (Манго, Билайн, МТТ)
- Большинство поддерживают webhook при входящем звонке.
- Интеграция через REST API: получить запись, отправить на STT, отдать TTS-аудио для проигрывания.
- Ряд операторов поддерживают WebSocket для реального времени.
Практический стек для колл-бота:
Входящий звонок → Облачная АТС (webhook)
→ FastAPI сервер
→ Yandex STT (streaming)
→ Claude / GPT (streaming)
→ Edge-TTS / Yandex TTS (streaming)
→ Аудио обратно в АТС
Голосовые сообщения в Telegram
Один из самых простых кейсов для старта.
@router.message(F.voice)
async def handle_voice(message: Message):
# Скачиваем голосовое
file = await bot.get_file(message.voice.file_id)
audio_bytes = await bot.download_file(file.file_path)
# STT через Whisper API
transcript = await transcribe_audio(audio_bytes)
# Ответ от LLM
ai_response = await get_ai_response(transcript)
# TTS → отправляем голосовым
audio_response = await synthesize_speech(ai_response)
await message.answer_voice(audio_response)
Сценарий работает в продакшне для саппорт-ботов, HR-ботов, помощников по документам.
Виджет на сайте с WebSocket
Архитектура: браузер захватывает микрофон через MediaRecorder API, отправляет чанки аудио по WebSocket, получает обратно аудио-стрим.
Ключевые моменты реализации:
- VAD (Voice Activity Detection) на клиенте — не отправлять тишину
- Буферизация первых 500 мс перед STT — снижает количество ложных запросов
- Индикатор состояния: слушаю → думаю → говорю
Стек: FastAPI + WebSocket на бэке, @microsoft/cognitiveservices-speech-sdk или raw WebSocket на фронте.
Реальные цифры задержки и стоимости
| Компонент | Latency | Стоимость/мес (1000 диалогов) |
|---|---|---|
| Whisper API (STT) | 1 – 2 сек | ~$6 |
| Yandex STT streaming | 0.2 – 0.5 сек | ~900 руб |
| Claude Haiku (LLM) | 0.3 – 0.8 сек (first token) | ~$15 |
| Edge-TTS | 0.5 – 1 сек | Бесплатно |
| ElevenLabs | 0.8 – 1.5 сек | от $5 |
| Итого (бюджетный стек) | ~2 сек | ~$25 – 30 |
Цены актуальны на март 2026. Уточняйте на сайте сервиса.
Когда голосовой AI оправдан, а когда нет
Оправдан:
- Входящие звонки, которые некому обрабатывать ночью/в выходные
- Голосовые сообщения в Telegram как основной канал клиентов
- Сценарии, где клиенту удобнее говорить, чем печатать (мобильная аудитория, водители)
- Обзвон по базе с простым скриптом
Не оправдан:
- Сложные переговоры — AI не заменит менеджера
- Нет бюджета на GPU или нет DevOps — поддержка self-hosted стека требует ресурсов
- Аудитория не готова к ботам (B2B премиум сегмент, где ценят живой контакт)
Есть идея? Реализуем
Разрабатываем проекты, которые решают задачи бизнеса — от лендинга до сложного сервиса. Расскажите о своей задаче, подберём решение.

