Голосовой AI-ассистент для бизнеса: как работает

Голосовые ассистенты перестали быть игрушкой. В 2026 году бизнес использует их для обработки входящих звонков, голосовых сообщений в Telegram, виджетов на сайте. Разберём архитектуру и реальные цифры.

Пайплайн: три компонента

Любой голосовой AI строится по схеме:

Аудио пользователя
  → STT (Speech-to-Text): аудио → текст
  → LLM: текст → текст-ответ
  → TTS (Text-to-Speech): текст → аудио
  → Аудио пользователю

Задержка на каждом этапе складывается в итоговый time-to-first-audio. Цель — менее 3 секунд для естественного ощущения разговора.

STT: варианты распознавания речи

Whisper (OpenAI)

  • API: $0.006 за минуту аудио. Хорошее качество, поддержка русского.
  • Self-hosted: модель Whisper Large V3 Turbo (3 GB VRAM). На RTX 4090 — реального времени достаточно для 10+ параллельных потоков.
  • Latency: API ~1 – 2 сек, self-hosted на GPU ~0.3 – 0.5 сек.

Yandex SpeechKit

  • Хороший вариант для русского языка, стриминг распознавания в реальном времени.
  • От 0.16 руб за секунду аудио (стриминг дешевле пакетного).
  • Интеграция через gRPC — быстрее REST.

Deepgram Nova‑3

  • Лучший на сегодня по соотношению скорость/качество для английского, русский хуже.
  • Latency ~300 мс в streaming режиме.

Для русскоязычного бизнеса: Yandex SpeechKit или self-hosted Whisper на GPU.

TTS: синтез голоса

Edge-TTS (Microsoft)

  • Полностью бесплатный, нет API-ключа.
  • Голос ru-RU-SvetlanaNeural — приемлемое качество для бизнес-ботов.
  • Latency: 0.5 – 1 сек на типичный ответ.
import edge_tts
import asyncio

async def text_to_speech(text: str, output_file: str):
    communicate = edge_tts.Communicate(text, "ru-RU-SvetlanaNeural")
    await communicate.save(output_file)

asyncio.run(text_to_speech("Добрый день, чем могу помочь?", "response.mp3"))

ElevenLabs

  • Высокое качество, клонирование голоса из 1‑минутного семпла.
  • От $5/мес (10K символов). Хорошо для ответственных кейсов (презентации, аудиогиды).
  • Latency: 0.8 – 1.5 сек через streaming API.

CosyVoice 3 (Alibaba, self-hosted)

  • Клонирование голоса из 3‑секундного семпла — лучший результат среди open-source.
  • Требует GPU (16+ GB VRAM для комфортной работы).
  • Подходит для брендового голоса компании без привязки к вендору.

Yandex SpeechKit TTS

  • Голос Алисы и другие — очень хорошее качество для русского.
  • Streaming: первые чанки приходят через 200 – 400 мс.
  • Цена: ~0.25 руб за 1000 символов.

Bi-streaming: ключ к низкой задержке

Наивный подход — ждать полного ответа LLM, потом отдавать в TTS. Это добавляет 1 – 3 сек.

Bi-streaming устраняет проблему:

  1. LLM генерирует токены по мере готовности (streaming)
  2. TTS получает первое предложение и сразу начинает синтез
  3. Пользователь слышит начало ответа, пока LLM ещё генерирует продолжение

Итоговый time-to-first-audio с bi-streaming: 0.8 – 1.5 сек против 3 – 5 сек без него.

Интеграция с телефонией

Asterisk (self-hosted АТС)

  • Asterisk + AGI скрипт: Asterisk передаёт аудио на обработку, получает ответ.
  • Сложная настройка, но полный контроль. Подходит для call-центров.
  • Протокол: SIP, аудио через RTP.

Облачные АТС (Манго, Билайн, МТТ)

  • Большинство поддерживают webhook при входящем звонке.
  • Интеграция через REST API: получить запись, отправить на STT, отдать TTS-аудио для проигрывания.
  • Ряд операторов поддерживают WebSocket для реального времени.

Практический стек для колл-бота:

Входящий звонок → Облачная АТС (webhook)
  → FastAPI сервер
  → Yandex STT (streaming)
  → Claude / GPT (streaming)
  → Edge-TTS / Yandex TTS (streaming)
  → Аудио обратно в АТС

Голосовые сообщения в Telegram

Один из самых простых кейсов для старта.

@router.message(F.voice)
async def handle_voice(message: Message):
    # Скачиваем голосовое
    file = await bot.get_file(message.voice.file_id)
    audio_bytes = await bot.download_file(file.file_path)

    # STT через Whisper API
    transcript = await transcribe_audio(audio_bytes)

    # Ответ от LLM
    ai_response = await get_ai_response(transcript)

    # TTS → отправляем голосовым
    audio_response = await synthesize_speech(ai_response)
    await message.answer_voice(audio_response)

Сценарий работает в продакшне для саппорт-ботов, HR-ботов, помощников по документам.

Виджет на сайте с WebSocket

Архитектура: браузер захватывает микрофон через MediaRecorder API, отправляет чанки аудио по WebSocket, получает обратно аудио-стрим.

Ключевые моменты реализации:

  • VAD (Voice Activity Detection) на клиенте — не отправлять тишину
  • Буферизация первых 500 мс перед STT — снижает количество ложных запросов
  • Индикатор состояния: слушаю → думаю → говорю

Стек: FastAPI + WebSocket на бэке, @microsoft/cognitiveservices-speech-sdk или raw WebSocket на фронте.

Реальные цифры задержки и стоимости

Компонент Latency Стоимость/мес (1000 диалогов)
Whisper API (STT) 1 – 2 сек ~$6
Yandex STT streaming 0.2 – 0.5 сек ~900 руб
Claude Haiku (LLM) 0.3 – 0.8 сек (first token) ~$15
Edge-TTS 0.5 – 1 сек Бесплатно
ElevenLabs 0.8 – 1.5 сек от $5
Итого (бюджетный стек) ~2 сек ~$25 – 30

Цены актуальны на март 2026. Уточняйте на сайте сервиса.

Когда голосовой AI оправдан, а когда нет

Оправдан:

  • Входящие звонки, которые некому обрабатывать ночью/в выходные
  • Голосовые сообщения в Telegram как основной канал клиентов
  • Сценарии, где клиенту удобнее говорить, чем печатать (мобильная аудитория, водители)
  • Обзвон по базе с простым скриптом

Не оправдан:

  • Сложные переговоры — AI не заменит менеджера
  • Нет бюджета на GPU или нет DevOps — поддержка self-hosted стека требует ресурсов
  • Аудитория не готова к ботам (B2B премиум сегмент, где ценят живой контакт)

Есть идея? Реализуем

Разрабатываем проекты, которые решают задачи бизнеса — от лендинга до сложного сервиса. Расскажите о своей задаче, подберём решение.

Написать в Telegram

20.03.2026

Нужна консультация?

Оставьте свои контактные данные, или свяжитесь с нами удобным для вас способом

Привет! Меня зовут Багира. Пишите, я все передам хозяевам!

Привет! Меня зовут Багира. Пишите, я все передам хозяевам!

Нажимая кнопку «Принять», вы соглашаетесь на сбор cookie. Мы используем их для обеспечения функционирования веб-сайта, аналитики действий и улучшения качества обслуживания. Если Вы не хотите, чтобы эти данные обрабатывались, отключите cookie в настройках браузера или прекратите использовать сайт.
Принять