Видеозвонки с иностранными коллегами превращаются в марафон концентрации: нужно одновременно слушать, переводить в уме и формулировать ответ. Sokuji решает эту задачу радикально — переводит речь синхронно, пока говорит собеседник.
Как работает синхронный перевод
Приложение подключается к Google Meet или Microsoft Teams через расширение браузера и перехватывает аудиопоток в реальном времени. Whisper распознаёт речь, GPT-4 или Gemini переводят её на нужный язык, а результат выводится текстом прямо во время разговора. Задержка минимальна — не приходится ждать, пока человек закончит мысль.
Работает с OpenAI API, что даёт гибкость в настройках. Можно выбрать модель перевода, подкрутить точность распознавания или переключиться между языками на лету. Для Linux есть расширенная обработка звука, которая помогает фильтровать шумы и улучшать качество входящего сигнала.
Опенсорс без подписок и лимитов
Исходный код открыт на GitHub, что означает полный контроль над данными и возможность доработать функционал под себя. Никаких ежемесячных платежей — нужен только API-ключ OpenAI, который оплачивается по факту использования. Для коротких встреч это копейки, для регулярных созвонов — всё равно дешевле готовых сервисов с фиксированной ценой.
Приложение собрано на Electron и React, так что разобраться в коде и внести изменения может любой, кто знаком с JavaScript. Это удобно для команд, которым нужна кастомизация: например, добавить интеграцию с корпоративным мессенджером или настроить логирование переводов для анализа встреч.
Для каких задач подходит
Интервью с кандидатами из других стран, онлайн-конференции с международными спикерами, рабочие созвоны с удалёнными командами — везде, где языковой барьер мешает нормально общаться. Текстовый вывод перевода позволяет не только слышать, но и видеть сказанное, что помогает лучше запоминать детали и быстрее реагировать на вопросы.