ML-инженер команда TTS

СБЕР
Санкт-Петербург Опыт работы от 3 лет Постоянная занятость Полный день
Поделиться

Описание

Мы - оманда ML-инженеров GigaChat Data. Наша оманда готовит данные для обучения всей линей и моделей LLM GigaChat (GigaChat, GigaChat TTS, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.).

Мы собираем данные а для базовых моделей, та и для их адаптации под он ретные сценарии:

  • Core модели базовые модели; Проду ты B2C WEB-версия GigaChat, персонализированные интелле туальные ассистенты и прочее
  • внутренние бан овс ие задачи автоматизация обработ и до ументов, анализ финансовых данных, поддерж а сотрудни ов и прочее
  • внешние за азчи и астомные решения для орпоративных лиентов, интеграция LLM в бизнес-процессы и прочее.

Что предстоит делать:

  • интегрировать TTS в GigaChat; Создать voice-to-voice GigaChat с возможностью понимать и генерировать речь
  • собирать и готовить аудио-данные для обучения
  • улучшать зву овые пайплайны для сбора датасетов: распознавание речи, VAD, денойзеры, диаризацию, модели описания эмоций, аудио descriptions и пр.
  • участвовать в э спериментах с различными архите турами TTS (decoder-only, thinker-talker и др.) и оценивать результаты
  • организовывать субъе тивное и объе тивное тестирование синтеза: MOS-модели, SBS оцен а людьми, собирать фидбэ
  • сравнивать наш синтез с лучшими на рын е (11Labs, OpenAI Voice mode, Yandex SpeechKit, Bark, Grok, VALL-E и др.) и готовить ре омендации по улучшению.

ЧТО МЫ ОЖИДАЕМ:

  • отличное знание Python и опыт работы с современными DLфреймвор ами (PyTorch, TensorFlow)
  • опыт работы с технологиями TTS создание базовых TTS моделей, пра тичес ий опыт создания голосовых ассистентов или внедрения TTS-модулей в готовые проду ты. Понимание архите тур нейросетевых моделей речи от лассичес их seq2seq до современных LLM-подходов
  • опыт работы с системами ASR и аудиопайплайнами распознавание речи (OpenAI Whisper, Facebook Wav2Vec 2.0, NVIDIA NeMo Conformer, SpeechBrain, GigaAM), VAD (WebRTC VAD, Silero VAD), алгоритмов шумоподавления (RNNoise), диаризации (pyannote.audio) и других современных инструментов обработ и аудио
  • знание метри ачества синтеза речи и методов их оцен и: представление о MOS, CMOS, side-by-side (SBS) методах ABтестирования и других подходах измерению естественности, разборчивости речи и сравнительные E2E оцен и.

бУДЕТ ПЛЮСОМ:

  • работа с мультимодальными моделями, объединяющими те ст и зву : опыт работы с системами ElevenLabs, Bark, VALL-E, Qwen 2.5 Omni и аналогичными, генерирующими речь на основе LLM
  • глубо ое понимание полного TTS-пайплайна: от предобработ и данных (нормализация те ста, G2P) до а устичес ой модели и нейрово одера; опыт работы с лассичес ими seq2seq-архите турами (Tacotron 2, FastSpeech 2, Glow-TTS), decoder-only подходами (VALL-E, WaveGPT), diffusion- и flow-моделями (Grad-TTS, DiffWave, Flowtron) и современными во одерами (HiFi-GAN, WaveGlow, WaveRNN).

ЧТО МЫ ПРЕДЛАГАЕМ:

  • комфортный современный офис - м. Кутузовская
  • ежегодный пересмотр зарплаты, годовой бонус
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративная пенсионная программа.
16 дней назад Источник: hh.ru
Обращаем Ваше внимание, что вакансия взята с внешнего источника hh.ru. Администрация сайта не несет ответственность за ее содержание.
Рекомендуемые вакансии

ML инженер (middle)

  • Smartup
  • Санкт-Петербург
Описание Смартап - компания с международными корнями, специализирующаяся на заказной разработке технически сложных IT-решений более 19 лет. У нас за плечами большой опыт работы на глобальном рынке. ...
12.11.2025; Источник: hh.ru

Senior ML-инженер

от 270 000 Р до 310 000 Р
  • Live Typing
  • Санкт-Петербург
Описание Привет! Мы компания Лайв Тайпинг. Уже более 14 лет создаём мобильные приложения и веб-сервисы для наших клиентов. Мы сотрудничали с такими известными брендами, как Sephora, ИЛЬ ДЭ БОТЭ, ...
13.11.2025; Источник: hh.ru
от 270 000 Р до 310 000 Р
Подробнее

ML Инженер / Инженер по машинному обучению

  • Ред Софт
  • Санкт-Петербург
Описание ООО "Ред Софт" - отечественный поставщик решений и услуг в области информационных технологий. Компания осуществляет комплексные проекты в области хранения и управления данными на основе ...
13.11.2025; Источник: hh.ru