Reading Club #3. DINO-VITS: Data-Efficient Zero-Shot TTS with Self-Supervised Speaker Verification Loss for Noise Robustness

Гостем нового выпуска стал Максим Борисов — ML-Engineer в Huawei, магистрант AI Talent Hub. Мы обсудили вопрос робастности в моделях клонирования голоса. Как обучать модель синтеза на шумных данных и копировать голос с шумного референса. Презентация Максима — Модель — Магистратура AI Talent Hub —