LLaMA-Omni : Речевое управление LLM LLaMA-Omni - модель, построенная на основе Llama-3

LLaMA-Omni : Речевое управление LLM LLaMA-Omni - модель, построенная на основе , которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций. LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10. Для установки и локального запуска понадобятся GPU => 20GB и набор : Модель Модель Whisper-large-v3; HiFi-GAN вокодер; Тулкит Fairseq; Flash-attention. Примечания: Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено; Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/. Установка : git clone LLaMA-Omni cd LLaMA-Omni conda create -n llama-omni python= conda activate llama-omni pip install pip==24.0 pip install -e . git clone cd fairseq pip install -e . —no-build-isolation pip install flash-attn —no-build-isolation Выполните команды, описанные в разделах