2024-09-21 Разбираю function call модели и обучаю nanoGPT
На данном стриме была рассмотрена крайне интересная и поражающая своими потенциалом тема, а именно function call модели и способы их применения.
В первой части стрима я собрал прототип простого приложения типа чат, которое умеет выполнять три функции: поиск по arxiv, поиск по wiki и поиск в DuckDuckGo если нужно найти информацию за пределами arxiv или wikipedia.
- Код проекта Functionstein -
- Документация про function call от OpenAI -
- Использованная через ollama модель -
После того как данное решение было готово я полез в исходники nanoGPT, моя цель была переписать скрипт сбора обучающего датасета, сам датасет при этом был типа function call. Запустил обучение модели и немного прифигел от метрик, модель очень быстро пришла к маленькому loss, но... увы и ах, чуда не случилось. По завершению тренировки встроил модель в цикл function call и увидел кучу галлюцинаций, хотя даже для 12m модели nanoGPT был получен результат достойный уважения.
- Мои правки в nanoGPT (ветка function_call) -
- Поддержка nanoGPT в проекте Functionstein (ветка nanoGPT) -
В общем эксперимент получился своеобразный, мне с ним возиться очень понравилось, надеюсь и вам тоже понравится смотреть!
Сделать пожертвование:
-
-
Ссылки:
-
-
-