[3Blue1Brown] Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
🎯 Загружено автоматически через бота:
🚫 Оригинал видео:
📺 Данное видео принадлежит каналу «3Blue1Brown» (@3blue1brown). Оно представлено в нашем сообществе исключительно в информационных, научных, образовательных или культурных целях. Наше сообщество не утверждает никаких прав на данное видео. Пожалуйста, поддержите автора, посетив его оригинальный канал.
✉️ Если у вас есть претензии к авторским правам на данное видео, пожалуйста, свяжитесь с нами по почте support@, и мы немедленно удалим его.
📃 Оригинальное описание:
Демистификация самовнимания, множественных голов и перекрестного внимания.
Вместо спонсорского чтения рекламы эти уроки финансируются непосредственно зрителями:
Не менее ценная форма поддержки - просто поделиться видео.
Другие ресурсы о трансформаторах
Видеоролики Андрея Карпати
Посты по теме “Трансформаторные схемы“, автор Anthropic
В частности, только прочитав этот пост, я начал думать о комбинации матриц значения и выхода как о комбинированной низкоранговой карте из пространства вложения в себя, что, по крайней мере, в моем сознании, сделало все намного яснее, чем другие источники.
История языковых моделей от Брит Круз, @ArtOfTheProblem
Что такое языковая модель от @vcubingx
Сайт с упражнениями, связанными с ML-программированием и GPT
Ранняя статья о том, как направления в пространствах встраивания имеют смысл:
Временные метки:
- Обзор вкраплений
- Мотивирующие примеры
- Шаблон внимания
- Маскировка
- Размер контекста
- Ценности
- Параметры подсчета
- Перекрестное внимание
- Множественные головы
- Матрица вывода
- Идти глубже
- Окончание