[3Blue1Brown] Визуализация внимания, сердце трансформера

🎯 Загружено автоматически через бота: 🚫 Оригинал видео: 📺 Данное видео принадлежит каналу «3Blue1Brown» (@3blue1brown). Оно представлено в нашем сообществе исключительно в информационных, научных, образовательных или культурных целях. Наше сообщество не утверждает никаких прав на данное видео. Пожалуйста, поддержите автора, посетив его оригинальный канал. ✉️ Если у вас есть претензии к авторским правам на данное видео, пожалуйста, свяжитесь с нами по почте support@, и мы немедленно удалим его. 📃 Оригинальное описание: Демистификация самовнимания, множественных голов и перекрестного внимания. Вместо спонсорского чтения рекламы эти уроки финансируются непосредственно зрителями: Не менее ценная форма поддержки - просто поделиться видео. Другие ресурсы о трансформаторах Видеоролики Андрея Карпати Посты по теме “Трансформаторные схемы“, автор Anthropic В частности, только прочитав этот пост, я начал думать о комбинации матриц значения и выхода как о комбинированной низкоранговой карте из пространства вложения в себя, что, по крайней мере, в моем сознании, сделало все намного яснее, чем другие источники. История языковых моделей от Брит Круз, @ArtOfTheProblem Что такое языковая модель от @vcubingx Сайт с упражнениями, связанными с ML-программированием и GPT Ранняя статья о том, как направления в пространствах встраивания имеют смысл: Временные метки: - Обзор вкраплений - Мотивирующие примеры - Шаблон внимания - Маскировка - Размер контекста - Ценности - Параметры подсчета - Перекрестное внимание - Множественные головы - Матрица вывода - Идти глубже - Окончание

[3Blue1Brown] Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение