Forwarded from k8s (in)security (Дмитрий Евдокимов)
Если вам не хватает хардкора в теме безопасности контейнеров и
Тема острая, горячая приправленная
При этом тема очень актуальная ввиду все большего количества систем, работающих с видеокартами.
P.S. Раньше всех о таких материал можно узнать на нашем официальном канале.
Kubernetes, то специально для вас у нас в блоге вышла статья "Ломаем ваши видеокарты: распаковка эксплойта для CVE-2024-0132 под NVIDIA Container Toolkit"!Тема острая, горячая приправленная
ML-кластерами, драйверами видеокарт, атакой TOCTOU, проблемой разыменования symlinks ;)При этом тема очень актуальная ввиду все большего количества систем, работающих с видеокартами.
P.S. Раньше всех о таких материал можно узнать на нашем официальном канале.
Внезапное #сисадминское. И да, #macos.
Сменить имя компьютера в Preferences -> General -> Sharing или через
В статье описана старая давняя утилита
Сменить имя компьютера в Preferences -> General -> Sharing или через
hostname --set работает не очень последовательно. Хочется один и тот же хостнейм видеть сразу в приглашении командной строки, в том, как компьютер объявляет себя через mDNS в сети, ну и в целом не ощущать доменную шизофрению.В статье описана старая давняя утилита
scutil, которая позволяет выставлять параметры (HostName|ComputerName|LocalHostName) для системы. Однако найти/вспомнить этот подход потребовало более одной минуты, посему запись остаётся в заметках здесь.Hexnode Help Center
Script to rename Mac - Hexnode Help Center
Shell noscript to remotely change the computer name and the local hostname of your Mac device. Check our documentation to learn more.
Forwarded from AI для Всех (Kirill)
Как обучить диффузионную модель с нуля за $1890?
Законы масштабирования в генеративном ИИ повышают производительность, но есть ньюанс: разработка моделей концентрируется среди игроков с большими вычислительными ресурсами.
Поскольку стоимость обучения text-to-image трансформера растет с количеством участков в каждом изображении, исследователи из Sony AI предложили случайным образом маскировать до 75% участков изображения во время обучения.
Применяется стратегия отложенного маскирования, которая предварительно обрабатывает все участки с помощью
микшера участков перед маскированием, тем самым значительно снижая ухудшение производительности процесса. Для оптимизации вычислительных затрат данный подход со работает лучше, чем уменьшение масштаба модели.
В исследование также включили последние
улучшения в архитектуре трансформеров, такие как использование слоев с mixture of experts (MoE),чтобы улучшить производительность и убедиться в важности использования синтетических изображений для уменьшения затрат на обучение.
Какие результаты?
Используя только 37 млн изображений (22 млн реальных + 15 млн синтетических), была обучена модель типа "sparse transformer" с 1,16 млрд параметров.
На обучение было потрачено всего 1890$ !
Была достигнута производительность 12,7 FID при zero shot learning на наборе данных COCO.
Примечательно, что модель достигает конкурентоспособного FID и высококачественных генераций, при этом требуя в 118 раз меньших затрат, чем стабильные диффузионные модели, и в 14 раз меньших затрат, чем текущий современный подход, который стоит 28400$
🔍 Технические детали:
• Архитектура: sparse DiT-XL/2 трансформер
• Вычисления: 8×H100 GPU на 2,6 дня тренировки
• VAE: использование как SDXL-VAE (4 канала), так и Ostris-VAE (16 каналов)
• Патч-миксер перед трансформером + маскирование 75% патчей
• Обучение: 280K шагов на 256×256, затем 55K шагов на 512×512
• Размер батча: 2048, с применением центрального кропа
📊 Доступные предобученные модели:
1. MicroDiT_XL_2 на 22 млн реальных изображениях (FID 12.72)
2. MicroDiT_XL_2 на 37 млн изображениях (FID 12.66) с SDXL-VAE
3. MicroDiT_XL_2 на 37 млн изображениях (FID 13.04) с Ostris-VAE
4. MicroDiT_XL_2 на 490 млн синтетических изображениях (FID 13.26)
💻 Репозиторий содержит полный код, включая обработку датасетов и тренировочные конфиги для каждого этапа
🔗 Статья
4️⃣ GitHub
Законы масштабирования в генеративном ИИ повышают производительность, но есть ньюанс: разработка моделей концентрируется среди игроков с большими вычислительными ресурсами.
Поскольку стоимость обучения text-to-image трансформера растет с количеством участков в каждом изображении, исследователи из Sony AI предложили случайным образом маскировать до 75% участков изображения во время обучения.
Применяется стратегия отложенного маскирования, которая предварительно обрабатывает все участки с помощью
микшера участков перед маскированием, тем самым значительно снижая ухудшение производительности процесса. Для оптимизации вычислительных затрат данный подход со работает лучше, чем уменьшение масштаба модели.
В исследование также включили последние
улучшения в архитектуре трансформеров, такие как использование слоев с mixture of experts (MoE),чтобы улучшить производительность и убедиться в важности использования синтетических изображений для уменьшения затрат на обучение.
Какие результаты?
Используя только 37 млн изображений (22 млн реальных + 15 млн синтетических), была обучена модель типа "sparse transformer" с 1,16 млрд параметров.
На обучение было потрачено всего 1890$ !
Была достигнута производительность 12,7 FID при zero shot learning на наборе данных COCO.
Примечательно, что модель достигает конкурентоспособного FID и высококачественных генераций, при этом требуя в 118 раз меньших затрат, чем стабильные диффузионные модели, и в 14 раз меньших затрат, чем текущий современный подход, который стоит 28400$
🔍 Технические детали:
• Архитектура: sparse DiT-XL/2 трансформер
• Вычисления: 8×H100 GPU на 2,6 дня тренировки
• VAE: использование как SDXL-VAE (4 канала), так и Ostris-VAE (16 каналов)
• Патч-миксер перед трансформером + маскирование 75% патчей
• Обучение: 280K шагов на 256×256, затем 55K шагов на 512×512
• Размер батча: 2048, с применением центрального кропа
📊 Доступные предобученные модели:
1. MicroDiT_XL_2 на 22 млн реальных изображениях (FID 12.72)
2. MicroDiT_XL_2 на 37 млн изображениях (FID 12.66) с SDXL-VAE
3. MicroDiT_XL_2 на 37 млн изображениях (FID 13.04) с Ostris-VAE
4. MicroDiT_XL_2 на 490 млн синтетических изображениях (FID 13.26)
💻 Репозиторий содержит полный код, включая обработку датасетов и тренировочные конфиги для каждого этапа
🔗 Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Итак, выпустили полноценную o3 и o4-mini
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
👍1
Forwarded from AbstractDL
ignore-topk: новая регуляризация для борьбы с деградацией LLM во время файнтюнинга (by DeepMind)
При дообучении языковые модели частенько портятся. Рисёрчеры из DeepMind показали, что проблема связана с тем, что LLM, пытаясь запомнить новый факт, начинает использовать лёгкие shortcut-ы вместо аккуратного внедрения новых знаний в веса. Она просто «раскладывает» новую информацию по уже знакомым ей понятиям (казалось бы это хорошо, но нет). Такое явление они назвали "праймингом" (aka разложение числа на простые множители), и из-за него LLM начинает путаться в фактах, выдавая новую информацию где не просили.
Авторы этой статьи предлагают потенциальное решение — регуляризацию
- Делаем обычный шаг файнтюнинга и смотрим на обновления весов (Δω).
- Отбираем top-k% самых больших обновлений и… просто удаляем их (умножаем на 0).
- Используем только небольшие изменения весов, которые не содержат шорткатов для быстрой меморизации.
Зачем так странно?
Оказывается, самые большие градиенты как раз и отвечают за «грязное» быстрое запоминание через прайминг. Игнорируя их, мы заставляем модель учиться медленнее и аккуратнее. При этом прайминг уменьшается на 90-95%, а способность запоминать новые факты не страдает.
Но авторы конечно молодцы, сами придумали бенчмарк, сами свой подход измерили, а на другие "learning without forgetting" методы вообще забили. Поэтому не могу сказать, что
Статья
При дообучении языковые модели частенько портятся. Рисёрчеры из DeepMind показали, что проблема связана с тем, что LLM, пытаясь запомнить новый факт, начинает использовать лёгкие shortcut-ы вместо аккуратного внедрения новых знаний в веса. Она просто «раскладывает» новую информацию по уже знакомым ей понятиям (казалось бы это хорошо, но нет). Такое явление они назвали "праймингом" (aka разложение числа на простые множители), и из-за него LLM начинает путаться в фактах, выдавая новую информацию где не просили.
Авторы этой статьи предлагают потенциальное решение — регуляризацию
ignore-topk. Идея до гениальности простая:- Делаем обычный шаг файнтюнинга и смотрим на обновления весов (Δω).
- Отбираем top-k% самых больших обновлений и… просто удаляем их (умножаем на 0).
- Используем только небольшие изменения весов, которые не содержат шорткатов для быстрой меморизации.
Зачем так странно?
Оказывается, самые большие градиенты как раз и отвечают за «грязное» быстрое запоминание через прайминг. Игнорируя их, мы заставляем модель учиться медленнее и аккуратнее. При этом прайминг уменьшается на 90-95%, а способность запоминать новые факты не страдает.
Но авторы конечно молодцы, сами придумали бенчмарк, сами свой подход измерили, а на другие "learning without forgetting" методы вообще забили. Поэтому не могу сказать, что
ignore-topk лучше чем, например, Child-Tuning или EWC, но выглядит прикольно, я его точно попробую 🤷♂️Статья
👍1
Forwarded from FSCP
📚 Вышла самая понятная книга про LLM — вместо того, чтобы сразу объяснять работу Transformers, автор начинает с простых методов, проводит через эволюцию нейронок и заканчивает современными архитектурами.
Это 200 страниц настоящей годноты:
• Сперва — база машинного обучения и математики.
• Эволюция языковых моделей от начала до нынешнего момента.
• Устройство Transformers и LLM.
• Что читать дальше: список лучших ресурсов.
• Каждая глава — теория, иллюстрация + пример рабочего кода на Python, который можно запустить.
Читаем тут, а репо с кодом лежит тут.
@notboring_tech
_______
Источник | #notboring_tech
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Это 200 страниц настоящей годноты:
• Сперва — база машинного обучения и математики.
• Эволюция языковых моделей от начала до нынешнего момента.
• Устройство Transformers и LLM.
• Что читать дальше: список лучших ресурсов.
• Каждая глава — теория, иллюстрация + пример рабочего кода на Python, который можно запустить.
Читаем тут, а репо с кодом лежит тут.
@notboring_tech
_______
Источник | #notboring_tech
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
#translation #linguistics Пост на отвлечённую и почти подзабытую тему: художественный перевод, его качество и смысл подобной работы на примере одной книги
DTF
Кризисный аврал: почему «Кровь, пот и пиксели» не стоит читать в переводе «Эксмо» — Игры на DTF
За более чем полтора года в DTF я не раз сталкивался с текстами редактора Kotaku Джейсона Шрейера. Он — не только один из главных журналистов-инсайдеров игровой индустрии, но и действительно отличный автор. Его огромные расследования о разработке Mass Effect:…
Forwarded from Ну как сказать
Давайте поговорим сегодня про историю отрицания во французском языке?
Для начала скажу, что оно состоит из двух частей, классическая его форма — это две частицы, ne и pas, которые окружают глагол. При этом в современном языке ne может не использоваться — обязательной стала частица pas. Например:
Полная фраза: je ne veux pas (я не хочу)
✅ Можно сказать: je veux pas
❎ Нельзя сказать: je ne veux
Что же такое эти ne и pas? Ne — это собственно отрицательная частица, схожая во многих языках мира. А вот pas — это, вообще-то, «шаг».
Как так вышло, что «шаг» начал использоваться в качестве части отрицательной конструкции, а теперь и вообще вытесняет ne? По одной из версий, произошло это так.
Когда-то во французском действительно была только одна отрицательная частица ne, которая ставилась перед глаголом. Но это ne — фонетически слабое, в речи гласный звук может «съедаться», на слух воспринимается не очень четко. Для более внятных формулировок после глагола стала использоваться дополнительная, вторая часть отрицания. Например:
🟣 Со словом «шаг»: je ne vais pas — я не пойду («я не сделаю даже шага»)
🟣 Со словом mie (miette, «крошка»): je ne mange mie — я не ем («я не съем даже крошки»)
Продолжать можно долго, и остатки этого явления в современном языке тоже прекрасно живут. Частица pas может меняться на другие отрицательные слова, например: personne (никто), rien (ничего), jamais (никогда), plus (больше не), nulle part (нигде, никуда) и так далее.
А дальше стоящая перед глаголом частица ne начинает отмирать за ненадобностью, и обязательной становится отрицание, занимающее пост-глагольную позицию.
Это явление характерно не только для французского, но и для кучи других языков. Называется оно, кстати, цикл Есперсена — в честь лингвиста Отто Есперсена, который его описал.
Во французском цикл еще не завершился, потому что ne исчезло не полностью. В качестве примера завершенного цикла можно посмотреть на английский язык:
🟣 В староанглийском была отрицательная частица ne, стоявшая перед глаголом (первая стадия цикла)
🟣 Для усиления стали использовать слово nought («ничего»), стоявшее после глагола, которое превратилось в современное not (вторая стадия цикла)
🟣 Сегодня not (в форме do not) — единственная часть отрицания в английской фразе, которая опять переехала на позицию перед глаголом (третья стадия цикла)
Такая история!
А про отрицания в других языках можно почитать здесь.
Для начала скажу, что оно состоит из двух частей, классическая его форма — это две частицы, ne и pas, которые окружают глагол. При этом в современном языке ne может не использоваться — обязательной стала частица pas. Например:
Полная фраза: je ne veux pas (я не хочу)
Что же такое эти ne и pas? Ne — это собственно отрицательная частица, схожая во многих языках мира. А вот pas — это, вообще-то, «шаг».
Как так вышло, что «шаг» начал использоваться в качестве части отрицательной конструкции, а теперь и вообще вытесняет ne? По одной из версий, произошло это так.
Когда-то во французском действительно была только одна отрицательная частица ne, которая ставилась перед глаголом. Но это ne — фонетически слабое, в речи гласный звук может «съедаться», на слух воспринимается не очень четко. Для более внятных формулировок после глагола стала использоваться дополнительная, вторая часть отрицания. Например:
Продолжать можно долго, и остатки этого явления в современном языке тоже прекрасно живут. Частица pas может меняться на другие отрицательные слова, например: personne (никто), rien (ничего), jamais (никогда), plus (больше не), nulle part (нигде, никуда) и так далее.
А дальше стоящая перед глаголом частица ne начинает отмирать за ненадобностью, и обязательной становится отрицание, занимающее пост-глагольную позицию.
Это явление характерно не только для французского, но и для кучи других языков. Называется оно, кстати, цикл Есперсена — в честь лингвиста Отто Есперсена, который его описал.
Во французском цикл еще не завершился, потому что ne исчезло не полностью. В качестве примера завершенного цикла можно посмотреть на английский язык:
Такая история!
А про отрицания в других языках можно почитать здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Vikhr models
This media is not supported in your browser
VIEW IN TELEGRAM
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
#dataart #visualization
Внезапно найденная подборка по визуализации данных как искусству, даже больше про датаарт.
Внезапно найденная подборка по визуализации данных как искусству, даже больше про датаарт.
eolay.tilda.ws
База Знаний
База знаний по Дата Арту
Статья и материалы к воркшопу по #ansible
В них, правда, не отметили главное – не стоит с помощью этого инструмента реализовывать задачи, для которых есть более целостные инструменты или паттерны – примерно как не стоит, наверное, делать инсталлятор на Powershell. Хотя можно, да.
#devops
В них, правда, не отметили главное – не стоит с помощью этого инструмента реализовывать задачи, для которых есть более целостные инструменты или паттерны – примерно как не стоит, наверное, делать инсталлятор на Powershell. Хотя можно, да.
#devops
Хабр
Основы Ansible, без которых ваши плейбуки — комок слипшихся макарон
Я делаю много ревью для чужого кода на Ансибл и много пишу сам. В ходе анализа ошибок (как чужих, так и своих), а так же некоторого количества собеседований, я понял основную ошибку, которую допускают...
Forwarded from Egor
вообще вижу следующее
(1) модульный курс по питону -- могут поебать мозг с форматтированием и ревью, в остальном должно быть изи вне зависимости от шизы преподов
(2) матстат, по темам -- золотой стандарт + 1 прикладной блок про А/Б. все проходили этот курс, его сложно испортить.
(3) классический мль -- золотой стандарт, то же самое про сложно испортить.
(4) бдшки -- туда же. есть только небольшая специфика, что они ориентируются скорее на аналитику данных.
(5) продуктовая студия -- похоже на авторский курс, на котором препод будет толкать какую-то Суть и Философию про Продакт. ehhh это всё узнаешь за полгода работы на нормальном месте без всей этой помпы
(6) софт скилл лаб -- судя по описанию вы будете ходить на пару и играть в какие-то кринж конкрусы в исполнении препода-тамады
(7) математика для ДС -- повтор самых важных для ДС-приложений тем из вышмата первого курса + начала второго. звучит крайне эклектично, может быть из-за эклектики неприятно для тех, кто видит этот материал в первый раз. но если видеть его не в первый раз, то всё будет ок. КСТАТИ, ведет ТОВАРИЩ ТРУШИН. Я его знаю, он у нас на потоке вел. Чел норм, но достаточно требовательный. Надо будет успевать за ним.
(8) алгосы -- судя по программе вас чуть погоняют по самой базе задачек для решения контестов на собесах. больше ничего интересного не будет, кажется
(9) DL -- золотой стандарт по темам. даже я бы сказал "золотой стандард плюс, с парой допглав для любителей генеративных моделек"
(10) Advanced DL -- допглавы DL в приложениях. должно быть норм, но сильно зависит от преподов...
(11) Рек. системы -- прикладной курс по тому как генерить рекомендации и оценивать их качество. полезно, если преподы не долбичи
(12) NLP -- золотой стандарт плюс. Рннки, трансформеры, приложения для кода. В целом интересно под конец. Я брал такое элективом на ФКНе. Обозреваются основные задачи и методы решения.
(13) гляделки (CV) -- золотой стандарт плюс. так же как на НЛП обозреваются основные задачи и методы их решения.
(14) AI beyond Fit Predict. Авторский курс про какое-то линейное программирование, ожидается много кринжа.
(15) Временные ряды. Золотой стандарт. Этот курс есть у всех году так на 3-4, у кого профиль датасаенс/мль. Хорошо, что по выбору, он не оч нужен в рельной жизни.
(16) Ml in Production. Мль инжениринг. Нормальных курсов по нему не очень бывает, всё авторский рандом. Адекватность сильно зависит от форм и стендов, на которых вы будете собирать пайплайны.
(17) ML System Design. Тоже мль инжиниринг, только чуть больше уклон в продакт. Тоже авторский курс, будет оверлап 100% с ML in Production и курсом по продакту на этой же специальности. Адекватность на совести преподов 100%.
(18) Избранные темы исследований в AI -- партнерский курс с Omut AI. К вам пригонят чуваков из лабы и они будут пытаться что-то рассказывать. Прикольность курса зависит от чуваков из лабы. Если к ним поприлизываться, то могут взять к себе на стажу, но хз зачем это.
+ есть какой-то ФЛЕКС компонент, то есть там можно набрать курсов ещё. И наверное даже нужно (?) не понятно. Но там есть смешные курсы по джава программированию хДДД
(1) модульный курс по питону -- могут поебать мозг с форматтированием и ревью, в остальном должно быть изи вне зависимости от шизы преподов
(2) матстат, по темам -- золотой стандарт + 1 прикладной блок про А/Б. все проходили этот курс, его сложно испортить.
(3) классический мль -- золотой стандарт, то же самое про сложно испортить.
(4) бдшки -- туда же. есть только небольшая специфика, что они ориентируются скорее на аналитику данных.
(5) продуктовая студия -- похоже на авторский курс, на котором препод будет толкать какую-то Суть и Философию про Продакт. ehhh это всё узнаешь за полгода работы на нормальном месте без всей этой помпы
(6) софт скилл лаб -- судя по описанию вы будете ходить на пару и играть в какие-то кринж конкрусы в исполнении препода-тамады
(7) математика для ДС -- повтор самых важных для ДС-приложений тем из вышмата первого курса + начала второго. звучит крайне эклектично, может быть из-за эклектики неприятно для тех, кто видит этот материал в первый раз. но если видеть его не в первый раз, то всё будет ок. КСТАТИ, ведет ТОВАРИЩ ТРУШИН. Я его знаю, он у нас на потоке вел. Чел норм, но достаточно требовательный. Надо будет успевать за ним.
(8) алгосы -- судя по программе вас чуть погоняют по самой базе задачек для решения контестов на собесах. больше ничего интересного не будет, кажется
(9) DL -- золотой стандарт по темам. даже я бы сказал "золотой стандард плюс, с парой допглав для любителей генеративных моделек"
(10) Advanced DL -- допглавы DL в приложениях. должно быть норм, но сильно зависит от преподов...
(11) Рек. системы -- прикладной курс по тому как генерить рекомендации и оценивать их качество. полезно, если преподы не долбичи
(12) NLP -- золотой стандарт плюс. Рннки, трансформеры, приложения для кода. В целом интересно под конец. Я брал такое элективом на ФКНе. Обозреваются основные задачи и методы решения.
(13) гляделки (CV) -- золотой стандарт плюс. так же как на НЛП обозреваются основные задачи и методы их решения.
(14) AI beyond Fit Predict. Авторский курс про какое-то линейное программирование, ожидается много кринжа.
(15) Временные ряды. Золотой стандарт. Этот курс есть у всех году так на 3-4, у кого профиль датасаенс/мль. Хорошо, что по выбору, он не оч нужен в рельной жизни.
(16) Ml in Production. Мль инжениринг. Нормальных курсов по нему не очень бывает, всё авторский рандом. Адекватность сильно зависит от форм и стендов, на которых вы будете собирать пайплайны.
(17) ML System Design. Тоже мль инжиниринг, только чуть больше уклон в продакт. Тоже авторский курс, будет оверлап 100% с ML in Production и курсом по продакту на этой же специальности. Адекватность на совести преподов 100%.
(18) Избранные темы исследований в AI -- партнерский курс с Omut AI. К вам пригонят чуваков из лабы и они будут пытаться что-то рассказывать. Прикольность курса зависит от чуваков из лабы. Если к ним поприлизываться, то могут взять к себе на стажу, но хз зачем это.
+ есть какой-то ФЛЕКС компонент, то есть там можно набрать курсов ещё. И наверное даже нужно (?) не понятно. Но там есть смешные курсы по джава программированию хДДД
Однако очень красивая визуализация.
Контекст – организация памяти при аллокации под экземпляры классов не предполагает какого-либо выравнивания или компактификации (в случае со словарями это работает иначе).
#python #python101
Контекст – организация памяти при аллокации под экземпляры классов не предполагает какого-либо выравнивания или компактификации (в случае со словарями это работает иначе).
#python #python101
🔥1
#llm #inference #market
Статья-поток мысли с очень странной подачей про возможное ближайшее будущее рынка ИИ-провайдеров и инференса в частности
Про неизбежность перехода к рекламной модели, к сожалению, очевидно, но наблюдение про масштаб бизнеса и отличие self-made anthropic от надутого инвестициями и ожиданиями openai в тему
Статья-поток мысли с очень странной подачей про возможное ближайшее будущее рынка ИИ-провайдеров и инференса в частности
Про неизбежность перехода к рекламной модели, к сожалению, очевидно, но наблюдение про масштаб бизнеса и отличие self-made anthropic от надутого инвестициями и ожиданиями openai в тему
Substack
openai burns the boats
the $334 machine that openai is aiming at anthropic
Уже не новая, но, на мой вкус, довольно понятная статейка про #llm #assessment
Вкидываю как почти пошаговый пример составления (адаптации) датасета под конкретную узкую задачу и разработки системы оценки вокруг него.
Вкидываю как почти пошаговый пример составления (адаптации) датасета под конкретную узкую задачу и разработки системы оценки вокруг него.
Medium
Rock on with LLMs: Comparing GeoModels
Find the best model for geo-tasks
Forwarded from Oleg Ur: (";("
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/#the-original-sin-floating-point-non-associativity
Это повторимо на любом ядре и любой памяти
Если не чинить рядом костылей из IEEE754
Или наследника, не помню
Это повторимо на любом ядре и любой памяти
Если не чинить рядом костылей из IEEE754
Или наследника, не помню
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
Forwarded from AbstractDL
Gradient Accumulation Is Wasteful
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
β₂ new = β₂^(bs_new / bs), тогда можно обучать LLM вообще на batch size 1 — и всё будет стабильно.Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
#offtopic Как снова пользоваться Интернетом (eng) — автор сравнивает социальные сети и мессенджеры с торговыми центрами. Предсказуемые и комфортные, они предоставляют вам готовый контент, но интернет это город. Он больше и страннее, полон переулков, подвалов и потайных дверей, нужно только приложить усилия, взять карту и выйти на улицу.
Взято из статьи на Вастрике от Игоря Волоснякова
Взято из статьи на Вастрике от Игоря Волоснякова
Substack
how to use the internet again: a curriculum
a five-unit crash course in wandering, breaking, and building online