Forwarded from Vikhr models
This media is not supported in your browser
VIEW IN TELEGRAM
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
Сгенерили через openai api, получилось очень приятно, пользуйтесь!
Huggingface
#dataart #visualization
Внезапно найденная подборка по визуализации данных как искусству, даже больше про датаарт.
Внезапно найденная подборка по визуализации данных как искусству, даже больше про датаарт.
eolay.tilda.ws
База Знаний
База знаний по Дата Арту
Статья и материалы к воркшопу по #ansible
В них, правда, не отметили главное – не стоит с помощью этого инструмента реализовывать задачи, для которых есть более целостные инструменты или паттерны – примерно как не стоит, наверное, делать инсталлятор на Powershell. Хотя можно, да.
#devops
В них, правда, не отметили главное – не стоит с помощью этого инструмента реализовывать задачи, для которых есть более целостные инструменты или паттерны – примерно как не стоит, наверное, делать инсталлятор на Powershell. Хотя можно, да.
#devops
Хабр
Основы Ansible, без которых ваши плейбуки — комок слипшихся макарон
Я делаю много ревью для чужого кода на Ансибл и много пишу сам. В ходе анализа ошибок (как чужих, так и своих), а так же некоторого количества собеседований, я понял основную ошибку, которую допускают...
Forwarded from Egor
вообще вижу следующее
(1) модульный курс по питону -- могут поебать мозг с форматтированием и ревью, в остальном должно быть изи вне зависимости от шизы преподов
(2) матстат, по темам -- золотой стандарт + 1 прикладной блок про А/Б. все проходили этот курс, его сложно испортить.
(3) классический мль -- золотой стандарт, то же самое про сложно испортить.
(4) бдшки -- туда же. есть только небольшая специфика, что они ориентируются скорее на аналитику данных.
(5) продуктовая студия -- похоже на авторский курс, на котором препод будет толкать какую-то Суть и Философию про Продакт. ehhh это всё узнаешь за полгода работы на нормальном месте без всей этой помпы
(6) софт скилл лаб -- судя по описанию вы будете ходить на пару и играть в какие-то кринж конкрусы в исполнении препода-тамады
(7) математика для ДС -- повтор самых важных для ДС-приложений тем из вышмата первого курса + начала второго. звучит крайне эклектично, может быть из-за эклектики неприятно для тех, кто видит этот материал в первый раз. но если видеть его не в первый раз, то всё будет ок. КСТАТИ, ведет ТОВАРИЩ ТРУШИН. Я его знаю, он у нас на потоке вел. Чел норм, но достаточно требовательный. Надо будет успевать за ним.
(8) алгосы -- судя по программе вас чуть погоняют по самой базе задачек для решения контестов на собесах. больше ничего интересного не будет, кажется
(9) DL -- золотой стандарт по темам. даже я бы сказал "золотой стандард плюс, с парой допглав для любителей генеративных моделек"
(10) Advanced DL -- допглавы DL в приложениях. должно быть норм, но сильно зависит от преподов...
(11) Рек. системы -- прикладной курс по тому как генерить рекомендации и оценивать их качество. полезно, если преподы не долбичи
(12) NLP -- золотой стандарт плюс. Рннки, трансформеры, приложения для кода. В целом интересно под конец. Я брал такое элективом на ФКНе. Обозреваются основные задачи и методы решения.
(13) гляделки (CV) -- золотой стандарт плюс. так же как на НЛП обозреваются основные задачи и методы их решения.
(14) AI beyond Fit Predict. Авторский курс про какое-то линейное программирование, ожидается много кринжа.
(15) Временные ряды. Золотой стандарт. Этот курс есть у всех году так на 3-4, у кого профиль датасаенс/мль. Хорошо, что по выбору, он не оч нужен в рельной жизни.
(16) Ml in Production. Мль инжениринг. Нормальных курсов по нему не очень бывает, всё авторский рандом. Адекватность сильно зависит от форм и стендов, на которых вы будете собирать пайплайны.
(17) ML System Design. Тоже мль инжиниринг, только чуть больше уклон в продакт. Тоже авторский курс, будет оверлап 100% с ML in Production и курсом по продакту на этой же специальности. Адекватность на совести преподов 100%.
(18) Избранные темы исследований в AI -- партнерский курс с Omut AI. К вам пригонят чуваков из лабы и они будут пытаться что-то рассказывать. Прикольность курса зависит от чуваков из лабы. Если к ним поприлизываться, то могут взять к себе на стажу, но хз зачем это.
+ есть какой-то ФЛЕКС компонент, то есть там можно набрать курсов ещё. И наверное даже нужно (?) не понятно. Но там есть смешные курсы по джава программированию хДДД
(1) модульный курс по питону -- могут поебать мозг с форматтированием и ревью, в остальном должно быть изи вне зависимости от шизы преподов
(2) матстат, по темам -- золотой стандарт + 1 прикладной блок про А/Б. все проходили этот курс, его сложно испортить.
(3) классический мль -- золотой стандарт, то же самое про сложно испортить.
(4) бдшки -- туда же. есть только небольшая специфика, что они ориентируются скорее на аналитику данных.
(5) продуктовая студия -- похоже на авторский курс, на котором препод будет толкать какую-то Суть и Философию про Продакт. ehhh это всё узнаешь за полгода работы на нормальном месте без всей этой помпы
(6) софт скилл лаб -- судя по описанию вы будете ходить на пару и играть в какие-то кринж конкрусы в исполнении препода-тамады
(7) математика для ДС -- повтор самых важных для ДС-приложений тем из вышмата первого курса + начала второго. звучит крайне эклектично, может быть из-за эклектики неприятно для тех, кто видит этот материал в первый раз. но если видеть его не в первый раз, то всё будет ок. КСТАТИ, ведет ТОВАРИЩ ТРУШИН. Я его знаю, он у нас на потоке вел. Чел норм, но достаточно требовательный. Надо будет успевать за ним.
(8) алгосы -- судя по программе вас чуть погоняют по самой базе задачек для решения контестов на собесах. больше ничего интересного не будет, кажется
(9) DL -- золотой стандарт по темам. даже я бы сказал "золотой стандард плюс, с парой допглав для любителей генеративных моделек"
(10) Advanced DL -- допглавы DL в приложениях. должно быть норм, но сильно зависит от преподов...
(11) Рек. системы -- прикладной курс по тому как генерить рекомендации и оценивать их качество. полезно, если преподы не долбичи
(12) NLP -- золотой стандарт плюс. Рннки, трансформеры, приложения для кода. В целом интересно под конец. Я брал такое элективом на ФКНе. Обозреваются основные задачи и методы решения.
(13) гляделки (CV) -- золотой стандарт плюс. так же как на НЛП обозреваются основные задачи и методы их решения.
(14) AI beyond Fit Predict. Авторский курс про какое-то линейное программирование, ожидается много кринжа.
(15) Временные ряды. Золотой стандарт. Этот курс есть у всех году так на 3-4, у кого профиль датасаенс/мль. Хорошо, что по выбору, он не оч нужен в рельной жизни.
(16) Ml in Production. Мль инжениринг. Нормальных курсов по нему не очень бывает, всё авторский рандом. Адекватность сильно зависит от форм и стендов, на которых вы будете собирать пайплайны.
(17) ML System Design. Тоже мль инжиниринг, только чуть больше уклон в продакт. Тоже авторский курс, будет оверлап 100% с ML in Production и курсом по продакту на этой же специальности. Адекватность на совести преподов 100%.
(18) Избранные темы исследований в AI -- партнерский курс с Omut AI. К вам пригонят чуваков из лабы и они будут пытаться что-то рассказывать. Прикольность курса зависит от чуваков из лабы. Если к ним поприлизываться, то могут взять к себе на стажу, но хз зачем это.
+ есть какой-то ФЛЕКС компонент, то есть там можно набрать курсов ещё. И наверное даже нужно (?) не понятно. Но там есть смешные курсы по джава программированию хДДД
Однако очень красивая визуализация.
Контекст – организация памяти при аллокации под экземпляры классов не предполагает какого-либо выравнивания или компактификации (в случае со словарями это работает иначе).
#python #python101
Контекст – организация памяти при аллокации под экземпляры классов не предполагает какого-либо выравнивания или компактификации (в случае со словарями это работает иначе).
#python #python101
🔥1
#llm #inference #market
Статья-поток мысли с очень странной подачей про возможное ближайшее будущее рынка ИИ-провайдеров и инференса в частности
Про неизбежность перехода к рекламной модели, к сожалению, очевидно, но наблюдение про масштаб бизнеса и отличие self-made anthropic от надутого инвестициями и ожиданиями openai в тему
Статья-поток мысли с очень странной подачей про возможное ближайшее будущее рынка ИИ-провайдеров и инференса в частности
Про неизбежность перехода к рекламной модели, к сожалению, очевидно, но наблюдение про масштаб бизнеса и отличие self-made anthropic от надутого инвестициями и ожиданиями openai в тему
Substack
openai burns the boats
the $334 machine that openai is aiming at anthropic
Уже не новая, но, на мой вкус, довольно понятная статейка про #llm #assessment
Вкидываю как почти пошаговый пример составления (адаптации) датасета под конкретную узкую задачу и разработки системы оценки вокруг него.
Вкидываю как почти пошаговый пример составления (адаптации) датасета под конкретную узкую задачу и разработки системы оценки вокруг него.
Medium
Rock on with LLMs: Comparing GeoModels
Find the best model for geo-tasks
Forwarded from Oleg Ur: (";("
https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/#the-original-sin-floating-point-non-associativity
Это повторимо на любом ядре и любой памяти
Если не чинить рядом костылей из IEEE754
Или наследника, не помню
Это повторимо на любом ядре и любой памяти
Если не чинить рядом костылей из IEEE754
Или наследника, не помню
Thinking Machines Lab
Defeating Nondeterminism in LLM Inference
Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models.
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
For example, you might observe that asking ChatGPT the same question multiple times provides different results.…
Forwarded from AbstractDL
Gradient Accumulation Is Wasteful
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
Миф: чем больше батчайз, тем стабильнее и лучше учится LLM. На самом деле всё не так. Авторы этой статьи провели мега-аблейшн по гиперпараметрам претрейна LLM и обнаружили: чем МЕНЬШЕ batch size, тем ШИРЕ диапазон гиперпараметров (lr, оптимизатор, decay-рейты), на которых модель нормально учится. Короче, на маленьком batch даже ванильный SGD (без momentum!) не уступает Adam-у и Adafactor. Валидационный лосс при этом не хуже, а иногда даже лучше, чем на больших batch size.
Самое интересное — авторы показывают, что главная проблема с малельниким батчами — это не какая-то “нестабильность”, а просто неправильно настроенные беты. Особенно β₂ у Adam: его надо менять для разных батчсайзов, фиксируя полупериод затухания второго момента в токенах (по их формуле
β₂ new = β₂^(bs_new / bs), тогда можно обучать LLM вообще на batch size 1 — и всё будет стабильно.Итого: минимальный batch size, при котором не теряется пропускная способность железа — обычно лучший выбор. На малых batch всё проще с тюнингом (широкий диапазон lr/decay/optimizer). И не нужно бояться batch size 1! Gradient accumulation — это почти всегда зло.
PS. Работает не только для претрейна, но и файнтюнинга.
Статья, GitHub
#offtopic Как снова пользоваться Интернетом (eng) — автор сравнивает социальные сети и мессенджеры с торговыми центрами. Предсказуемые и комфортные, они предоставляют вам готовый контент, но интернет это город. Он больше и страннее, полон переулков, подвалов и потайных дверей, нужно только приложить усилия, взять карту и выйти на улицу.
Взято из статьи на Вастрике от Игоря Волоснякова
Взято из статьи на Вастрике от Игоря Волоснякова
Substack
how to use the internet again: a curriculum
a five-unit crash course in wandering, breaking, and building online