де_генеративные языковые модели
ускорение 740м модели
обучение с DataParallel
трансформерные модели
ускорение 740м модели
обучение с DataParallel
трансформерные модели
🥴20❤14
Убрал workers=-1(использовать все cpu это значит)
@
Время трейна упало с 40 часов до 5
@
💃
@
Время трейна упало с 40 часов до 5
@
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯87🤡31😁10🐳2
Forwarded from Физкек
Айти — умерло. Мы живем в эпоху общесоса.
Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.
Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!
Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?
- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!
Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.
Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!
Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"
https://mipt.ru/education/chair/physics/
Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.
Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!
Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?
- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!
Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.
Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!
Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"
https://mipt.ru/education/chair/physics/
💊78🤩33🤣11❤4💩3👍2🤡2🔥1😁1
Forwarded from Пресидский залив (Nadia ズエバ)
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
Telegram
каналы нади
Nadia ズエバ invites you to add the folder “каналы нади”, which includes 16 chats.
🤡12👍6❤2🖕2
Тут скоро будет хакатон chai.ml, в рамках подготовки к нему нагенерировал сет для popular character (всякие тони старки, Наруто и прочие). Сет маленький, всего то 100 диалогов, но качественный - шел cherry pick 1 из 8.
Dataset
GPT j на поиграться
Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
Dataset
GPT j на поиграться
Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
🔥72👏7👾7❤🔥2🤩2👍1👎1🥰1💩1😇1🆒1
Forwarded from что-то на DL-ском
Уже неделю идет DataFest. Кто еще не слышал, Data Fest - крупнейшая в Евразии бесплатная конференция, объединяющая исследователей, инженеров и разработчиков, связанных с data science.
Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.
Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу🥺
Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023🤘
Трансляция на ютубе ODS AI
Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.
Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу
Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023
Трансляция на ютубе ODS AI
Please open Telegram to view this post
VIEW IN TELEGRAM
app.spatial.chat
SpatialChat
Virtual space platform to help remote teams collaborate.
👍17👎8❤4🔥2
Forwarded from Ilya Gusev
Всем привет! Несколько апдейтов по Сайге:
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
🔥41
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на тикток с красивыми визуализациями
😍44🔥9🥱5🥰1
Имеете опыт в машинном обучении, но хотите двигаться ещё дальше?
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
🤡65🤮9🥴7👍5❤4💩4🤷2🥱1
Men only want one thing and it’s disgusting
NVIDIA Technical Blog
Announcing NVIDIA DGX GH200: The First 100 Terabyte GPU Memory System
At COMPUTEX 2023, NVIDIA announced NVIDIA DGX GH200, which marks another breakthrough in GPU-accelerated computing to power the most demanding giant AI workloads.
😍57🍌13👍3🔥1
Forwarded from Нейронные наброски
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533
В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.
Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.
Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
YouTube
Data Fest 2023, день 9: online из spatial.chat
Сегодня в spatial.chat участников Феста ждет насыщенная программа нескольких секций и активностей:
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
🔥22👍9❤2
Нейронные наброски
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533 В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы…
ЛУЧШИЙ доклад про RLHF, много полезного и интересного
👍7
#чтивонаночь
AVFormer: Injecting vision into frozen speech models for zero-shot AV-ASR
Идея такая: берем замороженный asr, докладываем к нему адаптеры, учим эти адаптеры прожектить пространство картинок в аудио-текстовое пространство, в итоге можно куда эффективнее вытаскивать информацию из видео, что как бы накидывает качество для youtube и подобных.
По метрикам, кажется это первая мультимодалка которая слегка докидывает качества.
arxiv
кода нет
AVFormer: Injecting vision into frozen speech models for zero-shot AV-ASR
Идея такая: берем замороженный asr, докладываем к нему адаптеры, учим эти адаптеры прожектить пространство картинок в аудио-текстовое пространство, в итоге можно куда эффективнее вытаскивать информацию из видео, что как бы накидывает качество для youtube и подобных.
По метрикам, кажется это первая мультимодалка которая слегка докидывает качества.
arxiv
кода нет
👍20👀6❤3