Видели это чувствуете значительную разницу между alpaca_образными? Вот и я не чувствую, а у авторов "импрувс сигнификали, овер 99.999999% квалити оф чатгопота, покупайте на моем бусти сейчас, завтра будет дороже"
я говорил же что все забили на COT не заслужено, ведь это же не OPENAI? см 10 пункт
я говорил же что все забили на COT не заслужено, ведь это же не OPENAI? см 10 пункт
lmsys.org
Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org
<p>In this update, we are excited to welcome the following models joining the <a href="https://lmsys.org/blog/2023-05-03-arena/">Chatbot Arena</a>:</p>
<ol>
...
<ol>
...
🤔25❤4🤡1
#чтивонаночь
FALCON 40B NEW OPEN SOURCE SOTA
Вау, новая LM и это даже не файнтюн???
Обученная на 348A100 на 1T токенов, лучше чем MPT, LLAMA и на голову лучше GPT Neo.
По архитектуре - брат близнец MPT: alibi а значит можно будет фулл док класть в модель
Лицензия с реквестом на комерцию, что лучше чем ллама, но не очень вкусно(
Папиры нет, но обещают
falcon 7b(1.5T токенов😎 )
falcon 40b
FALCON 40B NEW OPEN SOURCE SOTA
Вау, новая LM и это даже не файнтюн???
Обученная на 348A100 на 1T токенов, лучше чем MPT, LLAMA и на голову лучше GPT Neo.
По архитектуре - брат близнец MPT: alibi а значит можно будет фулл док класть в модель
Лицензия с реквестом на комерцию, что лучше чем ллама, но не очень вкусно(
Папиры нет, но обещают
falcon 7b(1.5T токенов
falcon 40b
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
tiiuae/falcon-refinedweb · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍30🤗9🔥3
де_генеративные языковые модели
ускорение 740м модели
обучение с DataParallel
трансформерные модели
ускорение 740м модели
обучение с DataParallel
трансформерные модели
🥴20❤14
Убрал workers=-1(использовать все cpu это значит)
@
Время трейна упало с 40 часов до 5
@
💃
@
Время трейна упало с 40 часов до 5
@
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯87🤡31😁10🐳2
Forwarded from Физкек
Айти — умерло. Мы живем в эпоху общесоса.
Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.
Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!
Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?
- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!
Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.
Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!
Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"
https://mipt.ru/education/chair/physics/
Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.
Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!
Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?
- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!
Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.
Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!
Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"
https://mipt.ru/education/chair/physics/
💊78🤩33🤣11❤4💩3👍2🤡2🔥1😁1
Forwarded from Пресидский залив (Nadia ズエバ)
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
Telegram
каналы нади
Nadia ズエバ invites you to add the folder “каналы нади”, which includes 16 chats.
🤡12👍6❤2🖕2
Тут скоро будет хакатон chai.ml, в рамках подготовки к нему нагенерировал сет для popular character (всякие тони старки, Наруто и прочие). Сет маленький, всего то 100 диалогов, но качественный - шел cherry pick 1 из 8.
Dataset
GPT j на поиграться
Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
Dataset
GPT j на поиграться
Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
🔥72👏7👾7❤🔥2🤩2👍1👎1🥰1💩1😇1🆒1
Forwarded from что-то на DL-ском
Уже неделю идет DataFest. Кто еще не слышал, Data Fest - крупнейшая в Евразии бесплатная конференция, объединяющая исследователей, инженеров и разработчиков, связанных с data science.
Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.
Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу🥺
Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023🤘
Трансляция на ютубе ODS AI
Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.
Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу
Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023
Трансляция на ютубе ODS AI
Please open Telegram to view this post
VIEW IN TELEGRAM
app.spatial.chat
SpatialChat
Virtual space platform to help remote teams collaborate.
👍17👎8❤4🔥2
Forwarded from Ilya Gusev
Всем привет! Несколько апдейтов по Сайге:
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
🔥41
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на тикток с красивыми визуализациями
😍44🔥9🥱5🥰1
Имеете опыт в машинном обучении, но хотите двигаться ещё дальше?
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
🤡65🤮9🥴7👍5❤4💩4🤷2🥱1
Men only want one thing and it’s disgusting
NVIDIA Technical Blog
Announcing NVIDIA DGX GH200: The First 100 Terabyte GPU Memory System
At COMPUTEX 2023, NVIDIA announced NVIDIA DGX GH200, which marks another breakthrough in GPU-accelerated computing to power the most demanding giant AI workloads.
😍57🍌13👍3🔥1
Forwarded from Нейронные наброски
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533
В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.
Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.
Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
YouTube
Data Fest 2023, день 9: online из spatial.chat
Сегодня в spatial.chat участников Феста ждет насыщенная программа нескольких секций и активностей:
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
🔥22👍9❤2
Нейронные наброски
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533 В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы…
ЛУЧШИЙ доклад про RLHF, много полезного и интересного
👍7