Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
коллективная вина за использование lightning
🤡57🥴12👍4😁3
Видели это чувствуете значительную разницу между alpaca_образными? Вот и я не чувствую, а у авторов "импрувс сигнификали, овер 99.999999% квалити оф чатгопота, покупайте на моем бусти сейчас, завтра будет дороже"

я говорил же что все забили на COT не заслужено, ведь это же не OPENAI? см 10 пункт
🤔254🤡1
#чтивонаночь
FALCON 40B NEW OPEN SOURCE SOTA
Вау, новая LM и это даже не файнтюн???

Обученная на 348A100 на 1T токенов, лучше чем MPT, LLAMA и на голову лучше GPT Neo.

По архитектуре - брат близнец MPT: alibi а значит можно будет фулл док класть в модель

Лицензия с реквестом на комерцию, что лучше чем ллама, но не очень вкусно(

Папиры нет, но обещают

falcon 7b(1.5T токенов😎)
falcon 40b
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🤗9🔥3
де_генеративные языковые модели

ускорение 740м модели

обучение с DataParallel

трансформерные модели
🥴2014
Убрал workers=-1(использовать все cpu это значит)
@
Время трейна упало с 40 часов до 5
@
💃
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯87🤡31😁10🐳2
Forwarded from Физкек
Айти — умерло. Мы живем в эпоху общесоса.

Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.

Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!

Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?

- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!

Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.

Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!

Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"

https://mipt.ru/education/chair/physics/
💊78🤩33🤣114💩3👍2🤡2🔥1😁1
Forwarded from Пресидский залив (Nadia ズエバ)
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
🤡12👍62🖕2
Тут скоро будет хакатон chai.ml, в рамках подготовки к нему нагенерировал сет для popular character (всякие тони старки, Наруто и прочие). Сет маленький, всего то 100 диалогов, но качественный - шел cherry pick 1 из 8.

Dataset
GPT j на поиграться

Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
🔥72👏7👾7❤‍🔥2🤩2👍1👎1🥰1💩1😇1🆒1
Уже неделю идет DataFest. Кто еще не слышал, Data Fest - крупнейшая в Евразии бесплатная конференция, объединяющая исследователей, инженеров и разработчиков, связанных с data science.

Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.

Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу🥺

Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023🤘

Трансляция на ютубе ODS AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17👎84🔥2
Forwarded from Ilya Gusev
Всем привет! Несколько апдейтов по Сайге:

0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут

Все те же ссылки собраны тут
🔥41
This media is not supported in your browser
VIEW IN TELEGRAM
Придумайте шутку сами
😁83🤣15💩8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на тикток с красивыми визуализациями
😍44🔥9🥱5🥰1
Имеете опыт в машинном обучении, но хотите двигаться ещё дальше?

Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.

Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.

Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.

Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!

[Зарегистрироваться]
🤡65🤮9🥴7👍54💩4🤷2🥱1
втф админ вышел из дома???
🤯43🔥9👍3🥴3😱1
👍27😁5🤡3
Forwarded from russiansinlondon
Какое слово увидишь первым, так и пройдёт твое лето :
😁24😐1
🤣81😭33🔥2😁21👍1
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533

В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.

Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
🔥22👍92