Forwarded from еба́ные идеи для резерча
Telegraph
Маска
В X—ой IT компании в рамках окончания годового цикла давали бал-маскарад, или, как его называли местные барышни, prefomance review. Было 12 часов ночи. Не танцующие ресерчеры без масок — их было пять душ — сидели за большим круглым исследовательским кластером…
Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА💃 ), серьезного конкурента у gpt4 нет
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА
Please open Telegram to view this post
VIEW IN TELEGRAM
#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤔6👍5
Офигеть, гугл Gemini релизнул
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
с RLHF все стабильно(хуево)
paper
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.
с RLHF все стабильно
paper
Google
Introducing Gemini: our largest and most capable AI model
Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.
Love. Death. Transformers.
Офигеть, гугл Gemini релизнул https://blog.google/technology/ai/google-gemini-ai/ На mmlu и mmmu лучше gpt4(не совсем) gemeny nano будет запускаться на pixel8 For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red…
разница охуенная, папир это какой то троленг
Forwarded from еба́ные идеи для резерча
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
❤60 43😁16 5👍4🤩2 2
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36❤7 5🎉4🤩4👍2🤔2 2
Forwarded from Лиза Pro.Art🌻
Четверг 18.30: повтор лекции про Микеланджело
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
Love. Death. Transformers.
#чтивонаночь В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался))) Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими…
все люди такие типа:
НО
вам надо знать что такое мамба(даже если окажется что это очень плохо) или мы будем драться.
НО
вам надо знать что такое мамба(даже если окажется что это очень плохо) или мы будем драться.
#чтивонаночь по быстрому
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Чуваки учат CLIP на синте(картинка синта) и выясняется что это хорошо работает.
А ещё придумали прикольный multipositive contrastive loss, чтобы использовать свою синту вместе с ориг данными.
paper
code он наконец выложен
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Чуваки учат CLIP на синте(картинка синта) и выясняется что это хорошо работает.
А ещё придумали прикольный multipositive contrastive loss, чтобы использовать свою синту вместе с ориг данными.
paper
code он наконец выложен
❤20 5 3
Love. Death. Transformers.
Релизы в конце 23 с каждым разом становились все более ебанутыми
A lol, кода и блога нет
Код есть, надо почитать
Код есть, надо почитать
Forwarded from Научно-Технический Рэп
Мидл: - пишет абстрактную фабрику
Сеньор: - увольняется, и устраивается на конкретную
Сеньор: - увольняется, и устраивается на конкретную
Love. Death. Transformers.
A lol, кода и блога нет Код есть, надо почитать
Лол кто то сделал МоЕ, охуеть
Love. Death. Transformers.
Релизы в конце 23 с каждым разом становились все более ебанутыми
Mixtral-8x7b on Fireworks.ai https://app.fireworks.ai
Модель без инструктивного тюна, так что хзхз
По бенчам на уровне 65-70б инструкт моделей.
63 avg, при том что у 7b mistral ~60avg
Hf версия
Модель без инструктивного тюна, так что хзхз
По бенчам на уровне 65-70б инструкт моделей.
63 avg, при том что у 7b mistral ~60avg
Hf версия
На хф вышел блог про HPU - Habana Gaudi2, за счёт того что часть операций с данными вынесена на девайс почти в 1.5 раза быстрее h100.
Уже впилен torch, transformers и обещают deepspeed.
Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточености на Nvidia сложно конечно.
blog про трен
Blog
Уже впилен torch, transformers и обещают deepspeed.
Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточености на Nvidia сложно конечно.
blog про трен
Blog
👍18 16🔥7😁4🤮2👏1🤯1