NEW BOT Телеграм, страница

В X—ой IT компании в рамках окончания годового цикла давали бал-маскарад, или, как его называли местные барышни, prefomance review. Было 12 часов ночи. Не танцующие ресерчеры без масок — их было пять душ — сидели за большим круглым исследовательским кластером…

3927👎12👍9😁3🔥1

4.52K views16:10

Love. Death. Transformers.

Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное ~~инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.~~

Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА💃), серьезного конкурента у gpt4 нет

Please open Telegram to view this post

VIEW IN TELEGRAM

4928😢2611❤6😁3👍2🔥2🤔2

5.35K viewsedited 12:33

Love. Death. Transformers.

#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.

Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

TLDR:

- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).

а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.

Подробнее как всегда в teletype

code
paper

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥36🤔6👍5

5.97K viewsedited 14:57

Love. Death. Transformers.

#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте. Речь про Mamba: Linear-Time Sequence Modeling…

❤20👍2

4.63K views15:06

Love. Death. Transformers.

Офигеть, гугл Gemini релизнул

https://blog.google/technology/ai/google-gemini-ai/

На mmlu и mmmu лучше gpt4(не совсем)

gemeny nano будет запускаться на pixel8

For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.

с RLHF все стабильно (хуево)

paper

Google

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

5411👍9❤1🤯1🤮1

13.4K viewsedited 15:07

Love. Death. Transformers.

Офигеть, гугл Gemini релизнул https://blog.google/technology/ai/google-gemini-ai/ На mmlu и mmmu лучше gpt4(не совсем) gemeny nano будет запускаться на pixel8 For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red…

разница охуенная, папир это какой то троленг

572592❤1

5.27K views15:18

Love. Death. Transformers.

все нормально, модели гугл по прежнему сосут, это +- уровень vicuna-gpt3.5 на lm арене

5226105❤2

5.58K viewsedited 15:18

Love. Death. Transformers.

релиз охуенный

66😁321052

5.62K viewsedited 15:23

Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча

Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!

Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.

В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).

Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.

Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).

Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?

А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.

❤6043😁165👍4🤩22

5.19K views17:13

Love. Death. Transformers.

#чтивонаночь

В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))

Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.

Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

TLDR:

- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).

а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.

Подробнее как всегда в teletype

code
paper

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥36❤75🎉4🤩4👍2🤔22

11.1K viewsedited 07:30

Love. Death. Transformers.

Forwarded from Лиза Pro.Art🌻

Четверг 18.30: повтор лекции про Микеланджело
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему

Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки

Welcome 💋

2372👍1

4.86K views12:07

Love. Death. Transformers.

#чтивонаночь В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался))) Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими…

все люди такие типа:

НО

вам надо знать что такое мамба(даже если окажется что это очень плохо) или мы будем драться.

10126🔥12116😁2

5.36K viewsedited 12:33

Love. Death. Transformers.

#чтивонаночь по быстрому

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Чуваки учат CLIP на синте(картинка синта) и выясняется что это хорошо работает.
А ещё придумали прикольный multipositive contrastive loss, чтобы использовать свою синту вместе с ориг данными.

paper
code он наконец выложен

❤2053

5.12K viewsedited 04:56

Love. Death. Transformers.

0:43

Media is too big

VIEW IN TELEGRAM

my honest reaction на папиры в 2023:

😁10016🔥94🤮2👍1👏1

6.29K views12:09

Love. Death. Transformers.

Релизы в конце 23 с каждым разом становились все более ебанутыми

😁753223👍4🤔4❤2🤯2

12.3K views16:19

Love. Death. Transformers.

Релизы в конце 23 с каждым разом становились все более ебанутыми

A lol, кода и блога нет

Код есть, надо почитать

44214❤11

5.04K viewsedited 16:46

Love. Death. Transformers.

Forwarded from Научно-Технический Рэп

Мидл: - пишет абстрактную фабрику
Сеньор: - увольняется, и устраивается на конкретную

78308😁5👍3

4.78K views17:45

Love. Death. Transformers.

A lol, кода и блога нет Код есть, надо почитать

Лол кто то сделал МоЕ, охуеть

33196

4.96K views17:45

Love. Death. Transformers.

Релизы в конце 23 с каждым разом становились все более ебанутыми

Mixtral-8x7b on Fireworks.ai https://app.fireworks.ai
Модель без инструктивного тюна, так что хзхз

По бенчам на уровне 65-70б инструкт моделей.

63 avg, при том что у 7b mistral ~60avg

Hf версия

642864👍2🤯2❤1

5.12K viewsedited 08:53

Love. Death. Transformers.

Оказывается 8 месяцев назад вышла T5 like Moe модель c prefix lm+span corruption, обученная на 780b токенов и чекпоинты вплоть до 8В
code
Blog

🔥21

4.98K views16:00

Love. Death. Transformers.

На хф вышел блог про HPU - Habana Gaudi2, за счёт того что часть операций с данными вынесена на девайс почти в 1.5 раза быстрее h100.
Уже впилен torch, transformers и обещают deepspeed.

Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточености на Nvidia сложно конечно.

blog про трен
Blog

👍1816🔥7😁4🤮2👏1🤯1

4.81K viewsedited 19:51

About

Blog

Apps

Platform