Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Чуваки, после аигедона останется одна модель - Bart.
90🤯11😢2
Forwarded from ML-легушька (Николай Кутузов)
132😁2361👎1🔥1🤮1
Ставки на 2024.

1) gpt 4 level опенсурс модель до середины Q3.
2) dalle3 level до середины q2, уже есть if XL, Леша-Миша если ты это читаешь, пожалуйста добавь vae блин и доучи, я точно знаю что ты делал так и это работало. Пожалуйста, нам очень надо генерировать писающих собак.

3) Удешевление генерации t2video, i2video, вероятно LCM, решит проблему скорости.

4) LCM в closed source докрутят до уровня текущих моделей, но будет real-time/near realtime.

5) DPO прикрутят ко все к чему можно, rlhf закопают окончательно (слава богу)

6) diffusion lm - подозреваю их наконец докрутят до божеского вида, но это по прежнему андеграунд будет

7) агенты будут работать только в фантазиях техно оптимистов, тут все стабильно
114👍9665🤩1
Короче да, я докатил до релиза свою картинко генерилку с которой возился с лета, она офк хуже d3, но в среднем лучше опенсурса из коробки(на начало ноября 23 года, офк до a1111 с миллионом лор далеко)

Велком! Возможно докачу image2video, но позже.

Промптинг по стилю ближе к MJ, на длинные промпты скорее плохо реагирует.

Вероятно в ближайшее время напишу посты про то как учил с RLHF, выложу данные (чистую и sfw часть) и модели. А так же сравнения с open source, common APIs/civit models.

на новогодних праздниках будет инфернс(в коллаб точно влезет, но вот в 8гб не факт)

https://discord.gg/tvUg2EDRkz
11628🔥20👍944🤯2🤮2👎1
Вышел трейлер GTA 6:
https://youtu.be/QdBZY2fkU-0

Видимо в gta7 поиграют эээ наши дети? Сколько лет пройдет, 12? А между gta4 и gta5 прошло 6, те gta7 ждать году так к 2050, верно?
54👎213👍1🤮1
А на основе чего LLM это отдельный класс моделей, чем принципиально отличается LLM scientist от обычного NLPшника...

И тот и другой делает import transformers, половина кандидатов на вопросах о TP начинают чесать голову и искать глазами книжку по OSI
821511🤯7👍1
test 2
164421814👎4🔥1
Привет! Мы в Тинькофф болеем созданием обалденного пользовательского опыта во всех наших продуктах, поэтому, когда ChatGPT и LLM показали себя, мы тут же стали думать, как внедрить эту технологию себе. Сейчас мы расширяем команду, которая работает над нашим продуктом tGPT: LLM, делающей продукты Тинькофф гибче, дешевле и умнее. Поэтому самое время запрыгнуть к нам на борт, если вам хочется не просто наблюдать хайп вокруг ChatGPT, а стать частью этой истории. На данный момент мы активно ищем аналитика данных!

- Какие проблемы есть у ответов нейросети и как правильно лечить их с помощью данных?
- Как правильно количественно оценить ответы модели?
- Какие знания нужно заложить в модель на этапе предобучения, чтобы она отвечала правдиво?

На эти и множество других интересных вопросов вам предстоит ответить в роли аналитика данных, плотно взаимодействуя с менеджерами продукта, инженерами и шеф-редакторами. Если у вас есть базовое знание Python, опыт работы с текстовыми данными, опыт организации разметок на Толоке и продуктовое мышление, то скидывайте своё резюме в телеграм @solemn_leader.
🤮87531813👍86😁52
Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.


Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА💃), серьезного конкурента у gpt4 нет
Please open Telegram to view this post
VIEW IN TELEGRAM
4928😢26116😁3👍2🔥2🤔2
#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.

Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.

TLDR:

- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).

а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.

Подробнее как всегда в teletype

code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤔6👍5
Офигеть, гугл Gemini релизнул

https://blog.google/technology/ai/google-gemini-ai/

На mmlu и mmmu лучше gpt4(не совсем)

gemeny nano будет запускаться на pixel8


For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.

с RLHF все стабильно (хуево)

paper
5411👍91🤯1🤮1
все нормально, модели гугл по прежнему сосут, это +- уровень vicuna-gpt3.5 на lm арене
52261052
релиз охуенный
66😁321052
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча

Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!

Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.

В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).

Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.

Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).

Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?

А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
6043😁165👍4🤩22