Короче да, я докатил до релиза свою картинко генерилку с которой возился с лета, она офк хуже d3, но в среднем лучше опенсурса из коробки(на начало ноября 23 года, офк до a1111 с миллионом лор далеко)
Велком! Возможно докачу image2video, но позже.
Промптинг по стилю ближе к MJ, на длинные промпты скорее плохо реагирует.
Вероятно в ближайшее время напишу посты про то как учил с RLHF, выложу данные (чистую и sfw часть) и модели. А так же сравнения с open source, common APIs/civit models.
на новогодних праздниках будет инфернс(в коллаб точно влезет, но вот в 8гб не факт)
https://discord.gg/tvUg2EDRkz
Велком! Возможно докачу image2video, но позже.
Промптинг по стилю ближе к MJ, на длинные промпты скорее плохо реагирует.
Вероятно в ближайшее время напишу посты про то как учил с RLHF, выложу данные (чистую и sfw часть) и модели. А так же сравнения с open source, common APIs/civit models.
на новогодних праздниках будет инфернс(в коллаб точно влезет, но вот в 8гб не факт)
https://discord.gg/tvUg2EDRkz
Вышел трейлер GTA 6:
https://youtu.be/QdBZY2fkU-0
Видимо в gta7 поиграют эээ наши дети? Сколько лет пройдет, 12? А между gta4 и gta5 прошло 6, те gta7 ждать году так к 2050, верно?
https://youtu.be/QdBZY2fkU-0
Видимо в gta7 поиграют эээ наши дети? Сколько лет пройдет, 12? А между gta4 и gta5 прошло 6, те gta7 ждать году так к 2050, верно?
YouTube
Grand Theft Auto VI Trailer 1
Song: Love Is A Long Road
Artist: Tom Petty
Written by Thomas Earl Petty and Michael W. Campbell
Published by Universal Music Works on behalf of Wild Gator Music (GMR) and Wixen Music Publishing, Inc. as agent for Gone Gator Music (ASCAP) and NotoriousJBPSongs…
Artist: Tom Petty
Written by Thomas Earl Petty and Michael W. Campbell
Published by Universal Music Works on behalf of Wild Gator Music (GMR) and Wixen Music Publishing, Inc. as agent for Gone Gator Music (ASCAP) and NotoriousJBPSongs…
А на основе чего LLM это отдельный класс моделей, чем принципиально отличается LLM scientist от обычного NLPшника...
И тот и другой делает import transformers, половина кандидатов на вопросах о TP начинают чесать голову и искать глазами книжку по OSI
И тот и другой делает import transformers, половина кандидатов на вопросах о TP начинают чесать голову и искать глазами книжку по OSI
Привет! Мы в Тинькофф болеем созданием обалденного пользовательского опыта во всех наших продуктах, поэтому, когда ChatGPT и LLM показали себя, мы тут же стали думать, как внедрить эту технологию себе. Сейчас мы расширяем команду, которая работает над нашим продуктом tGPT: LLM, делающей продукты Тинькофф гибче, дешевле и умнее. Поэтому самое время запрыгнуть к нам на борт, если вам хочется не просто наблюдать хайп вокруг ChatGPT, а стать частью этой истории. На данный момент мы активно ищем аналитика данных!
- Какие проблемы есть у ответов нейросети и как правильно лечить их с помощью данных?
- Как правильно количественно оценить ответы модели?
- Какие знания нужно заложить в модель на этапе предобучения, чтобы она отвечала правдиво?
На эти и множество других интересных вопросов вам предстоит ответить в роли аналитика данных, плотно взаимодействуя с менеджерами продукта, инженерами и шеф-редакторами. Если у вас есть базовое знание Python, опыт работы с текстовыми данными, опыт организации разметок на Толоке и продуктовое мышление, то скидывайте своё резюме в телеграм @solemn_leader.
- Какие проблемы есть у ответов нейросети и как правильно лечить их с помощью данных?
- Как правильно количественно оценить ответы модели?
- Какие знания нужно заложить в модель на этапе предобучения, чтобы она отвечала правдиво?
На эти и множество других интересных вопросов вам предстоит ответить в роли аналитика данных, плотно взаимодействуя с менеджерами продукта, инженерами и шеф-редакторами. Если у вас есть базовое знание Python, опыт работы с текстовыми данными, опыт организации разметок на Толоке и продуктовое мышление, то скидывайте своё резюме в телеграм @solemn_leader.
🤮87 53❤18 13👍8 6😁5 2
Forwarded from еба́ные идеи для резерча
Telegraph
Маска
В X—ой IT компании в рамках окончания годового цикла давали бал-маскарад, или, как его называли местные барышни, prefomance review. Было 12 часов ночи. Не танцующие ресерчеры без масок — их было пять душ — сидели за большим круглым исследовательским кластером…
Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА💃 ), серьезного конкурента у gpt4 нет
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен(БЛЯТЬ НУ КАК ВСЕГДА
Please open Telegram to view this post
VIEW IN TELEGRAM
#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤔6👍5
Офигеть, гугл Gemini релизнул
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
с RLHF все стабильно(хуево)
paper
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.
с RLHF все стабильно
paper
Google
Introducing Gemini: our largest and most capable AI model
Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.
Love. Death. Transformers.
Офигеть, гугл Gemini релизнул https://blog.google/technology/ai/google-gemini-ai/ На mmlu и mmmu лучше gpt4(не совсем) gemeny nano будет запускаться на pixel8 For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red…
разница охуенная, папир это какой то троленг
Forwarded from еба́ные идеи для резерча
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
❤60 43😁16 5👍4🤩2 2
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36❤7 5🎉4🤩4👍2🤔2 2
Forwarded from Лиза Pro.Art🌻
Четверг 18.30: повтор лекции про Микеланджело
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
Love. Death. Transformers.
#чтивонаночь В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался))) Mamba: Linear-Time Sequence Modeling with Selective State Spaces. Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими…
все люди такие типа:
НО
вам надо знать что такое мамба(даже если окажется что это очень плохо) или мы будем драться.
НО
вам надо знать что такое мамба(даже если окажется что это очень плохо) или мы будем драться.