NEW BOT Телеграм, страница

Love. Death. Transformers.

Лол, в начале года работал над похожим Cloned Transformer - такая же логика: копируем средние слои в центре.

По метрикам чуть получше чем ванильная rugpt large, если ваш прод живет на этом динозавре - имеет смысл подумать о переезде

Учил на Habr + кусок ruLM, не анонсил в паблик уже не помню почему

Hf model

👍194🔥22❤1👎1🤡1

5.17K viewsedited 16:35

Love. Death. Transformers.

Дед мороз пихает подарок админу в домоход

никто не увидел что h100

532222😁5❤4👍3🔥2

4.97K viewsedited 17:49

Love. Death. Transformers.

А можно флексить что у меня миллионы просмотров?

90🔥4321👍4👏43❤2

4.68K views12:07

Love. Death. Transformers.

👍46😁2521❤4🤡2

4.75K views15:01

Love. Death. Transformers.

Forwarded from Knowledge Accumulator

AutoNumerics-Zero: Automated Discovery of State-of-the-Art Mathematical Functions [2023] - ещё одно AI-открытие уходящего года

Продолжаем тему оптимизации программ. Почти одновременно с FunSearch вышла другая работа от Deepmind, правда, не применяющая LLM, и поэтому попавшая только в Just Links. Идеологически она похожа на AutoML-Zero, про который я уже тоже писал пост.

Итак, мы умеем легко и быстро производить на компьютере 4 базовые арифметические операции. Однако, "трансцендентные" функции, например, экспоненту, нельзя легко посчитать. Компьютер их считает приближённо, например, с помощью ряда Тейлора. При этом, нам достаточно уметь приближать её на промежутке [0;1], т.к. в целую степень мы умеем легко возводить и таким образом получить любую степень.

Итак, задача - найти как можно более короткую / быструю программу, вычисляющую экспоненту на отрезке с заданной точностью. Авторы представляют программу в виде графа вычислений (см. картинку). Вершинами является вход x, выход f, константы и математические операции, в которые по направленным рёбрам попадают входные данные.

Генетический алгоритм поддерживает популяцию графов, случайно добавляет мутации в них - добавление вершин, удаление, замена ребра и т.д. Оптимизируется одновременно точность и скорость (кол-во операций или время исполнения). Так как у нас 2 важных критерия отбора, используется специальный алгоритм сортировки популяции, выбирающий программы, сбалансированные по-разному с точки зрения критериев.

В результате, алгоритм не оставляет камня на камне от бейзлайнов, созданных приматами. Количество операций сокращается примерно в 2 раза, но это не самое крутое. Алгоритм подбирает функции так, чтобы компилятор оптимизировал их наиболее выгодно, в итоге скорость возрастает в >3 раза.

И вновь кожанные мешки показывают свою несостоятельность в сложных многослойных задачах, которые нельзя разбить на изолированные кусочки. End-to-end алгоритмическая оптимизация не оставляет нам никаких шансов.

@knowledge_accumulator

🔥5413❤7👍6

4.26K views16:42

Love. Death. Transformers.

Forwarded from Dan Okhlopkov - канал

На работу я выхожу 15 января, а один из двух парттаймов завершился. Это значит, освободилось полдня на то, чтобы заниматься оверинженирингом петпроджектов. А именно — новую версию @ffmemesbot — и решил я ее делать опенсорсно. Так что подписывайтесь, ставьте звезды ⭐️

🔗 github.com/ffmemes/ff-backend

На днях мне написало порядка 10 людей и общими усилиями мы набросали в Miro как-то архитектуру бота. Решили начать разработку с сервиса storage, который будет собирать, хранить и фильтровать мемы, чтобы потом к нему прикрутить реком систему и “фронтенд” в виде тг бота.

За пару дней завел FastAPI и прикрутил Prefect Cloud с воркерами, воруя древние сниппеты кода у своего же стартапа. Будем стараться делать монолит, только ML штучки, возможно, в отдельные микросервисы уйдут, если разберусь с MLFlow.

Кстати, если вы знаете хорошие OCR либы / сервисы с щедрым free tier - поделитесь в комментах, плиз. Мне нужно текст с мемов на произвольном языке доставать, но почти всегда есть догадки, какой язык стоит детектировать.

GitHub

GitHub - ffmemes/ff-backend: Fast Food Memes monolith https://news.1rj.ru/str/ffmemesbot

Fast Food Memes monolith https://news.1rj.ru/str/ffmemesbot. Contribute to ffmemes/ff-backend development by creating an account on GitHub.

🔥15❤7👍5

4.22K views18:53

Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

Плюсы:
- Оригинальный докерфайл.
- Все зависимости из requirements на месте.
- Память не течет.
- DDP запускается.

Минусы:
- Результаты не воспроизвелись (оно и ясно, код написан на китайском форке лайтнинга).
- Комментарии на английском, сын говорит только на русском 💪

Комментарии:
Запускал 7 летний сын, провозился несколько дней. Потребовалась моя помощь. Второй раз запускать не буду.

😁40👍4🤔1

4.76K views19:20

Love. Death. Transformers.

Forwarded from Olya, London and Everything else

У меня есть 2 новости:

1. Я наконец дописала статью про отбор в DeepMind
2. Как раз вчера открылся набор на следующий год, читать подробности и подаваться тут, дедлайн 30 сентября

P.S. А если вам хочется на стажировку в Bloomberg, то податься уже можно тут

Telegraph

Как попасть в DeepMind?

Обычно каждый год где-то в июле я рассказывала, где же я стажируюсь на этот раз. В этом году я оказалась на позиции Software Engineer Intern in Research в DeepMind. Однако процесс написания статьи немного затянулся и я публикую ее только в сентябре.

🔥28

4.99K views20:29

Love. Death. Transformers.

Я с Олей познакомился много лет назад в те времена когда из России брали на стажировки в фангу, сейчас конечно много чего изменилось, но советы по подготовке по прежнему актуальны, спойлер: можно притвориться проживающим в Казахстане/армении/.... и вы станете ультра хайп стажёром в топовой конторе, а там глядишь и employe станешь🤤

И даже если вы лох(как я) то этот опыт будет супер полезен, ~~если что - всегда можно пойти на синиора в мясо~~ ~~деплоить кредитный скоринг за много денег~~

Please open Telegram to view this post

VIEW IN TELEGRAM

42🤡12❤3👍2🤔2

5.49K viewsedited 20:33

Love. Death. Transformers.

Помните канал Ai abuzzer? Как то раз он не поделился дошироком с админом и где теперь этот ваш Ai abuzzer?

По мотивам

😁26🤮3🤡2😡1

5.24K viewsedited 23:29

Love. Death. Transformers.

Я всегда любил маленькие умные модели. Не очень сложно на большом масштабе получить хорошие результаты, а вот на маленьком - сложно.

Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.

Hf

👍62🔥9

15.1K viewsedited 12:44

Love. Death. Transformers.

Сколько. Ты. Зарабатываешь?

Anonymous Poll

😢275

2.45K voters5.53K views13:49

Love. Death. Transformers.

Рофловая соревка на 50k usd - наиболее быстрый алгоритм сборки кубика рубика

kaggle

❤36

5.57K views18:57

Love. Death. Transformers.

❤58😁28👍2🔥2😢2👎1

5.65K views21:05

Love. Death. Transformers.

Forwarded from Нейрокузня | DreamForge

Человек, перевернувший Рим

Гай Юлий Цезарь — пожалуй, самый известный римлянин в истории. В ходе реконструкции внешности это было особенно заметно, ведь его бюстов великое множество и... Каждый будто изображает разного человека.

А всё дело в том, что большая часть сохранившихся скульптур является посмертной. Авторы достаточно вольно относились ко внешности диктатора, меняя её на основе собственных представлений. А может и фантазий, кто знает.

В любом случае, за основу мы взяли бюст Цезаря из Ватиканского музея, один из двух признанных портретов правителя.

Нейрокузня | DreamForge

👍21👏5🔥3

5.77K views21:19

Love. Death. Transformers.

Хз, меня Саша попросил я нихуя не понял прикола.

Регулярно спрашиваю у Саши: а как ты сделал Х, почему так.

А ещё он торчит лекцию для better data community, давайте намекнем ему что стоит записать.

🔥28❤1👍1

5.93K viewsedited 21:19

Love. Death. Transformers.

NCCL_IB_GID_INDEX=3
NCCL_SOCKET_IFNAME=1700000
CUDA_DEVICE_ORDER=PCI_BUS_ID
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7,8

Skill check failed

❤21👍4

7.23K viewsedited 22:00

Love. Death. Transformers.

diisinder - тиндер для выбора науча

👍21😁4🤔4

6.82K viewsedited 23:36

Love. Death. Transformers.

Приходит мужик к врачу:
-Доктор! Удалите мне пол мозга!
-Но... Это же невозможно! И очень опасно! Да и вообще, зачем вам это?
-Доктор, умоляю! Я так больше не могу! Я родился вундеркиндом, я закончил школу за 3 года, у меня нет друзей, нет девушки... Я постоянно решаю задачи, уравнения, доказываю теоремы... Я не могу, помогите мне! Удалите мне пол мозга!

Врач собрал консилиум, мужика обследовали - да, действительно, активность мозга такая, что он постоянно обрабатывает какую-то информацию, никогда не отдыхает. А если удалить половину мозга, то как раз оставшейся половины хватит на работу на уровне обычного человека. Провели операцию, удалили половину.

Мужик приходит через полгода:
-Доктор! Удалите мне ещё половину мозга!
-Но как?! Мы же вам уже удалили половину!
-Не помогло! Я теперь пишу стихи, поэмы, повести и романы! Я сочиняю музыку, пишу картины, ваяю статуи! Я так не могу, помогите! Удалите мне пол мозга!
Ну, делать нечего - удалили ещё половину от того что было.

Проходит опять полгода он приходит:
-Доктор, я так не могу! Помогите! Я теперь открываю новые химические элементы, новые законы физики, новые семейства растений в ботанике! Удалите мне весь мозг, пожалуйста!! Иначе я сойду с ума!
-Ну, я вас понимаю, конечно - ваша ситуация очень тяжелая.. Но я должен вас предупредить: если мы удалим вам весь оставшийся мозг вы станете LLM engineer...

❤144😁6837👏5👍2🤡2

7.36K views08:33

Love. Death. Transformers.

Forwarded from grokaem себя (Milana)

#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.

dynamic-epoch-4bb on Notion

100 questions about NLP | Notion

Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.

👍33🔥1311❤1

5.3K views09:35

Love. Death. Transformers.

Способ на сообщение выше лучше, но дело ваше.

44👏4

5.65K viewsedited 09:36

About

Blog

Apps

Platform