NEW BOT Телеграм, страница - 326945260

Love. Death. Transformers.

@lovedeathtransformers

22.5K subscribers

4.26K photos

499 videos

76 files

2.78K links

❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.

Download Telegram

About

Blog

Apps

Platform

Love. Death. Transformers.

22.5K subscribers

Love. Death. Transformers.

Forwarded from epsilon correct

У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные ~~энергетические~~ блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25

8.71K views19:04

Love. Death. Transformers.

Ну и как вам новый voice mode? Я четвертый день не могу понять зачем оно.

🤷‍♂42😨11🌚74💩3👎2👍1

7.97K views22:23

Love. Death. Transformers.

Пол часа с хуем в день полезнее чем два часа митингов

🍓84😁36💯12👍7🍌4👎11

8.66K views10:08

Love. Death. Transformers.

ищу хорошего сантехника в московской области, если можете пореферить в личку @alexwortega

32😈1414🥴5🌚2🍌2🍓1

8.39K views12:22

Love. Death. Transformers.

😁125🌚11🔥6🥴4🍓3🥱2💯2🌭1

8.82K views12:37

Love. Death. Transformers.

Forwarded from quant barbie

Попросили как-то админку квант барби провести урок математики в школе. Админка согласилась. После урока спрашивают, мол, что, как, были ли проблемы?
- Ну, был один школьник. Спрашивает, мол, что такое интеграл, а я в душе не ебу, что это такое.
- Ну, и как вы из ситуации вышли, как ответили?
- Я ответила уклончиво: мол, иди ка ты на хуй.

105👍31🤡23👎105🥴3💅3🌭1🍓1🦄1

8.89K views18:58

Love. Death. Transformers.

8😁154💔21💯9🤷4👍3🍓3🔥1💩1🤡1

9.83K views08:33

Love. Death. Transformers.

Forwarded from ебãные идеи для трейдинга

зарабатывать на разводе бабок на комиссии, говорить что вы ИТ компания

😁9👎2🤔2

8.52K views15:12

Love. Death. Transformers.

зарабатывать на разводе гоев на инвестиции, говорить что вы строите agi

🍓117👍15👏5

8.78K viewsedited 15:12

Love. Death. Transformers.

Forwarded from Derp Learning

😁70🔥4🌚3

8.41K views07:40

Love. Death. Transformers.

Чёт какой то пиздец творится в Abby, всех уволили одним днём. Пока не понятно, по цвету паспорта или просто всю разработку.

Ребята в революте нанимают:
- Computer Vision
- Natural Language Processing
- Engineering
- Product Owners
pavel.nesterov@revolut.com

Positive Technologies нанимают ML инженеров:

- NLP
- Classic ML
- LLM (prompt/rag/agents)

@tanyasmirom

Dubformer также ищет людей

https://dubformer.notion.site/Dubformer-10a125bf243380a2abaacf5810abef5d

Lifepay ищут инженера

https://hh.ru/vacancy/108000952

@s_davvvv @flashnik

ArenaData ищет Лида на code generation

@abalagaev CV сюда

Если у вы имеетее дс вакансии, пишите в личку/ кидайте под пост и добавлю в сообщение

dubformer on Notion

Dubformer is hiring! | Notion

Click for more details for each role

55🥴79👍26🥱12🙈6😢5🔥3😁2😨2🤪2

10.3K viewsedited 13:56

Love. Death. Transformers.

Forwarded from DLStories

Помните, писала, что у нас с коллегами приняли статью на COLM, но конференция в США и ни у кого из нас нет виз? Так вот, конференция 7-9 октября в Филадельфии, и мы все еще в поисках человека, который мог бы туда поехать и презентовать нашу статью😢

В том посте я писала, что нужно будет постоять рядом с нашим постером. Но теперь все немного сложнее: наша статья попала на oral (spotlight). То есть, нужно будет выйти зачитать доклад по нашей статье на 12 минут🌝 Текст и презентация доклада будут готовы.

Поэтому если вдруг вы или ваши коллеги едут на COLM, и готовы с этим нам помочь, напишите, пожалуйста, Лаиде. Вы очень-очень нам поможете!
(Я помню, что под предыдущим постом были люди, готовые помочь. Спасибо вам большое, что тогда откликнулись! Если вы все еще готовы помочь, будем очень рады)

❤‍🔥47😢13🤔3👍1

6.59K views07:36

Love. Death. Transformers.

3✍122🔥38😁32😨3👍2💯2😢1🍓1

9.03K views20:16

Love. Death. Transformers.

How-To-Succeed-At-MrBeast-Production.pdf

Feels like a best management book ever

😁36🔥2

7.49K viewsedited 04:07

Love. Death. Transformers.

😁57🤡5🥴2🍓2🌚11

7.27K views05:04

Love. Death. Transformers.

Forwarded from Vikhr models

Натурализация выходов llm

С помощью DPO можно учить LLM генерировать LLM более натуральные тексты, для этого берем текст, нарезаем на куски, суммаризируем, затем генерируем "любой сеткой" кандидатов. Учим DPO где хороший текст это оригинал, а плохой это то что сетка родила.

Собственно у нас в Vikhr Models есть трек с Roleplay+Interpretability поэтому мы сгенерировали такой датасет на основе habr+picabuu+ficbook.

Ну и забыли заанонсить🫠

А вчера увидел пост у Ильи что ребята в комьюнити проделали аналогичную работу над книжками!

На основе книжек
Наш датасет на основе более разнообразного датамикса

Старший Авгур

Помните историю про Гутенберг, датасет пар для обучения моделей писательству? Нашёлся-таки герой, который повторил его для русского, мой подписчик — Макс 👏

Вот сам датасет: https://huggingface.co/datasets/40umov/dostoevsky

Методология аналогична оригинальной.…

🔥26👍5🥱2

7.32K views07:55

Love. Death. Transformers.

Учить что либо на более 10 нодах сложно. Уже начинает влиять топология кластера, падает MFU, отваливаются ноды и так далее, на лету выкидывать ноды из обучения сложно. Скорость интернета внутри датацентра одинаковая только в теории.
В целом любое массивное обучение на сотнях и тысячах нод это очень сложно, затратно и инженерно.

В первые вижу в паблике подробный блогпост про оптимизацию network level для обучения на 4к h100.

Блогпост

👍73🔥23🤔1

9.23K viewsedited 13:19

Love. Death. Transformers.

Forwarded from CV Time

Blueberry оказалась Flux 1.1. Pro

Помните загадочную Blueberry, которая лидировала на text2image-арене? На ECCV выяснилось, что это была Flux 1.1 Pro от Black Forest Labs — об этом сообщил сооснователь компании Алекс Зауэр. Более того, по его словам, сегодня нас ждёт ещё один анонс, связанный с этой моделью.

CV Time

#YaECCV

🔥19

7.8K views14:57

Love. Death. Transformers.

Я был до последнего уверен что blueberry это dalle4 лол

👍28🤔5😁3

8.15K views14:57

Love. Death. Transformers.

touch the grass is all you need

😁77107

8.82K viewsedited 15:44

Love. Death. Transformers.

Love. Death. Transformers.

Чёт какой то пиздец творится в Abby, всех уволили одним днём. Пока не понятно, по цвету паспорта или просто всю разработку. Ребята в революте нанимают: - Computer Vision - Natural Language Processing - Engineering - Product Owners pavel.nesterov@revolut.com…

Ребята из JetBrains тоже активно ищут Mlщиков всех видов вне рф, писать сюда @Voiaking

Umojo

ML инженеров для CV. И Тим лида для команды CV, вне рф

@Tanya_tepli

👎102🤮67🔥22👍11💩8🍓7🌚3🤔11

8.81K viewsedited 16:07