NEW BOT Телеграм, страница

Love. Death. Transformers.

какими сервисами на основе genai вы пользуетесь вот прям ежедневно?

про меня:
у меня свой бот на gpt4 который имеет ретривалы в документацию hf/diffusers/torch
deepl
mj очень редко

4925👍7

5.3K viewsedited 09:31

Love. Death. Transformers.

Киберпанк ближе чем ты думаешь и это пугает.

53😁25😢12🤔1

5.28K viewsedited 12:01

Love. Death. Transformers.

по прежнему считаю эту картинку лучшей визуализацией текущего развития general ai

❤75😁306👍5🔥4👏2👎1

5.43K viewsedited 16:15

Love. Death. Transformers.

Forwarded from Запрети мне псевдолейблить

Альтернативная модель (код)

Градиентные бустинги обычно хорошо блендятся с нейронными сетями, поэтому начали пробовать их в отработанном пайплайне.

1. Трансформер. Результаты были плохие. Скор на валидации составлял 0.685, а время обучения на один фолд занимало два часа. Обучение было медленным и результаты неудовлетворительными.
2. Сеть Conv1D. Результаты были немного лучше, но все равно неудовлетворительными. За один день удалось создать модель, которая показывала такой же скор как трансформер (0.685) на валидации, но обучалась в 10 раз быстрее. Сосредоточились на этой модели и провели более ста экспериментов, чтобы добиться ее эффективной работы. Я не буду подробно описывать процесс подбора архитектуры, но если вам интересно, вы можете прочитать подробности в оригинальном посте по ссылке.
3. Идея итогового решения заключалась в использовании модели WaveNet, которую модифицировали, чтобы она создавала эмбеддинги для duration, text_fqid, room_fqid, fqid, event_name + name и предсказывала ответы для каждого стейджа.
- На первом этапе обучаем отдельную сеть на BCELoss для каждого стейджа, предсказывая все ответы этого стейджа. (В игре есть три блока с ответами, между которыми идет сама игра. Все ивенты с начала игры/прошлого ответного блока и называется стейджем).
- Затем замораживаем веса базовой модели (отрезая BCE-голову) и обучаем другую голову, которая получает на вход конкатенацию доступных эмбеддингов для всех стейджей. На первом этапе у нас есть только один 24-мерный эмбеддинг, на втором - два эмбеддинга, и на третьем - три эмбеддинга. Мы также обучаем эту структуру на BCE и подбираем лучший вариант, исходя из метрики F1 (которая является метрикой соревнования).
4. В итоге получили результат 0.70175 для одной модели, что сопоставимо с результатами градиентного бустинга.

Kaggle

Predict Student Performance from Game Play

Trace student learning from Jo Wilder online educational game

👍16105❤4😁3🤔31

4.77K views09:22

Love. Death. Transformers.

64❤43🔥2😁1

5.36K views12:32

Love. Death. Transformers.

61👍25108😁3❤2😢1

5.06K views12:51

Love. Death. Transformers.

❤33😁20🤩3🔥1😢1

4.73K views10:48

Love. Death. Transformers.

Forwarded from что-то на DL-ском

Ну все, закат эпохи MoE, а начиналось так красиво😭

Тут вышла новая модель, которая модифицирует Mistral не добавлением экспертов, как в MoE (мне до сих пор не понятно как это чудо тюнить и куда пихать), а копированием и задвоением слоев

Технология такая: копируем слои модели, обрезаем немного с верхушки и с конца (авторы объясняют это борьбой с неоднородностью слоев). Ну и стакаем вместе. Идея не супер новая, но работает, теперь в лидерборде модель в сумме на 11B параметров красуется выше, чем 47B Mistral в сумме

Еще непонятно почему авторы обрезают именно 8 слоев. Поясняют это буквально тем, что так надо. Но в общем и целом, красивое решение и можно проделывать с любой новой архитектурой, которая даст прирост

🙂

Папир

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯42❤10🤔3😁2🤡2

4.46K views16:20

Love. Death. Transformers.

Лол, в начале года работал над похожим Cloned Transformer - такая же логика: копируем средние слои в центре.

По метрикам чуть получше чем ванильная rugpt large, если ваш прод живет на этом динозавре - имеет смысл подумать о переезде

Учил на Habr + кусок ruLM, не анонсил в паблик уже не помню почему

Hf model

👍194🔥22❤1👎1🤡1

5.17K viewsedited 16:35

Love. Death. Transformers.

Дед мороз пихает подарок админу в домоход

никто не увидел что h100

532222😁5❤4👍3🔥2

4.97K viewsedited 17:49

Love. Death. Transformers.

А можно флексить что у меня миллионы просмотров?

90🔥4321👍4👏43❤2

4.68K views12:07

Love. Death. Transformers.

👍46😁2521❤4🤡2

4.75K views15:01

Love. Death. Transformers.

Forwarded from Knowledge Accumulator

AutoNumerics-Zero: Automated Discovery of State-of-the-Art Mathematical Functions [2023] - ещё одно AI-открытие уходящего года

Продолжаем тему оптимизации программ. Почти одновременно с FunSearch вышла другая работа от Deepmind, правда, не применяющая LLM, и поэтому попавшая только в Just Links. Идеологически она похожа на AutoML-Zero, про который я уже тоже писал пост.

Итак, мы умеем легко и быстро производить на компьютере 4 базовые арифметические операции. Однако, "трансцендентные" функции, например, экспоненту, нельзя легко посчитать. Компьютер их считает приближённо, например, с помощью ряда Тейлора. При этом, нам достаточно уметь приближать её на промежутке [0;1], т.к. в целую степень мы умеем легко возводить и таким образом получить любую степень.

Итак, задача - найти как можно более короткую / быструю программу, вычисляющую экспоненту на отрезке с заданной точностью. Авторы представляют программу в виде графа вычислений (см. картинку). Вершинами является вход x, выход f, константы и математические операции, в которые по направленным рёбрам попадают входные данные.

Генетический алгоритм поддерживает популяцию графов, случайно добавляет мутации в них - добавление вершин, удаление, замена ребра и т.д. Оптимизируется одновременно точность и скорость (кол-во операций или время исполнения). Так как у нас 2 важных критерия отбора, используется специальный алгоритм сортировки популяции, выбирающий программы, сбалансированные по-разному с точки зрения критериев.

В результате, алгоритм не оставляет камня на камне от бейзлайнов, созданных приматами. Количество операций сокращается примерно в 2 раза, но это не самое крутое. Алгоритм подбирает функции так, чтобы компилятор оптимизировал их наиболее выгодно, в итоге скорость возрастает в >3 раза.

И вновь кожанные мешки показывают свою несостоятельность в сложных многослойных задачах, которые нельзя разбить на изолированные кусочки. End-to-end алгоритмическая оптимизация не оставляет нам никаких шансов.

@knowledge_accumulator

🔥5413❤7👍6

4.26K views16:42

Love. Death. Transformers.

Forwarded from Dan Okhlopkov - канал

На работу я выхожу 15 января, а один из двух парттаймов завершился. Это значит, освободилось полдня на то, чтобы заниматься оверинженирингом петпроджектов. А именно — новую версию @ffmemesbot — и решил я ее делать опенсорсно. Так что подписывайтесь, ставьте звезды ⭐️

🔗 github.com/ffmemes/ff-backend

На днях мне написало порядка 10 людей и общими усилиями мы набросали в Miro как-то архитектуру бота. Решили начать разработку с сервиса storage, который будет собирать, хранить и фильтровать мемы, чтобы потом к нему прикрутить реком систему и “фронтенд” в виде тг бота.

За пару дней завел FastAPI и прикрутил Prefect Cloud с воркерами, воруя древние сниппеты кода у своего же стартапа. Будем стараться делать монолит, только ML штучки, возможно, в отдельные микросервисы уйдут, если разберусь с MLFlow.

Кстати, если вы знаете хорошие OCR либы / сервисы с щедрым free tier - поделитесь в комментах, плиз. Мне нужно текст с мемов на произвольном языке доставать, но почти всегда есть догадки, какой язык стоит детектировать.

GitHub

GitHub - ffmemes/ff-backend: Fast Food Memes monolith https://news.1rj.ru/str/ffmemesbot

Fast Food Memes monolith https://news.1rj.ru/str/ffmemesbot. Contribute to ffmemes/ff-backend development by creating an account on GitHub.

🔥15❤7👍5

4.22K views18:53

Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

Плюсы:
- Оригинальный докерфайл.
- Все зависимости из requirements на месте.
- Память не течет.
- DDP запускается.

Минусы:
- Результаты не воспроизвелись (оно и ясно, код написан на китайском форке лайтнинга).
- Комментарии на английском, сын говорит только на русском 💪

Комментарии:
Запускал 7 летний сын, провозился несколько дней. Потребовалась моя помощь. Второй раз запускать не буду.

😁40👍4🤔1

4.76K views19:20

Love. Death. Transformers.

Forwarded from Olya, London and Everything else

У меня есть 2 новости:

1. Я наконец дописала статью про отбор в DeepMind
2. Как раз вчера открылся набор на следующий год, читать подробности и подаваться тут, дедлайн 30 сентября

P.S. А если вам хочется на стажировку в Bloomberg, то податься уже можно тут

Telegraph

Как попасть в DeepMind?

Обычно каждый год где-то в июле я рассказывала, где же я стажируюсь на этот раз. В этом году я оказалась на позиции Software Engineer Intern in Research в DeepMind. Однако процесс написания статьи немного затянулся и я публикую ее только в сентябре.

🔥28

4.99K views20:29

Love. Death. Transformers.

Я с Олей познакомился много лет назад в те времена когда из России брали на стажировки в фангу, сейчас конечно много чего изменилось, но советы по подготовке по прежнему актуальны, спойлер: можно притвориться проживающим в Казахстане/армении/.... и вы станете ультра хайп стажёром в топовой конторе, а там глядишь и employe станешь🤤

И даже если вы лох(как я) то этот опыт будет супер полезен, ~~если что - всегда можно пойти на синиора в мясо~~ ~~деплоить кредитный скоринг за много денег~~

Please open Telegram to view this post

VIEW IN TELEGRAM

42🤡12❤3👍2🤔2

5.49K viewsedited 20:33

Love. Death. Transformers.

Помните канал Ai abuzzer? Как то раз он не поделился дошироком с админом и где теперь этот ваш Ai abuzzer?

По мотивам

😁26🤮3🤡2😡1

5.24K viewsedited 23:29

Love. Death. Transformers.

Я всегда любил маленькие умные модели. Не очень сложно на большом масштабе получить хорошие результаты, а вот на маленьком - сложно.

Чуваки сделали 1.3b(mini llama based) в стиле llava модель, которая почти не уступает (3 цифра после запятой) 7b llava.

Hf

👍62🔥9

15.1K viewsedited 12:44

Love. Death. Transformers.

Сколько. Ты. Зарабатываешь?

Anonymous Poll