NEW BOT Телеграм, страница

Борис опять

Хочу отметить ещё одну работу с ICML: PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
Malinovskii et. al.

Здесь целый пакет: статья на ICML, статья на хабре, код библиотеки, сжатые модели (Llama, mistral, gemma) и туториал по дообучению сжатого Mixtral через LoRA.

Это улучшение для предыдущей итерации AQLM:
Extreme Compression of Large Language Models via Additive Quantization (Egiazarian et.al., Yandex Research, IST Austria, KAUST, Neural Magic).

Оригинальная статья про метод 2-bit сжатия (квантизации) нейросетей AQLM, позволяющий сжимать модели до 8 раз с сохранением в среднем 95% качества.

AQLM это метод post-training quantization (PTQ), когда веса сжимаются после обучения. PTQ методы основаны на том, что большая часть весов в больших нейросетях ведут себя очень похожим образом, то есть избыточны.

Последним этапом идет файнтюнинг на калибровочном датасете, который устраняет часть потерь качества.

В PV-Tuning добавили новый подход к файнтюнингу, который позволил получить качество выше предыдущей соты. Причем метод заявлен как универсальный, так что возможно он применим не только для PTQ. Может быть сделаю подробный обзор. Но там аппендикс на 36 страниц 👀

Здесь можно посмотреть презентацию авторов с объяснением деталей метода.

В общем у нас появились хорошие маленькие версии любимых моделей. Должно быть очень полезно всем GPU-poor

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Extreme Compression of Large Language Models via Additive Quantization

The emergence of accurate open large language models (LLMs) has led to a race towards performant quantization techniques which can enable their execution on end-user devices. In this paper, we...

🔥25❤8👍3

5.46K viewsedited 15:40

Борис опять

В аппендиксе оригинальной статьи спрятали таблицу с самым интересным. Ускорение инференса в три раза как на GPU, так и на CPU.

С учетом PV-Tuning имеем ту же скорость, но с лучшим качеством.

❤17👍3

5.51K viewsedited 16:07

Борис опять

🤔272114❤1👎1

5.02K views09:54

Борис опять

https://www.youtube.com/watch?v=IO1hrVGuwMQ

14🔥5👍2

5.35K views11:48

Борис опять

Открыл для себя tldraw, отличная штука для диаграм.

https://www.tldraw.com/

👍27🔥5❤2

6.3K views12:49

Борис опять

Где-то в одной из Дубайских башен

Контекст

85❤66👎1

5.17K viewsedited 11:21

Борис опять

11821🤔4👍1

5.45K views11:39

Борис опять

https://ai.meta.com/blog/segment-anything-2/

Оказывается позавчера вышла Segment Anything 2!

Meta AI

Update: Expanding access to Meta Segment Anything 2.1 on Amazon SageMaker JumpStart

Starting today, SAM 2.1 is available in Amazon SageMaker JumpStart, making it easier than ever to deploy SAM 2.1 and integrate it into new applications and workflows.

👍12❤11

4.86K viewsedited 16:05

Борис опять

Уже завтра я буду на AMA стриме в Вастрик.Клубе.

1 августа в 19:00 по Москве
Тема: "Нейросети для Троечников"

Трансляция будет доступна для членов клуба, а для всех остальных позже будет запись.

Моя цель пояснить за нейросети и машинное обучение так, чтобы поняли даже люди, которые вообще ничего не понимают.

Будем рассуждать через призму идей, а не душной математики. Какие задачи решают нейросетки? Как они учатся? Что умеют, а чего не умеют? Что у них в голове?

Для этого я сейчас судорожно готовлюсь: нужно сжать весь свой опыт в короткое выступление, но не потерять ничего важного.

Описание из поста в клубе:

Поговорим с @btseytlin о том, как работают модели искусственного интеллекта, которые менее модно называются машинным обучением.
❌ Здесь не будет ничего о том как заработать на нейросетях без вложений, как составить промпт для лечения рака и какие топ 10 нейросетей нужно использовать в маркетинге. Не будет и спекуляций на тему того, как ИИ уже завтра изменит всю планету.

👌 Вместо этого постараемся найти баланс между верхнеуровневым пониманием и деталями, чтобы действительно разобраться что и почему происходит. Разберемся где магия, где предсказание следующего слова и что о нашем мире знает SORA.

Подключайтесь!

Ссылка для тех, кто платит Вастрику:
https://vas3k.club/event/25114/

Вастрик.Клуб

Событие: [AMA] 🤖 Нейросети для троечников (1 августа) — Вастрик.Клуб

Каждую* неделю по четвергам Клуб собираются в уютный зум, чтобы послушать выступление эксперта по к…

❤13🔥3👍1

5.31K viewsedited 17:54

Борис опять

Борис опять pinned «Уже завтра я буду на AMA стриме в Вастрик.Клубе. 1 августа в 19:00 по Москве Тема: "Нейросети для Троечников" Трансляция будет доступна для членов клуба, а для всех остальных позже будет запись. Моя цель пояснить за нейросети и машинное обучение так, чтобы…»

17:56

Борис опять

10718🔥6🤔2

5.11K views12:14

Борис опять

Типичное утро машинлернера

Правильный ответ: gradient clipping

804❤3

5.11K viewsedited 16:45

Борис опять

Forwarded from Love. Death. Transformers.

ПЕРВЫЙ МУЛЬТИМОДАЛЬНЫЙ ДАТАСЕТ ЗАДАЧ ПО ФИЗИКЕ?

Контрибьютеры в вихре варят очень сложные датасеты - рецепт простой: краулим 10 гб html-pdf_ок, прогоняем через кучу ocr, latex конверторов, парсим текстовый слой и картинки. Потом обмазываем все это регулярками для вязкости и получаем вероятно один из самых сложных для LLM датасетов - physics_big.

Почему он сложный? Потому что это мультимодальная физика с олимпиад. В отилчие от геометрии или алгебры для физики все сильно хуже с солверами, авто решаторами и индукцией ее тоже не решишь

Заливать в test в train можно здесь hf

Над релизом работали:
@suro4ekgg - вообще почти сделал
@mlunderground
@lovedeathtransformers

поддержать в X

🔥30👍11❤22

4.32K views19:38

Борис опять

https://srcd.onlinelibrary.wiley.com/doi/10.1111/cdev.14129

Зефирный тест в который раз не показал никакого эффекта

Society for Research in Child Development

<em>Child Development</em> | SRCD Journal | Wiley Online Library

This study extends the analytic approach conducted by Watts et al. (2018) to examine the long-term predictive validity of delay of gratification. Participants (n = 702; 83% White, 46% male) completed...

👍19🤔4👎1

4.49K views09:43

Борис опять

Играюсь тут с новой моделью для генерации изображений Flux

Забавное: модели мира у неё ломаются при добавлении в промпт "upside down."

Больше интересных находок буду скидывать в комментарии.

Но в целом прогресс супер, эта модель гораздо лучше умеет в композицию и хорошо понимает промпт. К тому же модели ОЧЕНЬ быстрые. Маленькая генерирует изображение за чуть больше секунды.

Поиграть можно тут: https://replicate.com/black-forest-labs/flux-schnell

Или с полноценной моделью тут:
https://fal.ai/models/fal-ai/flux-pro
Но там ограниченные деньги, много не попробуешь

👍5🔥4❤1😢1

4.77K viewsedited 11:29

Борис опять

Но это достойно поста в канале.

Приходите в наш массажный салон.

В большой модели вроде бы всё нормально, но у меня кончились кредиты и не потестить особо.

UPD: нет, в большой тоже самое

61❤3

5.27K views11:30

Борис опять

Массаж может быть новым тестом для генераторов изображений, так как с руками вроде бы разобрались в больших моделях

🔥36324❤1

6.11K views11:37

About

Blog

Apps

Platform