Борис опять – Telegram
Борис опять
15.1K subscribers
1.43K photos
72 videos
30 files
1.47K links
life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin
Download Telegram
Хочу отметить ещё одну работу с ICML: PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
Malinovskii et. al.

Здесь целый пакет: статья на ICML, статья на хабре, код библиотеки, сжатые модели (Llama, mistral, gemma) и туториал по дообучению сжатого Mixtral через LoRA.

Это улучшение для предыдущей итерации AQLM:
Extreme Compression of Large Language Models via Additive Quantization (Egiazarian et.al., Yandex Research, IST Austria, KAUST, Neural Magic).

Оригинальная статья про метод 2-bit сжатия (квантизации) нейросетей AQLM, позволяющий сжимать модели до 8 раз с сохранением в среднем 95% качества.

AQLM это метод post-training quantization (PTQ), когда веса сжимаются после обучения. PTQ методы основаны на том, что большая часть весов в больших нейросетях ведут себя очень похожим образом, то есть избыточны.

Последним этапом идет файнтюнинг на калибровочном датасете, который устраняет часть потерь качества.

В PV-Tuning добавили новый подход к файнтюнингу, который позволил получить качество выше предыдущей соты. Причем метод заявлен как универсальный, так что возможно он применим не только для PTQ. Может быть сделаю подробный обзор. Но там аппендикс на 36 страниц 👀

Здесь можно посмотреть презентацию авторов с объяснением деталей метода.

В общем у нас появились хорошие маленькие версии любимых моделей. Должно быть очень полезно всем GPU-poor
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥258👍3
В аппендиксе оригинальной статьи спрятали таблицу с самым интересным. Ускорение инференса в три раза как на GPU, так и на CPU.

С учетом PV-Tuning имеем ту же скорость, но с лучшим качеством.
17👍3
🤔2721141👎1
Открыл для себя tldraw, отличная штука для диаграм.

https://www.tldraw.com/
👍27🔥52
Где-то в одной из Дубайских башен

Контекст
8566👎1
11821🤔4👍1
Уже завтра я буду на AMA стриме в Вастрик.Клубе.

1 августа в 19:00 по Москве
Тема: "Нейросети для Троечников"

Трансляция будет доступна для членов клуба, а для всех остальных позже будет запись.

Моя цель пояснить за нейросети и машинное обучение так, чтобы поняли даже люди, которые вообще ничего не понимают.

Будем рассуждать через призму идей, а не душной математики. Какие задачи решают нейросетки? Как они учатся? Что умеют, а чего не умеют? Что у них в голове?

Для этого я сейчас судорожно готовлюсь: нужно сжать весь свой опыт в короткое выступление, но не потерять ничего важного.

Описание из поста в клубе:
Поговорим с @btseytlin о том, как работают модели искусственного интеллекта, которые менее модно называются машинным обучением.
Здесь не будет ничего о том как заработать на нейросетях без вложений, как составить промпт для лечения рака и какие топ 10 нейросетей нужно использовать в маркетинге. Не будет и спекуляций на тему того, как ИИ уже завтра изменит всю планету.

👌 Вместо этого постараемся найти баланс между верхнеуровневым пониманием и деталями, чтобы действительно разобраться что и почему происходит. Разберемся где магия, где предсказание следующего слова и что о нашем мире знает SORA.


Подключайтесь!

Ссылка для тех, кто платит Вастрику:
https://vas3k.club/event/25114/
13🔥3👍1
Борис опять pinned «Уже завтра я буду на AMA стриме в Вастрик.Клубе. 1 августа в 19:00 по Москве Тема: "Нейросети для Троечников" Трансляция будет доступна для членов клуба, а для всех остальных позже будет запись. Моя цель пояснить за нейросети и машинное обучение так, чтобы…»
10718🔥6🤔2
Типичное утро машинлернера

Правильный ответ: gradient clipping
8043
ПЕРВЫЙ МУЛЬТИМОДАЛЬНЫЙ ДАТАСЕТ ЗАДАЧ ПО ФИЗИКЕ?

Контрибьютеры в вихре варят очень сложные датасеты - рецепт простой: краулим 10 гб html-pdf_ок, прогоняем через кучу ocr, latex конверторов, парсим текстовый слой и картинки. Потом обмазываем все это регулярками для вязкости и получаем вероятно один из самых сложных для LLM датасетов - physics_big.

Почему он сложный? Потому что это мультимодальная физика с олимпиад. В отилчие от геометрии или алгебры для физики все сильно хуже с солверами, авто решаторами и индукцией ее тоже не решишь


Заливать в test в train можно здесь hf


Над релизом работали:
@suro4ekgg - вообще почти сделал
@mlunderground
@lovedeathtransformers

поддержать в X
🔥30👍1122
Играюсь тут с новой моделью для генерации изображений Flux

Забавное: модели мира у неё ломаются при добавлении в промпт "upside down."

Больше интересных находок буду скидывать в комментарии.

Но в целом прогресс супер, эта модель гораздо лучше умеет в композицию и хорошо понимает промпт. К тому же модели ОЧЕНЬ быстрые. Маленькая генерирует изображение за чуть больше секунды.

Поиграть можно тут: https://replicate.com/black-forest-labs/flux-schnell

Или с полноценной моделью тут:
https://fal.ai/models/fal-ai/flux-pro
Но там ограниченные деньги, много не попробуешь
👍5🔥41😢1
Но это достойно поста в канале.

Приходите в наш массажный салон.

В большой модели вроде бы всё нормально, но у меня кончились кредиты и не потестить особо.

UPD: нет, в большой тоже самое
613
Массаж может быть новым тестом для генераторов изображений, так как с руками вроде бы разобрались в больших моделях
🔥363241