Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.6K subscribers
4.31K photos
505 videos
77 files
2.82K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Достаточно найти гитхаб и закинуть аватарку в классификатор, а дальше по классике:

1. Котик (крайне редко другое животное) - скуф лет 40+, имеет минимум одну вышку, крайне силён в плюсах и сишке, дикий байтоёб, очень сильный в алгосах. В детстве был олимпиадником
2. Аниме - зумер 14+ лет, скорее всего олимпиадник, скорее всего нет (и не будет) друзей, забитый чмошник. Либо дрыщара либо жиробас, с детства ходит только на кружок по информатике, учится в топ-вузе на бесплатке т.к поступил по олимпиадам
3. Личное фото. Тут делится на два типа. Если человек выглядит ухоженным, то это 100-ый волчара не написавший строчки самостоятельно без курсов. Если всратан 0/10, то машина которой похуй абсолютно на всё, кроме кодов
💅101😁479👍4💩3🤷‍♂2💯2🍓2💋21💊1
🍓35💊1311👍3💋2❤‍🔥1💔1
Мам как мы стали такими бедными?

Наш папа не уволился из hft ради стартапа для набутыливания стран третьего мира

https://clawn.ch/
😁7216👍3🔥2😭1🙈1😨1
Forwarded from эйай ньюз
LingBot-World — опенсорс-убийца Genie 3

Китайцы в очередной раз поражают своей плодовитостью, спустя всего пару дней после релиза от Google, выпустили в опенсорс полный аналог Genie 3 на базе Wan 2.2.

Модель генерит интерактивные видео (миры), сохраняя консистентность мира на протяжении всей генерации, и управляться в реальном времени (720p 16fps) с задержкой <1 секунды. Причем симуляция может длиться аж до 10-ти минут.

Под капотом MoE-архитектура из двух high и low noise 14B-экспертов (суммарно 28B), но в каждый момент времени активен только один. Тренировка проходила в три этапа: сначала взяли предобученный Wan 2.2, потом дотренировали на длинных видео с контролем действий, и в конце дистиллировали в быструю авторегрессионную диффузию для риалтайма (правда на домашнем железе такую игрушку поднять не выйдет).

Техрепорт довольно подробный, стоит почитать. Ждем демо на Spaces.

Project page
GitHub
Веса
Paper

@ai_newz
🔥4917😐12👍2💋1
Forwarded from Data Blog
Activation Oracles
[paper]

Каждый раз, просто каждый раз, когда я читаю статью от Antropic хочется замирать от гениальности. Кому отдать душу, чтобы быть таким же креативным?

19 декабря у них вышла работа про Activation Oracles — подход, который позволяет читать скрытые состояния языковой модели, не анализируя веса и используя естественный язык. И если вы уже на этом месте подумали, что они просто используют для этого другую LLM — вы правы! Но зато как они это делают!

Основная гипотеза работы, как я вижу состоит в том, что:
если две модели имеют сходные представления, то одна модель может интерпретировать внутренние активации другой.

Эта мысль круто ложится на Platonic representation hyphothesis — Neural networks, trained with different objectives on different data and modalities, are converging to a shared statistical model of reality in their representation spaces.

Что делаем (это могли бы быть мы с тобой, но мы не такие умные):

Берём:

* целевую модель M,
* модель-оракул AO, которая изначально является её ctrl-C-копией,
* извлекаем активации M (из residual stream),
* и прокидываем их, используя steering, в граф оракула AO — тоже как направленное возмущение residual stream.

Дальше просто задаём промт-вопрос, вроде «О чём сейчас думает модель?», «Какова её цель?», «Есть ли здесь скрытое знание?». И оракул отвечает, причем хорошо — например, может вытащить секретное слово модели, даже если она сама не отдала его в ответе.

Идея засунуть активации в LLM не нова:

Был (есть) LatentQA, где активации подаются внешне — как дополнительный вход. Но здесь же активации встраиваются внутрь forward-pass, влияя на дальнейшие вычисления. И это же просто гениально.

Что ещё вкусного — всё, что я словами отдала как output, можно потыкать в приложенном к статье коде.

Туториал:
[collab]

Я перевела его с некоторой отсебятиной и постановкой задачи. Перевела только основной текст, комментарии коду уж оставлены родными. В нем можно увидеть:

1. Многошаговое рассуждение
Оракул по токенам извлекает цепочку Socrates → Plato → Aristotle на активациях модели.

2. Извлечение секретного слова
Модель дообучена скрывать слово — напрямую она его не называет.
Оракул извлекает его только из активаций (репликация Figure 1 из статьи).

3. Обнаружение мисалайнмента
Можно выявить, что модель обучена давать манипулятивные или вредные советы.

4. Трекинг эмоций модели (и у нее они есть)
По одному вектору на токен оракул отслеживает Disappointment, Anger, Frustration, Sadness на протяжении диалога.

Ограничения:

После радостного восторга, холодной головой также важно понимать, что оракул может додумывать и не может показать то, чего мы не спрашиваем. Кроме того, это не самая вычислительно оптимальная вещь — чтобы ответить на один вопрос об активации, AO требуется несколько forward-pass’ов и полноценная генерация текста.

Но красиво. Тыкайте на здоровье и делитесь впечатлениями!
1🔥42👏5😨5❤‍🔥3💋2👍11
русские модели должны быть на острове, а не на huggingface
😁17057🥴12🔥7🌭44🍓3💋3💯2😭2😢1
Forwarded from black_samorez
Quartet II

Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество лучше и кернелы быстрее.

Статью лайкать на HF Daily Papers.
Кернелы для RTX 5090 (СС 120a) на GitHub. Для B200 и B300 еще в разработке.
🔥2513❤‍🔥4💋11
Forwarded from download more GPUs
Выложили с коллегой препринт статьи про Preference Optimization 💅. В целом, это первая наша работа, которую получилось довести до уровня, что хотя бы препринт архивировать можно.

Наш метод - это франкенштейн из штук, которые уже работали у других ребят, и парочкой новых авторских идей:

* В PO-задачах есть такая штука, как Unlearning - когда мы может и выучиваем какие-то относительные различия между chosen-ом и rejected-ом, но абсолютное качество генерации падает. Это довольно легко решается добавлениям 'якоря' на chosen-сиквенс. Наши аблейшены это подтвердили.

* Как выяснилось, Rejected-генерации тоже могут быть полезны. Чтобы извлечь из них пользу - пришлось придумать довольно упоротую функцию, которая предотвращает слишком сильное понижение вероятностей генерации отдельных токенов у таких последовательностей. Мы гипотезируем, что rejected-последовательности пусть и являются относительно хуже, но в целом часто могут содержать довольно адекватные лингвистические паттерны. Наши аблейшены подтвердили, что оно работает 🥴.

* Ну и для более точного контроля над относительной оптимизацией, мы вместо стандартной logsigmoid'ы используем кастом функцию, которая настраивается двумя параметрами. Первый - soft margin, второй - это hard margin. Hard margin - это своего рода victory condition, - если последовательности оттянуты друг от друга на вот столько, то мы уже вообще ничего оптимизировать там не хотим, совсем - хотим там нулевые градиенты. Soft margin - это способ приоритезировать оптимизацию тех сэмплов, которые хуже растянуты друг от друга. Аблейшены тоже подтвердили, что оно работает🥸 (но здесь мы мало экспериментов поставили, можно было больше).

Overall, метод рабочий, мы его активно юзали до популяризации групповых методов (GRPO и его дети). Сейчас юзаем чуть менее активно, т.к. в целом Pairwise PO задач стало меньше, - везде где можно было, уже перешли на групповые методы. Ну а мы варим потихоньку групповую версию нашего алгоритма, которая до этой статьи не успела доехать, - значит либо будет отдельная статья, либо статьи не будет (если решим, что оно не работает, и всё что наделали чуваки с GRPO - just works fine).

Кстати, если заглянете в статью - увидите очень забавные метрики у Qwen'ов - явно странные для 4B модели, - довольно интересный повод для обсуждения.

Читать здесь:
https://huggingface.co/papers/2602.02383
💅19👍13🔥82🥱1💋1
👍65💯2318😁8🔥3👏1💋1
Audio
Ace-Step: Stable diffusion moment в музыке

Честно говоря все эти годы мне было в среднем всё равно на всякие Suno/Udio - какой то черный ящик с текстом вместо кнопок где то в веб. Чувствуешь себя идиотом навроде игральной кости

Сейчас всё прям по другому почему-то

Модель Ace-Step-v1.5 (MIT) - и это какой то прям детский восторг
Под капотом переобученные Qwen-3 + VAE
Есть турбо лора - песню генерит со скоростью картинки в каком ть флюкс

Можно создавать на их сайте если лень
https://acemusic.ai/playground/create
Генерит и быстро - и сразу 4 варианта

Уии! Есть возможность закинуть реферер!! - и это прям пушка!

Я взял Лану-Дель-Рей например - отрезал небольшой кусок с примером - закинул в анализатор:
https://vocalremover.org/ru/key-bpm-finder
Скопировал BPM/Тональность

Дальше промпт - я умею только в картинки, поэтому пусть будет седуктив суккубус:
female deep low vocal of a seductive succubus - no intro - a slow sad song with deep bass, and the energy is growing.

Для лирики пробовал сырой текст и размеченный как для Suno - оба варианта работают - но с разметкой меньше неожиданностей
Разметку делал в g.ai - пожалуйста разметь текст песни для генерации в Suno

Без разметки будет сам решать как выстроить композицию - но генераций через 500 тоже может выпасть збс

Скачать трек можно в девелопер моде - расширение acc - переименовываем в aac и работает

С русским работает. Во Вложении три трека - с Ланой, с какой то финской инди певицей и с Бастой

Текст плотвы - с небольшими доработками

Пример с разметкой музыки
https://acemusic.ai/playground/work?id=rg9eWag1

Нас ждет еще больше нейрослопа! Уи!
💋18💩127👏3😢3❤‍🔥1
1😁43🥱13🔥4
Forwarded from Пресс-служба Сириона
А почему для блогеров нет айти отсрочки
😁43🔥3