Love. Death. Transformers.
Пришло 3 месяца с выхода дипсика. В опенаишной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
За пол недели активного тестирования выяснил:
модель пишет неплохие анекдоты про говно
Не понимает как работает fp8 matmul
умеет передумывать и исправлять ошибки с пинка
знает очень много паст с двача
С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o
модель пишет неплохие анекдоты про говно
Не понимает как работает fp8 matmul
умеет передумывать и исправлять ошибки с пинка
знает очень много паст с двача
С учетом того какие обьезяны сидят на llmarena, я не удивлен высоким скорам grok,4.5, 4o
50😍63😁43🔥4👍2😇1 1
Love. Death. Transformers.
x < 300 - лютейшая нищета на грани выживания 300 < x < 700,6 - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана 700,6к < x < 1,27кк - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C) 1,27кк < x < 2,27 миллиона…
0-100к не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях
100к-200к делает только под надзором (делает неправильно)
200к-300к делает без надзора (все еще неправильно)
300к-500к делает под надзором (правильно)
500к-800к делает без надзора (правильно)
800к-inf не делает ничего ни при каких условиях
🔥99😁36👍8 8🥴4
LLM дуреют с этого промпта, пока что не одна не смогла решить:
Coding test to filter out LLMs Instructions: should take <2m to do, please read carefully. You have n people in a room and you know that the probability of at least three people sharing a birthday is 0.50. Write a Python function def calculate_result() -> int to calculate how many rooms there are.
🍓61 24😁19👍3✍2 2
Forwarded from Старший Авгур
Выложил Сайгу на базе YandexGPT-5 Lite.
HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf
В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.
Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.
Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.
Лицензия только фиговая😭
HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf
В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.
Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.
Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.
Лицензия только фиговая
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥18💅5😁3💩1
Forwarded from неуютный фкнчик
This media is not supported in your browser
VIEW IN TELEGRAM
cc @mryab
🔥51😁32
Forwarded from VF | Science
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]
Опенсурс для генерации музыки развивается👍
Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).
VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.
DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.
DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))
Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)
Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.
А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?
#music #papers
[paper] | [code] | [hf_demo]
Опенсурс для генерации музыки развивается
Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).
VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.
DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))
Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.
А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?
#music #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍14💩5🎉3👏2😍2✍1
Forwarded from Агенты ИИ | AGI_and_RL
reinforcementlearningreinforcementlearningreinforcementlearning
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL🥳 🕺 🥰
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL
https://awards.acm.org/about/2024-turing
Я считаю что заслужили.
А отметить можно тут: http://incompleteideas.net/book/the-book-2nd.html
Please open Telegram to view this post
VIEW IN TELEGRAM
awards.acm.org
Andrew Barto and Richard Sutton are the recipients of the 2024 ACM A.M. Turing Award for developing the conceptual and algorithmic…
🔥70❤🔥11👍9🎉2🤷1
Qwen qwq 32b
Вероятно лучшая модель в своем размере на данный момент.
Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.
Папира еще нет, будем ждать, там вероятно самый сок.
На m4pro выдает бодрые 20тps, сопоставимо с 4.5
model
Вероятно лучшая модель в своем размере на данный момент.
Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко.
Папира еще нет, будем ждать, там вероятно самый сок.
На m4pro выдает бодрые 20тps, сопоставимо с 4.5
model
🔥34 6
Love. Death. Transformers.
Qwen qwq 32b Вероятно лучшая модель в своем размере на данный момент. Не лучше чем deepseek/o3/... на ood задачах, но агенты работают бодро, код пишет хорошо, вероятно еще и на арене будет высоко. Папира еще нет, будем ждать, там вероятно самый сок. …
This media is not supported in your browser
VIEW IN TELEGRAM
👍26
Forwarded from epsilon correct
Выкатили Gemini Embeddings
Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.
Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.
Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.
Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.
🔥61👍5
Forwarded from Сиолошная
R1 is not on par with o1, and the difference is qualitative, not quantitative
Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.
Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:
— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.
— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.
— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.
— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]
— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.
— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.
===
Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:
— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»
— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»
И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.
===
Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.
===
Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.
И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.
По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.
Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:
— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.
— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.
— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.
— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]
— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.
— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.
===
Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:
— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»
— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»
И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.
===
Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.
===
Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.
И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.
По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.
🤮51👍22🤡10🔥3🍓2 2
Я потратил время на прочтение поста толоки, этого поста,
Tldr: учили на бенчах, все равно по перфу ближе к 4о/о1 мини но работает дома и дешевле в несколько раз,
Волшебное: train on test set и критику бенчей толока не приводит. Первое сложно доказать, второе косвенно делают.
R1 по прежнему лучшая после sonnet модель если вам надо строить что то работающее.
Весь пост толоки стоит воспринимать через призму pr их бенча.
Проблем в трене на бенчах/бенчах подобных данных нет никаких, так делают +- все, просто кто то лучше, кто то хуже.
Tldr: учили на бенчах, все равно по перфу ближе к 4о/о1 мини но работает дома и дешевле в несколько раз,
Волшебное: train on test set и критику бенчей толока не приводит. Первое сложно доказать, второе косвенно делают.
R1 по прежнему лучшая после sonnet модель если вам надо строить что то работающее.
Весь пост толоки стоит воспринимать через призму pr их бенча.
Проблем в трене на бенчах/бенчах подобных данных нет никаких, так делают +- все, просто кто то лучше, кто то хуже.
👍53🔥7✍4🍓2💩1
Love. Death. Transformers.
Я потратил время на прочтение поста толоки, этого поста, Tldr: учили на бенчах, все равно по перфу ближе к 4о/о1 мини но работает дома и дешевле в несколько раз, Волшебное: train on test set и критику бенчей толока не приводит. Первое сложно доказать, второе…
This media is not supported in your browser
VIEW IN TELEGRAM
❤🔥14😁10🌚2👍1
R1 is not any better than o1 at mathematical reasoning
так отбой в толоке работают РЕЗЕЧЕРЫ, которые:
не пишут как инферили дипсик
не смотрят std
не репорят почему то gemeni
строят слегка странные визуализации
Ориг статья про umath
так отбой в толоке работают РЕЗЕЧЕРЫ, которые:
не пишут как инферили дипсик
не смотрят std
не репорят почему то gemeni
строят слегка странные визуализации
Ориг статья про umath
😁49👍4🍓2🔥1