Love. Death. Transformers.
Позиция по sora2 - это не совсем sota. Ну точнее так - как и gpt5 это массовый продукт и при акценте на массовость я имею ввиду сотни миллионов юзеров - это очень быстрая и явно дешевая для oai модель и цена генерации в апи я ожидаю в пределах 1cent/s
Проиграл выходит
С другой стороны на рынке нет нормального конкурента, чо бы не крутить прайс?
С другой стороны на рынке нет нормального конкурента, чо бы не крутить прайс?
👍11
Qwen3-Next 80B-A3B
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
🔥38 7
#промо #промо #промо
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-🍴 80-150к USD
Вакансии:
1. FullStack Engineer
Typenoscript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
⚪️ White Circle
Всем привет, мы делаем лучшую AI safety платформу, чтобы модельки не делали rm -rf без вашего ведома
Про нас:
- Подняли 💸 $10m 💸, инвесторы — топы OpenAI, Anthropic, Deepmind, Mistral, HuggingFace, etc
- Команда из 10 человек с офисом в самом центре Парижа
- Обрабатываем десятки миллионов API запросов в месяц
-
Вакансии:
1. FullStack Engineer
Typenoscript, React, Nextjs, Nodejs, Tailwind, GraphQL, ClickHouse
2. AI Engineer
MoE, multimodality (audio / images), Megatron, distributed training, Triton
3. AI Engineer
Redteaming, agents, rlhf - если у вас нет опыта на mle, но есть опыт swe и построения всякого промптового - позиция для вас
📨 CV → https://forms.gle/XysjrjHgxiRicGsb6
Please open Telegram to view this post
VIEW IN TELEGRAM
😁41💩13🍌3❤🔥2👍2🔥2💅2💋1
Forwarded from Старший Авгур
Пришли рецензии на сгенерированную статью на сгенерированной конфе.
- AI Reviewer 1 -> Borderline reject (3)
- AI Reviewer 2 -> Strong Accept (6)
- AI Reviewer 3 -> Borderline reject (3)
- Человек -> Borderline reject (3)
В итоге reject.
Замечания от моделей повторяют секцию Limitations. Человек написал, что это интересный proof-of-concept, но нужно сам текст доработать.
Есть ощущение, что не хватило чуть-чуть, и потрать я ещё один день на полировку, статью бы приняли.
Всего взяли <50 статей из >300, то есть acceptance rate что-то типа 15%. Принятые статьи можно посмотреть тут.
- AI Reviewer 1 -> Borderline reject (3)
- AI Reviewer 2 -> Strong Accept (6)
- AI Reviewer 3 -> Borderline reject (3)
- Человек -> Borderline reject (3)
В итоге reject.
Замечания от моделей повторяют секцию Limitations. Человек написал, что это интересный proof-of-concept, но нужно сам текст доработать.
Есть ощущение, что не хватило чуть-чуть, и потрать я ещё один день на полировку, статью бы приняли.
Всего взяли <50 статей из >300, то есть acceptance rate что-то типа 15%. Принятые статьи можно посмотреть тут.
😨24👍16😁7🔥1👏1😢1
RND1: Simple, Scalable AR-to-Diffusion Conversion
TLDR: доучивают на 500б токенов(где то 0.1%) qwen 30bA3 на задачу генерации текста диффузией, а не AR
- сделали не сложный LR аблейшн
- по метрикам чуть хуже чем обычный
- по скорости тоже не прирастают потому что инференс не написали))
paper
github
blog
TLDR: доучивают на 500б токенов(где то 0.1%) qwen 30bA3 на задачу генерации текста диффузией, а не AR
- сделали не сложный LR аблейшн
- по метрикам чуть хуже чем обычный
- по скорости тоже не прирастают потому что инференс не написали))
paper
github
blog
❤🔥17😁14👍6💋2🍓1
MWS AI представила первую российскую мультимодальную модель Cotype VL
На форуме «Финополис-2025» компания MWS AI (входит в МТС Web Services) анонсировала свою первую мультимодальную модель — Cotype VL. Модель содержит 32 млрд параметров и умеет одновременно работать с изображениями и текстом.
Возможности модели:
• Распознавание печатного, рукописного и смешанного текста
• Анализ визуального контекста при переводе
• Создание описаний изображений разной детальности
• Ответы на сложные логические вопросы по содержанию изображений
• Работа со схемами, чертежами, картами и техническими иллюстрациями
Технические детали:
Модель инициализирована весами QwenVL 2.5 и дообучена на более чем 150 тыс. документов с визуальными данными из различных доменов: финансы, промышленность, IT, телеком и здравоохранение. В датасет вошли контракты, диаграммы, таблицы, схемы, рукописные конспекты, скриншоты интерфейсов и многое другое.
Поддерживает русский, английский, китайский и другие языки. Модель можно развернуть в закрытом контуре и дообучить на данных заказчика.
Генеральный директор MWS AI Денис Филиппов рассказал на форуме «Финополис-2025», что мультимодальные модели станут ключевым элементом для создания ИИ-помощников нового поколения, способных автономно взаимодействовать с интерфейсами корпоративных систем.
На форуме «Финополис-2025» компания MWS AI (входит в МТС Web Services) анонсировала свою первую мультимодальную модель — Cotype VL. Модель содержит 32 млрд параметров и умеет одновременно работать с изображениями и текстом.
Возможности модели:
• Распознавание печатного, рукописного и смешанного текста
• Анализ визуального контекста при переводе
• Создание описаний изображений разной детальности
• Ответы на сложные логические вопросы по содержанию изображений
• Работа со схемами, чертежами, картами и техническими иллюстрациями
Технические детали:
Модель инициализирована весами QwenVL 2.5 и дообучена на более чем 150 тыс. документов с визуальными данными из различных доменов: финансы, промышленность, IT, телеком и здравоохранение. В датасет вошли контракты, диаграммы, таблицы, схемы, рукописные конспекты, скриншоты интерфейсов и многое другое.
Поддерживает русский, английский, китайский и другие языки. Модель можно развернуть в закрытом контуре и дообучить на данных заказчика.
Генеральный директор MWS AI Денис Филиппов рассказал на форуме «Финополис-2025», что мультимодальные модели станут ключевым элементом для создания ИИ-помощников нового поколения, способных автономно взаимодействовать с интерфейсами корпоративных систем.
1💩71😁44👍24💊12 9🥱4 4🤔2❤🔥1💋1
Self-Adapting Language Models
Тут авторы придумывают что надо на лету генерировать синтетику по вопросам + ответами, оценивать через более умную модель/gt и потом рлится на этом. Авторы репортят что такая дистиляция позволяет докинуть метрик к QA
https://jyopari.github.io/posts/seal
https://github.com/Continual-Intelligence
Тут авторы придумывают что надо на лету генерировать синтетику по вопросам + ответами, оценивать через более умную модель/gt и потом рлится на этом. Авторы репортят что такая дистиляция позволяет докинуть метрик к QA
https://jyopari.github.io/posts/seal
https://github.com/Continual-Intelligence
🔥29😁9👍6❤🔥2💔1💋1 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
На больших масштабах моделей с архитектурой MoE мы наблюдаем, что GB200 NVL72 FP4 примерно в 10 раз энергоэффективнее, чем H200 FP8 в режиме single node при определённой интерактивности (tok/s/user).
Мы планируем реализовать disaggregated prefill и multinode wide expert parallelism на H100/H200, чтобы оценить, какой будет прирост энергоэффективности между GB200 и H200 после внедрения этих оптимизаций.
Ожидается, что разрыв по энергоэффективности сократится до 4–6 раз после реализации на Hopper, что всё равно остаётся отличным показателем.
Мы планируем реализовать disaggregated prefill и multinode wide expert parallelism на H100/H200, чтобы оценить, какой будет прирост энергоэффективности между GB200 и H200 после внедрения этих оптимизаций.
Ожидается, что разрыв по энергоэффективности сократится до 4–6 раз после реализации на Hopper, что всё равно остаётся отличным показателем.
💊34😁21👍3 2❤🔥1🔥1💔1💋1
US AI labs: мы изобретаем новый финасовый инструмент, вкладываем триллионы долларов чтобы буквально построить бога из машины
Chinese Ai labs: китайский openai, такие же бюджеты, все в опенсурс
Europe: мы построим суверенный ии за зарплату +- одного топового ресерчера из меты
Eastern Europe Ai labs: суверенный файнтюн квена на болгарский
Chinese Ai labs: китайский openai, такие же бюджеты, все в опенсурс
Europe: мы построим суверенный ии за зарплату +- одного топового ресерчера из меты
Eastern Europe Ai labs: суверенный файнтюн квена на болгарский
😁213 39🔥8 5🐳2❤🔥1😢1💯1💔1💋1
Forwarded from Канал Респекта и Уважухи 2.0
This media is not supported in your browser
VIEW IN TELEGRAM
😁44💩23😡8 4
HF_ULTRASCALE_PLAYBOOK.pdf
10.6 MB
HF книжка по megatron, fsdp и прочему для обучения реально больших моделей
🔥50❤🔥6💋2💔1
мамба3
открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)
Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"
Закрыл, пошел листать имплементацию deepseek 3.2
полистать
открыл папир мамба3, промотал на таблицу с метриками, как и у всех убийц трансформеров ситуация такая же - микромодель, приросты на несколько пунктов, ненасыщенный претрейн(100B токенов не очень много для 1.5b трансформера)
Переводя на человеческий - авторы пошли по классическому "давайте найдем сетап где это будет работать"
Закрыл, пошел листать имплементацию deepseek 3.2
полистать
1😁81🔥8🤷♂5
Forwarded from download more GPUs
This media is not supported in your browser
VIEW IN TELEGRAM
Ладно задушил задушил
1🔥54 5❤🔥3😁2
Love. Death. Transformers.
Hold my beer
У меня была в предзвказе охрененно понтовая открывалка для пива. Потому что иначе я не понимаю зачем ещё оно нужнл
🔥52😁22 16🍓5🐳1