Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
З А Ч Е М ?
А
Ч
Е
М
?
А
Ч
Е
М
?
🙈59😁13 12🤔3🔥2🍓2😨2👍1💩1
Forwarded from AI[ex]Time (Alex Golubev)
Обновили SWE-rebench за июль и вместе со стандартными замерами выкатили пару интересных апдейтов.
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
👍7
я видел ее тесты что вы ржете, будет сота с приростом 6% в среднем но на отдельных бенча ууххххх
😁77💊16 9🔥1🎉1🥱1💯1🎅1🦄1
а ты знаешь последовательность аллокации памяти питорча
🤔46😁15👍2🔥1😢1
Forwarded from whargarbl
EQ Vae - https://arxiv.org/abs/2502.09509
Очередной "прорыв в 7 раз ускоряем обучение"
Протестировал несколько новых ВАЕ
От кохаку
https://huggingface.co/KBlueLeaf/EQ-SDXL-VAE
И от какого то чувака с реддит
https://huggingface.co/Anzhc/MS-LC-EQ-D-VR_VAE
Пост
https://www.reddit.com/r/StableDiffusion/comments/1mdn3bo/comment/n67mwoj/?context=3
Я тестировал только ВАЕ Кохаку тк его я знаю как профи, а чуви с реддит не знает основ
Кохаку log-variance: -4.233
SDXL log-variance: -0.335
распределение у Кохаку гораздо менее нормальное
Коротко: для вае важно добавлять нойз в латентное пространство, а не блять удалять его (дебилы!) патаму что нужно повышать логварианс
Простыми словами:
Центр латентов должен быть в нуле и колокол должен отходить от центра далеко (лол ппц я объясняю, да?)
Короче нормальное распределение (циферки распределены нормально по диапазону), а диапазон должен быть широким чтобы не округлялось в маленькие чиселки (вот, теперь объяснил как про)
Ща еще лучше объясню:
Хуевый варианс - хуево учиться будет! Числовая нестабильность, деление на ноль! Снег башка попадет, круасан в булочку округлится!
Несмотря на то что глазами выглядит нот бед
https://imgsli.com/NDAyOTUy
EQ - это Кохаку
Латенты хреново распределены и вае хреновый
Если вы хотите натренить вае и не обосраться - я рекомендую оттолкнуться от репы разраба ауры
https://github.com/cloneofsimo/vqgan-training?tab=readme-ov-file#details
Потому что в пункт 5 они как раз занимаются расталкиванием латентов
И фол натренил этой репой
https://huggingface.co/fal/AuraEquiVAE
И у них вроде неплохо получилось
ЗЫ Фух, я больше наверно не буду писать про такие сложные вещи у меня не получается простыми словами объяснить а сложных я не знаю
Аттач: смотрите какой красивый холмик у сдхл вае и какой уродливый горбик у кохаку EQ вае
Очередной "прорыв в 7 раз ускоряем обучение"
Протестировал несколько новых ВАЕ
От кохаку
https://huggingface.co/KBlueLeaf/EQ-SDXL-VAE
И от какого то чувака с реддит
https://huggingface.co/Anzhc/MS-LC-EQ-D-VR_VAE
Пост
https://www.reddit.com/r/StableDiffusion/comments/1mdn3bo/comment/n67mwoj/?context=3
Я тестировал только ВАЕ Кохаку тк его я знаю как профи, а чуви с реддит не знает основ
Кохаку log-variance: -4.233
SDXL log-variance: -0.335
распределение у Кохаку гораздо менее нормальное
Коротко: для вае важно добавлять нойз в латентное пространство, а не блять удалять его (дебилы!) патаму что нужно повышать логварианс
Простыми словами:
Центр латентов должен быть в нуле и колокол должен отходить от центра далеко (лол ппц я объясняю, да?)
Короче нормальное распределение (циферки распределены нормально по диапазону), а диапазон должен быть широким чтобы не округлялось в маленькие чиселки (вот, теперь объяснил как про)
Ща еще лучше объясню:
Хуевый варианс - хуево учиться будет! Числовая нестабильность, деление на ноль! Снег башка попадет, круасан в булочку округлится!
Несмотря на то что глазами выглядит нот бед
https://imgsli.com/NDAyOTUy
EQ - это Кохаку
Латенты хреново распределены и вае хреновый
Если вы хотите натренить вае и не обосраться - я рекомендую оттолкнуться от репы разраба ауры
https://github.com/cloneofsimo/vqgan-training?tab=readme-ov-file#details
Потому что в пункт 5 они как раз занимаются расталкиванием латентов
И фол натренил этой репой
https://huggingface.co/fal/AuraEquiVAE
И у них вроде неплохо получилось
ЗЫ Фух, я больше наверно не буду писать про такие сложные вещи у меня не получается простыми словами объяснить а сложных я не знаю
Аттач: смотрите какой красивый холмик у сдхл вае и какой уродливый горбик у кохаку EQ вае
😁40👍8💊7 7🥱4💩2⚡1🔥1
чат а есть хорошие работы по тому как сильно затираются веса модели при посттрене?
Вернее как: "насколько далеко по метрикам можно уйти от ориг модели при сетапе посттрена"?
Вернее как: "насколько далеко по метрикам можно уйти от ориг модели при сетапе посттрена"?
Forwarded from КПД
Из "вероятной" утечки опенсорса от опен эй эген вырисовается пока следующее:
1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.
Источник
1️⃣ Одна модель - 120B MoE, другая - 20B dense.
2️⃣ Веса в FP4 с нативной поддержкой в Blackwell (MXFP4 или NVFP4).
3️⃣ SwiGLU clip (-7,7) - т.е активации режутся по абсолютной величине. Полагаю, было важно для 4-х битного обучения.
4️⃣ 4K нативного контекста с YaRN экстраполяцией до 128к (не жирно).
5️⃣ Скользящее окно аттеншена размера 128 + attention sinks (тоже для квантизации, наверное).
6️⃣ Llama/Mixtral архитектура.
Источник
💅43😢12🔥5🙈4💩2🗿2 1
Forwarded from addmeto (Grigory Bakunov)
Команда Cloudflare изобличает не самую белую тактику Perplexity по скрапингу веб-сайтов. Там юзерагент не пишет что он бот, игнорируется robots.txt, IP адреса совсем не из сети Perplexity и тп.
Вообще это очень сложный вопрос, что они делают не правильно. Вот например есть ли разница между "я попросил свой браузер загрузить страницу" и "я попросил чат-бота загрузить страницу"? По сути разница только в отображении - браузер показывает страницу в том виде, как ее задумал разработчик, а чат-бот показывает с этой страницы только то, что хочет пользователь. И судя по всему именно против этого и борется клаудфлер
Вообще это очень сложный вопрос, что они делают не правильно. Вот например есть ли разница между "я попросил свой браузер загрузить страницу" и "я попросил чат-бота загрузить страницу"? По сути разница только в отображении - браузер показывает страницу в том виде, как ее задумал разработчик, а чат-бот показывает с этой страницы только то, что хочет пользователь. И судя по всему именно против этого и борется клаудфлер
The Cloudflare Blog
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with explicit no-crawl preferences expressed by websites.
😁51🥴8🍓6🤔5👍3🔥2
Forwarded from Vikhr models
QVikhr-3-8B-Instruction
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит результат базовой модели Qwen3-8B. Модель подходит для решения задач по математике и физике на русском языке.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-8B-Instruction-GGUF
⚖️ Лицензия: apache-2.0
Сайт: https://vikhr.org
Донаты: Здесь
👥 Авторы: @LakoMoorDev @nlpwanderer
3🔥21❤🔥7😁2💩1😨1
Челы из flymy.ai выпустили Realism LoRA и Trainer для Qwen image, теперь можно баловатся с треном лор для gpt4o уровня картинко генератора дома
huggingface.co
flymy-ai/qwen-image-realism-lora · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥25😁2😍2🍌2