Simple Diffusion Status
В пятый раз сменил механику ембедингов
Вопреки расхожему заблуждению пулед ембединги дают полную инфу о изображении а не только стиль - пруф - обучка только на пулед https://huggingface.co/AiArtLab/sdxs/blob/main/media/promo.png
Обучка на хайден слое - в противовес - теряет информацию о форме изображения. Те обучая на токенах собака // лежит // трава - мы обучаем как бы отдельно и собаку и лежит и трава
Проблема:
Пулед дает композицию но не содержит файн детайлс
Хайден теряют композицию и взаимосвязь между токенами
Также пулед в отличие от хайден дает мультиязычность. В пулед слое dog и собака - это вектора которые смотрят в одном и том же напрвлении. Но на уровне токенов - это уже разные вектора (сюрприз)
В четвертой иттерации я сделал их объединение штатным механизмом дифузерс - пулед был добавлен как доп слой текстовых ембедингов в кросс-этеншен
Тренилось хреново. Я заглянул под капот и с удивлением обнаружил линейную проекцию. Проще говоря тончайшую материю сжатого представления о тексте а очередной кастрировали топором
Пришлось придумать свою имплементацию - простую как палка - эффективную как стрела. Пулед кладу в нулевой токен. Теперь ембединг выглядит так:
- собака лежит на траве
- собака
- лежит
- трава
Обучка пошла сразу сильно веселее. Вернулась композиция. Вернулась мультиязычность и мелкие детали
Лосс падает // град не колосится
https://huggingface.co/AiArtLab/sdxs/blob/main/media/result_grid.jpg
Такой день
ЗЫ Брюллов работал над "Последний день Помпеи" - 6 лет
Художник не считал картину завершенной до тех пор пока ему не удалось добавить в картину глубину. Те вот типа все персонажи уже были прорисованы и драма вроде как на месте, но глубины не было. По легенде финальным штрихом стало добавления игры света и тени для камней на мостовой. Так вот - соединение пулед и хайден ембедов дает "глубину". Посмотрите на шлем астронавта в космосе - он трехмерный. Вот что важно
https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D0%BB%D0%B5%D0%B4%D0%BD%D0%B8%D0%B9_%D0%B4%D0%B5%D0%BD%D1%8C_%D0%9F%D0%BE%D0%BC%D0%BF%D0%B5%D0%B8
В пятый раз сменил механику ембедингов
Вопреки расхожему заблуждению пулед ембединги дают полную инфу о изображении а не только стиль - пруф - обучка только на пулед https://huggingface.co/AiArtLab/sdxs/blob/main/media/promo.png
Обучка на хайден слое - в противовес - теряет информацию о форме изображения. Те обучая на токенах собака // лежит // трава - мы обучаем как бы отдельно и собаку и лежит и трава
Проблема:
Пулед дает композицию но не содержит файн детайлс
Хайден теряют композицию и взаимосвязь между токенами
Также пулед в отличие от хайден дает мультиязычность. В пулед слое dog и собака - это вектора которые смотрят в одном и том же напрвлении. Но на уровне токенов - это уже разные вектора (сюрприз)
В четвертой иттерации я сделал их объединение штатным механизмом дифузерс - пулед был добавлен как доп слой текстовых ембедингов в кросс-этеншен
Тренилось хреново. Я заглянул под капот и с удивлением обнаружил линейную проекцию. Проще говоря тончайшую материю сжатого представления о тексте а очередной кастрировали топором
Пришлось придумать свою имплементацию - простую как палка - эффективную как стрела. Пулед кладу в нулевой токен. Теперь ембединг выглядит так:
- собака лежит на траве
- собака
- лежит
- трава
Обучка пошла сразу сильно веселее. Вернулась композиция. Вернулась мультиязычность и мелкие детали
Лосс падает // град не колосится
https://huggingface.co/AiArtLab/sdxs/blob/main/media/result_grid.jpg
Такой день
ЗЫ Брюллов работал над "Последний день Помпеи" - 6 лет
Художник не считал картину завершенной до тех пор пока ему не удалось добавить в картину глубину. Те вот типа все персонажи уже были прорисованы и драма вроде как на месте, но глубины не было. По легенде финальным штрихом стало добавления игры света и тени для камней на мостовой. Так вот - соединение пулед и хайден ембедов дает "глубину". Посмотрите на шлем астронавта в космосе - он трехмерный. Вот что важно
https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D0%BB%D0%B5%D0%B4%D0%BD%D0%B8%D0%B9_%D0%B4%D0%B5%D0%BD%D1%8C_%D0%9F%D0%BE%D0%BC%D0%BF%D0%B5%D0%B8
🐳3👀3🤯2
Apple! выкладывает! модели!
Видимо на фоне новостей что в эпл бОльшая часть сотрудников ушла на пенсию остальных или сманили или умерли - решили поторопить релиз
Походу авторегресионный трансформер, енкодер в обеих T5-XXL
STARFlow text2image 3b
256x256 пикселей sd vae! лол
https://huggingface.co/apple/starflow
STARFlow-V (видео) 7b
480x640 пикс wan vae
Примеры видео (есть раздел с ошибками - респект)
https://starflow-v.github.io/#failure-cases
Весьма умно тестировать на проверенных компонентах (Vae/Т5)
Ничего непонятно но очень интересно!
Старый добрый 256
https://huggingface.co/CompVis/stable-diffusion-v1-2
Походу авторегресионный трансформер, енкодер в обеих T5-XXL
STARFlow text2image 3b
256x256 пикселей sd vae! лол
https://huggingface.co/apple/starflow
STARFlow-V (видео) 7b
480x640 пикс wan vae
Примеры видео (есть раздел с ошибками - респект)
https://starflow-v.github.io/#failure-cases
Весьма умно тестировать на проверенных компонентах (Vae/Т5)
Ничего непонятно но очень интересно!
Старый добрый 256
https://huggingface.co/CompVis/stable-diffusion-v1-2
huggingface.co
apple/starflow · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
АГИ не будет
https://timdettmers.com/2025/12/10/why-agi-will-not-happen/
Очень грустная статья - про то что мы уперлись уже в физические ограничения
Вот только статью можно сжать минимум в 8 раз без потери качества. Вот тебе и 8-кратное ускорение.
Мы даже не начинали опитимизировать обучку - просто заливаем баблом. Когда память станет стоить как самолет - наконец включим мозги. Тогда и случится АГИ
https://timdettmers.com/2025/12/10/why-agi-will-not-happen/
Очень грустная статья - про то что мы уперлись уже в физические ограничения
Вот только статью можно сжать минимум в 8 раз без потери качества. Вот тебе и 8-кратное ускорение.
Мы даже не начинали опитимизировать обучку - просто заливаем баблом. Когда память станет стоить как самолет - наконец включим мозги. Тогда и случится АГИ
Tim Dettmers
Why AGI Will Not Happen — Tim Dettmers
If you are reading this, you probably have strong opinions about AGI, superintelligence, and the future of AI. Maybe you believe we are on the cusp of a transformative breakthrough. Maybe you are skeptical. This blog post is for those who want to think more…
🐳3
Яндекс рассказал как сделал Alice AI
https://habr.com/ru/companies/yandex/articles/974594/
Назвали типа техрепорт но там нет ни одной кошкодевочки
тлдр; Токенизатор свой, наш, русский. Инит с квена, но не фуллфайнтюн. Учили в фп8 и еще свой фреймворк - ЙаФСДП (очень быстрый)
Еще очень много рассказали какой у них SLA (жесткий, очень жесткий)
В целом даже не знаю зачем я это сюда принес если честно.
Слава России!
https://habr.com/ru/companies/yandex/articles/974594/
Назвали типа техрепорт но там нет ни одной кошкодевочки
тлдр; Токенизатор свой, наш, русский. Инит с квена, но не фуллфайнтюн. Учили в фп8 и еще свой фреймворк - ЙаФСДП (очень быстрый)
Еще очень много рассказали какой у них SLA (жесткий, очень жесткий)
В целом даже не знаю зачем я это сюда принес если честно.
Слава России!
Хабр
Техрепорт Alice AI: как мы создавали новое поколение моделей для самого популярного ИИ-ассистента в России
Сегодня мы делимся техрепортом, в котором разобран полный цикл создания нового семейства моделей Alice AI: базовая текстовая Alice AI LLM и специализированная LLM Search, мультимодальная Alice AI VLM...
🥴4🐳2💩1
Добавил в модель три трансформерных блока. Результат как говорится "на лицо"
🐳3🥴2
Давно папир не читал, а там забавное
VQRAE - built on pretrained VFMs (SigLIP2), which can simultaneously produce continous semantic features for multimodal understanding tasks and discrete tokens for visual generation and reconstruction tasks.
От авторов RAE - пишут типа мультимодальные ембеддинги (на самом деле нет) - но уже что то в этом направлении
По идее он должен лучше генерить всякое типа 3girls, 2boys (совмещает дискретное и непрерывное пространство - картинку с текстом).
https://arxiv.org/pdf/2511.23386
VQRAE - built on pretrained VFMs (SigLIP2), which can simultaneously produce continous semantic features for multimodal understanding tasks and discrete tokens for visual generation and reconstruction tasks.
От авторов RAE - пишут типа мультимодальные ембеддинги (на самом деле нет) - но уже что то в этом направлении
По идее он должен лучше генерить всякое типа 3girls, 2boys (совмещает дискретное и непрерывное пространство - картинку с текстом).
https://arxiv.org/pdf/2511.23386
😱1
Всё пытаюсь найти рецепт счастия
зеленая линия: батч 96
красно-оранжевая: батч 64
Визуально - чем выше батч тем быстрее сходимость (цвета/форма)
На высоком батче быстрее генерализируется/схватывается главное/крупное - цвета/композиция
На низком есть смысл тренить только в конце (мелкие детали)
Для себя я сделал вывод что начинать лучше всегда с макс батча - плавно понижая по мере обучения, а вот фуллфайнтюн в детали надо делать на низком батче, но без фанатизма - батч 1 например не тренит от слова совсем
Ретроспективно это мегалогично - больше батч - более "среднее" учим, но я опять начитался дебильных папир и в какой то момент уверовал что лоубатч лучше.Горите в аду - исследователи недоделанные
Оригинал девочки - имадж 2
зеленая линия: батч 96
красно-оранжевая: батч 64
Визуально - чем выше батч тем быстрее сходимость (цвета/форма)
На высоком батче быстрее генерализируется/схватывается главное/крупное - цвета/композиция
На низком есть смысл тренить только в конце (мелкие детали)
Для себя я сделал вывод что начинать лучше всегда с макс батча - плавно понижая по мере обучения, а вот фуллфайнтюн в детали надо делать на низком батче, но без фанатизма - батч 1 например не тренит от слова совсем
Ретроспективно это мегалогично - больше батч - более "среднее" учим, но я опять начитался дебильных папир и в какой то момент уверовал что лоубатч лучше.
Оригинал девочки - имадж 2
😱1
Пост про предвзятость в исследованиях, кризис воспроизводимости
https://news.1rj.ru/str/Fourier_series/687
Ну типа есть проблемки как с предвзятостью так и с воспроизводимостью
Или вот про психологию занятно:
Предвзятость + кривые методологии + смешные приземленные вещи, типа:
Моя любимая часть про космические корабли:
Ну типа на arXiv то нет вот этих жалких проблем - ни кривых методологий, ни подогнанных метрик. И тщеславие там чуждо, и бабки не нужны
Так мы до двача для статей докатимся
https://news.1rj.ru/str/Fourier_series/687
Ну типа есть проблемки как с предвзятостью так и с воспроизводимостью
Из 53 знаковых исследований в онкологии воспроизвелись 6
Или вот про психологию занятно:
Вот две опорные работы. Если очень коротко, что произошло:
— Часть экспериментов психологов, на которых строится вся наука, нельзя повторить с тем же результатом. В других науках обычно можно, и это и делает науку наукой.
— Почему? Потому что психологи оказались самыми предвзятыми по каким-то причинам.
Предвзятость + кривые методологии + смешные приземленные вещи, типа:
— Выборочное сообщение — исследователи публикуют только положительные результаты, скрывая отрицательные или неубедительные находки. По опросам больше 30% исследователей признали участие в такой фигне из тщеславия.
— Принцип сисек (если оно сразу большое и красивое, возможно, силикон SOTA!!!11) — журналы значительно чаще публикуют работы с интересными результатами, чем исследования, которые не выявили эффектов.
— Правило бабок. Продвижение по карьере, получение грантов и репутация зависят в первую очередь от количества публикаций.
Моя любимая часть про космические корабли:
Open Science platforms, such as arXiv and bioRxiv, enable researchers to share their findings before formal peer review. This not only accelerates the dissemination of knowledge but also invites constructive criticism, improving the quality of research.
Ну типа на arXiv то нет вот этих жалких проблем - ни кривых методологий, ни подогнанных метрик. И тщеславие там чуждо, и бабки не нужны
Так мы до двача для статей докатимся
Telegram
Ряды Фурье
Как-то @Achisov с канала @bayesyatinaa про рациональное мышление напомнил про кризис воспроизводимости в психологии.
Вот две опорные работы. Если очень коротко, что произошло:
— Часть экспериментов психологов, на которых строится вся наука, нельзя повторить…
Вот две опорные работы. Если очень коротко, что произошло:
— Часть экспериментов психологов, на которых строится вся наука, нельзя повторить…
🐳2