Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Forwarded from Just links
PyTorch Profiling 101 with Modded-NanoGPT https://blog.underfit.ai/profiling-101-nanogpt
🔥13👍2
Деанон агент GeoVista: Web-Augmented
Agentic Visual Reasoning for Geolocalization


Есть такая игра - geogesser - тебя выкидывает на google street view и надо найти где ты. Обычно играют без гугления, но если вам надо найти где живет ревьювер который засрал вашу работу и отправить "подарок" то удобнее это делать с гугл поиском.

Собственно тут авторы предлагают такой сетап - у модели есть тул веб поиска и zoom+crop картинки, дистилят трейсы с проприетарных моделей и потом RLят qwen2.5. Почему его? Потому что qwen3 так задрочили RLем и доливанием трейсов что выбить из него необходимое для RLя разнообразие просто нереально.

Блабла grpo, блабла sota на бенче среди открытых

project page
👍26❤‍🔥6🔥4
Love. Death. Transformers.
DOOM Знаете в чем плюс заниматся не особо нужной ерундой?(ресерчем чего либо вокруг русских бенчей которые никому не интересно оптимайзить) Можно наблюдать как прирстают модели на математике, при этом на физике прирост между поколениями всего несколько…
забавно что изза физики бенч до сих пор решается далеко не полностью, но цена прогона устрашает - GPT-5.1-max-reasoning стоит 100 баксов за прогон.

К слову STD у бенча ебически неприятный(мало задач), но это имхо лучше чем тратить на прогон 2-3к USD + в фиксированном сетапе не оч плохой вариант;
🌚10👍5🔥2💩1
This media is not supported in your browser
VIEW IN TELEGRAM
💅21🔥11💩4💋2🍓1💊1
я в восторге от новой нано бананы, первая сетка которая уверенно воспроизводит стиль стикеров и со второго третьего раза выдает хороший результат.


Пишите идеи, лучшие сделаю
🔥83💩6❤‍🔥4💅2🍓1💋1💊1
Forwarded from Сиолошная
https://www.anthropic.com/news/claude-opus-4-5

Claude Opus 4.5 таки смог взять 80% на SWE-bench Verified!

Бонусом в модель добавили effort control — прямо как у OpenAI: high, medium, low, дольше думает = лучше решает.

На бенчмарках... ВНЕЗАПНО ждём, потому что цена упала до $5/$25 за миллион токенов (в 3 раза).
🔥392💩1
и еще скорость(TPS) выросла в два раза
👍20🍓9😨42
а зачем в честь хренового сиквела называтся
🦄46😁251🔥1💩1
Love. Death. Transformers.
https://huggingface.co/DevQuasar/ai-sage.GigaChat3-702B-A36B-preview-bf16-GGUF/tree/main Хабр Теперь с gguf, но монстр тот еще
бтв мне не оч понятна тряска с тем что у гигачата архитектура дипсиковая
- мало кто может позволить себе делать аблейшены архитектур и получать принципиально лучшие. Те же мистрали сидят на llamalike и ничего
- есть kimi k2 которая тоже дипсик и ничего
- кореляцию весов стоит считать без ln - иначе выходит что квен это инициализация лламой (или наоборот) вот реп я более чем верю что гигачат мог обучить свою модель такого класса с нуля, к тому же это действительно единственная современная реально русская модель за последние 4 года.



Русского опенсурса настолько мало что да, я буду неиронично впрягатся за сбер который не очень люблю и у меня нет восторгов от организации и тд, но стоит разделять автора и творение. Гигачат сам по себе все же уникальная штука с точки зрения того что он вообще есть с учетом дефецита всего
2👍199🔥54❤‍🔥35💩16💯4💔4👏2🤔1🍓1
новый флюкс клевый!

внутри mistral vlm 24b как текстовый и картиночный энкодер + теперь поддерживается промптинг с нескольких картинок, результаты не такие впечетляющие как у бананы, но лучше чем у qwen edit + поддержка до 4к и худо бедно русский текст поддерживает

https://bfl.ai/blog/flux-2
🔥41👍11😁8
мальчики не завидуем, 1.5tb оперативки дада ddr5 да и два gold проца, ну да моя личная, а что?
😁9348🎉8🔥3❤‍🔥2👍2💅2
Forwarded from Denis Sexy IT 🤖
Илья дал большое интервью:
https://www.youtube.com/watch?v=aR20FWCCjAs

Вот главное:

– Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах: они переобучены на эвалы и плохо обобщают, особенно в сложных многошаговых сценариях

– Главный технический барьер к AGI - ненадёжное обобщение и низкая «человеческая» обучаемость; простое масштабирование предобучения и RL это не решит

– Эпоха «масштабируем всё предобучением» заканчивается: данные конечны, RL жрёт много вычислений; начинается новая «эпоха исследований» с поиском новых рецептов обучения (в т.ч. ценностные функции, архитектур моделей, другие виды RL и т.п.).

– Будущее AGI видится как система, которая учится как человек: один и тот же базовый разум может быстро осваивать разные профессии, постоянно дообучаясь в реальном мире, а не «готовый мозг, который знает всё из коробки»

– Массовое распространение таких АИ-учеников по экономике почти неизбежно приведёт к очень быстрому росту производительности и ВВП; скорость будет сильно зависеть от регулирования в разных странах

– Скорее всего появится много сверхсильных АИ от разных компаний, специализирующихся по нишам (право, медицина, R&D и т.д.), а не один «богоподобный» монополист-суперинтеллект (аниме Пантеон смотрели? Пора если нет)

– Основной риск - огромная мощь: если сделать чрезвычайно сильного целеустремлённого агента, даже с «хорошей» целью, результат может сильно не понравиться людям; желательно ограничивать максимальную мощность единичных систем

– В качестве цели для первых суперинтеллектов он рассматривает «заботу о чувствующих существах» (в т.ч. о самом АИ) как более реалистичную и устойчивую, чем «забота только о людях», но признаёт, что это не идеальное решение

– Он ожидает постепенный, но всё более заметный показ мощных АИ обществу: по мере роста реальной силы моделей компании и государства станут намного более параноидальны и начнут активно координироваться по безопасности и регулированию

– Краткосрочный «хороший» сценарий - универсальный высокий доход и то, что АИ делает почти всю работу; долгосрочно это нестабильно, потому что люди выпадают из активного участия в принятии решений

– Один из возможных (ему самому не очень нравящийся) способов долгосрочной стабилизации - частичное слияние людей с АИ через продвинутые нейроинтерфейсы, чтобы люди разделяли понимание с системами и оставались в контуре управления

– Оценка горизонта: до АИ, который учится как человек и может стать базой для суперинтеллекта, примерно 5-20 лет; текущий «чистый масштабинг» в какой-то момент упрётся в потолок

– SSI (его АИ лаба) он описывает как «чисто исследовательскую» компанию с другим техническим подходом к обобщению и безопасности, которая не ставит ставку на простое наращивание масштаба текущих архитектур, и ожидает, что в итоге крупные игроки всё равно сойдутся в общих стратегиях по безопасному выводу суперинтеллекта в мир
👍3412🔥8😁7🤔2
https://huggingface.co/inclusionAI/LLaDA2.0-flash
https://huggingface.co/inclusionAI/LLaDA2.0-mini

Нифига себе, они под мой пост в канал релиз что ли подгадали?

TLDR: 100b и 16b MoE текстовые диффузии, по метрикам +- на уровне Qwen3-30b и Qwen3-8b. Учили на 20Т токенов. Фреймворк опенсорсят.
👍27🔥6🤔4
Continuous batching +ar это основа цены и перфоманса современного инференса, без этого все хитрые kV hit cache префил что шалаве хиджаб - бессмысленно. Почитайте, хорошая вводная статья.

Если по простому - с помощью continuous batching можно добавлять запросы в обработку когда некоторые старые запросы уже обработаны, а новые уже идут. За счёт чего карты постоянно утилизируются и нет необходимости ждать когда дойдет прошлый батч


https://huggingface.co/blog/continuous_batching
🔥25👍4
какая клевая картинка
😁56💅17🔥6🍓2
кто модель z image назвал??


modelscope
Paper
❤‍🔥7362🔥16💩6🐳4👏21💅1
Forwarded from Labrats
- Я прочитал три книги Пелевина. Такое странное чувство. Словно пропитался буддийским пофигизмом.
- Это ненадолго. Скоро сессия.

#вдохновлено_подписчиком
😁44🔥3