Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Сбер выпустил новую линейку генеративных моделей Kandinsky 5.0 в open source — с кодом, весами и под лицензией MIT

Линейку представили на международной конференции Сбера - AI Journey. В нее вошли нейросети:
– Video Pro - превосходит Wan2.2-A14B и работает на уровне Veo 3 по визуалу и динамике. Генерирует видео в HD длиной до 10 секунд с гибким контролем движения камеры
– Video Lite - оптимизирована для пользовательских GPU от 12 ГБ VRAM и значительно превосходит в 7 раз большую Wan2.1-14B по качеству генерации в Text-2-Video и Image-2-Video
– Image Lite - превосходит FLUX.1 [dev] по Text-to-Image и в паритете с FLUX.1 Kontext [dev] по Image Editing

Модели Video Pro и Image Lite понимают английские и русские запросы, способны генерировать надписи на кириллице и латинице, обучены на большом количестве данных и дополнительно доучены на сверхкачественном, специальным образом отобранном датасете, а также оптимизированы для запуска.

Все модели можно найти на GitHub, Gitverse и HuggingFace. Технический репорт лежит по ссылке.
🔥71💩44🎉7👍5🤔5💋3🥴2🍓11
This media is not supported in your browser
VIEW IN TELEGRAM
Сбер выкатил Грина — антропоморфного робота, который выглядит как нормальная инженерная попытка сделать не демонстрацию, а систему.

Архитектура полностью их: железо, приводы, сенсоры, управление. Когнитивный слой — ГигаЧат. Он закрывает навигацию, речь, взаимодействие с объектами.

1 год R&D. На выходе — робот, который уже конкурирует с зарубежными решениями: автономно ходит, читает пространство и работает с предметами.

На конференции AIJ уже даже поболтал с президентом и станцевал на сцене.

Это пример того, как LLM-стек превращается из «просто чатика» в полноценного агента и физического помощника.
👍122💩90😁38🔥2110💋32🥴1🤓1
Обожаю их
😁12515❤‍🔥6👍2💋2🔥1💩1😍1
Ребята, только что узнал: облачный провайдер Cloud.​ru  запустил Evolution AI Factory в коммерцию.

Цены в среднем — 35 ₽35/70 за миллион токенов вх/вых, все с SLA и поддержкой 24/7. Внутри 20+ моделей (GigaChat, Qwen, gptoss-120b) через обычный OpenAI-API, ML Inference для быстрого развертывания моделей, Evolution Notebooks для тестирования ML-гипотез и многое-многое другое.

Короче, теперь любой бизнес может запустить своих ИИ-агентов в прод без боли и за нормальные деньги. Кайф.
🥴11234💩23😁18🔥8👍7👏1🤔1💋1💅1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
https://habr.com/ru/companies/sberdevices/articles/968904/
ДИПСИК ВСЕ — сбер выкатил гигачат ультра
статья доехала, ждем папир

(Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
2😁239🔥2423💩106🥴3💋2👏1🤔1
почему есть слава птрк но нет славы птср
👏45🥴11
Российское айти спустя 3 года изоляции
😁224🔥67🥴18665💩3🤔2
Forwarded from AI[ex]Time
Недавно удалось чуть-чуть погрузиться в Tinker (спасибо коллеге, который сделал обзор). Помимо общего положительного впечатления, одна вещь в дизайне платформы мне особенно понравилась – имплементация поддержки кастомных лосс-функций.

Пару слов о Tinker – это API, которым вы пользуетесь для обучения LLM. Вы пишете скрипт с подгрузкой данных и логикой обучения (включая лосс и эвалы), но весь инференс и обучение (sample, forward, backward, save_model) происходят на серверах Thinking Machines. То есть вы можете запустить скрипт на локальном компьютере с CPU и хорошим интернетом и на нем тюнить DeepSeek. Точнее, не весь DeepSeek, а только лоры. На это есть любопытная причина: для высокой утилизации GPU нужны большие батчи, особенно для MoE, а с лорами можно эффективно инференсить все еще одну LLM для пользователей с разными тюнами. Небольшой тред от одного из разработчиков Tinker в эту же тему. Вот пример скрипта, как может выглядеть обучение SFT.

Так вот по умолчанию Tinker дает доступ к трем лоссам: cross_entropy, importance_sampling и ppo, но вы можете заимплементировать любой свой, который будет принимать на вход (data: tensor, logprobs: tensor). Первое, что ожидаешь увидеть в таком случае – пользовательский код будет сериализовываться и отправляться по сети исполняться на сервере. Но здесь появляется очень элегантное, на мой взгляд, решение: forward_backward_custom. Forward_pass с сервера возвращает вам логпробы, по которым вы локально считаете лосс и производные, но только dLoss/dLogprobs (весов-то у вас нет). Далее, при вызове backward, сервер еще раз делает forward, считает новый лосс sum(logprobs * dLoss/dLogprobs) и по нему апдейтит веса модели. Цена за это – два forward pass’а и, как следствие, 1.5x FLOPS на шаг. Но зато Тинкеру не нужно вообще никак связываться со сторонним кодом.

Другое интересное архитектурное решение – это Clock Cycles, но об этом возможно напишу в другой раз.
😨23👏13🤔9🥴3🔥1
https://github.com/IntologyAI/locus-evaluations

Нет не лучше чем человек
😁59👍6👏6🔥2🤔2🗿2🤷‍♂1
Tldr: Если вы не Гугле - не стоит использовать jax

забавный блог сто liquid Ai про то как хайповые и красивые фреймворки дружат с реальностью (плохо), ну и классическое: а чойта нормальной поддержки nccl нету...


https://substack.com/home/post/p-177893569
👍31
Love. Death. Transformers.
https://ai-2027.com/ Опять попугаи угрожают человечеству, да чтож такое то. Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?
если вы не следите за шизами в интернете то я да иногда заглядываю в их инфопузырь, тут авторы agi2027 перестали верить и пишут

I think powerful AI by early 2027 is around 6% likely

как были какие то манипуляции с цифрами и сроками так есть, с такими скилами надо стакан мейкать, а не в твиттере сидеть

blog
😁82😢1
ну так и живем
63😁29🔥6🥴4💩2💊2
Forwarded from Just links
PyTorch Profiling 101 with Modded-NanoGPT https://blog.underfit.ai/profiling-101-nanogpt
🔥13👍2
Деанон агент GeoVista: Web-Augmented
Agentic Visual Reasoning for Geolocalization


Есть такая игра - geogesser - тебя выкидывает на google street view и надо найти где ты. Обычно играют без гугления, но если вам надо найти где живет ревьювер который засрал вашу работу и отправить "подарок" то удобнее это делать с гугл поиском.

Собственно тут авторы предлагают такой сетап - у модели есть тул веб поиска и zoom+crop картинки, дистилят трейсы с проприетарных моделей и потом RLят qwen2.5. Почему его? Потому что qwen3 так задрочили RLем и доливанием трейсов что выбить из него необходимое для RLя разнообразие просто нереально.

Блабла grpo, блабла sota на бенче среди открытых

project page
👍26❤‍🔥6🔥4