Нерегулярные заметки Дяди Добронавта
Ждем полноценного релиза.
https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemini-3-pro-image-preview?pli=1
https://blog.google/technology/ai/nano-banana-pro/
Какая же она клёвая
15с за одну картинку ебать
https://blog.google/technology/ai/nano-banana-pro/
Какая же она клёвая
15с за одну картинку ебать
🍓26🔥4🍌4💋2💩1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
претрен на русском не помог знать классику
😁67🤔4😢3💩3😐1💋1
Сбер выпустил новую линейку генеративных моделей Kandinsky 5.0 в open source — с кодом, весами и под лицензией MIT
Линейку представили на международной конференции Сбера - AI Journey. В нее вошли нейросети:
– Video Pro - превосходит Wan2.2-A14B и работает на уровне Veo 3 по визуалу и динамике. Генерирует видео в HD длиной до 10 секунд с гибким контролем движения камеры
– Video Lite - оптимизирована для пользовательских GPU от 12 ГБ VRAM и значительно превосходит в 7 раз большую Wan2.1-14B по качеству генерации в Text-2-Video и Image-2-Video
– Image Lite - превосходит FLUX.1 [dev] по Text-to-Image и в паритете с FLUX.1 Kontext [dev] по Image Editing
Модели Video Pro и Image Lite понимают английские и русские запросы, способны генерировать надписи на кириллице и латинице, обучены на большом количестве данных и дополнительно доучены на сверхкачественном, специальным образом отобранном датасете, а также оптимизированы для запуска.
Все модели можно найти на GitHub, Gitverse и HuggingFace. Технический репорт лежит по ссылке.
Линейку представили на международной конференции Сбера - AI Journey. В нее вошли нейросети:
– Video Pro - превосходит Wan2.2-A14B и работает на уровне Veo 3 по визуалу и динамике. Генерирует видео в HD длиной до 10 секунд с гибким контролем движения камеры
– Video Lite - оптимизирована для пользовательских GPU от 12 ГБ VRAM и значительно превосходит в 7 раз большую Wan2.1-14B по качеству генерации в Text-2-Video и Image-2-Video
– Image Lite - превосходит FLUX.1 [dev] по Text-to-Image и в паритете с FLUX.1 Kontext [dev] по Image Editing
Модели Video Pro и Image Lite понимают английские и русские запросы, способны генерировать надписи на кириллице и латинице, обучены на большом количестве данных и дополнительно доучены на сверхкачественном, специальным образом отобранном датасете, а также оптимизированы для запуска.
Все модели можно найти на GitHub, Gitverse и HuggingFace. Технический репорт лежит по ссылке.
🔥71💩44🎉7👍5🤔5💋3🥴2🍓1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Сбер выкатил Грина — антропоморфного робота, который выглядит как нормальная инженерная попытка сделать не демонстрацию, а систему.
Архитектура полностью их: железо, приводы, сенсоры, управление. Когнитивный слой — ГигаЧат. Он закрывает навигацию, речь, взаимодействие с объектами.
1 год R&D. На выходе — робот, который уже конкурирует с зарубежными решениями: автономно ходит, читает пространство и работает с предметами.
На конференции AIJ уже даже поболтал с президентом и станцевал на сцене.
Это пример того, как LLM-стек превращается из «просто чатика» в полноценного агента и физического помощника.
Архитектура полностью их: железо, приводы, сенсоры, управление. Когнитивный слой — ГигаЧат. Он закрывает навигацию, речь, взаимодействие с объектами.
1 год R&D. На выходе — робот, который уже конкурирует с зарубежными решениями: автономно ходит, читает пространство и работает с предметами.
На конференции AIJ уже даже поболтал с президентом и станцевал на сцене.
Это пример того, как LLM-стек превращается из «просто чатика» в полноценного агента и физического помощника.
👍122💩90😁38🔥21 10💋3✍2🥴1🤓1
Ребята, только что узнал: облачный провайдер Cloud.ru запустил Evolution AI Factory в коммерцию.
Цены в среднем — 35 ₽35/70 за миллион токенов вх/вых, все с SLA и поддержкой 24/7. Внутри 20+ моделей (GigaChat, Qwen, gptoss-120b) через обычный OpenAI-API, ML Inference для быстрого развертывания моделей, Evolution Notebooks для тестирования ML-гипотез и многое-многое другое.
Короче, теперь любой бизнес может запустить своих ИИ-агентов в прод без боли и за нормальные деньги. Кайф.
Цены в среднем — 35 ₽35/70 за миллион токенов вх/вых, все с SLA и поддержкой 24/7. Внутри 20+ моделей (GigaChat, Qwen, gptoss-120b) через обычный OpenAI-API, ML Inference для быстрого развертывания моделей, Evolution Notebooks для тестирования ML-гипотез и многое-многое другое.
Короче, теперь любой бизнес может запустить своих ИИ-агентов в прод без боли и за нормальные деньги. Кайф.
🥴112 34💩23😁18🔥8👍7👏1🤔1💋1💅1
Love. Death. Transformers.
Выглядит как пиздатая замена deepseek3.1~ на русском, mtp, MLA , на русском бодро болтает, метрики sub frontier, жду апи и померяю на всяком. Ждём статью на архив и будет понятнее https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview https://huggingface.co/ai…
https://habr.com/ru/companies/sberdevices/articles/968904/
ДИПСИК ВСЕ — сбер выкатил гигачат ультра
статья доехала, ждем папир
(Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
ДИПСИК ВСЕ — сбер выкатил гигачат ультра
статья доехала, ждем папир
(Текст не редактировать, информацию в скобках - удалить. Оплата по ранее указанными реквизитам в течение 15 минут после публикации)
2😁239🔥24 23💩10 6🥴3💋2👏1🤔1
Forwarded from AI[ex]Time
Недавно удалось чуть-чуть погрузиться в Tinker (спасибо коллеге, который сделал обзор). Помимо общего положительного впечатления, одна вещь в дизайне платформы мне особенно понравилась – имплементация поддержки кастомных лосс-функций.
Пару слов о Tinker – это API, которым вы пользуетесь для обучения LLM. Вы пишете скрипт с подгрузкой данных и логикой обучения (включая лосс и эвалы), но весь инференс и обучение (sample, forward, backward, save_model) происходят на серверах Thinking Machines. То есть вы можете запустить скрипт на локальном компьютере с CPU и хорошим интернетом и на нем тюнить DeepSeek. Точнее, не весь DeepSeek, а только лоры. На это есть любопытная причина: для высокой утилизации GPU нужны большие батчи, особенно для MoE, а с лорами можно эффективно инференсить все еще одну LLM для пользователей с разными тюнами. Небольшой тред от одного из разработчиков Tinker в эту же тему. Вот пример скрипта, как может выглядеть обучение SFT.
Так вот по умолчанию Tinker дает доступ к трем лоссам: cross_entropy, importance_sampling и ppo, но вы можете заимплементировать любой свой, который будет принимать на вход (data: tensor, logprobs: tensor). Первое, что ожидаешь увидеть в таком случае – пользовательский код будет сериализовываться и отправляться по сети исполняться на сервере. Но здесь появляется очень элегантное, на мой взгляд, решение: forward_backward_custom. Forward_pass с сервера возвращает вам логпробы, по которым вы локально считаете лосс и производные, но только dLoss/dLogprobs (весов-то у вас нет). Далее, при вызове backward, сервер еще раз делает forward, считает новый лосс sum(logprobs * dLoss/dLogprobs) и по нему апдейтит веса модели. Цена за это – два forward pass’а и, как следствие, 1.5x FLOPS на шаг. Но зато Тинкеру не нужно вообще никак связываться со сторонним кодом.
Другое интересное архитектурное решение – это Clock Cycles, но об этом возможно напишу в другой раз.
Пару слов о Tinker – это API, которым вы пользуетесь для обучения LLM. Вы пишете скрипт с подгрузкой данных и логикой обучения (включая лосс и эвалы), но весь инференс и обучение (sample, forward, backward, save_model) происходят на серверах Thinking Machines. То есть вы можете запустить скрипт на локальном компьютере с CPU и хорошим интернетом и на нем тюнить DeepSeek. Точнее, не весь DeepSeek, а только лоры. На это есть любопытная причина: для высокой утилизации GPU нужны большие батчи, особенно для MoE, а с лорами можно эффективно инференсить все еще одну LLM для пользователей с разными тюнами. Небольшой тред от одного из разработчиков Tinker в эту же тему. Вот пример скрипта, как может выглядеть обучение SFT.
Так вот по умолчанию Tinker дает доступ к трем лоссам: cross_entropy, importance_sampling и ppo, но вы можете заимплементировать любой свой, который будет принимать на вход (data: tensor, logprobs: tensor). Первое, что ожидаешь увидеть в таком случае – пользовательский код будет сериализовываться и отправляться по сети исполняться на сервере. Но здесь появляется очень элегантное, на мой взгляд, решение: forward_backward_custom. Forward_pass с сервера возвращает вам логпробы, по которым вы локально считаете лосс и производные, но только dLoss/dLogprobs (весов-то у вас нет). Далее, при вызове backward, сервер еще раз делает forward, считает новый лосс sum(logprobs * dLoss/dLogprobs) и по нему апдейтит веса модели. Цена за это – два forward pass’а и, как следствие, 1.5x FLOPS на шаг. Но зато Тинкеру не нужно вообще никак связываться со сторонним кодом.
Другое интересное архитектурное решение – это Clock Cycles, но об этом возможно напишу в другой раз.
😨23👏13🤔9🥴3🔥1
Tldr: Если вы не Гугле - не стоит использовать jax
забавный блог сто liquid Ai про то как хайповые и красивые фреймворки дружат с реальностью (плохо), ну и классическое: а чойта нормальной поддержки nccl нету...
https://substack.com/home/post/p-177893569
забавный блог сто liquid Ai про то как хайповые и красивые фреймворки дружат с реальностью (плохо), ну и классическое: а чойта нормальной поддержки nccl нету...
https://substack.com/home/post/p-177893569
Substack
Why We Started with JAX but Moved to PyTorch
A story of why compute infra is an inherent part of an ML training stack
👍31
Love. Death. Transformers.
https://ai-2027.com/ Опять попугаи угрожают человечеству, да чтож такое то. Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?
если вы не следите за шизами в интернете то я да иногда заглядываю в их инфопузырь, тут авторы agi2027 перестали верить и пишут
как были какие то манипуляции с цифрами и сроками так есть, с такими скилами надо стакан мейкать, а не в твиттере сидеть
blog
I think powerful AI by early 2027 is around 6% likely
как были какие то манипуляции с цифрами и сроками так есть, с такими скилами надо стакан мейкать, а не в твиттере сидеть
blog
😁82😢1
Forwarded from Just links
PyTorch Profiling 101 with Modded-NanoGPT https://blog.underfit.ai/profiling-101-nanogpt
🔥13👍2
Agentic Visual Reasoning for Geolocalization
Есть такая игра - geogesser - тебя выкидывает на google street view и надо найти где ты. Обычно играют без гугления, но если вам надо найти где живет
Собственно тут авторы предлагают такой сетап - у модели есть тул веб поиска и zoom+crop картинки, дистилят трейсы с проприетарных моделей и потом RLят qwen2.5. Почему его? Потому что qwen3 так задрочили RLем и доливанием трейсов что выбить из него необходимое для RLя разнообразие просто нереально.
Блабла grpo, блабла sota на бенче среди открытых
project page
👍26❤🔥6🔥4