Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.
Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.
📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.
Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.
🧠 Что изменилось под капотом:
- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).
- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.
⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.
- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.
- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.
Mamba-3 - это не просто ускоренная альтернатива Transformers.
Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.
@ai_machinelearning_big_data
#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96🔥49👍29🤔6🗿3💘2😁1
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор (написан на Rust)
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор (написан на Rust)
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥176❤50👍27🗿8💘3🥰1
Он пишет: «То, с чем мы имеем дело, - это настоящее и загадочное существо, а не простая и предсказуемая машина».
Он сравнивает человечество 2025 года с ребёнком из старой истории: мы включаем свет в тёмной комнате и видим не груду одежды на стуле, а живые, мощные и во многом непредсказуемые существа — современные ИИ-системы и те, что ещё впереди.
Многие, по его словам, отчаянно хотят поверить, что это лишь иллюзия, что перед нами не новая форма разума, а просто набор инструментов для экономики. Некоторые даже тратят огромные деньги, чтобы убедить нас, будто «это не интеллект, готовящийся к стремительному взлёту, а всего лишь машина, которой мы управляем».
«Но не обманывайтесь, - пишет Кларк.Мы имеем дело с настоящим и загадочным существом, а не с простой и предсказуемой машиной».
Полное эссе
Благодаря этому обновлению инструмент теперь создаёт более выразительные и визуально насыщенные видео-саммари. Можно выбрать один из шести художественных стилей оформления - от акварели и бумажной аппликации до аниме, рисованной доски, ретро-печати и культурного оформления.
Кроме того, появились два формата генерации роликов: Explainer для подробных объяснений и Brief для коротких, лаконичных обзоров. Обновление уже начали получать владельцы Pro-подписки, а в ближайшее время функция станет доступна всем пользователям.
X
Ring-1T-FP8 - модель на архитектуре Ling 2.0, которая содержит 1 триллион параметров( 50 миллиардов активных).
Ring-1T обучалась с применением RLVR (reinforcement learning with verifiable rewards) - техники, направленной на повышение точности рассуждений и самопроверку ответов. В процессе использовались собственные методы ASystem и Icepop, уменьшающие разрыв между обучением и инференсом.
Модель решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии.
HF
При этом точность почти не теряется, а вычисления становятся в 2–3 раза быстрее, а потребление памяти снижается на 50%.
В эксперименте NVIDIA обучила 12-миллиардный Mamba Transformer на 10 триллионах токенов, и модель с 4-битным NVFP4 показала почти такую же точность, как и FP8:
на тесте MMLU Pro - 62.58% против 62.62%,
а по коду (MBPP+) - 55.91% против 59.11%.
NVFP4 группирует значения в блоки по 16 чисел. Для каждого блока хранится небольшой масштаб в 8 битах, а для всего тензора - глобальный масштаб в 32 битах. Такая структура сохраняет точность локальных и экстремальных значений, позволяя использовать сверхкомпактное 4-битное хранение без потери устойчивости обучения.
На GPU Blackwell операции FP4 выполняются в 2 раза быстрее на GB200 и в 3 раза 0 на GB300, по сравнению с FP8. Потери точности при валидации не превышают 1–1.5%.
Метод также использует стохастическое округление, чтобы избежать накопления ошибок, а переход на BF16 в последних итерациях обучения полностью убирает оставшуюся разницу.
Поддержка NVFP4 уже встроена в Transformer Engine и новое поколение GPU Blackwell.
arxiv
OpenAI будет отвечать за архитектуру и проектирование чипов, а Broadcom - за производство и развёртывание систем. Масштаб проекта колоссален: 10 ГВт — это примерно столько же энергии, сколько требуется, чтобы обеспечить электричеством 7–10 миллионов домов.
Главная цель - уменьшить зависимость от NVIDIA и создать собственную, независимую инфраструктуру.
OpenAi
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59👍24🤣10🤓6🔥5👻3💘2🍓1
Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.
Ещё недавно такая производительность обеспечивалась целой комнатой серверов.
Теперь она помещается в коробку размером с рабочий ПК.
Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.
NVIDIA называет это началом новой эры персональных ИИ-ускорителей.
Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.
Этот момент отсылает к истокам: в 2016 году именно Маск и его команда получили первый DGX-1 - тот самый суперкомпьютер, с которого началась эпоха ИИ-ускорителей NVIDIA.
Эх, нам бы такую коробочку)
Подробнее о первых поставках для разработчиков, исследователей, университетов в live-блоге Nvidia: https://blogs.nvidia.com/blog/live-dgx-spark-delivery/
@ai_machinelearning_big_data
#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤113👍47🔥25😁5😴4🤔2💘2
MAI-Image-1 создаётся с упором на реализм, разнообразие и художественную точность, а не шаблонные стили.
Она особенно сильна в фотореалистичных сценах - свет, тени, отражения и текстуры выглядят максимально естественно.
Microsoft отмечает, что обучение велось на тщательно отобранных данных с участием художников и дизайнеров, чтобы улучшить восприятие и применимость модели в реальных проектах.
Главное преимущество модельки - скорость и качество: можно мгновенно визуализировать идею, а затем доработать её в привычных инструментах.
💡 В ближайшее время модель появится в Copilot и Bing Image Creator. Сейчас MAI-Image-1 доступна для тестирования на LMArena, где можно посмотреть, как ведёт себя модель.
🔗 Подробнее здесь: https://microsoft.ai/news/introducing-mai-image-1-debuting-in-the-top-10-on-lmarena/
@ai_machinelearning_big_data
#Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57❤24🔥15😐5🥰4💘3😁2
Media is too big
VIEW IN TELEGRAM
Она поддерживает контекст длиной 256k токенов, расширяемый до 1 миллиона, и способна работать с открытой лексикой, распознавая всё - от товаров до знаменитостей.
Внутри два режима: Instruct и Thinking, предназначенные для задач по математике, генерации кода и логическим рассуждениям. Улучшена система OCR - теперь модель поддерживает 32 языка даже при низком качестве сканов, а также понимает пространственные сцены в 2D и 3D.
По многим задачам модель показывает результаты лучше или почти на уровне Qwen2.5-VL-72B, что делает её одним из самых мощных открытых мультимодальных решений. Лицензия: Apache 2.0.
HF
Компания объясняет, что ранние версии ChatGPT были «достаточно ограниченными» из-за риска вреда при обсуждении психических тем. Теперь OpenAI утверждает, что им удалось снизить серьёзные риски вредных ответов и при этом сохранить защитные механизмы для кризисных ситуаций.
Обновление также добавит возможность включать более “человечный” стиль общения - с эмоциями, эмодзи и дружеской манерой, если пользователь сам этого хочет.
Все изменения будут привязаны к системе возрастной верификации, разделяющей взрослых и несовершеннолетних.
Теперь OpenAI делает ставку на контролируемое расширение свободы взрослых пользователей, сохраняя баланс между безопасностью и реализмом общения.
X
После топосещения Китая много СЕО, пишут, что заводы Китая настолько автоматизированные и эффективные, что западные производства выглядят невероятно устаревшими.
Китай больше не «дешёвая фабрика мира», а высокотехнологичная держава, которая двигает вперёд инновации в робототехнике, электромобилях и чистом производстве.
После таких поездок многие задаются вопросом - способен ли Запад ещё конкурировать в гонке, которую Китай теперь бежит быстрее и умнее.
telegraph
Всего 900 строк кода - и рабочая система готова. Модель выполняет задачу за 172 секунды, показывая уровень генерации интерфейсов, недостижимый для прежних LLM.
Код и демо уже опубликованы, а инсайдеры сообщают, что официальный релиз ожидается на этой неделе. Первые тестеры называют Gemini 3 Pro лучшим ИИ для кодинга на данный момент.
Демо и код.
Используя обычную антенну и приёмник, они обнаружили, что половина спутниковых каналов передаёт данные в открытом виде: звонки, SMS, интернет-трафик и даже военные сигналы.
С крыши лаборатории в Сан-Диего исследователи перехватили 2,7 тыс. телефонных номеров T-Mobile за 9 часов, а также части разговоров. На каналах AT&T Mexico и Telmex передавались контрольные сигналы и голосовые данные в чистом виде.
Даже военные и правительственные системы передавали телеметрию, координаты и внутренние команды без шифрования.
wired
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤26😨12🥰5
Media is too big
VIEW IN TELEGRAM
🎮 На SQL Doom уже запускали, пришло время Chatgpt
Разработчик взял шаблон ChatGPT App на Next.js, добавил инструмент play_doom и задеплоил всё на Vercel.
Chatgpt не просто описывает игру, а реально запускает рабочий Doom прямо в чат: серверный и клиентский рендеринг работают одновременно.
🟢 starter kit: http://vercel.com/templates/ai/chatgpt-app-with-next-js
🟢 Пост: https://x.com/rauchg/status/1978235161398673553
@ai_machinelearning_big_data
#chatgpt #doom
Разработчик взял шаблон ChatGPT App на Next.js, добавил инструмент play_doom и задеплоил всё на Vercel.
Chatgpt не просто описывает игру, а реально запускает рабочий Doom прямо в чат: серверный и клиентский рендеринг работают одновременно.
@ai_machinelearning_big_data
#chatgpt #doom
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤19🔥16😁14🥱4
Команда AI VK открыла регистрацию на VK RecSys Challenge — масштабное соревнование по созданию алгоритмов рекомендаций. В этом году командам и участникам предстоит решить одну из самых сложных задач индустрии — cold start. 🧠
В прошлом году более 1000+ участников решали задачу по предсказанию явного фидбэка (лайков/дизлайков) клипов, а в этом челендж посложнее. Обычно рекомендательные системы анализируют поведение пользователя и предлагают контент на основе прошлых взаимодействий. Здесь задача зеркальна: нужно предсказать, кому понравится новый клип, которого еще никто не видел. Участникам предстоит работать с реальными данными свежего датасета VK-LSVD, включающего 40 млрд обезличенных взаимодействий с 20 млн коротких видео.
Принять участие могут команды до 4 человек или индивидуально, а призовой фонд составит 2,5 млн рублей.
@ai_machinelearning_big_data
#news #ml #recsys #vkdataset #coldstart #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤25😁14👍9🔥9🗿3
M5 это заметный скачок по сравнению с M4:
- GPU 10 ядер это мощнее M4 примерно на 30%
- GPU 10 с Neural Accelerator в каждом ядре это в два раза быстрее М4
- Существенный прирост скорости on-device AI
- Пропускная способность памяти выросла на 30% — до 153 GB/s
- Liquid Retina XDR с яркостью до 1600 нит.
🧩 Новый M5 уже будет доступен в:
- Vision Pro
- iPad Pro
- MacBook Pro
💰 Цена макбука- от $1599.
🖤 Цвета: серебристый и космический чёрный.
🚀 Старт продаж — 22 октября.
apple.com/newsroom/2025/10/apple-unleashes-m5-the-next-big-leap-in-ai-performance-for-apple-silicon/
@ai_machinelearning_big_data
#apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤46🔥30👍18🤣9🌚5🐳3🥱2💘1
Это полный стек для разработки локального искусственного интеллекта, который работает без облака и практически без задержек.
Coral NPU - это новый тип нейропроцессора (Neural Processing Unit), созданный для умных гаджетов, IoT и носимых устройств.
Можно обучать и запускать модели прямо на устройствах с низким энергопотреблением - от датчиков и дронов до мини-роботов и камер. Coral NPU позволяет делать это быстро и безопасно.
🧩 Врунти:
- SDK и инструменты для TensorFlow Lite и ONNX
- Компилятор, квантование и оптимизация моделей
- Поддержка Python, C++ и микроконтроллеров
Как это работает
1. Модель обучается (в TensorFlow / PyTorch).
2. Компилятор Coral NPU превращает её в оптимизированный код через MLIR → IREE → NPU binary.
3. Код работает прямо на устройстве, используя:
- RISC-V (управляет задачами)
- Векторные блоки( выполняют параллельные операции)
- Матричные ускорители MAC (считают нейронные сети за милливатты энер)гии.
Результат - ИИ-инференс с производительностью до 512 миллиардов операций в секунду, при этом устройство потребляет очень мало ресурсов и не передаёт данные в облако.
Edge AI получает свою открытую архитектуру от Google.
Подробнее: https://research.google/blog/coral-npu-a-full-stack-platform-for-edge-ai/
@ai_machinelearning_big_data
#EdgeAI #GoogleResearch #CoralNPU #RISC_V #AIHardware
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64❤25👍22🤔2💘2😁1