This media is not supported in your browser
VIEW IN TELEGRAM
Визуализация того, что находится внутри моделей ИИ. Это представляет слои взаимосвязанных нейронных сетей. И да, со временем формируются паттерны, и они могут образовывать своего рода сигнатуру того, как модель мыслит.
Этот паттерн можно рассматривать как процесс мышления.
👉 @DataSciencegx
Этот паттерн можно рассматривать как процесс мышления.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23❤9
Команда Hugging Face только что научила Claude Code полноценно обучать открытые LLM.
Ты просто говоришь что-то вроде:
«Дообучи Qwen3-0.6B на open-r1/codeforces-cots».
А дальше Claude делает всё сам.
▸ Подбирает оптимальный облачный GPU под размер модели
▸ Загружает датасет (или ищет его, если не указан)
▸ Запускает задачу: тестовый прогон или основной запуск
▸ Отслеживает прогресс через дашборд Trackio
▸ Загружает чекпоинты и финальную модель в Hugging Face Hub
👉 @DataSciencegx
Ты просто говоришь что-то вроде:
«Дообучи Qwen3-0.6B на open-r1/codeforces-cots».
А дальше Claude делает всё сам.
▸ Подбирает оптимальный облачный GPU под размер модели
▸ Загружает датасет (или ищет его, если не указан)
▸ Запускает задачу: тестовый прогон или основной запуск
▸ Отслеживает прогресс через дашборд Trackio
▸ Загружает чекпоинты и финальную модель в Hugging Face Hub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Введение в In-Context Learning для агентных AI
Здесь собрали простой, дружелюбный для новичков разбор In-Context Learning с Colab-примерами. В демках есть оптимизация, регрессия, классификация, RL, перевод и куча других задач.
👉 @DataSciencegx
Здесь собрали простой, дружелюбный для новичков разбор In-Context Learning с Colab-примерами. В демках есть оптимизация, регрессия, классификация, RL, перевод и куча других задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
Сегодня я узнал, как получить forward-traceback, который соответствует ошибке в backward. Полезно, когда пытаешься понять, откуда прилетает OOM в фазе backward — и всё это можно сделать через torch.autograd.detect_anomaly().
Ссылка
👉 @DataSciencegx
Ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Когда ты вызываешь torch.compile, TorchInductor генерирует Python-обёртку, в которой есть удобная функция benchmark_compiled_module. Смотри на простой пример матмул выше.
То есть мы получаем не только промежуточный код, но и встроенный способ прогнать бенчмарк.
Кому интересно, ставим лукас и смотрим😊
👉 @DataSciencegx
То есть мы получаем не только промежуточный код, но и встроенный способ прогнать бенчмарк.
Кому интересно, ставим лукас и смотрим
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Unsloth :
Теперь можно обучать LLM в 3 раза быстрее без потери точности, благодаря новым RoPE и MLP-ядрам.
Это стало возможным благодаря новым RoPE и MLP-ядрам, собранным на Triton и использующим авто-packing.
По цифрам выходит не только трёхкратное ускорение, но и до 30% экономии VRAM по сравнению с оптимизированными FA3-конфигурациями. В демо Qwen3-4B обучают в три раза быстрее всего на 3.9 ГБ видеопамяти.
Блог: https://docs.unsloth.ai/new/3x-faster-training-packing
Если хочешь тонко настроить модель или запустить RL на open-source моделях локально, вроде Llama, OpenAI gpt-oss, TTS — глянь эти 100+ бесплатных ноутбуков на GitHub.
👉 @DataSciencegx
Теперь можно обучать LLM в 3 раза быстрее без потери точности, благодаря новым RoPE и MLP-ядрам.
Это стало возможным благодаря новым RoPE и MLP-ядрам, собранным на Triton и использующим авто-packing.
По цифрам выходит не только трёхкратное ускорение, но и до 30% экономии VRAM по сравнению с оптимизированными FA3-конфигурациями. В демо Qwen3-4B обучают в три раза быстрее всего на 3.9 ГБ видеопамяти.
Блог: https://docs.unsloth.ai/new/3x-faster-training-packing
Если хочешь тонко настроить модель или запустить RL на open-source моделях локально, вроде Llama, OpenAI gpt-oss, TTS — глянь эти 100+ бесплатных ноутбуков на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Диаграмма Вороного (черные точки) вычисляется как вертикальная проекция нижней оболочки n трехмерных графиков функций {(x, yᵢ(x))} с yᵢ(x) = D(xᵢ, x) (розовые). Когда расстояние D(x, x′) = ‖x − x′‖², графики yᵢ представляют собой параболоиды, а границы ячеек Вороного получаются линейными.
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤7🤔5👍1
Бесплатные курсы и проекты по ИИ, Data Science и облакам на Cognitive Class от IBM: больше 100 материалов по современным технологиям.
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Подожди секунду, Mistral 3 Large использует архитектуру DeepSeek V3, включая MLA?
Только что пробежался по конфигам: единственная разница, которую я увидел, это что в Mistral 3 Large экспертов в 2 раза меньше, но каждый эксперт в 2 раза больше.
Возможно, это проще заметить в сравнении архитектур бок о бок
👉 @DataSciencegx
Только что пробежался по конфигам: единственная разница, которую я увидел, это что в Mistral 3 Large экспертов в 2 раза меньше, но каждый эксперт в 2 раза больше.
Возможно, это проще заметить в сравнении архитектур бок о бок
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Media is too big
VIEW IN TELEGRAM
Очень рад рассказать про TeXPen! Он конвертит твой рукописный ввод и скриншоты прямо в LaTeX.
Он сделан так, чтобы целиком работать в браузере на WebGPU/WebAssembly. Прикольно и непросто заставить модели крутиться на клиенте, зато это дает нулевую задержку и полную приватность.
Попробовать можно тут:
https://texpen.github.io
Первоначальная настройка требует только скачать OleehyO/TexTeller: 298M параметров в FP32 (≈1.2GB), после чего оно сохраняется в кэше браузера для будущего использования.
Этот проект вообще стал возможен только потому, что на 100% держится на модели OleehyO/TexTeller, которая очень хороша для распознавания рукописного/печатного LaTeX при всего 298M параметров (≈1.2GB):
https://github.com/OleehyO
Проект с открытым исходным кодом, код тут
👉 @DataSciencegx
Он сделан так, чтобы целиком работать в браузере на WebGPU/WebAssembly. Прикольно и непросто заставить модели крутиться на клиенте, зато это дает нулевую задержку и полную приватность.
Попробовать можно тут:
https://texpen.github.io
Первоначальная настройка требует только скачать OleehyO/TexTeller: 298M параметров в FP32 (≈1.2GB), после чего оно сохраняется в кэше браузера для будущего использования.
Этот проект вообще стал возможен только потому, что на 100% держится на модели OleehyO/TexTeller, которая очень хороша для распознавания рукописного/печатного LaTeX при всего 298M параметров (≈1.2GB):
https://github.com/OleehyO
Проект с открытым исходным кодом, код тут
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
NeuralOperator теперь входит в экосистему PyTorch. Это PyTorch-native библиотека для обучения нейрооператоров и моделирования переходов функция→функция в научно-инженерных задачах на базе ИИ.
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
SQLite-Vec: крошечная и портируемая vectorDB, построенная поверх SQLite.
Очень быстрая и лёгкая, отлично подходит для on-device RAG-решений.
Ключевые фичи:
- matryoshka-слайсинг эмбеддингов
- уменьшение объёма хранения в 32 раза за счёт бинарной квантизации
- поддержка расстояний L2, cosine и Hamming
👉 @DataSciencegx
Очень быстрая и лёгкая, отлично подходит для on-device RAG-решений.
Ключевые фичи:
- matryoshka-слайсинг эмбеддингов
- уменьшение объёма хранения в 32 раза за счёт бинарной квантизации
- поддержка расстояний L2, cosine и Hamming
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3
NVIDIA выложила открытую модель на 30B, которая обходит GPT-OSS и Qwen3-30B -» и работает в 2.2–3.3 раза быстрее.
Nemotron 3 Nano:
- контекст до 1 млн токенов
- MoE: 31.6B параметров всего, 3.6B активных
- лучшая в классе производительность на SWE-Bench
- открытые веса + инструкция по обучению + датасеты с правом перераспространения
Модель можно запускать локально -» достаточно 24 ГБ ОЗУ.
👉 @DataSciencegx
Nemotron 3 Nano:
- контекст до 1 млн токенов
- MoE: 31.6B параметров всего, 3.6B активных
- лучшая в классе производительность на SWE-Bench
- открытые веса + инструкция по обучению + датасеты с правом перераспространения
Модель можно запускать локально -» достаточно 24 ГБ ОЗУ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Новая статья от Apple просто взрывает мозг.
Они показали, что одного слоя attention достаточно, чтобы превратить предобученные vision-фичи в SoTA-генераторы изображений.
Это сильно упрощает диффузионные модели, при этом качество остаётся на топовом уровне.
👉 @DataSciencegx
Они показали, что одного слоя attention достаточно, чтобы превратить предобученные vision-фичи в SoTA-генераторы изображений.
Это сильно упрощает диффузионные модели, при этом качество остаётся на топовом уровне.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3
Способность RoPE кодировать относительные позиции при минимальном числе параметров сделала возможным появление LLM с длинным контекстом.
Нельзя просто так запихнуть вход на 4k токенов в модель с контекстом 2k, но решение стоит недорого.
В итоге расширение контекста превращается в задачу дообучения за $5K, а не полного переобучения за $500K.
👉 @DataSciencegx
Нельзя просто так запихнуть вход на 4k токенов в модель с контекстом 2k, но решение стоит недорого.
В итоге расширение контекста превращается в задачу дообучения за $5K, а не полного переобучения за $500K.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпаты, основатель Eureka Labs и бывший директор по ИИ в Tesla, на простом уровне объясняет, как LLM вроде ChatGPT по сути «скачивают интернет».
Подходит даже для новичков. Полное видео с разбором тут: https://bit.ly/4o13PTx
👉 @DataSciencegx
Подходит даже для новичков. Полное видео с разбором тут: https://bit.ly/4o13PTx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Xiaomi представила MiMo-V2-Flash, новую опенсорс MoE-модель, для агентных сценариев и быстрого инференса.
Архитектура включает 309B параметров, из которых 15B активны на шаг, что позволяет сочетать производительность моделей уровня топовых моделей с заметно меньшей задержкой.
Модель использует гибридное внимание: схема 5:1 с чередованием 128-оконного SWA и Global Attention, поддержка контекста до 256K токенов. По результатам бенчмарков MiMo-V2-Flash сопоставима с DeepSeek-V3.2 на общих задачах, но работает быстрее.
Отдельно отмечены результаты на SWE-Bench:
73.4% на SWE-Bench Verified
71.7% на SWE-Bench Multilingual — новый SOTA среди опенсорс моделей
Скорость генерации достигает 150 токенов/с, при этом модель получила Day-0 поддержку от lmsys.
MiMo-V2-Flash уже доступна:
-» модель на Hugging Face
-» технический отчет с деталями архитектуры
-» блог-пост команды
-» AI Studio для тестирования
Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных)
👉 @DataSciencegx
Архитектура включает 309B параметров, из которых 15B активны на шаг, что позволяет сочетать производительность моделей уровня топовых моделей с заметно меньшей задержкой.
Модель использует гибридное внимание: схема 5:1 с чередованием 128-оконного SWA и Global Attention, поддержка контекста до 256K токенов. По результатам бенчмарков MiMo-V2-Flash сопоставима с DeepSeek-V3.2 на общих задачах, но работает быстрее.
Отдельно отмечены результаты на SWE-Bench:
73.4% на SWE-Bench Verified
71.7% на SWE-Bench Multilingual — новый SOTA среди опенсорс моделей
Скорость генерации достигает 150 токенов/с, при этом модель получила Day-0 поддержку от lmsys.
MiMo-V2-Flash уже доступна:
-» модель на Hugging Face
-» технический отчет с деталями архитектуры
-» блог-пост команды
-» AI Studio для тестирования
Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
На одном таком аэрофото модель делает сотни детекций, каждая локализована и классифицирована в реальном времени. Контейнеры, транспорт, здания, портовая инфраструктура — все распознается за один forward pass модели.
Почему это важно:
- масштабируемый мониторинг для логистики
- ситуационная осведомленность в реальном времени с дронов или спутников
- автоматический подсчет и трекинг активов
- база для digital twins и умной инфраструктуры
Это уже не просто bounding box’ы и раскраска. Это машинное восприятие на уровне города, где пиксели превращаются в структурированные, прикладные данные.
Компьютерное зрение больше не про то, чтобы видеть картинки.
Оно про понимание мира.
👉 @DataSciencegx
Почему это важно:
- масштабируемый мониторинг для логистики
- ситуационная осведомленность в реальном времени с дронов или спутников
- автоматический подсчет и трекинг активов
- база для digital twins и умной инфраструктуры
Это уже не просто bounding box’ы и раскраска. Это машинное восприятие на уровне города, где пиксели превращаются в структурированные, прикладные данные.
Компьютерное зрение больше не про то, чтобы видеть картинки.
Оно про понимание мира.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Почему pre-norm работает лучше, чем post-norm в трансформерах?
Я снова копался в архитектуре трансформеров (в который уже раз) и в этот раз обратил внимание на одну вещь: почти все реализации, которые я видел, используют вариант pre-norm (нормализация перед сабслоем, потом residual), и он стабильно обгоняет оригинальный post-norm дизайн (сначала residual, потом нормализация).
Разница в коде элементарная:
post-norm:
pre-norm:
Но почему это на первый взгляд небольшое изменение позволяет обучать трансформеры гораздо глубже и стабильнее? Я понимаю, что это улучшает протекание градиентов, но хочется более глубокого объяснения. В чем конкретная математика и где именно ключевая причина?
👉 @DataSciencegx
Я снова копался в архитектуре трансформеров (в который уже раз) и в этот раз обратил внимание на одну вещь: почти все реализации, которые я видел, используют вариант pre-norm (нормализация перед сабслоем, потом residual), и он стабильно обгоняет оригинальный post-norm дизайн (сначала residual, потом нормализация).
Разница в коде элементарная:
post-norm:
output = norm(x + sublayer(x))pre-norm:
output = x + sublayer(norm(x))Но почему это на первый взгляд небольшое изменение позволяет обучать трансформеры гораздо глубже и стабильнее? Я понимаю, что это улучшает протекание градиентов, но хочется более глубокого объяснения. В чем конкретная математика и где именно ключевая причина?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3