Data Portal | DS & ML – Telegram
Data Portal | DS & ML
8.84K subscribers
187 photos
74 videos
4 files
248 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
Сегодня я узнал, как получить forward-traceback, который соответствует ошибке в backward. Полезно, когда пытаешься понять, откуда прилетает OOM в фазе backward — и всё это можно сделать через torch.autograd.detect_anomaly().

Ссылка

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Когда ты вызываешь torch.compile, TorchInductor генерирует Python-обёртку, в которой есть удобная функция benchmark_compiled_module. Смотри на простой пример матмул выше.

То есть мы получаем не только промежуточный код, но и встроенный способ прогнать бенчмарк.

Кому интересно, ставим лукас и смотрим 😊

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Unsloth :

Теперь можно обучать LLM в 3 раза быстрее без потери точности, благодаря новым RoPE и MLP-ядрам.

Это стало возможным благодаря новым RoPE и MLP-ядрам, собранным на Triton и использующим авто-packing.

По цифрам выходит не только трёхкратное ускорение, но и до 30% экономии VRAM по сравнению с оптимизированными FA3-конфигурациями. В демо Qwen3-4B обучают в три раза быстрее всего на 3.9 ГБ видеопамяти.

Блог: https://docs.unsloth.ai/new/3x-faster-training-packing

Если хочешь тонко настроить модель или запустить RL на open-source моделях локально, вроде Llama, OpenAI gpt-oss, TTS — глянь эти 100+ бесплатных ноутбуков на GitHub.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Диаграмма Вороного (черные точки) вычисляется как вертикальная проекция нижней оболочки n трехмерных графиков функций {(x, yᵢ(x))} с yᵢ(x) = D(xᵢ, x) (розовые). Когда расстояние D(x, x′) = ‖x − x′‖², графики yᵢ представляют собой параболоиды, а границы ячеек Вороного получаются линейными.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥127🤔5👍1
Бесплатные курсы и проекты по ИИ, Data Science и облакам на Cognitive Class от IBM: больше 100 материалов по современным технологиям.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Подожди секунду, Mistral 3 Large использует архитектуру DeepSeek V3, включая MLA?

Только что пробежался по конфигам: единственная разница, которую я увидел, это что в Mistral 3 Large экспертов в 2 раза меньше, но каждый эксперт в 2 раза больше.

Возможно, это проще заметить в сравнении архитектур бок о бок

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Media is too big
VIEW IN TELEGRAM
Очень рад рассказать про TeXPen! Он конвертит твой рукописный ввод и скриншоты прямо в LaTeX.

Он сделан так, чтобы целиком работать в браузере на WebGPU/WebAssembly. Прикольно и непросто заставить модели крутиться на клиенте, зато это дает нулевую задержку и полную приватность.

Попробовать можно тут:
https://texpen.github.io

Первоначальная настройка требует только скачать OleehyO/TexTeller: 298M параметров в FP32 (≈1.2GB), после чего оно сохраняется в кэше браузера для будущего использования.

Этот проект вообще стал возможен только потому, что на 100% держится на модели OleehyO/TexTeller, которая очень хороша для распознавания рукописного/печатного LaTeX при всего 298M параметров (≈1.2GB):
https://github.com/OleehyO

Проект с открытым исходным кодом, код тут

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9
NeuralOperator теперь входит в экосистему PyTorch. Это PyTorch-native библиотека для обучения нейрооператоров и моделирования переходов функция→функция в научно-инженерных задачах на базе ИИ.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
1
SQLite-Vec: крошечная и портируемая vectorDB, построенная поверх SQLite.

Очень быстрая и лёгкая, отлично подходит для on-device RAG-решений.

Ключевые фичи:

- matryoshka-слайсинг эмбеддингов
- уменьшение объёма хранения в 32 раза за счёт бинарной квантизации
- поддержка расстояний L2, cosine и Hamming

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3
NVIDIA выложила открытую модель на 30B, которая обходит GPT-OSS и Qwen3-30B -» и работает в 2.2–3.3 раза быстрее.

Nemotron 3 Nano:

- контекст до 1 млн токенов
- MoE: 31.6B параметров всего, 3.6B активных
- лучшая в классе производительность на SWE-Bench
- открытые веса + инструкция по обучению + датасеты с правом перераспространения

Модель можно запускать локально -» достаточно 24 ГБ ОЗУ.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Новая статья от Apple просто взрывает мозг.

Они показали, что одного слоя attention достаточно, чтобы превратить предобученные vision-фичи в SoTA-генераторы изображений.

Это сильно упрощает диффузионные модели, при этом качество остаётся на топовом уровне.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63
Способность RoPE кодировать относительные позиции при минимальном числе параметров сделала возможным появление LLM с длинным контекстом.

Нельзя просто так запихнуть вход на 4k токенов в модель с контекстом 2k, но решение стоит недорого.

В итоге расширение контекста превращается в задачу дообучения за $5K, а не полного переобучения за $500K.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпаты, основатель Eureka Labs и бывший директор по ИИ в Tesla, на простом уровне объясняет, как LLM вроде ChatGPT по сути «скачивают интернет».

Подходит даже для новичков. Полное видео с разбором тут: https://bit.ly/4o13PTx

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
Xiaomi представила MiMo-V2-Flash, новую опенсорс MoE-модель, для агентных сценариев и быстрого инференса.

Архитектура включает 309B параметров, из которых 15B активны на шаг, что позволяет сочетать производительность моделей уровня топовых моделей с заметно меньшей задержкой.

Модель использует гибридное внимание: схема 5:1 с чередованием 128-оконного SWA и Global Attention, поддержка контекста до 256K токенов. По результатам бенчмарков MiMo-V2-Flash сопоставима с DeepSeek-V3.2 на общих задачах, но работает быстрее.

Отдельно отмечены результаты на SWE-Bench:

73.4% на SWE-Bench Verified
71.7% на SWE-Bench Multilingual — новый SOTA среди опенсорс моделей

Скорость генерации достигает 150 токенов/с, при этом модель получила Day-0 поддержку от lmsys.

MiMo-V2-Flash уже доступна:

-» модель на Hugging Face
-» технический отчет с деталями архитектуры
блог-пост команды
AI Studio для тестирования

Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
На одном таком аэрофото модель делает сотни детекций, каждая локализована и классифицирована в реальном времени. Контейнеры, транспорт, здания, портовая инфраструктура — все распознается за один forward pass модели.

Почему это важно:

- масштабируемый мониторинг для логистики
- ситуационная осведомленность в реальном времени с дронов или спутников
- автоматический подсчет и трекинг активов
- база для digital twins и умной инфраструктуры

Это уже не просто bounding box’ы и раскраска. Это машинное восприятие на уровне города, где пиксели превращаются в структурированные, прикладные данные.

Компьютерное зрение больше не про то, чтобы видеть картинки.
Оно про понимание мира.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
Почему pre-norm работает лучше, чем post-norm в трансформерах?

Я снова копался в архитектуре трансформеров (в который уже раз) и в этот раз обратил внимание на одну вещь: почти все реализации, которые я видел, используют вариант pre-norm (нормализация перед сабслоем, потом residual), и он стабильно обгоняет оригинальный post-norm дизайн (сначала residual, потом нормализация).

Разница в коде элементарная:

post-norm: output = norm(x + sublayer(x))

pre-norm: output = x + sublayer(norm(x))

Но почему это на первый взгляд небольшое изменение позволяет обучать трансформеры гораздо глубже и стабильнее? Я понимаю, что это улучшает протекание градиентов, но хочется более глубокого объяснения. В чем конкретная математика и где именно ключевая причина?

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
В open source выходит jax-js - библиотека машинного обучения для веба, полностью на чистом JavaScript.

jax-js — первый ML-компилятор, который работает прямо в браузере и генерирует быстрые WebGPU-ядра. Проект написан с нуля за последний год как личный сайд-проект.

Подробности: https://ekzhang.substack.com/p/jax-js-an-ml-library-for-the-web

Python и JavaScript - самые популярные языки в мире.

Python нужен для ML,
JavaScript — нативный язык веба.

Проект пока на ранней стадии, но jax-js задумывается как по-настоящему «реальная ML-библиотека» для веба: с JIT-фьюжном ядер под WebGPU и полноценным API, а не просто рантайм.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3
Представили T5Gemma 2 - новое поколение encoder-decoder моделей

Модель построена поверх Gemma 3. Это позволило собрать компактные варианты в конфигурациях 270M–270M, 1B–1B и 4B–4B.

На фоне того, что сегодня большинство моделей » decoder-only, T5Gemma 2 (насколько мне известно) — первая мультимодальная encoder-decoder модель с длинным контекстом и мощной мультиязычной поддержкой » 140 языков.

Надеемся, что эта модель будет полезна как в ML, так и разработчикам, которым интересно экспериментировать с новыми архитектурами.

Блог: https://blog.google/technology/developers/t5gemma-2
Модели: https://huggingface.co/collections/google/t5gemma-2
Статья: https://arxiv.org/abs/2512.14856

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
NotebookLM & GeminiApp

Теперь можно загружать ноутбуки NotebookLM напрямую в GeminiApp. Это удобно для:

- объединения нескольких ноутбуков в один
- генерации изображений или приложений на основе ваших ноутбуков
- развития существующих ноутбуков с подключением онлайн-исследований
- и других сценариев

Функция уже доступна, можно пробовать. 🤙

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
2