NEW BOT Телеграм, страница - 65240994

Data Portal | DS & ML

8.84K subscribers

187 photos

74 videos

4 files

248 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.84K subscribers

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Визуализация того, что находится внутри моделей ИИ. Это представляет слои взаимосвязанных нейронных сетей. И да, со временем формируются паттерны, и они могут образовывать своего рода сигнатуру того, как модель мыслит.

Этот паттерн можно рассматривать как процесс мышления.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤9

2.05K views06:07

Data Portal | DS & ML

Команда Hugging Face только что научила Claude Code полноценно обучать открытые LLM.

Ты просто говоришь что-то вроде:
«Дообучи Qwen3-0.6B на open-r1/codeforces-cots».

А дальше Claude делает всё сам.

▸ Подбирает оптимальный облачный GPU под размер модели
▸ Загружает датасет (или ищет его, если не указан)
▸ Запускает задачу: тестовый прогон или основной запуск
▸ Отслеживает прогресс через дашборд Trackio
▸ Загружает чекпоинты и финальную модель в Hugging Face Hub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🔥3

2.05K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Введение в In-Context Learning для агентных AI

Здесь собрали простой, дружелюбный для новичков разбор In-Context Learning с Colab-примерами. В демках есть оптимизация, регрессия, классификация, RL, перевод и куча других задач.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

1.96K views06:07

Data Portal | DS & ML

Сегодня я узнал, как получить forward-traceback, который соответствует ошибке в backward. Полезно, когда пытаешься понять, откуда прилетает OOM в фазе backward — и всё это можно сделать через torch.autograd.detect_anomaly().

Ссылка

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.82K views16:07

Data Portal | DS & ML

Когда ты вызываешь torch.compile, TorchInductor генерирует Python-обёртку, в которой есть удобная функция benchmark_compiled_module. Смотри на простой пример матмул выше.

То есть мы получаем не только промежуточный код, но и встроенный способ прогнать бенчмарк.

Кому интересно, ставим лукас и смотрим

😊

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

1.77K views06:07

Data Portal | DS & ML

Unsloth :

Теперь можно обучать LLM в 3 раза быстрее без потери точности, благодаря новым RoPE и MLP-ядрам.

Это стало возможным благодаря новым RoPE и MLP-ядрам, собранным на Triton и использующим авто-packing.

По цифрам выходит не только трёхкратное ускорение, но и до 30% экономии VRAM по сравнению с оптимизированными FA3-конфигурациями. В демо Qwen3-4B обучают в три раза быстрее всего на 3.9 ГБ видеопамяти.

Блог: https://docs.unsloth.ai/new/3x-faster-training-packing

Если хочешь тонко настроить модель или запустить RL на open-source моделях локально, вроде Llama, OpenAI gpt-oss, TTS — глянь эти 100+ бесплатных ноутбуков на GitHub.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥3

1.67K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Диаграмма Вороного (черные точки) вычисляется как вертикальная проекция нижней оболочки n трехмерных графиков функций {(x, yᵢ(x))} с yᵢ(x) = D(xᵢ, x) (розовые). Когда расстояние D(x, x′) = ‖x − x′‖², графики yᵢ представляют собой параболоиды, а границы ячеек Вороного получаются линейными.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤7🤔5👍1

1.75K views06:07

Data Portal | DS & ML

Бесплатные курсы и проекты по ИИ, Data Science и облакам на Cognitive Class от IBM: больше 100 материалов по современным технологиям.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.72K views16:07

Data Portal | DS & ML

Подожди секунду, Mistral 3 Large использует архитектуру DeepSeek V3, включая MLA?

Только что пробежался по конфигам: единственная разница, которую я увидел, это что в Mistral 3 Large экспертов в 2 раза меньше, но каждый эксперт в 2 раза больше.

Возможно, это проще заметить в сравнении архитектур бок о бок

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.62K views06:07

Data Portal | DS & ML

Media is too big

VIEW IN TELEGRAM

Очень рад рассказать про TeXPen! Он конвертит твой рукописный ввод и скриншоты прямо в LaTeX.

Он сделан так, чтобы целиком работать в браузере на WebGPU/WebAssembly. Прикольно и непросто заставить модели крутиться на клиенте, зато это дает нулевую задержку и полную приватность.

Попробовать можно тут:
https://texpen.github.io

Первоначальная настройка требует только скачать OleehyO/TexTeller: 298M параметров в FP32 (≈1.2GB), после чего оно сохраняется в кэше браузера для будущего использования.

Этот проект вообще стал возможен только потому, что на 100% держится на модели OleehyO/TexTeller, которая очень хороша для распознавания рукописного/печатного LaTeX при всего 298M параметров (≈1.2GB):
https://github.com/OleehyO

Проект с открытым исходным кодом, код тут

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

1.7K views16:07

Data Portal | DS & ML

NeuralOperator теперь входит в экосистему PyTorch. Это PyTorch-native библиотека для обучения нейрооператоров и моделирования переходов функция→функция в научно-инженерных задачах на базе ИИ.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.54K views06:07

Data Portal | DS & ML

SQLite-Vec: крошечная и портируемая vectorDB, построенная поверх SQLite.

Очень быстрая и лёгкая, отлично подходит для on-device RAG-решений.

Ключевые фичи:

- matryoshka-слайсинг эмбеддингов
- уменьшение объёма хранения в 32 раза за счёт бинарной квантизации
- поддержка расстояний L2, cosine и Hamming

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥3

1.56K views16:07

Data Portal | DS & ML

NVIDIA выложила открытую модель на 30B, которая обходит GPT-OSS и Qwen3-30B -» и работает в 2.2–3.3 раза быстрее.

Nemotron 3 Nano:

- контекст до 1 млн токенов
- MoE: 31.6B параметров всего, 3.6B активных
- лучшая в классе производительность на SWE-Bench
- открытые веса + инструкция по обучению + датасеты с правом перераспространения

Модель можно запускать локально -» достаточно 24 ГБ ОЗУ.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.45K views06:07

Data Portal | DS & ML

Новая статья от Apple просто взрывает мозг.

Они показали, что одного слоя attention достаточно, чтобы превратить предобученные vision-фичи в SoTA-генераторы изображений.

Это сильно упрощает диффузионные модели, при этом качество остаётся на топовом уровне.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3

1.51K views16:07

Data Portal | DS & ML

Способность RoPE кодировать относительные позиции при минимальном числе параметров сделала возможным появление LLM с длинным контекстом.

Нельзя просто так запихнуть вход на 4k токенов в модель с контекстом 2k, но решение стоит недорого.

В итоге расширение контекста превращается в задачу дообучения за $5K, а не полного переобучения за $500K.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.46K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Андрей Карпаты, основатель Eureka Labs и бывший директор по ИИ в Tesla, на простом уровне объясняет, как LLM вроде ChatGPT по сути «скачивают интернет».

Подходит даже для новичков. Полное видео с разбором тут: https://bit.ly/4o13PTx

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2

1.44K viewsedited 12:10

Data Portal | DS & ML

Xiaomi представила MiMo-V2-Flash, новую опенсорс MoE-модель, для агентных сценариев и быстрого инференса.

Архитектура включает 309B параметров, из которых 15B активны на шаг, что позволяет сочетать производительность моделей уровня топовых моделей с заметно меньшей задержкой.

Модель использует гибридное внимание: схема 5:1 с чередованием 128-оконного SWA и Global Attention, поддержка контекста до 256K токенов. По результатам бенчмарков MiMo-V2-Flash сопоставима с DeepSeek-V3.2 на общих задачах, но работает быстрее.

Отдельно отмечены результаты на SWE-Bench:

73.4% на SWE-Bench Verified
71.7% на SWE-Bench Multilingual — новый SOTA среди опенсорс моделей

Скорость генерации достигает 150 токенов/с, при этом модель получила Day-0 поддержку от lmsys.

MiMo-V2-Flash уже доступна:

-» модель на Hugging Face
-» технический отчет с деталями архитектуры
-» блог-пост команды
-» AI Studio для тестирования

Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.26K views06:07

Data Portal | DS & ML

На одном таком аэрофото модель делает сотни детекций, каждая локализована и классифицирована в реальном времени. Контейнеры, транспорт, здания, портовая инфраструктура — все распознается за один forward pass модели.

Почему это важно:

- масштабируемый мониторинг для логистики
- ситуационная осведомленность в реальном времени с дронов или спутников
- автоматический подсчет и трекинг активов
- база для digital twins и умной инфраструктуры

Это уже не просто bounding box’ы и раскраска. Это машинное восприятие на уровне города, где пиксели превращаются в структурированные, прикладные данные.

Компьютерное зрение больше не про то, чтобы видеть картинки.
Оно про понимание мира.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

1.11K views16:07

Data Portal | DS & ML

Почему pre-norm работает лучше, чем post-norm в трансформерах?

Я снова копался в архитектуре трансформеров (в который уже раз) и в этот раз обратил внимание на одну вещь: почти все реализации, которые я видел, используют вариант pre-norm (нормализация перед сабслоем, потом residual), и он стабильно обгоняет оригинальный post-norm дизайн (сначала residual, потом нормализация).

Разница в коде элементарная:

post-norm: output = norm(x + sublayer(x))

pre-norm: output = x + sublayer(norm(x))

Но почему это на первый взгляд небольшое изменение позволяет обучать трансформеры гораздо глубже и стабильнее? Я понимаю, что это улучшает протекание градиентов, но хочется более глубокого объяснения. В чем конкретная математика и где именно ключевая причина?

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍3

1.12K views06:07