NEW BOT Телеграм, страница - 339457589

Data Portal | DS & ML

8.84K subscribers

187 photos

74 videos

4 files

248 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.84K subscribers

Data Portal | DS & ML

Погоди, Microsoft только что выкатили open-source инструмент для запуска AI-моделей локально?!

Без облака, подписок и авторизации.
Все на 100% приватно.

И при этом он без проблем встраивается в приложения через OpenAI-совместимый API.

Просто вбиваешь в терминале:

→ winget install Microsoft(dot)FoundryLocal (Windows)
→ brew install microsoft/foundrylocal/foundrylocal (macOS)

Вот официальный веб-сайт со всей документацией и доступными моделями: https://foundrylocal.ai

И репозиторий GitHub: https://github.com/microsoft/foundry-local

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1👎1

1.91K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

K-means один из самых широко используемых алгоритмов кластеризации в data science и машинном обучении. Ключевая часть алгоритма - сходимость (процесс, при котором центры кластеров и назначения точек постепенно стабилизируются за счёт повторяющихся обновлений.) Cкажу так, понимание того, как и почему происходит сходимость, помогает получать надёжные и осмысленные результаты кластеризации.

✔️Быстро сходится на большинстве наборов данных, что делает его эффективным для задач большого масштаба
✔️Предлагает простую и интерпретируемую структуру для выявления групп
✔️Хорошо масштабируется на больших дата-сетах за счёт низкой вычислительной сложности

❌ Результаты сильно зависят от начальной инициализации кластеров
❌ Может искажать структуру данных, если признаки неправильно отмасштабированы
❌ Может порождать пустые или нестабильные кластеры при некорректной настройке

Чтобы обеспечить стабильную сходимость:
- Используйте k-means++ для более грамотного выбора начальных центров
- Применяйте масштабирование признаков, чтобы переменные с большим масштабом не доминировали
- Задавайте адекватные значения лимита итераций и порога сходимости

На изображении показан процесс сходимости K-means. Точки данных назначаются ближайшему центру по квадрату расстояния. После этого каждый центр пересчитывается как среднее значение всех закреплённых за ним точек. Эти шаги повторяются до тех пор, пока положения центров не перестают заметно изменяться.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8😁1

1.96K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Визуализация того, что находится внутри моделей ИИ. Это представляет слои взаимосвязанных нейронных сетей. И да, со временем формируются паттерны, и они могут образовывать своего рода сигнатуру того, как модель мыслит.

Этот паттерн можно рассматривать как процесс мышления.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤9

2.05K views06:07

Data Portal | DS & ML

Команда Hugging Face только что научила Claude Code полноценно обучать открытые LLM.

Ты просто говоришь что-то вроде:
«Дообучи Qwen3-0.6B на open-r1/codeforces-cots».

А дальше Claude делает всё сам.

▸ Подбирает оптимальный облачный GPU под размер модели
▸ Загружает датасет (или ищет его, если не указан)
▸ Запускает задачу: тестовый прогон или основной запуск
▸ Отслеживает прогресс через дашборд Trackio
▸ Загружает чекпоинты и финальную модель в Hugging Face Hub

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍4🔥3

2.05K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Введение в In-Context Learning для агентных AI

Здесь собрали простой, дружелюбный для новичков разбор In-Context Learning с Colab-примерами. В демках есть оптимизация, регрессия, классификация, RL, перевод и куча других задач.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

1.96K views06:07

Data Portal | DS & ML

Сегодня я узнал, как получить forward-traceback, который соответствует ошибке в backward. Полезно, когда пытаешься понять, откуда прилетает OOM в фазе backward — и всё это можно сделать через torch.autograd.detect_anomaly().

Ссылка

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.82K views16:07

Data Portal | DS & ML

Когда ты вызываешь torch.compile, TorchInductor генерирует Python-обёртку, в которой есть удобная функция benchmark_compiled_module. Смотри на простой пример матмул выше.

То есть мы получаем не только промежуточный код, но и встроенный способ прогнать бенчмарк.

Кому интересно, ставим лукас и смотрим

😊

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

1.77K views06:07

Data Portal | DS & ML

Unsloth :

Теперь можно обучать LLM в 3 раза быстрее без потери точности, благодаря новым RoPE и MLP-ядрам.

Это стало возможным благодаря новым RoPE и MLP-ядрам, собранным на Triton и использующим авто-packing.

По цифрам выходит не только трёхкратное ускорение, но и до 30% экономии VRAM по сравнению с оптимизированными FA3-конфигурациями. В демо Qwen3-4B обучают в три раза быстрее всего на 3.9 ГБ видеопамяти.

Блог: https://docs.unsloth.ai/new/3x-faster-training-packing

Если хочешь тонко настроить модель или запустить RL на open-source моделях локально, вроде Llama, OpenAI gpt-oss, TTS — глянь эти 100+ бесплатных ноутбуков на GitHub.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥3

1.67K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Диаграмма Вороного (черные точки) вычисляется как вертикальная проекция нижней оболочки n трехмерных графиков функций {(x, yᵢ(x))} с yᵢ(x) = D(xᵢ, x) (розовые). Когда расстояние D(x, x′) = ‖x − x′‖², графики yᵢ представляют собой параболоиды, а границы ячеек Вороного получаются линейными.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤7🤔5👍1

1.76K views06:07

Data Portal | DS & ML

Бесплатные курсы и проекты по ИИ, Data Science и облакам на Cognitive Class от IBM: больше 100 материалов по современным технологиям.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.72K views16:07

Data Portal | DS & ML

Подожди секунду, Mistral 3 Large использует архитектуру DeepSeek V3, включая MLA?

Только что пробежался по конфигам: единственная разница, которую я увидел, это что в Mistral 3 Large экспертов в 2 раза меньше, но каждый эксперт в 2 раза больше.

Возможно, это проще заметить в сравнении архитектур бок о бок

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.63K views06:07

Data Portal | DS & ML

Media is too big

VIEW IN TELEGRAM

Очень рад рассказать про TeXPen! Он конвертит твой рукописный ввод и скриншоты прямо в LaTeX.

Он сделан так, чтобы целиком работать в браузере на WebGPU/WebAssembly. Прикольно и непросто заставить модели крутиться на клиенте, зато это дает нулевую задержку и полную приватность.

Попробовать можно тут:
https://texpen.github.io

Первоначальная настройка требует только скачать OleehyO/TexTeller: 298M параметров в FP32 (≈1.2GB), после чего оно сохраняется в кэше браузера для будущего использования.

Этот проект вообще стал возможен только потому, что на 100% держится на модели OleehyO/TexTeller, которая очень хороша для распознавания рукописного/печатного LaTeX при всего 298M параметров (≈1.2GB):
https://github.com/OleehyO

Проект с открытым исходным кодом, код тут

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

1.7K views16:07

Data Portal | DS & ML

NeuralOperator теперь входит в экосистему PyTorch. Это PyTorch-native библиотека для обучения нейрооператоров и моделирования переходов функция→функция в научно-инженерных задачах на базе ИИ.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.54K views06:07

Data Portal | DS & ML

SQLite-Vec: крошечная и портируемая vectorDB, построенная поверх SQLite.

Очень быстрая и лёгкая, отлично подходит для on-device RAG-решений.

Ключевые фичи:

- matryoshka-слайсинг эмбеддингов
- уменьшение объёма хранения в 32 раза за счёт бинарной квантизации
- поддержка расстояний L2, cosine и Hamming

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥3

1.57K views16:07

Data Portal | DS & ML

NVIDIA выложила открытую модель на 30B, которая обходит GPT-OSS и Qwen3-30B -» и работает в 2.2–3.3 раза быстрее.

Nemotron 3 Nano:

- контекст до 1 млн токенов
- MoE: 31.6B параметров всего, 3.6B активных
- лучшая в классе производительность на SWE-Bench
- открытые веса + инструкция по обучению + датасеты с правом перераспространения

Модель можно запускать локально -» достаточно 24 ГБ ОЗУ.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.45K views06:07

Data Portal | DS & ML

Новая статья от Apple просто взрывает мозг.

Они показали, что одного слоя attention достаточно, чтобы превратить предобученные vision-фичи в SoTA-генераторы изображений.

Это сильно упрощает диффузионные модели, при этом качество остаётся на топовом уровне.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3

1.52K views16:07

Data Portal | DS & ML

Способность RoPE кодировать относительные позиции при минимальном числе параметров сделала возможным появление LLM с длинным контекстом.

Нельзя просто так запихнуть вход на 4k токенов в модель с контекстом 2k, но решение стоит недорого.

В итоге расширение контекста превращается в задачу дообучения за $5K, а не полного переобучения за $500K.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.47K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Андрей Карпаты, основатель Eureka Labs и бывший директор по ИИ в Tesla, на простом уровне объясняет, как LLM вроде ChatGPT по сути «скачивают интернет».

Подходит даже для новичков. Полное видео с разбором тут: https://bit.ly/4o13PTx

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2

1.47K viewsedited 12:10

Data Portal | DS & ML

Xiaomi представила MiMo-V2-Flash, новую опенсорс MoE-модель, для агентных сценариев и быстрого инференса.

Архитектура включает 309B параметров, из которых 15B активны на шаг, что позволяет сочетать производительность моделей уровня топовых моделей с заметно меньшей задержкой.

Модель использует гибридное внимание: схема 5:1 с чередованием 128-оконного SWA и Global Attention, поддержка контекста до 256K токенов. По результатам бенчмарков MiMo-V2-Flash сопоставима с DeepSeek-V3.2 на общих задачах, но работает быстрее.

Отдельно отмечены результаты на SWE-Bench:

73.4% на SWE-Bench Verified
71.7% на SWE-Bench Multilingual — новый SOTA среди опенсорс моделей

Скорость генерации достигает 150 токенов/с, при этом модель получила Day-0 поддержку от lmsys.

MiMo-V2-Flash уже доступна:

-» модель на Hugging Face
-» технический отчет с деталями архитектуры
-» блог-пост команды
-» AI Studio для тестирования

Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных)

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.26K views06:07