Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.45K photos
124 videos
66 files
4.91K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😸 Мы тоже не верили, что Haskell подходит для data science

Мы тут наткнулись на текст с громким названием «Haskell IS a Great Language for Data Science» — и, честно говоря, сначала отнеслись скептически. Haskell? Для data science? Серьёзно?

А потом начали читать. И поняли, что автор не просто хайпит, а довольно внятно показывает, зачем строгая типизация, иммутабельность и умный компилятор могут быть не академической экзотикой, а реальным плюсом для работы с данными.

😏 Особенно если вы устали от сюрпризов в рантайме и бесконечных NA / None / NaN.

Это не «срочно переписываем всё с Python и R», но как минимум — хороший повод расширить кругозор и посмотреть, как вообще может выглядеть data science в мире строгих типов.

Делимся оригинальной статьёй тут 👉 https://clc.to/kXZhwA
А вы бы попробовали Haskell для аналитики или это уже too much?

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🥰1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Claude стал новым тренером для LLM

Если вы думали, что настройка языковых моделей — это сложная и скучная рутина, встречайте Claude.

С помощью Hugging Face Skills Claude теперь умеет:
〰️ запускать задачи на облачных GPU;
〰️ следить за прогрессом;
〰️ загружать готовые модели на Hugging Face Hub;
〰️ работать с моделями от 0.5B до 70B параметров;
〰️ конвертировать модели в GGUF для локального использования;
〰️ собирать многоступенчатые пайплайны.

😎 То есть вместо долгих часов настройки можно спокойно наблюдать, как модель учится и совершенствуется.

Полный гайд здесь: https://clc.to/j-81ZA

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1🙏1
👀 Инструмент, без которого в 2025 LLM-продукты выпускать уже немного страшно

Opik от Comet — open source инструмент для оценки LLM-приложений.

Если вы собираете:
✔️ RAG-чаты,
✔️ многоагентные пайплайны,
✔️ корпоративных copilot’ов,

то Opik закрывает боль отладки, тестирования и мониторинга сразу на всех уровнях LLM-стека.

Что внутри:
✔️ End-to-end трассировка — логирование и визуализация каждого LLM-вызова в dev и prod
✔️ Evaluation suite — эксперименты с промптами, бенчмарки и LLM-as-a-judge метрики (галлюцинации, фактуальность, RAG-релевантность, модерация и не только)
✔️ Встроенные guardrails — PII, небезопасный контент, упоминание конкурентов, офф-топ
✔️ CI/CD-ready — интеграция с pytest, unit-тесты для моделей буквально в одну строку
✔️ Дашборды — фидбэк, количество трэйсов, токены, всё на масштабе
✔️ Работает с любыми LLM: OpenAI, open source или кастомные агенты

Плюс — можно использовать свои метрики, датасеты и прямо в интерфейсе аннотировать ответы моделей.

Короче, если у вас LLM-продукт перестал быть игрушкой и стал системой — посмотреть точно стоит.

📱 Репозиторий: https://clc.to/9Mb0zQ

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1🎉1
Хватит использовать `fit()` иватит использвслепую

Можно долго делать вид, что математика в Data Science не нужна, и полагаться на готовые реализации в sklearn. Но на первом же серьезном собеседовании или при попытке оптимизировать кастомную лосс-функцию этот миф рушится.

Мы обновили курс «Математика для разработки AI-моделей». Теперь это не просто лекции, а полноценный интерактив.

Что изменилось:

— мы добавили живые вебинары;

— первый уже прошел, но второй стартует сегодня (9 декабря);

— вы ещё успеваете влиться в поток и закрыть пробелы в фундаменте.

В программе:

— линейная алгебра и матанализ в контексте ML;

— теория вероятностей и статистика без воды;

— практика на реальных кейсах.

Перестаньте бояться формул и начните их применять.

Ссылка на регистрацию
🥱2👍1
🆕 CUDA 13.1 переворачивает GPU-программирование

Наконец-то NVIDIA выпустила CUDA 13.1, и это не просто очередное обновление — это настоящий сдвиг парадигмы. Если вы когда-то пытались объяснить GPU, что делать с тысячами маленьких потоков (да-да, тот самый SIMT-модель), то знаете, что это сродни попытке управлять тысячью муравьёв одновременно.

💡 Что нового

CUDA 13.1 вводит tile-based programming. Вместо того чтобы двигать песчинку за песчинкой, теперь можно управлять целыми плитками данных. Представьте: вместо того чтобы таскать каждую песчинку в отдельности, вы берёте целый холм и переносите его за один раз. Магия, правда?

Что это значит для нас, Python-разработчиков и исследователей AI:
✔️ Прощай, C++ барьер: с CuTile можно писать высокопроизводительные ядра на чистом Python. Не нужен диплом магистра по C++.
✔️ Синхронизация с железом: современные тензорные ядра уже «думают» блоками данных, а софт теперь догнал железо.
✔️ Будущее уже здесь: поддержка Blackwell архитектуры и новых FP4/FP6 форматов ускоряет и делает эффективнее LLM.

Иными словами, программировать ускорители стало логичнее, чище и мощнее.

🔗 Ссылка на новость

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👍2
📌 Что после трансформеров? Похоже, у моделей появилась память — и не кратковременная

На NeurIPS Google Research показали пару очень любопытных работ. Коротко: LLM больше не хотят жить с принципом «прочитал — забыл». Появляются архитектуры, которые учатся прямо во время инференса и обновляют свои параметры на лету.

👇 О чём речь

⭕️ Titans
Вместо фиксированной памяти (как у обычных RNN) — глубокий MLP-блок памяти.
Модель сама решает, что стоит запомнить, используя метрику «сюрприза»: если градиент большой — значит, информация неожиданная и ценная.

⭕️ MIRAS
Идёт дальше и рассматривает память как задачу оптимизации: можно менять функции потерь, регуляризацию и стратегию забывания под конкретную задачу.

⭕️ Как это обучается
Последовательности режутся на чанки:
— внутри чанка всё считается линейно и быстро
— между чанками — нелинейные обновления памяти

⭕️ Два вида памяти
— Persistent memory — стабильные знания
— Contextual memory — то, что модель набирает по ходу задачи

В итоге:
Attention отлично справляется с «рабочей памятью», но хранить миллионы токенов — дорого и больно (привет, O(n²)).
Глубокая нейропамять (MLP) заметно обгоняет сжатие в духе Mamba и линейных RNN.
Забывание оказалось математически близко к обычному weight decay — модели, как и мы, забывают не просто так.

И главный факт: Titans обошёл GPT-4 в задачах “Needle in a Haystack” на контекстах 2M+ токенов, имея при этом меньше параметров.

Наш вывод: похоже, будущее — это гибриды, attention для «здесь и сейчас» плюс нейронная память для долгой истории.
Не убийство трансформеров, но явный намёк: эпоха «всё через контекстное окно» может закончиться.

📱 Статья: https://clc.to/qIwo-Q

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍32🥰1
🪄 Nano PDF Editor — правим слайды обычными словами

Инструмент, который выглядит как мечта всех, кто хоть раз правил презентации в ночь перед дедлайном.

Nano PDF Editor — это CLI-утилита, которая позволяет редактировать PDF-слайды… словами.
Буквально: «Поменяй график на столбчатый» — и готово.

Немного магии под капотом — модель Gemini 3 Pro Image («Nano Banana») и аккуратно подшитый OCR, так что текст остаётся выделяемым, а не превращается в картинку из 2007-го.

Что умеет:
✔️ Редактировать содержимое: «Обнови данные до 2025», «Замени подпись в логотипе».
✔️ Добавлять новые слайды, которые повторяют стиль всей презентации.
✔️ Не ломает текстовый слой (очень приятно, очень нежно).
✔️ Параллельная обработка — можно править сразу много страниц.
✔️ Работает через CLI, но ощущается как «попросил друга помочь».

Примеры команд:
nano-pdf edit linkedin-deck.pdf 1 \
"Поменяй слоган на 'Cringe-посты от коллег' и обнови дату"


Или добавить новый титульник:
nano-pdf add my_deck.pdf 0 \
"Титульный слайд 'Q3 2025 Review'"


Требуется только платный ключ Gemini (бесплатные — увы — не умеют в генерацию картинок).

🔗 GitHub: https://clc.to/ucBwwQ

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🔥1
RAG_шпаргалка.jpeg
577.4 KB
😅 Большинство RAG-систем, честно говоря, падают уже на этапе retrieval

Но хорошая новость: у этого хаоса есть структура. И путь, как прокачать все четыре стадии — тоже есть.

Мы упаковали всё в компактную, но мощную шпаргалку по Advanced RAG Techniques, где по шагам разбираем, как перестать искать вслепую и наконец сделать retrieval умным.

Что внутри:
➡️Indexing optimization — как правильно готовить данные, чтобы модель вообще имела шанс что-то найти
➡️Pre-retrieval optimization — фильтры, маршрутизация и хитрости, которые экономят токены и повышают точность
➡️Retrieval optimization — выбор векторок, negative sampling, rerankers и вся магия под капотом
➡️Post-retrieval optimization — как добиться того, чтобы модель не галлюцинировала и держалась фактов

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥1🥰1
📱 OpenAI представила GPT-5.2

OpenAI анонсировала свою новую и самую продвинутую модель — GPT-5.2. По словам компании, это лучший вариант для повседневной профессиональной работы.

Что улучшили:
✔️ Кодинг: новый SOTA на SWE-Bench Pro (55.6%), лучше отладка, рефакторинг и работа с большими репо.
✔️ Длинный контекст: почти 100% точность на MRCR v2 при 256k токенах.
✔️ Многошаговая работа и инструменты: 98.7% на Tau2-bench Telecom — лучшее качество agent workflows.
✔️ Фактуальность: ошибок меньше примерно на 30% относительно GPT-5.1.
✔️ Vision: сильно выросла точность понимания интерфейсов, схем и графиков.
✔️ Математика и наука: 92.4% на GPQA Diamond, 100% на AIME-2025 — твёрдый уровень «математического ассистента».

GPT-5.2 поставляется в трёх версиях:
• Instant — быстрый рабочий конь.
• Thinking — глубокие задачи, длинные документы, пайплайны.
• Pro — максимальное качество, xhigh-reasoning.

Модель уже доступна в ChatGPT и через API.

🔗 Cсылка на анонс

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2
📕 Учебник по ИИ, который объясняет не магию, а механику

Machine Learning Systems — открытый учебник и мини-фреймворк TinyTorch, который помогает понять, как ИИ работает под капотом.

Внутри три части:
➡️ Учебник — понятные объяснения про дизайн, оптимизацию, деплой и ответственность в AI.
➡️ TinyTorch — фреймворк «собери свой PyTorch дома», чтобы увидеть, что там происходит на самом деле.
➡️ Colab-симуляции — подъедут летом 2026.

Ресурс наглядно объясняет вещи, которые обычно понимают только после пары багов в проде:
➡️ почему модель ест память;
➡️ зачем вообще нужен mixed-precision;
➡️ почему GPU загружается не тогда, когда вы этого ожидаете;
➡️ как уживаются MLOps, приватность и реальный продакшен.

🔗 Ссылка на ресурс

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍3🎉3😢1🙏1
🆕 Свежие новости для дата‑сайентистов

✔️ Google добавил поддержку Model Context Protocol
Google теперь официально поддерживает MCP для своих сервисов и Google Cloud — единая точка входа для агентов, Gemini CLI и AI Studio. Если коротко: еще один шаг к миру, где агентам не нужно знать, куда именно они ходят — лишь бы работало.

✔️ Mistral выпускает Devstral 2 и Vibe CLI
Открытые модели для реальной работы с кодом: большие репозитории, баги и зависимости, а не «Hello World». Devstral 2 берет 72.2% на SWE-bench, а Small-версия запускается локально. Приятно видеть, что «меньше параметров» перестает звучать как оправдание.

✔️ Первую LLM обучили прямо в космосе
Стартап Starcloud обучил модель на спутнике с NVIDIA H100, запустив Gemma прямо на орбите. Когда говорят «облако», теперь стоит уточнять — земное или орбитальное.

✔️ Google запускает Deep Research агент в Gemini API
Теперь автономные ресерч-агенты Google можно встраивать в свои приложения. Плюс — открытый бенчмарк DeepSearchQA. Исследователи счастливы, студенты — немного напуганы.

✔️ OpenAI представила GPT-5.2
Модель позиционируют как «лучшую для повседневной профессиональной работы». Звучит так, будто GPT теперь тоже ходит на созвоны и пишет отчеты.

✔️ Арифметика сверточных слоев
Как считать размерность изображений с учетом stride, padding и dilation. Та самая статья, к которой возвращаешься каждый раз с мыслью «ну сейчас-то точно запомню».

✔️ Обзор GPT-5.2: пора ли теснить Google и Anthropic
Разбор возможностей новой модели и расстановки сил на рынке.

✔️ ML-проект моей мечты
Честный рассказ о том, как должен выглядеть ML-проект без боли и хаоса. Редкий жанр — статья, где хочется кивнуть, а не спорить.

✔️ PyTorch для новичков: множественная регрессия с нуля
Пошаговый гайд без магии. Хорошо подходит, чтобы наконец объяснить себе, что же ты делаешь на работе.

✔️ Мониторинг ML-моделей: что и зачем контролировать
Про метрики, деградацию и реальную эксплуатацию. Напоминание, что модель не заканчивается на model.fit().

✔️ Прогнозы по ИИ на 2026: меньше хайпа, больше эффективности
Ожидания рынка и технологий на ближайшие годы.

✔️ Компьютерное зрение на практике
Разбор CV-подходов с примерами.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2😢1🙏1
🤖 Reinforcement Learning в 2025: мощно, модно… и всё ещё больно

После релиза reasoning-моделей вроде DeepSeek-R1 стало ясно: без RL современный AI дальше не едет. Но при этом всё не так радужно, как может показаться из твиттер-тредов.

👇 Разбираемся, что RL реально дал в 2025 — и что он утащит с собой в 2026.

В отличие от supervised learning («вот правильный ответ, учись») и unsupervised learning («сам разберись, что тут происходит»), reinforcement learning учится через взаимодействие:
➡️ модель что-то делает
➡️ мир (или проверяющий) отвечает
➡️ модель получает награду или штраф
➡️ и пытается в следующий раз облажаться чуть меньше

В случае LLM:
➡️ состояние — это весь диалог или промпт
➡️ действие — выбор следующего токена
➡️ награда — оценка качества ответа

Reinforcement Learning from Human Feedback окончательно стал стандартом выравнивания моделей.

Классическая схема:
1. SFT — обучаем модель на хороших человеческих ответах
2. Reward model — люди выбирают, какой ответ лучше
3. RL (обычно PPO) — модель учится радовать reward-модель, а не людей напрямую

Проблема очевидна:
люди — медленные
люди — дорогие
люди — устают и противоречат друг другу

Поэтому индустрия закономерно пошла дальше. Так, в 2025 активно взлетел Reinforcement Learning from AI Feedback.

Теперь вместо человека:
✔️ модель оценивает модель
✔️ классификатор проверяет токсичность
✔️ ансамбль моделей выносит «вердикт»

Плюсы:
➡️ масштабируется
➡️ дешевле
➡️ стабильнее, чем люди после дедлайна

Минусы:
➡️ AI начинает учиться у самого себя
➡️ ошибки и перекосы могут усиливаться
➡️ ценности ≠ человеческие (иногда очень ≠)

Настоящий поворотный момент — Reinforcement Learning with Verifiable Rewards (RLVR).

Идея простая и красивая: если ответ можно проверить автоматически — не нужен человек

Как это работает:
➡️ модель генерирует решение (код, математику, план)
➡️ верификатор запускает тесты / решает задачу / проверяет логику
➡️ выдаёт reward
➡️ модель оптимизируется

Именно так появились reasoning-модели с длинными цепочками рассуждений. Да, те самые, которые думают вслух и пугают своей логикой.

Но почему Карпати говорит, что RL — «ужасен»?

Потому что:
➡️ он нестабилен
➡️ чувствителен к наградам
➡️ легко «читерится»
➡️ требует тонкой настройки
➡️ и часто ломает то, что уже работало

Просто альтернативы ещё хуже. RL — это не магия. Это рабочий костыль, который пока лучше всего справляется с реальностью.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54😁2
Оптимизируй функцию потерь своего кошелька

Data Science требует постоянного дообучения. Чтобы модель твоей карьеры не оверфитнулась на старых задачах, нужно добавлять новые веса.

Масштабируем знания: 3 курса по цене 1.

Оплачиваешь только трек с максимальной стоимостью, остальные два получаешь в подарок.

Твой стек на 2026:

— математика для Data Science (база);
— ML для старта в Data Science;
— AI-агенты для DS-специалистов (тренд года).

Сделать fit

Эпоха заканчивается 31 декабря.

Нужен тюнинг параметров выбора? Пиши: @manager_proglib
matplotlib-cheat-sheet.pdf
2.4 MB
📊 Matplotlib под рукой: всё главное для графиков и анализа

Сохраняйте, пригодится не раз.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54