NEW BOT Телеграм, страница

EasyData

Привет, друзья!
Сегодня - короткая подборка роадмапов и ресурсов по изучению DS-ML. Всё проверенное и пригодное для подготовки к интервью и планирования обучения.

🐾

Матрицы компетенций от AndersenLab
Показывает, какие навыки ожидаются на разных грейдах и уровнях, удобно для формирования чек-листа роста и оценки прогресса.
✨ ссылка (выбирайте Python в специализации и AI/DS/DE/ML в Skill category)

🐾

Machine Learning Roadmap от MachineLearningMastery
Большая пошаговая инструкция: от математики и базовых алгоритмов до продакшена и MLOps, где расписаны все шаги со ссылками на книги, полезные статьи и курсы.
✨ ссылка

🐾

Deep-ML - практические ML/DL задачки
Онлайн-платформа с наборами реальных задач по ML/DL/NLP/CV. Формат близок к продакшену: нужно думать не только о модели, но и о фичах, пайплайнах, метриках. Есть задания для прокачки инженерных навыков.
✨ ссылка

🐾

NeetCode - roadmap + LeetCode-style подготовка
Сайт, посвященный алгоритмам и структурам данных: задачи собраны в тематические дорожки (arrays, trees, graphs и т.д.), есть разборы и объяснения. По духу похож на LeetCode, но структурированнее и понятнее для быстрой подготовки.
✨ ссылка

😎

Рецепт, как собрать из этого рабочий план:
1. Берём матрицу компетенций, отмечаем свои навыки и пробелы, получаем список приоритетов.
2. По роадмапам строим порядок изучения и выбираем подходящие ресурсы.
3. Подключаем практику: задачи на Deep-ML, вопросы для повторения, тренировка алгоритмов и структур.

А ещё на прошедшей неделе в канале стукнуло 💯 подписчиков!

Спасибо каждому, кто читает, комментирует, задаёт вопросы и просто остаётся здесь.
Этот канал начинался как небольшой личный проект, а превратился в сообщество, где можно вместе учиться и расти в Data Science.
Дальше - больше💜

#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥21❤‍🔥13❤9🥰2⚡1🏆1

1.67K viewsedited 17:40

EasyData

Привет, друзья!
Возвращаюсь из трудовых будней🫡 В октябре свершилось долгожданное событие, про которое нельзя не сказать - официально вышла новая версия Python 3.14!

Главные изменения, которые особенно важны для DS-ML и не только:

🐍 Долой GIL!

Более «официальным» стал вариант сборки Python без глобальной блокировки интерпретатора. Эта фича появилась как чисто экспериментальная в Python 3.13, в новой же версии её доработали. Однако в однопоточном режиме код с отключенным GIL всё ещё работает на 5-10% медленнее - поэтому имеет смысл отключать его только в определённых участках кода или пользоваться старыми добрыми joblib и concurrent.

🐍 Экспериментальный JIT-компилятор.

Появилась опция автоматической JIT (just-in-time) компиляции, которая ускоряет повторяющиеся участки кода - можно активировать режим через переменную окружения PYTHON_JIT=1. Как можно воспользоваться подобной опцией в более ранних версиях - есть в этом

посте.

🐍 Мультиинтерпретаторы и asyncio.

В продолжение темы ускорения кода и параллелизма, появилась возможность запускать несколько интерпретаторов в одном процессе - воспользоваться можно через concurrent.interpreters. Из минусов - опция пока не до конца оптимизирована и может потреблять много памяти. А ещё появились новые улучшения в asyncio и отладке асинхронного кода.

🐍 Template strings (t-strings).

Это новый вид строковых шаблонов, похожий на f-строки, но с расширенными возможностями. Самое главное - можно самим задать, как именно будут подставляются значения. Если f-строки просто вставляют текст, то новые шаблоны позволяют, например, автоматически экранировать данные для SQL или форматировать их по своим правилам.

🐍 Отложенная оценка аннотаций.

Аннотации типов теперь не вычисляются сразу при импорте модуля - это ускоряет их и убирает часть проблем с круговыми зависимостями. Однако стоит иметь в виду, что код, который раньше зависел от немедленной оценки аннотаций, может работать иначе.

🐍 Улучшенные сообщения об ошибках.

Ошибки стали объясняться понятнее, особенно в типовых опечатках и неверных типах. А ещё интерпретатор теперь умеет подсказывать:)

В целом, нововведения довольно крутые, но с некоторыми моментами лучше быть аккуратнее. Ещё важно иметь в виду, что NumPy, Pandas и другие библиотеки могут не сразу выпустить стабильные версии под новый Python.

Продолжаем следить за развитием ~~и ждать стабильности~~!🐍

🔥15❤7🙏4❤‍🔥2👍1

1.25K viewsedited 16:59

EasyData

Привет, друзья!
Говорят, что именно этап ML System Design помогает наиболее точно отличить джуна от сеньора на собеседовании - поэтому многих он до сих пор пугает, а четких рецептов, как к нему готовиться и как проходить, всё ещё не так много...

🤔

Кто такой этот MLSD?
Это не про «какой градиентный бустинг лучше» - это про то, как собрать ML-решение, стабильно работающее в проде: от формулировки задачи и метрик, через сбор и валидацию данных, фичи и обучение, до деплоя, мониторинга, CI/CD и A/B. В интервью смотрят как бы вы решали задачу с нуля, получив её от заказчика (разумеется, обычно сам кейс приближен к работе на этой позиции). А также проверяют, что вы думаете не только как DS-экспериментатор-с-модельками, но и как инженер, и немного как product-менеджер.

🤔

Если очень кратко, то рабочая схема ответа следующая:

1). Постановка задачи.
Начните с уточнения цели и бизнес-метрики: что именно система должна оптимизировать — точность, прибыль, CTR? Какие есть ресурсы на работу системы и ограничения? Какое допустимое время отклика? Какие есть данные?...
Постарайтесь также задать на старте все уточняющие вопросы: на этом этапе важно показать структурное мышление и умение связать продуктовую цель с техническим решением.

2). Сбор данных.
Опишите источники данных и то, как вы проверяете их качество. Отдельно подчеркните борьбу с утечками данных и опишите стратегию разбиения на train/val/test.

3). Feature engineering & EDA.
Покажите, что вы умеете находить и формировать эффективные признаки/сигналы из данных. Отметьте ключевые шаги: исследование распределений, обработка выбросов, кодирование категорий, feature rngineering... Тут уже будет зависеть от специфики направления, по которому собеседуетесь.

4). Моделирование.
Обязательно начинайте с простого baseline, возможно даже без ML (!!!) и постепенно усложняйте, обосновывая выбор модели исходя из ограничений. Укажите, как вы контролируете переобучение и обеспечиваете воспроизводимость экспериментов. Интервьюерам важно видеть не только техническую грамотность, но и способность делать разумные инженерные компромиссы.

5). Оценка.
Подчеркните, что выбор технических метрик зависит от задачи: например, что важнее - precision или recall? Упомяните проверку стабильности на разных сегментах и использование A/B-тестов для финальной онлайн-оценки. Добавьте пару слов про latency и надёжность - это показывает, что вы думаете о продакшене, а не только о цифрах в ноутбуке.

6). Деплой и мониторинг.
Опишите выбранный формат деплоя (batch, online или streaming) и то, как вы отслеживаете стабильность модели после запуска. Если знакомы с архитектурными фреймворками - можете поподробнее порассуждать про конкретные. Важно упомянуть мониторинг дрейфа данных и качества, систему алертов и переобучение по расписанию.

В оригинальном международном формате подобное собеседование длится в районе 40 минут - часа и состоит преимущественно из вашего монолога. Поэтому структуру полностью задаёте вы, полезно при этом использовать онлайн-доску, на которой будете фиксировать основные идеи и план.

🤔

А теперь несколько полезных источников для подготовки:

➡️

Designing Machine Learning Systems - хорошая практическая книжка про весь цикл: от постановки до поддержки.
pdf тут

➡️

Machine Learning Design Patterns - сборник более 30-ти кейсов: anti-patterns, operational patterns, reproducibility. Отлично для инженеров и сеньоров, которые хотят готовые рецепты.
кусочек pdf тут

➡️

Machine Learning Engineering for Production - курс на coursera по деплою/ML-лайф-сайклу, хорош для системного понимания и практики.
ссылка тут

➡️

DataTalks.Club - много практических интервью и подкастов с инженерами по разбору конкретных кейсов.
ссылка тут

➡️

~~А также видео на YouTube по запросу “ML System Design с Валерием Бабушкиным”~~

Успехов и осознанных пайплайнов!💻
#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥20❤‍🔥7🙏5❤3

1.21K viewsedited 17:45

EasyData

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Привет, друзья!🍁
Похоже, ydata-profiling сдаёт позиции - библиотеки для “анализа-данных-в-одну-строчку” становятся всё умнее и красивее.
Недавно наткнулась на ещё одну интересную утилиту - PyGWalker. Помимо наглядного отчёта, у неё есть несколько крутых преимуществ:
➡️ отрабатывает почти мгновенно (особенно на средних по размеру датасетах, точно быстрее ydata);
➡️ в открывающемся интерактивном окне можно буквально перетаскивать колонки для построения графиков, менять их тип, стиль и т.п.;
➡️ ну и самое интересное - это встроенный ИИ-помощник прямо в ноутбуке, который обещают бесплатно для студентов (по вузовской почте).

🍁С чего начать?
➡️ Установите библиотеку:


pip install pygwalker

➡️ Импортируйте и запустите визуализацию на своём датафрейме, в открывшемся окне можно исследовать данные “вживую”:


import pandas as pd
import pygwalker as pyg

df = pd.read_csv("data.csv")
pyg.walk(df)

➡️ Если хотите подключить ИИ-помощника, нужно оформить подписку или подтвердить вузовскую почту по ссылке.

МФТИ пока нет в списке, ждём когда рассмотрят заявку

⏰

🍁Полезные ссылки:
➡️ официальный репозиторий проекта
➡️ официальная документация
➡️ ссылка на туториал на русском

➡️

демо в colab

➡️

веб-интерфейс

Всем красивых графиков!

#python@data_easy
#аналитика@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥16❤9🐳6

999 viewsedited 17:18

EasyData

Привет, друзья!
На горизонте появляется новый тип инструментов - “базы данных для AI-агентов”.
Недавно вышел сервис AgentDB - облачная СУБД, которая создаёт базы буквально “на лету”.

🫤

Что это такое?
Итак, AgentDB - это облачная база-данных-как-сервис, ориентированная на AI-приложения. Главная идея: каждый агент, сессия или запрос может получить собственную базу данных, без поднятия серверов, настройки схем и деплоя инфраструктуры.
Под капотом используются SQLite и DuckDB, но всё управляется через облачный API: за пару команд можно легко и просто создать базу (в официальной документации есть примеры для JavaScript, для питона нужно оформлять через REST/cURL).

🫤

Чем это отличается от обычных баз?
В классическом мире у нас одна PostgreSQL/MySQL база и куча агентов, которые ходят в неё параллельно. Это создаёт узкое место - контексты, временные таблицы, коллизии и синхронизация. А AgentDB решает это радикально:
- каждая сессия получает изолированную, “одноразовую” базу;
- создание базы занимает миллисекунды;
- не нужно администрировать, масштабировать и следить за соединениями;
- есть поддержка векторных операций (для эмбеддингов, RAG-сценариев);
- поддерживает SQL + семантические запросы.

🫤

Когда это реально полезно?
- Мультиагентные системы: когда каждый агент должен иметь свой контекст или память (например, своя история диалога, векторы, параметры).
- RAG-платформы: можно хранить отдельные индексы и эмбеддинги для разных источников данных, пользователей или запросов.
- Временные песочницы для анализа: когда нужно создать временную БД для быстрой агрегации данных или обучения.
- Облачные приложения с пользовательскими базами: можно давать каждому пользователю “его базу” без головной боли по её настройке.

🫤

Как попробовать?
- Зайдите на https://agentdb.dev
- Зарегистрируйтесь, есть бесплатный план (до 1 ГБ)
- Попробуйте создать тестовую базу в пару строк кода или через REST-вызов (документация https://api.agentdb.dev)
- А ещё можно загрузить файлы напрямую, превратив их в БД + в веб-интерфейсе доступен встроенный ИИ-помощник, который может выполнять анализ данных по вашему запросу и покажет SQL-скрипты всех шагов.
Сама документация простая и напоминает Supabase.

Будущее data-архитектуры для AI наступило 🧩

#mlops@data_easy
#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5❤‍🔥2👍2

984 views16:43

EasyData

Привет, друзья!
Вдогонку к подборкам ресурсов для подготовки к собеседованиям (тык и тык) ещё одна полезная коллекция. Здесь только практические упражнения и примеры по Python, SQL, EDA, визуализации и ML. Всё бесплатно и подходит как новичкам, так и тем, кто хочет держать себя в тонусе.

❤️

Kaggle Learn
Это учебный раздел с туториалами в формате jupyter-ноутбуков и заданий к ним. Тут представлены почти все инструменты работы с данными: Python, Pandas, SQL, визуализация, а также геоданные, тайм-серии и немного DL. Материалы короткие и практические: ноутбуки можно использовать как шпаргалки, а упражнения со встроенной системой проверки помогут закрепить все на практике.

➡️

ссылка

❤️

LeetCode SQL
Раздел с задачами по SQL существует уже несколько лет, но часто остается в тени основного контента. А здесь можно найти сотни нескучных задач от базовых SELECT до сложных запросов. Формат также помогает: большие наборы данных, строгие тесты и подсказки, где решение не прошло.

➡️

ссылка

❤️

HackerRank
Один из самых известных тренажёров по самым разным направлениям программирования. И здесь есть задачи по Python, SQL и даже основам “AI”. Уровень выше, чем на других ресурсах: задачи более объёмные и требуют погружения в нюансы условий.

➡️

ссылка

❤️

w3resource
ОГРОМНАЯ подборка упражнений по самым разным разделам Python со встроенным редактором кода. Из особенно интересного: есть множество задач по Pandas и Numpy, в том числе с математическим подтекстом.

➡️

ссылка

Пишите, какие задания покажутся самыми интересными. И удачи в борьбе с автотестами😉

#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥15❤‍🔥7🥰4👍1🙏1🕊1

1.02K viewsedited 18:07

EasyData

Привет, друзья! 👋
ML сейчас переживает насыщенный период: одни технологии становятся must-have, другие уходят на второй план, а бизнес всё чаще ждёт от инженеров не «магии», а обоснованных и прикладных решений. Это меняет и задачи, и требования, и саму роль ML-специалистов - как для тех, кто только входит в профессию, так и для тех, кто уже давно в ней.

В эту среду мы как раз соберёмся обсудить, какие задачи сейчас формируют работу ML-инженеров и что реально ценится на рынке - на открытом вебинаре от Simulative, к которому я присоединюсь в качестве спикера.

Поговорим о самом важном:
➡️ почему ML-инженеры нужны почти в любом бизнесе - от маркетплейсов до логистики;
➡️ какие реальные задачи нам прилетают и что приходится решать на практике;
➡️ какие навыки действительно требуют работодатели;
➡️ и, конечно, будет мини-практика: рассмотрим простой, но показательный кейс сегментации клиентов интернет-магазина.

Словом, разберёмся в тонкостях профессии, посмотрим на актуальные тренды и просто пообщаемся 😉

➡️ Зарегистрироваться можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥8👍6⚡3❤3🔥1

1.11K viewsedited 17:52

EasyData

Привет, друзья!
Хочу поделиться свежим и очень мощным обзором на индустрию ИИ - State of AI Report 2025. Это их восьмой ежегодный отчёт, и, кажется, он важнее, чем когда-либо.

Ключевые инсайты

🤩

Открытые модели из Китая усиливаются. Модели вроде DeepSeek, Qwen и особенно Kimi K2 (1 трлн параметров, MoE-архитектура) становятся серьёзной альтернативой закрытым системам. Однако в ТОПе всё ещё модели от OpenAI/Google.

🤩

Оптимизация Muon. В отчёте отмечен переход на более эффективный класс оптимизаторов - Muon, ~~который ортогонализирует матричные градиенты~~, что экономит ресурсы при тренировке моделей и повышает эффективность по сравнению с Adam.

🤩

ИИ как инфраструктура. Как недавно писала, ИИ уже не просто инструмент - это "платформенный" слой, на котором строятся приложения и системы. В ТОПе инструментов LangChain, LlamaIndex, фреймворки вроде AutoGPT.

🤩

Безопасность - слабое звено. Модели стали настолько умными, что научились "вести себя хорошо" на тестах, но в реальности обходить собственные ограничения. Это делает безопасность одним из самых слабых звеньев индустрии.

🤩

Экономика ИИ растёт. По данным отчёта, крупные ИИ-компании приближаются к $20 млрд доходов; бизнес всё активнее платит за ИИ-инструменты.

🤩

Агенты + tooling = тренд года. Главная технологическая гонка - не просто модели, а агенты, которые могут действовать, а также инструменты для мониторинга, дебага и оценки таких систем.

🤩

Мировоззрение и оптимизм. В ряде стран (Китай, Юго-Восточная Азия) люди более оптимистично оценивают ИИ ("больше пользы, чем вреда"), чем в США и Европе, хотя позитив растёт и там.

Чем это важно для нас?

😨

Тренд на agentic ИИ означает, что скоро модели будут не просто отвечать - они будут действовать, проверять гипотезы и решать задачи автономно. Это открывает новые возможности, но и риски.

😨

Более дешёвая и эффективная тренировка (через Muon и др.) может сделать продвинутые модели доступнее для исследователей и стартапов, а не только для крупных лабораторий.

😨

Рост open-weight моделей == шанс для open-source-сообщества: участвовать, дообучать, интегрировать.

😨

Безопасность ИИ - всё ещё серьезная проблема: нужно думать не только о "что можно сделать", но и о "что может пойти не так".

Полная версия отчёта на 313 слайдов доступна по ссылке.

Хорошей недели!☃️

#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Docs

State of AI Report - 2025 ONLINE

STATE OF AI REPORT. October 9, 2025 Nathan Benaich AIR STREET CAPITAL. airstreet.com stateof.ai

🔥10❤‍🔥5❤4🕊2⚡1🆒1

1.03K views17:26

EasyData

Привет, друзья!
Держите классный ресурс, который может стать одним из лучших учебников для всех, кто строит ML-продукты, занимается MLOps, оптимизацией моделей или просто хочет понимать, как устроены реальные машинно-обучающие-системы под капотом.

Речь про Machine Learning Systems от профессора Гарварда Vijay Janapa Reddi с участием инженеров Google и исследователей из MIT/Harvard. Создатели формулируют идею книги так:

"Сегодня студентов в основном учат тому, как обучать модели машинного обучения — но лишь немногие получают знания о том, как создавать системы, делающие эти модели реально полезными в жизни. По мере того как возможности искусственного интеллекта стремительно растут, дальнейший прогресс будет всё меньше зависеть от появления новых алгоритмов — ведь сам ИИ всё чаще сможет их совершенствовать, — и всё больше от появления инженеров, которые способны разрабатывать масштабируемые, эффективные и ответственные системы, воплощающие эти алгоритмы в реальность."

И это действительно точное попадание в то, что происходит с индустрией сейчас. Книга - полноценный учебник об инженерных аспектах ML-систем: архитектуры моделей, производительность, компиляция, оптимизация, развертывание, edge-вычисления, аппаратные ускорители и всё, что делает ML индустриальным инструментом, а не набором ноутбуков.

Более того, материалы полностью open-source и бесплатны, а также активно поддерживаются и обновляются сообществом. Репозиторий собрал уже более 10k⭐ и более 1k fork-ов!

🔗 ссылка на GitHub-репозиторий: тык
🔗 актуальная онлайн-версия в pdf тут

#mlops@data_easy

2🔥29❤‍🔥9❤2🤩2🙏1

1.15K views17:46

EasyData

Привет, друзья!
Сегодня небольшой обзор на свежую статью азиатских собратьев по кодогенерации и AI-агентам для разработки. Это, пожалуй, самый полный гайд по тому, как ИИ сейчас пишет код, тестирует его и превращается во "второго разработчика".

Работа называется "From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence" и в ней более 70 авторов!

Ключевые мысли:

😵‍💫

LLM превращается из "подсказчиков кода" в полноценных разработчиков.
Современные code-модели уже не просто дописывают строчки - они читают большие проекты, предлагают архитектуру, создают файлы, пишут тесты и выполняют многошаговые задачи... Попробуйте Kiro, если ещё не - она теперь открыта для всех👀

😵‍💫

Но в реальных проектах всё ещё боль.
Бенчмарки показывают почти идеальные результаты - 90–95%, но всё же это искусственные задачи. В настоящих репозиториях всё, как правило, сложнее, и ИИ всё ещё путается, ломает логику и "галлюцинирует" - поэтому детальная валидация человеком необходима.

😵‍💫

Самая большая проблема - проверка качества.
Прохождение тестов != хороший код.
Нужны метрики надёжности, стиля, уязвимостей, совместимости - и индустрия пока не договорилась, как оценивать такие модели.

😵‍💫

Python проигрывает.
Авторы системно изучили, как code-LLM обучаются при разных размерах моделей, объёмах данных и настройках, и показали, что "трудность" обучения зависит от языка.
По их выводам, строгие и структурированные вроде Java, C#, Rust требуют меньше параметров и данных, тогда как Python из-за динамической типизации и большого разнообразия стилей оказывается самым сложным для эффективного обучения 🫢

Так что AI-инструменты быстро эволюционируют, появляется даже новая роль - AI Software Operator: человек, который управляет ИИ-инструментами, задаёт рамки и проверяет результат. Разработчиков не заменяют, просто меняется их набор инструментов.
При этом важно помнить об ограничениях: ИИ отлично закрывает рутину, но ошибается там, где нужна архитектура, понимание продукта и глубокий контекст. БОльшая часть работы всё ещё должна проходить через человека, хоть процессы и существенно ускоряются.

Помимо Kiro держите ещё одного полезного агента, который подключается к GitHub-репозиторию и автоматически генерирует, визуализирует и поддерживает в актуальном состоянии документацию, позволяя общаться с кодовой базой как с чат-ассистентом.

➡️

Ссылка на оригинал статьи

На ИИ (не)надейся, и сам не плошай😎

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥11❤7👍6⚡1😐1

981 viewsedited 17:43

EasyData

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

💃с пятницей и хороших выходных!
#мем@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12🤣9😁4👍2🙏1

967 views15:25

EasyData

Привет, друзья!
В небольшом интервью поделилась, каково быть ML-инженером в WB✌️
А физтехов приглашаем сегодня на лекцию по приёмам-ускорения-обработки-больших-данных 💜

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤‍🔥4❤3

859 views09:17

About

Blog

Apps

Platform