Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Почему даже rolling-window CV может давать leakage?
Anonymous Quiz
2%
Это невозможно
17%
Rolling-window использует слишком маленькие тестовые окна
13%
CV всегда даёт leakage
68%
Если target leakage скрыт в engineered features (например, future-based statistics)
❤4🔥1
📘 4 декабря стартует набор на курс «Математика для разработки AI-моделей»
Если вы работаете с моделями или хотите перейти в DS/ML, декабрь — идеальный момент закрыть фундаментальные пробелы.
На курсе вы разберёте ключевые разделы, которые лежат в основе современных AI-моделей: линейная алгебра, анализ, оптимизация, математический анализ, вероятности, статистика. Всё через практику в Python.
В программе живые занятия с экспертами AI-индустрии (SberAI, ВШЭ, WB&Russ), разбор реальных задач, квизы и финальный проект.
🌐 Формат: онлайн + доступ к записям
🎁 Бонусы: курс «Школьная математика» в подарок, бесплатный тест по математике
После лекций будет разбор ваших решений и возможность задать вопросы преподавателям.
👉 Записаться на курс
Если вы работаете с моделями или хотите перейти в DS/ML, декабрь — идеальный момент закрыть фундаментальные пробелы.
На курсе вы разберёте ключевые разделы, которые лежат в основе современных AI-моделей: линейная алгебра, анализ, оптимизация, математический анализ, вероятности, статистика. Всё через практику в Python.
В программе живые занятия с экспертами AI-индустрии (SberAI, ВШЭ, WB&Russ), разбор реальных задач, квизы и финальный проект.
🌐 Формат: онлайн + доступ к записям
🎁 Бонусы: курс «Школьная математика» в подарок, бесплатный тест по математике
После лекций будет разбор ваших решений и возможность задать вопросы преподавателям.
👉 Записаться на курс
❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12🙏1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда мы говорим об индуктивном смещении в сверточных нейросетях, речь идёт об архитектурных предположениях, которые модель делает заранее — ещё до обучения.
Эти встроенные «убеждения» определяют, как именно сеть ищет закономерности в изображении, и от этого сильно зависит её эффективность.
CNN предполагает, что:
1. Близкие пиксели связаны друг с другом.
2. Полезные признаки (края, текстуры) локальны и появляются в небольших областях.
3. Один и тот же паттерн может возникать в любой части изображения.
Отсюда появляются:
То есть CNN как бы заранее знает: «картинки имеют структуру, и одинаковые признаки встречаются в разных местах». Модели не нужно заново «открывать» эту закономерность — она встроена в архитектуру.
👍 Когда это хорошо
Когда данные действительно подчиняются этим свойствам — а в естественных изображениях это именно так.
Плюсы:
Поэтому CNN почти 10 лет были королями компьютерного зрения: ImageNet, медицинские снимки, промышленные задачи — везде, где важны локальные визуальные паттерны.
👎 Когда это плохо
Когда структура данных не соответствует этим предположениям.
CNN плохо справляется, если:
Именно поэтому на больших и сложных задачах (Vision Transformers, SAM, CLIP и др.) CNN стали уступать трансформерам — внимание (attention) не ограничено локальными окнами и может связывать любые области изображения.
🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2😢1🎉1🙏1
В пятницу всё работает идеально. В понедельник: “Pipeline failed”.
Часто виновато Schema Drift:
— колонку
user_id сделали строкой вместо int,—
price стал отрицательным,—
created_at внезапно превратился в createdAt.Чтобы не гадать в логах, нужны data contracts — формальные правила, каким должен быть набор данных.
И самое приятное: не нужен SaaS за $$$.
Достаточно Pandera — лёгкой open-source библиотеки для валидации DataFrame.
Используется почти как Pydantic, но для DataFrame:
pip install pandera
Ожидаем:
—
id: int, уникальный—
email: строка, валидный email—
signup_date: datetime—
lead_score: float от 0.0 до 1.0Получаем:
— сломанные email
— неверные границы
— строки вместо дат
— потенциальные дубликаты
Шаг 1: Определяем Data Contract:
import pandera as pa
from pandera.typing import Series
import pandas as pd
class LeadsContract(pa.SchemaModel):
id: Series[int] = pa.Field(unique=True, ge=0)
email: Series[str] = pa.Field(str_matches=r"[^@]+@[^@]+\.[^@]+")
signup_date: Series[pd.Timestamp] = pa.Field(coerce=True)
lead_score: Series[float] = pa.Field(ge=0.0, le=1.0)
class Config:
strict = True # нельзя лишние или пропавшие колонки
Шаг 2: Применяем контракт
Используем ленивую валидацию — находит все ошибки, а не только первую:
try:
validated_df = LeadsContract.validate(df, lazy=True)
print("Data passed validation!")
except pa.errors.SchemaErrors as err:
print("Data Contract Breached!")
print(err.failure_cases[['column', 'check', 'failure_case']])
Вывод при ошибках:
Data Contract Breached!
Total errors found: 3
column check failure_case
email str_matches INVALID_EMAIL
lead_score <= 1.0 1.5
lead_score >= 0.0 -0.1
Это уже готовый отчёт, который можно отправить поставщику данных или залогировать в систему мониторинга.
🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🥰2❤1😢1
Вся инфраструктура агентов — в одном месте
Есть такой тихий герой: Awesome MCP Servers.
Это каталог серверов под Model Context Protocol — тех самых «коннекторов», благодаря которым агенты перестают быть болтливыми чатботами и начинают делать полезные вещи.
По сути, это карта всего агентного мира. Как Google Maps, только для AI-инфраструктуры.
И там есть всё:
✔️ Браузерные автоматы — пусть агент тыкает кнопки, пока вы пьёте кофе
✔️ Базы данных и девтулы — от Postgres до git-магии
✔️ Финансы, облака, интеграции — если нужно, агент и счёт оплатит (ну… почти)
✔️ Память, знание, мониторинг — чтобы ваш AI не забывал контекст каждые 5 секунд
Каждый пункт — это готовый open-source MCP сервер:
подключил → используй → радуйся, что ничего не пришлось настраивать вручную.
Если вы строите агентов — это ваш путеводитель, лопата и дорожная карта в одном лице.
📱 GitHub
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🐸 Библиотека дата-сайентиста
#буст
Есть такой тихий герой: Awesome MCP Servers.
Это каталог серверов под Model Context Protocol — тех самых «коннекторов», благодаря которым агенты перестают быть болтливыми чатботами и начинают делать полезные вещи.
По сути, это карта всего агентного мира. Как Google Maps, только для AI-инфраструктуры.
И там есть всё:
Каждый пункт — это готовый open-source MCP сервер:
подключил → используй → радуйся, что ничего не пришлось настраивать вручную.
Если вы строите агентов — это ваш путеводитель, лопата и дорожная карта в одном лице.
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
Backpropagation не работает магией
Если вы не можете объяснить математический смысл градиентного спуска или регуляризации, вы рискуете остаться «фит-предикт» специалистом. Настоящий Data Science начинается там, где заканчивается документация sklearn.
Завтра стартует интенсив «Математика для разработки AI-моделей».
📉 Закройте пробелы в Линале и Матане.
📈 Научитесь читать научные пейперы без страха.
🔥 Всего 28 200 ₽.
📅 Старт: Завтра.
👉 Врывайтесь
Бонус: Входной тест — @proglib_academy_webinar_bot
Если вы не можете объяснить математический смысл градиентного спуска или регуляризации, вы рискуете остаться «фит-предикт» специалистом. Настоящий Data Science начинается там, где заканчивается документация sklearn.
Завтра стартует интенсив «Математика для разработки AI-моделей».
📉 Закройте пробелы в Линале и Матане.
📈 Научитесь читать научные пейперы без страха.
🔥 Всего 28 200 ₽.
📅 Старт: Завтра.
👉 Врывайтесь
Бонус: Входной тест — @proglib_academy_webinar_bot
👍2🥰1🙏1
Команда наконец выложила pandas 3.0.0rc0, и, если не всплывут сюрпризы, финальный релиз выйдет совсем скоро.
Что там важного:
Теперь по умолчанию строки — это строки, нормальный
str dtype, а не непонятная коробка object.Работает быстрее, памяти ест меньше, ведёт себя предсказуемо. Плюс Arrow под капотом, если он установлен.
Срезы теперь ведут себя как нормальные копии. Хочешь изменить объект — изменяй сам объект, а не его кусок.
Chained assignment умер, предупреждение удалили.
Если у вас в проде всё ещё что-то крутится на 3.8–3.10… ну, время пришло 😅
NumPy тоже подтянули до 1.26+.
Раньше всё тащилось в наносекунды, даже если достаточно миллисекунд.
Теперь pandas умно выбирает нужную точность. Поведение стало ближе к тому, как ведёт себя обычный
Timestamp.Если вы привыкли к частотам в стиле
"M" — готовьтесь. Теперь:"M" → "ME""Q" → "QE""Y" → "YE"Немного больно, но логичнее.
Очень много. Например:
DataFrame.applymap — всё, финитаSeries.view, Series.ravelУстанавливаем:
pip install --upgrade --pre pandas
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍4🎉3❤2🥰2🔥1😢1
Лето 1956 года. Тихий кампус Дартмута. Несколько учёных, которые слишком много думают о машинах. И один почти наглый вопрос:
а что если научить компьютер мыслить?
Сегодня это кажется очевидным — у нас есть ChatGPT, нейросети, автономные системы. Но тогда компьютеры были шкафами на колёсах, и сама идея интеллекта в машине звучала как фантазия. Тем не менее, четверо смельчаков — Маккарти, Минский, Шеннон и Рочестер — решили собрать всех энтузиастов в одном месте и разобраться.
Так появился Dartmouth Workshop, событие, которое считается официальным рождением искусственного интеллекта.
Не было ни чёткого расписания, ни строгих протоколов. Люди приезжали, уезжали, спорили, рисовали формулы на досках, спорили снова.
Но именно в этом хаосе родилось главное:
А ещё приехала команда Newell–Shaw–Simon и показала Logic Theorist — программу, которая умела доказывать теоремы. Не теоретически, а реально. Это стало маленьким шоком: машины могут думать не хуже студентов.
Кто стоял за началом ИИ:
Практически всё, с чего начинается современный курс по ИИ:
Они не создали разумную машину — но задали путь, по которому идём до сих пор.
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте, что вы проснулись в недалёком будущем. Как бигтех работает с контентом?
Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.
Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.
Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.
Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.
❤1👏1
Если вы когда-нибудь ловили себя на мысли:
«А как вообще устроены GPT-подобные модели? Можно ли собрать свою — пусть маленькую, но настоящую?»
То вот подарок.
Есть репозиторий Build a Large Language Model (From Scratch) — это официальный код к одноимённой книге, где вы буквально шаг за шагом пишете свой собственный LLM. Не магия, не «всё слишком сложно», а нормальный, понятный разбор: архитектура, обучение, токенизация, внимание — всё по полочкам.
Плюс бонус: есть код для загрузки весов крупных моделей, чтобы вы могли потренироваться в финетюнинге.
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2👏1🙏1
Коллеги, хотим поделиться находкой. Мы тут попробовали Positron — новый IDE — и оказались приятно удивлены.
Positron ощущается как инструмент, сделанный людьми, которые сами каждый день пишут код и работают с данными:
• поддерживает несколько языков (Python, R, SQL и другие),
• удобно исследовать данные и сразу документировать результаты,
• интерфейс современный, но при этом интуитивный — будто всегда был под рукой,
• расширяемость позволяет адаптировать среду под свои задачи.
В целом, Positron оставляет очень «домашнее» ощущение: ничего не мешает, всё под рукой, можно спокойно концентрироваться на работе.
🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3👏2🎉1
Back to Basics: Линейная алгебра и МНК
Можно бесконечно обучать трансформеры, но если вы «плаваете» в базе, словить оверфиттинг или неверно интерпретировать веса — проще простого.
Мы перезапустили курс «Математика для разработки AI-моделей». Теперь с живыми вебинарами и упором на хард-скиллы.
Deep Dive ближайших лекций:
1. Linear Algebra:
— Матричные операции, определители, ранги.
— Решение СЛАУ и обратимость матриц.
2. Linear Regression:
— Реализация МНК (OLS) на чистом
— Допущения модели и интерпретация коэффициентов.
3. Matrix Decomposition:
— Собственные векторы и значения.
— SVD для RecSys и снижения размерности.
Дедлайн входа в поток — 9 декабря.
https://clc.to/LojFzw
Можно бесконечно обучать трансформеры, но если вы «плаваете» в базе, словить оверфиттинг или неверно интерпретировать веса — проще простого.
Мы перезапустили курс «Математика для разработки AI-моделей». Теперь с живыми вебинарами и упором на хард-скиллы.
Deep Dive ближайших лекций:
1. Linear Algebra:
— Матричные операции, определители, ранги.
— Решение СЛАУ и обратимость матриц.
2. Linear Regression:
— Реализация МНК (OLS) на чистом
NumPy vs scikit-learn.— Допущения модели и интерпретация коэффициентов.
3. Matrix Decomposition:
— Собственные векторы и значения.
— SVD для RecSys и снижения размерности.
Дедлайн входа в поток — 9 декабря.
https://clc.to/LojFzw
🎉4❤2🙏1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👍2💯2
Почему работа 1986 года Румельхарта, Хинтона и Уильямса считается поворотной?
Anonymous Quiz
10%
Она доказала возможность полной автоматизации анализа данных
21%
В ней был описан алгоритм градиентного бустинга
53%
В ней был формализован алгоритм обратного распространения ошибки
16%
Она ввела концепцию обучения без учителя
👍4❤2😢2🙏1
Вместо fragile-скриптов модель просто смотрит на экран и кликает, как человек. Звучит очевидно, но для веб-автоматизации это большой шаг вперёд: сайты меняются, а UI гораздо терпимее к «людям», чем к ботам. Заодно хороший пример того, как агентные модели начинают выходить из теории в практику.
Кешируется контент на уровне токенов, а не запросы или диалоги целиком. Любое изменение в префиксе — и весь кеш обнуляется. Отличное объяснение для тех случаев, когда кеш «почему-то» не сработал.
Модель объединяет восприятие и текстовое рассуждение и нацелена уже не на распознавание, а на принятие решений в физическом мире. VLM всё меньше выглядят как демо и всё больше — как фундамент для real-world AI.
Open-weight MoE без сюрпризов: упор на производительность, понятные лицензии и удобство для разработчиков. Очень характерный шаг для команды, которая делает ставку на практичность.
Вместо полного attention используется внешняя память, что снижает стоимость работы с длинными контекстами. Похоже на ещё один шаг к моделям, которые не просто «читают много», а действительно что-то помнят.
Cпокойный и прикладной обзор инструментов и подходов. Хорошо подойдёт для освежения базы.
Bнятно о том, зачем LLM зрение и куда это всё движется.
Про квантование и другие способы уложить модель в прод-ограничения.
🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🥰1