NEW BOT Телеграм, страница

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Почему даже rolling-window CV может давать leakage?

Anonymous Quiz

Это невозможно

17%

Rolling-window использует слишком маленькие тестовые окна

13%

CV всегда даёт leakage

68%

Если target leakage скрыт в engineered features (например, future-based statistics)

❤4🔥1

325 voters1.3K views09:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📘 4 декабря стартует набор на курс «Математика для разработки AI-моделей»

Если вы работаете с моделями или хотите перейти в DS/ML, декабрь — идеальный момент закрыть фундаментальные пробелы.

На курсе вы разберёте ключевые разделы, которые лежат в основе современных AI-моделей: линейная алгебра, анализ, оптимизация, математический анализ, вероятности, статистика. Всё через практику в Python.

В программе живые занятия с экспертами AI-индустрии (SberAI, ВШЭ, WB&Russ), разбор реальных задач, квизы и финальный проект.

🌐 Формат: онлайн + доступ к записям

🎁 Бонусы: курс «Школьная математика» в подарок, бесплатный тест по математике

После лекций будет разбор ваших решений и возможность задать вопросы преподавателям.

👉 Записаться на курс

❤2

1.34K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁12🙏1💯1

1.34K views18:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

↪️

Индуктивное смещение (inductive bias) в CNN: что это и почему оно важно

Когда мы говорим об индуктивном смещении в сверточных нейросетях, речь идёт об архитектурных предположениях, которые модель делает заранее — ещё до обучения.

Эти встроенные «убеждения» определяют, как именно сеть ищет закономерности в изображении, и от этого сильно зависит её эффективность.

CNN предполагает, что:
1. Близкие пиксели связаны друг с другом.
2. Полезные признаки (края, текстуры) локальны и появляются в небольших областях.
3. Один и тот же паттерн может возникать в любой части изображения.

Отсюда появляются:
➡️ маленькие свёрточные фильтры,
➡️ скользящее окно по всему изображению,
➡️ разделение весов (weight sharing) — один и тот же фильтр применяется везде.

То есть CNN как бы заранее знает: «картинки имеют структуру, и одинаковые признаки встречаются в разных местах». Модели не нужно заново «открывать» эту закономерность — она встроена в архитектуру.

👍 Когда это хорошо

Когда данные действительно подчиняются этим свойствам — а в естественных изображениях это именно так.

Плюсы:
➡️ меньше параметров → проще и быстрее обучение;
➡️ лучшее обобщение на малых датасетах;
➡️ естественное формирование иерархий признаков (края → формы → объекты).

Поэтому CNN почти 10 лет были королями компьютерного зрения: ImageNet, медицинские снимки, промышленные задачи — везде, где важны локальные визуальные паттерны.

👎 Когда это плохо

Когда структура данных не соответствует этим предположениям.

CNN плохо справляется, если:
➡️ важны дальние зависимости, а не локальный контекст;
➡️ пространственная структура нестабильна;
➡️ задача требует глобального, а не локального анализа;
➡️ нужно понимать отношения между далеко расположенными частями изображения.

Именно поэтому на больших и сложных задачах (Vision Transformers, SAM, CLIP и др.) CNN стали уступать трансформерам — внимание (attention) не ограничено локальными окнами и может связывать любые области изображения.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2😢1🎉1🙏1

1.13K views10:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✔️

Как использовать простые Data Contracts в Python

В пятницу всё работает идеально. В понедельник: “Pipeline failed”.

Часто виновато Schema Drift:
— колонку user_id сделали строкой вместо int,
— price стал отрицательным,
— created_at внезапно превратился в createdAt.

Чтобы не гадать в логах, нужны data contracts — формальные правила, каким должен быть набор данных.

И самое приятное: не нужен SaaS за $$$.
Достаточно Pandera — лёгкой open-source библиотеки для валидации DataFrame.

Используется почти как Pydantic, но для DataFrame:

pip install pandera

✔️

Пример: поток маркетинговых лидов

Ожидаем:
— id: int, уникальный
— email: строка, валидный email
— signup_date: datetime
— lead_score: float от 0.0 до 1.0

Получаем:
— сломанные email
— неверные границы
— строки вместо дат
— потенциальные дубликаты

Шаг 1: Определяем Data Contract:

import pandera as pa
from pandera.typing import Series
import pandas as pd

class LeadsContract(pa.SchemaModel):
    id: Series[int] = pa.Field(unique=True, ge=0)
    email: Series[str] = pa.Field(str_matches=r"[^@]+@[^@]+\.[^@]+")
    signup_date: Series[pd.Timestamp] = pa.Field(coerce=True)
    lead_score: Series[float] = pa.Field(ge=0.0, le=1.0)

    class Config:
        strict = True  # нельзя лишние или пропавшие колонки

Шаг 2: Применяем контракт

Используем ленивую валидацию — находит все ошибки, а не только первую:

try:
    validated_df = LeadsContract.validate(df, lazy=True)
    print("Data passed validation!")

except pa.errors.SchemaErrors as err:
    print("Data Contract Breached!")
    print(err.failure_cases[['column', 'check', 'failure_case']])

Вывод при ошибках:

Data Contract Breached!
Total errors found: 3

column       check                      failure_case
email        str_matches                INVALID_EMAIL
lead_score   <= 1.0                     1.5
lead_score   >= 0.0                     -0.1

Это уже готовый отчёт, который можно отправить поставщику данных или залогировать в систему мониторинга.

📱

Github

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🥰2❤1😢1

1.13K views18:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Вся инфраструктура агентов — в одном месте

Есть такой тихий герой: Awesome MCP Servers.

Это каталог серверов под Model Context Protocol — тех самых «коннекторов», благодаря которым агенты перестают быть болтливыми чатботами и начинают делать полезные вещи.

По сути, это карта всего агентного мира. Как Google Maps, только для AI-инфраструктуры.

И там есть всё:
✔️ Браузерные автоматы — пусть агент тыкает кнопки, пока вы пьёте кофе
✔️ Базы данных и девтулы — от Postgres до git-магии
✔️ Финансы, облака, интеграции — если нужно, агент и счёт оплатит (ну… почти)
✔️ Память, знание, мониторинг — чтобы ваш AI не забывал контекст каждые 5 секунд

Каждый пункт — это готовый open-source MCP сервер:
подключил → используй → радуйся, что ничего не пришлось настраивать вручную.

Если вы строите агентов — это ваш путеводитель, лопата и дорожная карта в одном лице.

📱

GitHub

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥2

1.21K views10:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Backpropagation не работает магией

Если вы не можете объяснить математический смысл градиентного спуска или регуляризации, вы рискуете остаться «фит-предикт» специалистом. Настоящий Data Science начинается там, где заканчивается документация sklearn.

Завтра стартует интенсив «Математика для разработки AI-моделей».

📉 Закройте пробелы в Линале и Матане.

📈 Научитесь читать научные пейперы без страха.

🔥 Всего 28 200 ₽.

📅 Старт: Завтра.

👉 Врывайтесь

Бонус: Входной тест — @proglib_academy_webinar_bot

👍2🥰1🙏1

1.27K views12:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼

Pandas 3.0 почти подъехал — вышел первый релиз-кандидат

Команда наконец выложила pandas 3.0.0rc0, и, если не всплывут сюрпризы, финальный релиз выйдет совсем скоро.

Что там важного:

➡️

Строки больше не “object”

Теперь по умолчанию строки — это строки, нормальный str dtype, а не непонятная коробка object.

Работает быстрее, памяти ест меньше, ведёт себя предсказуемо. Плюс Arrow под капотом, если он установлен.

➡️

Конец «view vs copy». Настоящий Copy-on-Write

Срезы теперь ведут себя как нормальные копии. Хочешь изменить объект — изменяй сам объект, а не его кусок.

Chained assignment умер, предупреждение удалили.

➡️

Минимальная версия Python теперь 3.11

Если у вас в проде всё ещё что-то крутится на 3.8–3.10… ну, время пришло 😅

NumPy тоже подтянули до 1.26+.

➡️

Даты делают меньше «магии»

Раньше всё тащилось в наносекунды, даже если достаточно миллисекунд.

Теперь pandas умно выбирает нужную точность. Поведение стало ближе к тому, как ведёт себя обычный Timestamp.

➡️

Переименовали кучку алиасов

Если вы привыкли к частотам в стиле "M" — готовьтесь. Теперь:

➖

"M" → "ME"

➖

"Q" → "QE"

➖

"Y" → "YE"

Немного больно, но логичнее.

➡️

Много старья убрали

Очень много. Например:

➖

DataFrame.applymap — всё, финита

➖

Series.view, Series.ravel
➖ старые параметры и поведение, которые уже давно просили убрать
➖ Python 2 pickle (ну, тут без сюрпризов)

Устанавливаем:

pip install --upgrade --pre pandas

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👏6👍4🎉3❤2🥰2🔥1😢1

1.38K views18:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🥳

Как одна летняя тусовка в Дартмуте случайно запустила эру искусственного интеллекта

Лето 1956 года. Тихий кампус Дартмута. Несколько учёных, которые слишком много думают о машинах. И один почти наглый вопрос:

а что если научить компьютер мыслить?

Сегодня это кажется очевидным — у нас есть ChatGPT, нейросети, автономные системы. Но тогда компьютеры были шкафами на колёсах, и сама идея интеллекта в машине звучала как фантазия. Тем не менее, четверо смельчаков — Маккарти, Минский, Шеннон и Рочестер — решили собрать всех энтузиастов в одном месте и разобраться.

Так появился Dartmouth Workshop, событие, которое считается официальным рождением искусственного интеллекта.

▶️

Почему этот воркшоп стал легендой

Не было ни чёткого расписания, ни строгих протоколов. Люди приезжали, уезжали, спорили, рисовали формулы на досках, спорили снова.
Но именно в этом хаосе родилось главное:
🔘 интеллект можно описывать математически.
🔘 и если можно описать — можно реализовать в машине.

А ещё приехала команда Newell–Shaw–Simon и показала Logic Theorist — программу, которая умела доказывать теоремы. Не теоретически, а реально. Это стало маленьким шоком: машины могут думать не хуже студентов.

Кто стоял за началом ИИ:
🔘 Джон Маккарти — придумал слово Artificial Intelligence.
🔘 Марвин Минский — пытался разложить интеллект на части, как сложный механизм.
🔘 Клод Шеннон — человек, который вообще объяснил миру, что такое информация.
🔘 Натаниел Рочестер — заставлял всё это работать на ранних компьютерах IBM.

▶️

Что нам осталось в наследство от Дартмута

Практически всё, с чего начинается современный курс по ИИ:
🔘 символьные модели,
🔘 поиск и эвристики,
🔘 первые шаги машинного обучения,
🔘 идеи компьютерного зрения,
🔘 формализация знаний и рассуждений.

Они не создали разумную машину — но задали путь, по которому идём до сих пор.

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5

1.08K views11:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Представьте, что вы проснулись в недалёком будущем. Как бигтех работает с контентом?

Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.

Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.

❤1👏1

1.05K views14:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱

Хотите понять, как работает LLM изнутри? Есть отличный репозиторий

Если вы когда-нибудь ловили себя на мысли:

«А как вообще устроены GPT-подобные модели? Можно ли собрать свою — пусть маленькую, но настоящую?»

То вот подарок.

Есть репозиторий Build a Large Language Model (From Scratch) — это официальный код к одноимённой книге, где вы буквально шаг за шагом пишете свой собственный LLM. Не магия, не «всё слишком сложно», а нормальный, понятный разбор: архитектура, обучение, токенизация, внимание — всё по полочкам.

Плюс бонус: есть код для загрузки весов крупных моделей, чтобы вы могли потренироваться в финетюнинге.

➡️

GitHub: https://clc.to/_17mAg

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2👏1🙏1

1.14K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍

Классный IDE для Data Science — Positron

Коллеги, хотим поделиться находкой. Мы тут попробовали Positron — новый IDE — и оказались приятно удивлены.

Positron ощущается как инструмент, сделанный людьми, которые сами каждый день пишут код и работают с данными:
• поддерживает несколько языков (Python, R, SQL и другие),
• удобно исследовать данные и сразу документировать результаты,
• интерфейс современный, но при этом интуитивный — будто всегда был под рукой,
• расширяемость позволяет адаптировать среду под свои задачи.

В целом, Positron оставляет очень «домашнее» ощущение: ничего не мешает, всё под рукой, можно спокойно концентрироваться на работе.

📱 Если вы ищете удобный и гибкий IDE для дата-сайенса — попробуйте: https://clc.to/T4rD3g

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3👏2🎉1

1.08K views11:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Back to Basics: Линейная алгебра и МНК

Можно бесконечно обучать трансформеры, но если вы «плаваете» в базе, словить оверфиттинг или неверно интерпретировать веса — проще простого.

Мы перезапустили курс «Математика для разработки AI-моделей». Теперь с живыми вебинарами и упором на хард-скиллы.

Deep Dive ближайших лекций:

1. Linear Algebra:
— Матричные операции, определители, ранги.
— Решение СЛАУ и обратимость матриц.
2. Linear Regression:
— Реализация МНК (OLS) на чистом NumPy vs scikit-learn.
— Допущения модели и интерпретация коэффициентов.
3. Matrix Decomposition:
— Собственные векторы и значения.
— SVD для RecSys и снижения размерности.

Дедлайн входа в поток — 9 декабря.
https://clc.to/LojFzw

🎉4❤2🙏1

1.06K views15:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10👍2💯2

1.06K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему работа 1986 года Румельхарта, Хинтона и Уильямса считается поворотной?

Anonymous Quiz

10%

Она доказала возможность полной автоматизации анализа данных

21%

В ней был описан алгоритм градиентного бустинга

53%

В ней был формализован алгоритм обратного распространения ошибки

16%

Она ввела концепцию обучения без учителя

👍4❤2😢2🙏1

277 voters928 views19:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

✅

Microsoft представила Fara-7B — open-weight агент для управления компьютером
Вместо fragile-скриптов модель просто смотрит на экран и кликает, как человек. Звучит очевидно, но для веб-автоматизации это большой шаг вперёд: сайты меняются, а UI гораздо терпимее к «людям», чем к ботам. Заодно хороший пример того, как агентные модели начинают выходить из теории в практику.

✅

Как на самом деле работает prompt caching
Кешируется контент на уровне токенов, а не запросы или диалоги целиком. Любое изменение в префиксе — и весь кеш обнуляется. Отличное объяснение для тех случаев, когда кеш «почему-то» не сработал.

✅

NVIDIA выпустила Alpamayo-R1 — vision-language action модель для автономного вождения
Модель объединяет восприятие и текстовое рассуждение и нацелена уже не на распознавание, а на принятие решений в физическом мире. VLM всё меньше выглядят как демо и всё больше — как фундамент для real-world AI.

✅

Mistral анонсировала семейство Mistral 3
Open-weight MoE без сюрпризов: упор на производительность, понятные лицензии и удобство для разработчиков. Очень характерный шаг для команды, которая делает ставку на практичность.

✅

Google Research представили Titans — модель с памятью на миллионы токенов
Вместо полного attention используется внешняя память, что снижает стоимость работы с длинными контекстами. Похоже на ещё один шаг к моделям, которые не просто «читают много», а действительно что-то помнят.

✅

Работа с NLP на Python
Cпокойный и прикладной обзор инструментов и подходов. Хорошо подойдёт для освежения базы.

✅

Визуально-языковые модели: следующий шаг эволюции LLM
Bнятно о том, зачем LLM зрение и куда это всё движется.

✅

Как сжимать языковые модели без дообучения
Про квантование и другие способы уложить модель в прод-ограничения.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🥰1

437 views13:52

About

Blog

Apps

Platform