#Собес
🤔 Как Scikit-Learn обрабатывает сохранение моделей и их сериализацию?
Scikit-Learn использует встроенную в Python модель сериализации рісе для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с
безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами numpy. Для сохранения модели используется функция
👉 Новости 👉 База вопросов
Scikit-Learn использует встроенную в Python модель сериализации рісе для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с
безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами numpy. Для сохранения модели используется функция
joblib.dump() , а для загрузки - joblib. load() Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
😇 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
Методология
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
Подробности исследования
👉 Новости 👉 База вопросов
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
Методология
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
Подробности исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
#Собес #TensorFlow
🤔 Чем PyTorch отличается от других фреймворков глубокого обучения, таких как TensorFlow?
PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.
👉 Новости 👉 База вопросов
PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
#полезное
🤯 Визуальные вычисления в Power BI: прокачиваем условное форматирование
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
Ссылка на статью
👉 Новости 👉 База вопросов
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
#полезное
😇 Как снижение размерности влияет на One-vs-Rest и One-vs-One
🟠 One-vs-Rest (OVR):
— Чувствителен к выбору признаков, так как каждый классификатор выделяет один класс против всех остальных.
— Если убрать важные признаки, отличающие класс, модель может ухудшить предсказания.
— Глобальное снижение размерности (например, PCA) может потерять информацию, важную для отдельных классов.
🟠 One-vs-One (OVO):
— Каждый классификатор фокусируется только на двух классах, поэтому локальный отбор признаков может дать лучшее разделение.
— Разные классификаторы могут использовать разные наборы признаков, что требует сложного управления.
— При большом числе классов возможно переобучение из-за небольших выборок для каждой пары.
Итог:
При OVR полезно использовать глобальное снижение размерности, но с осторожностью. При OVO можно применять локальный отбор признаков, но важно избегать переобучения.
👉 Новости 👉 База вопросов
— Чувствителен к выбору признаков, так как каждый классификатор выделяет один класс против всех остальных.
— Если убрать важные признаки, отличающие класс, модель может ухудшить предсказания.
— Глобальное снижение размерности (например, PCA) может потерять информацию, важную для отдельных классов.
— Каждый классификатор фокусируется только на двух классах, поэтому локальный отбор признаков может дать лучшее разделение.
— Разные классификаторы могут использовать разные наборы признаков, что требует сложного управления.
— При большом числе классов возможно переобучение из-за небольших выборок для каждой пары.
Итог:
При OVR полезно использовать глобальное снижение размерности, но с осторожностью. При OVO можно применять локальный отбор признаков, но важно избегать переобучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😊 Шпаргалки по Transformers и LLMs для курса Stanford CME-295
Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений.
Полностью бесплатные и с открытым исходным кодом. Забираем здесь
👉 Новости 👉 База вопросов
Охватывают токенизацию, механизм самовнимания, prompting, дообучение, LLM-as-a-judge, RAG, AI-агентов и модели рассуждений.
Полностью бесплатные и с открытым исходным кодом. Забираем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
#полезное
😐 How to: как «на самом деле» работает Dropout
Если вы думаете, что Dropout просто обнуляет часть нейронов, это лишь половина правды. Есть ещё один важный шаг, который делает обучение стабильным.
🟠 Разберёмся на примере:
— Представьте, что у нас есть 100 нейронов в предыдущем слое, все с активацией 1.
— Все веса соединений с нейроном A в следующем слое равны 1.
— Dropout = 50% — половина нейронов отключается во время обучения.
🟠 Что происходит:
— Во время обучения: половина нейронов выключена, так что вход нейрона A ≈ 50.
— Во время inference: Dropout не применяется, вход A = 100.
🟠 Проблема:
Во время обучения нейрон получает меньший вход, чем во время inference. Это создаёт дисбаланс и может ухудшить обобщающую способность сети.
🟠 Секретный шаг Dropout:
Чтобы это исправить, Dropout масштабирует оставшиеся активации во время обучения на коэффициент
— Dropout = 50% (
— Вход 50 масштабируется:
Теперь во время обучения вход нейрона A примерно соответствует тому, что он получит при inference. Это делает поведение сети стабильным.
🟠 Проверим на практике:
В режиме обучения оставшиеся значения увеличиваются, в режиме inference — нет.
🟠 Вывод:
Dropout не просто отключает нейроны — он ещё масштабирует оставшиеся активации, чтобы модель обучалась корректно.
👉 Новости 👉 База вопросов
Если вы думаете, что Dropout просто обнуляет часть нейронов, это лишь половина правды. Есть ещё один важный шаг, который делает обучение стабильным.
— Представьте, что у нас есть 100 нейронов в предыдущем слое, все с активацией 1.
— Все веса соединений с нейроном A в следующем слое равны 1.
— Dropout = 50% — половина нейронов отключается во время обучения.
— Во время обучения: половина нейронов выключена, так что вход нейрона A ≈ 50.
— Во время inference: Dropout не применяется, вход A = 100.
Во время обучения нейрон получает меньший вход, чем во время inference. Это создаёт дисбаланс и может ухудшить обобщающую способность сети.
Чтобы это исправить, Dropout масштабирует оставшиеся активации во время обучения на коэффициент
1/(1-p), где p — доля отключённых нейронов.— Dropout = 50% (
p = 0.5).— Вход 50 масштабируется:
50 / (1 - 0.5) = 100.Теперь во время обучения вход нейрона A примерно соответствует тому, что он получит при inference. Это делает поведение сети стабильным.
import torch
import torch.nn as nn
dropout = nn.Dropout(p=0.5)
tensor = torch.ones(100)
# Обучение (train mode)
print(dropout(tensor).sum()) # ~100 (масштабировано)
# Вывод (eval mode)
dropout.eval()
print(dropout(tensor).sum()) # 100 (без Dropout)
В режиме обучения оставшиеся значения увеличиваются, в режиме inference — нет.
Dropout не просто отключает нейроны — он ещё масштабирует оставшиеся активации, чтобы модель обучалась корректно.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤓 Фишка инструмента: SHAP — интерпретируемость ML-моделей
SHAP (SHapley Additive exPlanations) — это мощный инструмент для объяснения предсказаний моделей машинного обучения. Он основан на значениях Шепли из теории игр и позволяет разобрать вклад каждого признака в итоговый результат модели.
Что делает SHAP:
➖ Объясняет любой ML-модели, от XGBoost и LightGBM до нейросетей и трансформеров
➖ Выявляет ключевые признаки, влияющие на предсказания
➖ Создаёт наглядные визуализации, такие как водопадные графики, force plots, scatter plots и beeswarm-графики
➖ Работает с деревьями решений, нейросетями и линейными моделями
Ключевые приёмы
➖ Waterfall plot — детальный разбор влияния признаков
➖ Beeswarm plot — топ-важных признаков по всей выборке
➖ Dependence plot — анализ взаимодействий признаков
Пример использования
1⃣ Установка:
2⃣ Простая демонстрация для XGBoost:
Подробнее в репозитории: SHAP на GitHub
👉 Новости 👉 База вопросов
SHAP (SHapley Additive exPlanations) — это мощный инструмент для объяснения предсказаний моделей машинного обучения. Он основан на значениях Шепли из теории игр и позволяет разобрать вклад каждого признака в итоговый результат модели.
Что делает SHAP:
Ключевые приёмы
Пример использования
pip install shap
import xgboost
import shap
# Обучаем модель
X, y = shap.datasets.california()
model = xgboost.XGBRegressor().fit(X, y)
# Создаём объяснитель SHAP
explainer = shap.Explainer(model)
shap_values = explainer(X)
# Визуализируем вклад признаков в предсказание
shap.plots.waterfall(shap_values[0])
shap.plots.beeswarm(shap_values)
Подробнее в репозитории: SHAP на GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Что такое TensorFlow Estimator и какие его преимущества по сравнению с API tf.Session()?
TensorFlow Estimator - это высокоуровневый АРІ, который упрощает создание и обучение моделей в TensorFlow. Он автоматизирует такие задачи, как управление сессиями, сохранение контрольных точек и обработку ошибок. Преимущества по сравнению с
👉 Новости 👉 База вопросов
TensorFlow Estimator - это высокоуровневый АРІ, который упрощает создание и обучение моделей в TensorFlow. Он автоматизирует такие задачи, как управление сессиями, сохранение контрольных точек и обработку ошибок. Преимущества по сравнению с
tf.Session() включают меньшее количество кода для создания сложных моделей, поддержку распределенных вычислений, автоматическое сохранение контрольных точек и возможность упрощенной обработки данных.Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 Вышла Llama-4 с огромным контекстом
Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).
– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.
– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.
Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса
– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.
👉 Новости 👉 База вопросов
Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).
– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.
– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.
Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса
– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 ИИ не отнимает работу у инженеров — он трансформирует её
По свежему отчёту WEF, к 2030 году произойдёт глобальная перекройка рынка труда:
✅ 22% текущих профессий изменятся
✅ +170 млн новых рабочих мест
✅ -92 млн уйдут в прошлое
И ключевой драйвер этих изменений — ИИ и автоматизация.
Что это значит для DS-инженеров?
Вместо стандартного «data scientist»/«ML engineer» сейчас появляются:
🟠 AI/ML продуктовые инженеры
🟠 Специалисты по data pipelines для LLM и мультимодальных моделей
🟠 Инженеры по интерпретируемости моделей (XAI)
🟠 Мастера feature engineering под foundation models
🟠 MLOps с уклоном в этику, безопасность и оценку рисков
🟠 Prompt/agent engineers (внезапно, уже инженерная роль)
Интересно, что многие из этих ролей не существовали 3-5 лет назад. И это не предел: растёт спрос на специалистов, которые могут работать на стыке ИИ и бизнеса, ИИ и UX, ИИ и governance.
Поэтому ключевая компетенция 2025+ — уметь мыслить с ИИ: не просто строить пайплайн, а понимать, как ИИ влияет на продукт, решение, пользователя.
👉 Новости 👉 База вопросов
По свежему отчёту WEF, к 2030 году произойдёт глобальная перекройка рынка труда:
И ключевой драйвер этих изменений — ИИ и автоматизация.
Что это значит для DS-инженеров?
Вместо стандартного «data scientist»/«ML engineer» сейчас появляются:
Интересно, что многие из этих ролей не существовали 3-5 лет назад. И это не предел: растёт спрос на специалистов, которые могут работать на стыке ИИ и бизнеса, ИИ и UX, ИИ и governance.
Поэтому ключевая компетенция 2025+ — уметь мыслить с ИИ: не просто строить пайплайн, а понимать, как ИИ влияет на продукт, решение, пользователя.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
#видео
😬 Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
📱 Смотреть в источнике
👉 Новости 👉 База вопросов
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Как TensorFlow Lite позволяет выполнять машинное обучение на мобильных устройствах?
TensorFlow Lite оптимизирует обученные модели для использования на мобильных устройствах, снижая размер модели и увеличивая скорость выполнения. Он использует конвертер для преобразования моделей и поддерживает аппаратное ускорение, чтобы обеспечить низкую задержку и эффективное использование ресурсов.
👉 Новости 👉 База вопросов
TensorFlow Lite оптимизирует обученные модели для использования на мобильных устройствах, снижая размер модели и увеличивая скорость выполнения. Он использует конвертер для преобразования моделей и поддерживает аппаратное ускорение, чтобы обеспечить низкую задержку и эффективное использование ресурсов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤓 Docling
Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX).
Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации.
Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки.
Гитхаб
👉 Новости 👉 База вопросов
Это мощный инструмент для обработки документов, который позволяет легко экспортировать их в форматы, такие как HTML, Markdown и JSON, поддерживая при этом множество популярных файловых форматов на вход (например, PDF, DOCX, PPTX).
Он предлагает глубокое понимание структуры PDF-документов и обеспечивает единый подход к представлению информации.
Инструмент интегрируется с LlamaIndex и LangChain, поддерживает OCR для сканированных документов, а также предоставляет простой интерфейс командной строки.
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес #TensorFlow
🤔 Что такое сериализация данных и как TensorFlow обрабатывает это с помощью TFRecords?
Сериализация данных - это процесс преобразования структуры данных в формат, удобный для хранения и передачи. TensorFlow использует формат TFRecord, который позволяет эффективно хранить и читать данные, разбивая их на бинарные строки и поддерживая различные типы данных.
👉 Новости 👉 База вопросов
Сериализация данных - это процесс преобразования структуры данных в формат, удобный для хранения и передачи. TensorFlow использует формат TFRecord, который позволяет эффективно хранить и читать данные, разбивая их на бинарные строки и поддерживая различные типы данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#видео
😎 Плейлист из 30 видео на YouTube для изучения основ машинного обучения с нуля
Если вы не знаете, с чего начать изучение машинного обучения, этот список под названием «Machine Learning: Teach by Doing» — отличный выбор, чтобы освоить как теорию, так и практическое программирование.
👉 Новости 👉 База вопросов
Если вы не знаете, с чего начать изучение машинного обучения, этот список под названием «Machine Learning: Teach by Doing» — отличный выбор, чтобы освоить как теорию, так и практическое программирование.
1. Введение в машинное обучение — Teach by Doing:
https://lnkd.in/gqN2PMX5
2. Что такое машинное обучение? История машинного обучения:
https://lnkd.in/gvpNSAKh
3. Типы моделей машинного обучения:
https://lnkd.in/gSy2mChM
4. 6 этапов любого ML-проекта:
https://lnkd.in/ggCGchPQ
5. Установка Python и VSCode, запуск первого кода:
https://lnkd.in/gyic7J7b
6. Линейные классификаторы. Часть 1:
https://lnkd.in/gYdfD97D
7. Линейные классификаторы. Часть 2:
https://lnkd.in/gac_z-G8
8. Jupyter Notebook, Numpy и Scikit-Learn:
https://lnkd.in/gWRaC_tB
9. Запуск алгоритма случайного линейного классификатора на Python:
https://lnkd.in/g5HacbFC
10. Самая первая ML-модель — перцептрон:
https://lnkd.in/gpce6uFt
11. Реализация перцептрона на Python:
https://lnkd.in/gmz-XjNK
12. Теорема сходимости перцептрона:
https://lnkd.in/gmz-XjNK
13. Магия признаков в машинном обучении:
https://lnkd.in/gCeDRb3g
14. One-hot encoding (одноразрядное кодирование):
https://lnkd.in/g3WfRQGQ
15. Логистическая регрессия. Часть 1:
https://lnkd.in/gTgZAAZn
16. Функция потерь — кросс-энтропия:
https://lnkd.in/g3Ywg_2p
17. Как работает градиентный спуск:
https://lnkd.in/gKBAsazF
18. Логистическая регрессия с нуля на Python:
https://lnkd.in/g8iZh27P
19. Введение в регуляризацию:
https://lnkd.in/gjM9pVw2
20. Реализация регуляризации на Python:
https://lnkd.in/gRnSK4v4
21. Введение в линейную регрессию:
https://lnkd.in/gPYtSPJ9
22. Пошаговая реализация метода наименьших квадратов (OLS):
https://lnkd.in/gnWQdgNy
23. Основы и интуиция гребневой регрессии (Ridge Regression):
https://lnkd.in/gE5M-CSM
24. Резюме по регрессии для собеседований:
https://lnkd.in/gNBWzzWv
25. Архитектура нейронной сети за 30 минут:
https://lnkd.in/g7qSrkxG
26. Интуиция обратного распространения ошибки (Backpropagation):
https://lnkd.in/gAmBARHm
27. Функции активации в нейронных сетях:
https://lnkd.in/gqrC3zDP
28. Моментум в градиентном спуске:
https://lnkd.in/g3M4qhbP
29. Практическое обучение нейросети на Python:
https://lnkd.in/gz-fTBxs
30. Введение в сверточные нейронные сети (CNN):
https://lnkd.in/gpmuBm3j
Please open Telegram to view this post
VIEW IN TELEGRAM