#полезное
🤯 Вычисление важности признаков: когда она вводит в заблуждение
Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.
🟠 Разделение важности: если два признака (A и B) сильно коррелируют, перестановка одного из них не снизит качество модели, так как второй содержит ту же информацию. Итог — заниженная важность.
🟠 Ложная высокая важность: малозначимый, но коррелированный с важным признак может получить высокий вклад просто из-за связи с важным признаком.
Что делать?
✔️ Использовать SHAP, который корректно распределяет вклад.
✔️ Применять PCA или регуляризацию (Lasso) для снижения корреляции.
✔️ Проверять важность через drop-column importance.
👉 Новости 👉 База вопросов
Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.
Что делать?
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 Градиентный бустинг: почему слишком много деревьев ухудшает модель
🟠 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.
🟠 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.
🟠 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.
👉 Новости 👉 База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как реализовать анализ главных компонент (РСА) с использованием Scikit-Learn?
Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс
👉 Новости 👉 Платформа
Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс
РСА из модуля sklearn.decomposition . Указывая количество компонент, которые нужно оставить, можно уменьшить размерность данных, сохраняя как можно больше информации. Результатом является набор данных с меньшим числом признаков.Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Coq-of-Rust — это инструмент для формальной верификации кода на Rust. Он преобразует подмножество Rust в спецификации на языке Coq, позволяя доказывать корректность программ математическими методами.
Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.
Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.
Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.
Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).
Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.
Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб
👉 Новости 👉 База вопросов
Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.
Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.
Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.
Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).
Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.
Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!
✔️ Сделана на Qwen2.5
✔️ Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👉 Новости 👉 База вопросов
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👍 NocoDB
Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!
🚩 Она позволяет пользователям управлять данными с помощью удобного веб-интерфейса, создавать REST API, настраивать представления (таблицы, календари, канбан-доски) и интегрироваться с внешними сервисами.
Гитхаб
👉 Новости 👉 База вопросов
Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Можете ли вы описать сценарий, где вы бы использовали Random Forest вместо линейной регрессии и почему?
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
👉 Новости 👉 Платформа
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Python-библиотека для тонкой настройки Gemma 3
Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).
👉 Новости 👉 База вопросов
Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 Иногда нужно быстро скормить LLM весь репозиторий
Просто меняешь одну букву в URL (
Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML
👉 Новости 👉 База вопросов
Просто меняешь одну букву в URL (
github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 STUMPY: умный анализ временных рядов
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
✅ Поиск повторяющихся паттернов.
✅ Обнаружение аномалий.
✅ Выделение ключевых подотрезков (shapelets).
✅ Семантическая сегментация.
✅ Анализ потоковых данных.
✅ Быстрое приближённое вычисление матричных профилей.
✅ Построение временных цепочек.
✅ Краткое представление длинных временных рядов.
Подробнее — в документации.
👉 Новости 👉 База вопросов
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
Подробнее — в документации.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Какую роль Scikit-Learn играет в инженерии признаков и предварительной обработке данных для машинного обучения?
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения
размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
👉 Новости 👉 Платформа
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения
размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
Please open Telegram to view this post
VIEW IN TELEGRAM
#статьи
😐 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Читать статью
👉 Новости 👉 База вопросов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.
Гитхаб
👉 Новости 👉 База вопросов
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🤓 Colab + GitHub: мгновенное открытие ноутбуков
Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак
Просто вставляешь "
👉 Новости 👉 База вопросов
Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак
Просто вставляешь "
tocolab" в URL после "github" – и ноутбук сразу открывается в ColabPlease open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как реализовать ансамблевый метод в Scikit- Learn и объяснить его преимущества?
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
👉 Новости 👉 База вопросов
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
😊 Как избежать чрезмерной оптимизации гиперпараметров (hyperparameter tuning)
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
✅ Использовать кросс-валидацию для оценки производительности модели на разных поднаборах данных.
✅ Применять рандомизированный поиск вместо полного перебора всех вариантов гиперпараметров, чтобы ускорить процесс.
✅ Настроить ограничения на количество итераций или время оптимизации.
👉 Новости 👉 База вопросов
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Шпаргалка: как генерировать текст с LLM
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🟠 Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.
🟠 Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
👍 Высокая температура → креативный, но хаотичный текст.
😱 Низкая температура → логичный, но скучный текст.
🟠 Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.
🟠 Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.
Какой метод лучше?
✅ Если нужен фактологичный ответ — лучше beam search
✅ Для творческих текстов — sampling
✅ Для баланса между качеством и разнообразием — contrastive search
👉 Новости 👉 База вопросов
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
Какой метод лучше?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 Это увлекательный интерактивный гайд, объясняющий интуицию, лежащую в основе гауссовых процессов.
Гауссовские процессы позволяют построить распределение функций с непрерывной областью определения.
Гайд
👉 Новости 👉 База вопросов
Гауссовские процессы позволяют построить распределение функций с непрерывной областью определения.
Гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как Scikit-Learn обрабатывает сохранение моделей и их сериализацию?
Scikit-Learn использует встроенную в Python модель сериализации рісе для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с
безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами numpy. Для сохранения модели используется функция
👉 Новости 👉 База вопросов
Scikit-Learn использует встроенную в Python модель сериализации рісе для сохранения и загрузки моделей машинного обучения. Однако, из-за проблем с
безопасностью и совместимостью версий Python, рекомендуется использовать joblib, который более эффективен для работы с большими данными, например, массивами numpy. Для сохранения модели используется функция
joblib.dump() , а для загрузки - joblib. load() Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
😇 Чем ближе к вокзалу, тем хуже кебаб — научный прорыв века
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
Методология
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
Подробности исследования
👉 Новости 👉 База вопросов
На французском Reddit появилась гипотеза: чем ближе к вокзалу, тем хуже кебаб. Это утверждение потребовало проверки, и один энтузиаст решил разобраться, вооружившись свободным временем и шутливым настроением. Нобелевка и job-офферы, конечно, уже на горизонте!
Методология
Для анализа выбрали Париж: гипотеза родом оттуда, вокзалов и кебабных там полно, а пешеходные маршруты идеально подходят для «научных» прогулок.
Подробности исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
#Собес #TensorFlow
🤔 Чем PyTorch отличается от других фреймворков глубокого обучения, таких как TensorFlow?
PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.
👉 Новости 👉 База вопросов
PyTorch и TensorFlow отличаются архитектурой вычислений: PyTorch использует динамическую вычислительную графику, что позволяет изменять граф во время выполнения, в то время как TensorFlow использует статичный граф, который требует предварительного определения. Это делает PyTorch более интуитивным и удобным для отладки, но TensorFlow может обеспечивать лучшую производительность благодаря оптимизации вычислений. Также PyTorch более дружелюбен к Python-разработчикам, поскольку поддерживает структуру управления Python, в то время как TensorFlow абстрагирует многие детали.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2