#статьи
😊 PyTorch: новые инструменты для для экономии памяти при обучении моделей.
PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в
Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования
Для
Читать подробнее
👉 Новости 👉 База вопросов
PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в
eager mode сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования
policy_fn, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.Для
torch.compile стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile по умолчанию. Читать подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Какие ключевые шаги включает в себя выполнение grid search в Scikit-Learn?
Для выполнения grid search необходимо определить сетку параметров, создать объект
👉 Новости 👉 Платформа
Для выполнения grid search необходимо определить сетку параметров, создать объект
GridSearchCV , передать модель и параметры, а затем выполнить подгонку. По завершении можно получить наилучшие параметры через атрибут best_params_.Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
📞 Шпаргалка: как выбрать AI-модель в 2025 году
🟠 ChatGPT — лучший для диалогов, генерации текста и объяснений.
🟠 Claude — глубоко анализирует длинные тексты.
🟠 Perplexity — идеально подходит для поиска и структурирования данных.
🟠 Gemini — интеграция с Google для актуальных сведений.
🟠 Grok — фокус на аналитике и технических задачах.
Полное сравнение моделей
👉 Новости 👉 База вопросов
Полное сравнение моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🤯 Вычисление важности признаков: когда она вводит в заблуждение
Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.
🟠 Разделение важности: если два признака (A и B) сильно коррелируют, перестановка одного из них не снизит качество модели, так как второй содержит ту же информацию. Итог — заниженная важность.
🟠 Ложная высокая важность: малозначимый, но коррелированный с важным признак может получить высокий вклад просто из-за связи с важным признаком.
Что делать?
✔️ Использовать SHAP, который корректно распределяет вклад.
✔️ Применять PCA или регуляризацию (Lasso) для снижения корреляции.
✔️ Проверять важность через drop-column importance.
👉 Новости 👉 База вопросов
Вычисление важности признаков (Permutation Feature Importance) — популярный метод оценки вклада признаков в модель. Однако при наличии коррелированных признаков он может давать искаженные результаты.
Что делать?
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
🥺 Градиентный бустинг: почему слишком много деревьев ухудшает модель
🟠 Переобучение (overfitting) — каждое новое дерево минимизирует ошибку, но если деревьев слишком много, модель начинает подстраиваться под шум данных, теряя обобщающую способность.
🟠 Снижение прироста качества — на первых итерациях каждое дерево значительно улучшает предсказания. Однако после определенного количества итераций добавление новых деревьев практически не влияет на качество.
🟠 Рост вычислительной сложности — больше деревьев → выше время инференса и потребление памяти.
👉 Новости 👉 База вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как реализовать анализ главных компонент (РСА) с использованием Scikit-Learn?
Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс
👉 Новости 👉 Платформа
Для реализации РСА с использованием Scikit-Learn нужно сначала нормализовать данные, а затем применить класс
РСА из модуля sklearn.decomposition . Указывая количество компонент, которые нужно оставить, можно уменьшить размерность данных, сохраняя как можно больше информации. Результатом является набор данных с меньшим числом признаков.Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Coq-of-Rust — это инструмент для формальной верификации кода на Rust. Он преобразует подмножество Rust в спецификации на языке Coq, позволяя доказывать корректность программ математическими методами.
Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.
Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.
Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.
Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).
Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.
Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб
👉 Новости 👉 База вопросов
Проект разработан для повышения надежности критических систем (например, блокчейнов, embedded-решений), где ошибки недопустимы.
Основные функции
Трансляция Rust → Coq:
Конвертирует структуры, перечисления (enum), трейты (trait), методы и выражения в эквивалентный код на Coq.
Поддержка системы владения:
Учитывает правила заимствования и времени жизни (lifetimes), сохраняя семантику Rust на уровне спецификаций.
Генерация теорем:
Автоматически создает условия для доказательства свойств (например, отсутствие паник, корректность алгоритмов).
Coq-of-Rust — это шаг к математически верифицируемому Rust. Если вы разрабатываете системы, где цена ошибки высока, этот инструмент поможет превратить код в набор теорем, которые можно строго доказать.
Совет: Начните с примеров из репозитория, чтобы понять, как транслируются типичные Rust-конструкции.
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!
✔️ Сделана на Qwen2.5
✔️ Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👉 Новости 👉 База вопросов
Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
👍 NocoDB
Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!
🚩 Она позволяет пользователям управлять данными с помощью удобного веб-интерфейса, создавать REST API, настраивать представления (таблицы, календари, канбан-доски) и интегрироваться с внешними сервисами.
Гитхаб
👉 Новости 👉 База вопросов
Это база данных без кода (no-code database) с открытым исходным кодом, превращающая любую реляционную базу данных (MySQL, PostgreSQL, SQLite, MSSQL и др.) в гибкую таблицу, аналогичную Airtable!
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Можете ли вы описать сценарий, где вы бы использовали Random Forest вместо линейной регрессии и почему?
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
👉 Новости 👉 Платформа
Random Forest стоит использовать вместо линейной регрессии, когда данные имеют сложные взаимосвязи и нелинейные зависимости, например, в задачах классификации заболеваний на основе множества параметров здоровья. Линейная регрессия предполагает линейную зависимость между признаками и результатом, что может не подходить для таких ситуаций. Random Forest может эффективно
работать с такими данными, создавая несколько деревьев решений и комбинируя их результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Python-библиотека для тонкой настройки Gemma 3
Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).
👉 Новости 👉 База вопросов
Gemma — это минимальная библиотека для использования и тонкой настройки Gemma. Включает документацию по тонкой настройке, шардингу, LoRA, PEFT, мультимодальности и токенизации в больших языковых моделях (LLMs).
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
😇 Иногда нужно быстро скормить LLM весь репозиторий
Просто меняешь одну букву в URL (
Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML
👉 Новости 👉 База вопросов
Просто меняешь одну букву в URL (
github.com → uithub.com), и вуаля — получаешь весь репозиторий в виде чистого текста со структурой Плюс есть фильтрация по расширениям, настройка максимального количества токенов и поддержка разных форматов вроде YAML
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🛞 STUMPY: умный анализ временных рядов
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
✅ Поиск повторяющихся паттернов.
✅ Обнаружение аномалий.
✅ Выделение ключевых подотрезков (shapelets).
✅ Семантическая сегментация.
✅ Анализ потоковых данных.
✅ Быстрое приближённое вычисление матричных профилей.
✅ Построение временных цепочек.
✅ Краткое представление длинных временных рядов.
Подробнее — в документации.
👉 Новости 👉 База вопросов
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
Подробнее — в документации.
Please open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Какую роль Scikit-Learn играет в инженерии признаков и предварительной обработке данных для машинного обучения?
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения
размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
👉 Новости 👉 Платформа
Scikit-Learn играет ключевую роль в предварительной обработке данных, предоставляя инструменты для масштабирования признаков, кодирования категориальных переменных, обработки пропущенных значений и генерации полиномиальных признаков. Он также поддерживает методы для уменьшения
размерности, такие как РСА, и строит пайплайны для последовательного применения нескольких этапов обработки.
Please open Telegram to view this post
VIEW IN TELEGRAM
#статьи
😐 Как выбрать стратегию кэширования: разбор 7 популярных алгоритмов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Читать статью
👉 Новости 👉 База вопросов
Кешировать нужно с умом. И нет, LRU — не серебряная пуля.
В статье вас ждёт разбор алгоритмов: LRU, LFU, FIFO и другие
– Примеры, где каждый работает лучше
– Плюсы и минусы подходов
– Практические советы по выбору стратегии
Если проектируете систему с большими нагрузками или оптимизируете производительность — материал будет как раз.
Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😐 Всего три строки кода — и эта библиотека Python очистит любой ML-дataset: выявит выбросы, найдет ошибки в метках, выполнит активное обучение и многое другое.
Гитхаб
👉 Новости 👉 База вопросов
Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
#полезное
🤓 Colab + GitHub: мгновенное открытие ноутбуков
Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак
Просто вставляешь "
👉 Новости 👉 База вопросов
Открывать Jupyter Notebook из GitHub в Colab без скачиваний, возни и лишних кликов? Лови лайфхак
Просто вставляешь "
tocolab" в URL после "github" – и ноутбук сразу открывается в ColabPlease open Telegram to view this post
VIEW IN TELEGRAM
#Собес
🤔 Как реализовать ансамблевый метод в Scikit- Learn и объяснить его преимущества?
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
👉 Новости 👉 База вопросов
Ансамблевые методы, такие как Random Forest, используют несколько моделей для улучшения точности предсказаний, уменьшая переобучение. Они работают путем агрегирования результатов нескольких моделей, что позволяет уменьшить вариативность и смещение.
Please open Telegram to view this post
VIEW IN TELEGRAM
YeaHub
YeaHub — тренажер собеседований по IT
5000+ вопросов для подготовки к интервью. Фильтры, квизы, статистика!
#полезное
😊 Как избежать чрезмерной оптимизации гиперпараметров (hyperparameter tuning)
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
✅ Использовать кросс-валидацию для оценки производительности модели на разных поднаборах данных.
✅ Применять рандомизированный поиск вместо полного перебора всех вариантов гиперпараметров, чтобы ускорить процесс.
✅ Настроить ограничения на количество итераций или время оптимизации.
👉 Новости 👉 База вопросов
Часто на этапе настройки гиперпараметров (например, с помощью Grid Search или Random Search) можно столкнуться с перенастройкой модели, что приведет к плохой её обобщающей способности на новых данных.
Как избежать переоптимизации гиперпараметров?
Please open Telegram to view this post
VIEW IN TELEGRAM
#полезное
😊 Шпаргалка: как генерировать текст с LLM
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
🟠 Жадный поиск (Greedy Search) — выбираем слово с наивысшей вероятностью и продолжаем. Проблема: тексты становятся предсказуемыми и повторяются.
🟠 Случайный отбор (Sampling) — выбираем слова случайно с учётом вероятностей. Регулируется параметром temperature:
👍 Высокая температура → креативный, но хаотичный текст.
😱 Низкая температура → логичный, но скучный текст.
🟠 Лучевой поиск (Beam Search) — выбираем k лучших вариантов, продолжаем развивать их и выбираем последовательность с наибольшей вероятностью. Это баланс между качеством и скоростью.
🟠 Контрастный поиск (Contrastive Search) — улучшенный вариант, который оценивает гладкость и разнообразие текста. Слова с высокой вероятностью, но слишком похожие на предыдущие, могут быть наказаны и заменены более разнообразными.
Какой метод лучше?
✅ Если нужен фактологичный ответ — лучше beam search
✅ Для творческих текстов — sampling
✅ Для баланса между качеством и разнообразием — contrastive search
👉 Новости 👉 База вопросов
Генерация текста — это не просто предсказание следующего токена! LLM оценивает вероятность появления каждого слова, но как выбрать, какие слова вставлять в текст?
Давайте разберём основные методы:
Какой метод лучше?
Please open Telegram to view this post
VIEW IN TELEGRAM