Machine learning Interview – Telegram
Machine learning Interview
30.3K subscribers
1.5K photos
114 videos
13 files
1.02K links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🚀 GLM-Image теперь open-source

Почти все image-модели умеют делать красивые арты…
но ломаются, когда нужно:
- постер с текстом
- PPT-слайд
- инфографика с логикой
- схема/диаграмма с подписями

GLM-Image решает это иначе:
он комбинирует Autoregressive-модель + Diffusion Decoder, и за счёт этого нормально держит структуру + текст + смысл.

Что умеет:
- #1 на CVTG-2K и LongText-Bench
- идеальный многострочный текст
- сложные диаграммы и логические схемы
- заточен под NPU training (Ascend / MindSpore)

📌 Model: https://modelscope.cn/models/ZhipuAI/GLM-Image
📌 Github: https://github.com/zai-org/GLM-Image
14🔥5👍2🥰2
Media is too big
VIEW IN TELEGRAM
В этом году масштабируем ML-пилот и не сойдем с ума 💯

80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.

Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».

▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.

Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И ес

80% времени зачастую уходят не на обучение ML-модели, а на объяснение коллегам, почему она принесет профит. А еще на переписывание пайплайна, документации, настройку CI/CD — и все это на этапе пилота. Самое коварное — в статистике, ведь только 10-20% ML-пилотов доходят до прода.

Пока вы были на новогодних каникулах, Selectel вместе с экспертами из «Контура» и «Точка Банка» разобрались, какие ML-проекты достойны релиза. Про экономику ML-проектов и реальные кейсы масштабирования смотрите в новом выпуске подкаста «Сегодня на ретро».

▶️ Что еще интересного есть в Selectel?
Если вы давно хотите развивать ML-проекты, но вам не хватает опыта, посмотрите и другие выпуски «Сегодня на ретро». В них Selectel делится реальными кейсами и бенчмарками успешных ML-моделей для разных бизнес-сегментов.

Selectel не первый год помогает компаниям разворачивать надежную IT-инфраструктуру для AI-решений. И если вы готовы масштабировать пилоты, присмотритесь к мощностям Selectel.

Реклама. АО "Селектел". erid:2W5zFJr9UdW
🤣3🔥2👍1
DeepTutor: AI-ассистент для персонализированного обучения и исследований 🎓🤖

Команда исследует, как агентный ИИ может помогать студентам и исследователям на каждом этапе:
от чтения материалов до практики, идей и управления знаниями.

DeepTutor объединяет: исследование, разбор теории, генерацию заданий и систему заметок в один инструмент, который понимает контекст твоего обучения.

Что умеет DeepTutor

- 📚 Smart Document Q&A
Заливаешь учебники, статьи, технические доки—
получаешь развёрнутые ответы с корректными цитатами.

- 🎨 Визуализация и объяснения
Сложные темы превращаются в понятные схемы
и интерактивные страницы, адаптированные под твой темп.

- 🎯 Генератор практики
Создаёт тесты по твоим материалам —
и даже может имитировать стиль реальных экзаменов.

- 🔬 Исследования и идеи
Помогает с научной работой, отчётами, брейнштормом
и может параллельно вести несколько исследовательских тем.

🔗 Open Source
: https://github.com/HKUDS/DeepTutor
🔥8❤‍🔥32👍2
🚀 AgentCPM-Explore - open-source агент на 4B, который реально тащит GAIA и сложные реальные задачи

OpenBMB выкатили AgentCPM-Explore - модель всего на 4B параметров, но по агентным метрикам она выглядит как зверь.

SOTA среди 4B агент-моделей
По агентным бенчмаркам модель:
- обгоняет всех на своём масштабе
- превосходит часть 8B моделей
- и даже конкурирует с некоторыми 30B+ и closed-source LLM

🧠 Deep Research как у “исследователя”
Модель умеет:
- длинные цепочки рассуждений (long-horizon reasoning)
- 100+ ходов автономного диалога
- проверять себя через несколько источников (cross-validation)
- делать самокоррекцию как человек
- динамически менять стратегию и использовать инструменты

То есть это уже не “чатбот”, а мини-исследователь, который реально может вести задачу до конца.

🔓 Открыт не только модельный вес - открыт весь стек
И это самое жирное: OpenBMB выкладывают не “голую модель”, а весь pipeline агентности:

- AgentRL - асинхронный RL-фреймворк для обучения агентов
- AgentDock - безопасная песочница инструментов (tool sandbox)
- AgentToLeaP - платформа оценки tool-learning (в один клик)
- полный датапайплайн и воспроизводимые training workflows

Это полноценная open-source платформа для создания агентов, где можно реально учиться, экспериментировать и собирать своих автономных “ресёрчеров”.

Кто уже тестил GAIA на своих агентах ?

🤗 Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore
🔗 GitHub: https://github.com/OpenBMB/AgentCPM
7👍6🔥3
DeepSeek - глобальная доля рынка (по данным, собранным Microsoft) 🌍

Одно из самых неожиданных событий 2025 года - резкий взлёт DeepSeek.

Главная причина успеха:
открытость + доступная цена.

DeepSeek быстро закрепился там, где западные AI-сервисы:
- ограничены санкциями/блокировками
- дорогие
- плохо адаптированы под местные языки и условия

Это отлично показывает важный инсайт:
глобальное внедрение ИИ зависит не только от качества маркетинга, а от доступности, цены и контекста (экономика, язык, политика).

Где рост самый сильный:
- Китай
- Россия
- Иран
- Куба
- Беларусь
- многие страны Африки

Особенно выделяется Африка:
по оценкам, использование DeepSeek там в 2-4 раза выше, чем в других регионах.

ИИ-рынок начинает делиться не на “лучшие модели”,
а на “те, которыми реально можно пользоваться”.

https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
13👍5🔥3😁1
🐸 Microsoft зарелизили FrogMini - модель для дебага и исправления багов.

Что важно:
- Базируется на Qwen3-14B
- Показала SOTA на SWE-Bench Verified: Pass@1 = 45.0% 🔥

Как обучали:
- Использовали SFT (supervised fine-tuning)
- Данные - успешные debugging trajectories (пошаговые цепочки исправлений)
- Эти траектории сгенерированы сильной teacher-моделью (например, **Claude**)
- Источники багов - микс реальных и синтетических датасетов

Идея простая, но мощная:
учим модель не просто писать код, а думать как дебаггер - шаг за шагом.

📌 Теперь Qwen3-14B + правильные траектории = реальный tool для SWE задач.

https://huggingface.co/microsoft/FrogMini-14B-2510
👍94
Проблема многих LLM-курсов — они заканчиваются там, где начинается реальная работа: на этапе деплоя.

Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый и практический курс «LLM-инженер». Его фокус — на выводе проектов в прод, а не только на работе в ipynb.

В программе:
- Дообучение:
fine-tuning, PEFT, LoRA / QLoRA, RLHF.
- Инструменты: LangChain, LangGraph, векторные базы.
- Архитектуры: RAG-системы, информационный поиск, защита LLM.
- Продвинутые темы: мультиагентные решения и ассистенты.

Курс запускается уже третьим потоком, а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.

▪️Старт 26 января | 25 недель с каникулами;
▪️Диплом о профессиональной переподготовке;
▪️Повышение стоимости — 20 января

Используй промокод NOW10 и получи скидку 10 000 руб


Подробности и регистрация
🤣94😱2👍1😐1
⚡️ Хочешь обучить свой TTS с нуля и добавлять туда фичи “как тебе надо”, а не как у всех?

Команда LEMAS (IDEA) открыла датасет, на котором они обучали LEMAS и это, похоже, крупнейший open-source мультиязычный speech-датасет вообще.

Что внутри:
- 150K+ часов аудио
- 10 языков
- word-level timestamps (разметка до уровня слов)
- качество и масштаб уровня “обычно такое держат под замком”

По сути - они выложили то, что большинство компаний никогда бы не отдали публично.

И да, из этого “сокровища” уже родились 2 мощные модели:

LEMAS-TTS
- Zero-shot мультиязычный синтез речи (озвучка без дообучения на конкретного спикера)

LEMAS-Edit
- редактирование речи как текста: меняешь слова — меняется аудио

Если ты работаешь со Speech AI, TTS, ASR, voice agents — это must-have релиз.

Project: https://lemas-project.github.io/LEMAS-Project/
Dataset & model released: https://huggingface.co/LEMAS-Project
14🔥8👍5
Forwarded from Machinelearning
🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).


🟡Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.


🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.



@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥4
📸 Релиз Qwen-Image-2512!

Дообученная версию Qwen-Image-2512 - для тех, кто хочет максимальный реализм и production-grade качество.

Что улучшили:
Резче детали, больше фотореализма
Оптимизация под азиатскую эстетику лиц
Круче генерация текста + картинки
Отлично дружит с LoRA и кастомными пайплайнами

Рекомендуемые параметры:
CFG: 1.0 - 4.0
Steps: 10 - 50
Sampler: Euler / Simple
Model Shift: 1.0 - 8.0

🤖 Model: https://modelscope.cn/models/wikeeyang/Real-Qwen-Image-V2
7👍4
🧠 Исследователь OpenAI:

«Recursive Self-Improvement уже за углом»

Но если честно - это звучит скорее как спекуляция.

Да, “за углом” может означать скорее на человеческом горизонте:
условно годы, а не десятилетия.
Но точно не “вот прямо сейчас”.

Настоящий RSI (recursive self-improvement) потребует другого уровня систем:

Чтобы ИИ реально улучшал сам себя, нужны:
- полностью автономные ML-исследователи
- автономные инженеры, которые пишут, тестируют и разворачивают код
- устойчивый цикл улучшения моделей без человека
- качество и проверяемость результатов на каждом шаге

А мы пока явно не там.

Сегодняшние модели:
помогают исследователям
ускоряют эксперименты
пишут код
но не способны полностью заменить исследовательскую команду и довести улучшение до продакшена автономно

Так что RSI действительно может быть близко…
но “за углом” - это ещё не значит “завтра”.
9👍3🔥2