Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Anonymous Quiz
18%
Модель станет находить больше случаев мошенничества, но будет чаще ошибаться
6%
Точность предсказания (Accuracy) всегда увеличивается при повышении порога
6%
Веса модели изменятся, так как порог влияет на процесс обучения
70%
Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников
❤3
Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.
Какое изменение, скорее всего, поможет стабилизировать процесс?
Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
4%
Увеличить количество эпох обучения
55%
Уменьшить скорость обучения
14%
Отключить все слои Dropout
27%
Перейти от оптимизатора Adam к обычному SGD без моментов
❤1
Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.
Какой вид регуляризации вам следует использовать?
Какой вид регуляризации вам следует использовать?
Anonymous Quiz
58%
L1-регуляризация
28%
L2-регуляризация
9%
Dropout
5%
Batch Normalization
В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Anonymous Quiz
27%
Macro-averaging
47%
Weighted-averaging
10%
Simple-averaging
15%
Micro-averaging
❤3
Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Anonymous Quiz
18%
LN вычисляет статистику по всему обучающему набору данных заранее, что ускоряет инференс
58%
LN вычисляет среднее и дисперсию для каждого отдельного примера по всем его признакам
17%
LN использует L1-регуляризацию внутри слоя, что автоматически обнуляет бесполезные веса
7%
BN математически несовместима с механизмом Self-Attention
👍2❤1
При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?
Anonymous Quiz
28%
Она делает модель устойчивой к очень большим размерам батча (batch size)
8%
Она позволяет избежать использования механизма Dropout в глубоких слоях
10%
Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения
54%
Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей
❤1
В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?
Anonymous Quiz
9%
Необходимость ручного подбора начальной скорости обучения (learning rate)
16%
Проблему исчезающего градиента в рекуррентных слоях
10%
Медленную сходимость на разреженных (sparse) данных
65%
Некорректное взаимодействие адаптивного шага обучения и штрафа за веса (weight decay)
Вы обучаете ViT на маленьком наборе данных (например, 10 000 картинок) и замечаете, что он безнадежно проигрывает старой доброй ResNet той же сложности. Однако на огромном датасете ViT внезапно обходит CNN.
В чем основная причина такой динамики?
В чем основная причина такой динамики?
Anonymous Quiz
2%
ViT требует использования только ч/б изображений для стабильности
73%
Из-за отсутствия жесткого индук. смещения ViT обладает большей гибкостью, но требует больших данных
5%
Сверточные слои физически не могут работать с большими разрешениями
19%
В ViT используется L1-регуляризация, которая стирает мелкие детали на малых выборках
👍4
Представьте, что у вас есть 10 миллионов фотографий из интернета, но нет ни одной метки. Вы используете SimCLR, чтобы научить модель извлекать полезные признаки.
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?
Anonymous Quiz
5%
Mean Squared Error
70%
InfoNCE (Contrastive Loss / Cross-Entropy на парах)
9%
Huber Loss
16%
Binary Cross-Entropy на уровне пикселей
❤2👍2
Вы разворачиваете модель уровня Llama 3 или GPT-4 для высоконагруженного чат-бота. При генерации длинных ответов VRAM заканчивается очень быстро, а скорость генерации падает.
Для решения этой проблемы используется KV Caching. Что именно она делает?
Для решения этой проблемы используется KV Caching. Что именно она делает?
Anonymous Quiz
9%
Она сохраняет веса всей модели в оперативной памяти CPU, чтобы освободить GPU
77%
Она сохраняет вычисленные векторы Key и Value для всех предыдущих токенов
12%
Она сжимает контекст в один короткий вектор с помощью автоэнкодера
2%
Она предсказывает сразу 5 следующих слов вместо одного, используя теорию вероятностей
👍3
«Этот манёвр будет стоить нам 51 год...»
— или потерю шанса на
19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
— или потерю шанса на
Senior-позицию из-за «поплывшей» математики на тех-интервью. В Data Science теоремы и алгоритмы — это фундамент, без которого не построить ни одну серьёзную модель.19 января в Proglib Academy вырастут цены. Успейте забрать курсы по
Math, ML и AI по старой стоимости:— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Подготовиться к собеседованиям
⚠️ Стоимость изменится 19 января
😁1
Вы хотите дообучить модель Llama 3 на своих личных переписках, чтобы она имитировала ваш стиль общения. Вместо того чтобы менять все веса огромных матриц модели, вы решаете использовать LoRA.
В чем заключается этот метод?
В чем заключается этот метод?
Anonymous Quiz
22%
Он просто отключает (freeze) 99% слоев, оставляя только последний
54%
Он представляет изменение весов в виде произведения двух матриц низкого ранга
3%
Он переводит все веса модели в 1-битный формат
21%
Он использует внешнюю базу данных (RAG) вместо изменения внутренних весов
👍2
Вы строите корпоративного ассистента, который должен отвечать на вопросы сотрудников по внутренним документам (которые модель никогда не видела при обучении). Вместо Fine-tuning, вы внедряете архитектуру RAG.
Как именно работает этот механизм?
Как именно работает этот механизм?
Anonymous Quiz
84%
Система ищет текст в БД, добавляет его в контекст модели, и только после этого генерируется ответ
4%
Модель генерирует ответ на основе своей памяти, а потом проверяет его правильность в Google
9%
Модель использует слой нейронов, который физически расширяется при добавлении новых документов
3%
Вопрос переводится на язык SQL, чтобы модель могла напрямую менять веса своих слоев
👍1
ViT разбивает изображение на патчи и вычисляет внимание между патчами. Если мы увеличим разрешение фото в 2 раза, количество вычислений вырастет в 16 раз.
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?
Anonymous Quiz
6%
Он удаляет 75% пикселей перед обработкой
74%
Он вычисляет внимание внутри локальных окон, которые сдвигаются на каждом слое
9%
Он заменяет механизм внимания на обычные свертки 3×3
11%
Он использует только один слой внимания в самом конце сети
❤2👍2
В отличие от GAN, где 2 сети соревнуются, диффузионные модели обучаются на процессе постепенного разрушения данных.
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?
Anonymous Quiz
2%
Предсказать, какой объект изображен на картинке
93%
Предсказать и «вычесть» шум, который был добавлен к изображению на текущем этапе
4%
Сжать изображение в 10 раз для экономии памяти
2%
Перевести текстовый запрос пользователя в набор пикселей
👍1