NEW BOT Телеграм, страница

Библиотека собеса по Data Science | вопросы с собеседований

При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?

Anonymous Quiz

29%

Она делает модель устойчивой к очень большим размерам батча (batch size)

Она позволяет избежать использования механизма Dropout в глубоких слоях

10%

Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения

54%

Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей

❤1

147 voters743 views17:42

Библиотека собеса по Data Science | вопросы с собеседований

В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?

Anonymous Quiz

Необходимость ручного подбора начальной скорости обучения (learning rate)

16%

Проблему исчезающего градиента в рекуррентных слоях

10%

Медленную сходимость на разреженных (sparse) данных

66%

Некорректное взаимодействие адаптивного шага обучения и штрафа за веса (weight decay)

180 voters694 views18:39

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете ViT на маленьком наборе данных (например, 10 000 картинок) и замечаете, что он безнадежно проигрывает старой доброй ResNet той же сложности. Однако на огромном датасете ViT внезапно обходит CNN.

В чем основная причина такой динамики?

Anonymous Quiz

ViT требует использования только ч/б изображений для стабильности

74%

Из-за отсутствия жесткого индук. смещения ViT обладает большей гибкостью, но требует больших данных

Сверточные слои физически не могут работать с большими разрешениями

19%

В ViT используется L1-регуляризация, которая стирает мелкие детали на малых выборках

👍4

172 voters679 views18:15

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что у вас есть 10 миллионов фотографий из интернета, но нет ни одной метки. Вы используете SimCLR, чтобы научить модель извлекать полезные признаки.

Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?

Anonymous Quiz

Mean Squared Error

71%

InfoNCE (Contrastive Loss / Cross-Entropy на парах)

Huber Loss

15%

Binary Cross-Entropy на уровне пикселей

❤2👍2

165 voters618 views11:18

Библиотека собеса по Data Science | вопросы с собеседований

Вы разворачиваете модель уровня Llama 3 или GPT-4 для высоконагруженного чат-бота. При генерации длинных ответов VRAM заканчивается очень быстро, а скорость генерации падает.

Для решения этой проблемы используется KV Caching. Что именно она делает?

Anonymous Quiz

Она сохраняет веса всей модели в оперативной памяти CPU, чтобы освободить GPU

77%

Она сохраняет вычисленные векторы Key и Value для всех предыдущих токенов

12%

Она сжимает контекст в один короткий вектор с помощью автоэнкодера

Она предсказывает сразу 5 следующих слов вместо одного, используя теорию вероятностей

👍3

174 voters578 views19:12

Библиотека собеса по Data Science | вопросы с собеседований

«Этот манёвр будет стоить нам 51 год...»

— или потерю шанса на Senior-позицию из-за «поплывшей» математики на тех-интервью. В Data Science теоремы и алгоритмы — это фундамент, без которого не построить ни одну серьёзную модель.

19 января в Proglib Academy вырастут цены. Успейте забрать курсы по Math, ML и AI по старой стоимости:

— Разработка ИИ-агентов
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования

Подготовиться к собеседованиям

⚠️ Стоимость изменится 19 января

😁1

581 views15:13

Библиотека собеса по Data Science | вопросы с собеседований

Вы хотите дообучить модель Llama 3 на своих личных переписках, чтобы она имитировала ваш стиль общения. Вместо того чтобы менять все веса огромных матриц модели, вы решаете использовать LoRA.

В чем заключается этот метод?

Anonymous Quiz

22%

Он просто отключает (freeze) 99% слоев, оставляя только последний

54%

Он представляет изменение весов в виде произведения двух матриц низкого ранга

Он переводит все веса модели в 1-битный формат

21%

Он использует внешнюю базу данных (RAG) вместо изменения внутренних весов

👍2

188 voters594 views17:23

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите корпоративного ассистента, который должен отвечать на вопросы сотрудников по внутренним документам (которые модель никогда не видела при обучении). Вместо Fine-tuning, вы внедряете архитектуру RAG.

Как именно работает этот механизм?

Anonymous Quiz

83%

Система ищет текст в БД, добавляет его в контекст модели, и только после этого генерируется ответ

Модель генерирует ответ на основе своей памяти, а потом проверяет его правильность в Google

10%

Модель использует слой нейронов, который физически расширяется при добавлении новых документов

Вопрос переводится на язык SQL, чтобы модель могла напрямую менять веса своих слоев

👍1

181 voters539 views18:30

Библиотека собеса по Data Science | вопросы с собеседований

ViT разбивает изображение на патчи и вычисляет внимание между патчами. Если мы увеличим разрешение фото в 2 раза, количество вычислений вырастет в 16 раз.

Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?

Anonymous Quiz

Он удаляет 75% пикселей перед обработкой

75%

Он вычисляет внимание внутри локальных окон, которые сдвигаются на каждом слое

10%

Он заменяет механизм внимания на обычные свертки 3×3

Он использует только один слой внимания в самом конце сети

❤2👍2

131 voters504 views18:51

Библиотека собеса по Data Science | вопросы с собеседований

В отличие от GAN, где 2 сети соревнуются, диффузионные модели обучаются на процессе постепенного разрушения данных.

В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?

Anonymous Quiz

Предсказать, какой объект изображен на картинке

93%

Предсказать и «вычесть» шум, который был добавлен к изображению на текущем этапе

Сжать изображение в 10 раз для экономии памяти

Перевести текстовый запрос пользователя в набор пикселей

👍2

138 voters434 views18:56

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

316 views09:06

Библиотека собеса по Data Science | вопросы с собеседований

RAG или Fine-tuning: что отвечать на собеседовании?

Вопросы по архитектуре LLM-систем становятся стандартом. 23 января в 19:00 на открытом уроке к курсу «Разработка ИИ агентов» разберём матчасть: как работают Retrieval-Augmented Generation и дообучение моделей в реальных проектах.

Ведущий — Игорь Стурейко, тимлид в «Газпроме» и AI-архитектор. В своём видеосообщении Игорь делится опытом построения сложных ML-решений и рассказывает о программе подготовки специалистов по агентам.

Ключевые концепции:

— разница между параметрической и внешней памятью модели;
— использование FAISS и Chroma для хранения эмбеддингов;
— пайплайны обработки документов с помощью LangChain.

📅 Когда: 23.01 в 19:00 МСК

Узнать подробности

❤1

335 views09:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы тестируете систему комп. зрения для беспилотного авто Тесты показали, что можно изменить изображение знака «STOP» так, что человек не заметит разницы, но нейросеть с 99% классифицирует его как «Ограничение скорости».

Как называется этот тип атаки?

Anonymous Quiz

Брутфорс-атака (Bruteforce)

53%

Инъекция данных (Data Poisoning)

Переполнение буфера (Buffer Overflow)

39%

Атака быстрым градиентным знаком (FGSM - Fast Gradient Sign Method)

76 voters194 views18:38

About

Blog

Apps

Platform