Опыт прохождения собеседования на должность Data Engineer: взгляд рекрутера
Рекрутер собеседовал сотни инженеров и выработал свою позицию в найме сотрудников. В своей статье он поделился наблюдениями и опытом:
Рекрутер заметил, что многие кандидаты пропускают этап «о себе». Вместо того чтобы рассказать, кто он, бывает так, что будущие сотрудники сразу переходят к обсуждению инструментов или других технических деталей. Очень важно не забыть представиться, рассказать о том, как долго и кем вы работали до этого.
Также рекрутер рассказал об этапе совместного рисования. То есть во время беседы кандидат, обсуждая решение или проблему, визуализирует свои мысли: накидывает план архитектуры или рисует диаграммы. Очень полезный этап тем, что это совместное упражнение показывает умение рассуждать, а также является явным сигналом способности сотрудничать с другими.
Если затрагивать технический раунд, то не всегда получается спросить всё, что хочется. Поэтому рекрутер руководствуется тремя основными сценариями:
1️⃣ Простой ETL-стек данных
Разбор базового кейса: «у вас есть небольшой e-commerce, и вам нужно построить первую инфраструктуру для данных». Кандидату предлагают описать, какие компоненты он выберет для извлечения, обработки и хранения данных. При этом ожидается, что кандидат будет задавать уточняющие вопросы, делать обоснованные предположения и объяснять свои архитектурные решения в зависимости от требований.
2️⃣ Пайплайны со стримингом
После базового ETL-кейса сценарий усложняется: данные должны поступать в систему с низкой задержкой (например, 1–5 минут). Это заставляет кандидата переработать архитектуру под стриминг-подход, рассмотреть Pub/Sub-системы, обсудить семантику доставки (например, at-least-once vs exactly-once) и обработку поздних событий.
3️⃣ Аналитика для внешних клиентов
В этом сценарии кандидату предлагается построить архитектуру, которая обслуживает внешних пользователей – например, предоставляет предварительно рассчитанную аналитику приложению. Здесь оценивается способность проектировать архитектуры, которые балансируют свежесть данных, производительность и масштабируемость (включая кэширование, OLTP vs OLAP, частичные агрегации и т.д.).
Напоследок рекрутер дал свои рекомендации по подготовке к собеседованию: детально изучите 3–4 ключевые технологии, практикуйтесь объяснять сложные вещи простым языком, больше работайте с практикой и учитесь на ошибках.
Рекрутер собеседовал сотни инженеров и выработал свою позицию в найме сотрудников. В своей статье он поделился наблюдениями и опытом:
Рекрутер заметил, что многие кандидаты пропускают этап «о себе». Вместо того чтобы рассказать, кто он, бывает так, что будущие сотрудники сразу переходят к обсуждению инструментов или других технических деталей. Очень важно не забыть представиться, рассказать о том, как долго и кем вы работали до этого.
Также рекрутер рассказал об этапе совместного рисования. То есть во время беседы кандидат, обсуждая решение или проблему, визуализирует свои мысли: накидывает план архитектуры или рисует диаграммы. Очень полезный этап тем, что это совместное упражнение показывает умение рассуждать, а также является явным сигналом способности сотрудничать с другими.
Если затрагивать технический раунд, то не всегда получается спросить всё, что хочется. Поэтому рекрутер руководствуется тремя основными сценариями:
Разбор базового кейса: «у вас есть небольшой e-commerce, и вам нужно построить первую инфраструктуру для данных». Кандидату предлагают описать, какие компоненты он выберет для извлечения, обработки и хранения данных. При этом ожидается, что кандидат будет задавать уточняющие вопросы, делать обоснованные предположения и объяснять свои архитектурные решения в зависимости от требований.
После базового ETL-кейса сценарий усложняется: данные должны поступать в систему с низкой задержкой (например, 1–5 минут). Это заставляет кандидата переработать архитектуру под стриминг-подход, рассмотреть Pub/Sub-системы, обсудить семантику доставки (например, at-least-once vs exactly-once) и обработку поздних событий.
В этом сценарии кандидату предлагается построить архитектуру, которая обслуживает внешних пользователей – например, предоставляет предварительно рассчитанную аналитику приложению. Здесь оценивается способность проектировать архитектуры, которые балансируют свежесть данных, производительность и масштабируемость (включая кэширование, OLTP vs OLAP, частичные агрегации и т.д.).
Напоследок рекрутер дал свои рекомендации по подготовке к собеседованию: детально изучите 3–4 ключевые технологии, практикуйтесь объяснять сложные вещи простым языком, больше работайте с практикой и учитесь на ошибках.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Data Analyst в Сбер
Офис в Москве
Предстоит: автоматизация и обеспечение расчёта ключевых показателей системы Антифрод; обновление и актуализация методологии по расчёту различных метрик, связанных с фродмониторингом; участие в проектах со смежными DS/DE- командами… Узнать подробнее🔵
Офис в Москве
Предстоит: автоматизация и обеспечение расчёта ключевых показателей системы Антифрод; обновление и актуализация методологии по расчёту различных метрик, связанных с фродмониторингом; участие в проектах со смежными DS/DE- командами… Узнать подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Сколько получают Research Scientist в Nvidia?
На основе данных о зарплатах более чем 1000 сотрудников базовая зарплата ресерчера в Nvidia составляет 202–269 тысяч долларов в год. Различные бонусы добавляют к зарплате около 77–144 тысяч долларов.
Для специалистов с опытом работы 1–3 года средняя зарплата варьируется от 219 до 332 тысяч долларов. Для менее опытных сотрудников — 199–319 тысяч долларов.
На основе данных о зарплатах более чем 1000 сотрудников базовая зарплата ресерчера в Nvidia составляет 202–269 тысяч долларов в год. Различные бонусы добавляют к зарплате около 77–144 тысяч долларов.
Для специалистов с опытом работы 1–3 года средняя зарплата варьируется от 219 до 332 тысяч долларов. Для менее опытных сотрудников — 199–319 тысяч долларов.
❤17
Подборка открытых вакансий 🔵
Middle ML-разработчик в VK team
Гибрид / Офис в Москве
Senior Data Science в МТС
Офис в Москве
Data Scientist в Beeline
Удаленно
Middle Data Engineer в 2GIS
Удаленно
Data Scientist в Мегафон
Data Engineer в Wildberries
Удаленно / Гибрид / Офис в Москве
Middle ML-разработчик в VK team
Гибрид / Офис в Москве
Senior Data Science в МТС
Офис в Москве
Data Scientist в Beeline
Удаленно
Middle Data Engineer в 2GIS
Удаленно
Data Scientist в Мегафон
Data Engineer в Wildberries
Удаленно / Гибрид / Офис в Москве
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь⚡️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Борьба за будущие таланты: как биг-тек борется не только за уже устоявшихся специалистов, но и отбирает студентов, подающих надежды
Наверняка вы заметили, что в этом году заголовки газет были полны новостями о переходе ведущих исследователей из одной компании в другую или о больших зарплатах за позиции ведущих инженеров.
Несмотря на такую жесткую конкуренцию, биг-тек не забыл и про молодых специалистов, тратя огромные суммы на их привлечение.
Например, у Anthropic есть AI Safety Security Fellows Program – программа, предназначенная для ускорения исследований безопасности ИИ и развития исследовательских талантов. Участники получат еженедельную стипендию в размере $3850 + $15 000 в месяц на вычислительные мощности (кстати, заявку на программу можно подать до 12 января).
У OpenAI тоже есть своя программа, в которой предлагают уже $18 300. Об этой программе мы писали здесь.
Meta предлагает уже несколько стажировок, а про Google все и так наслышаны с их множеством программ помощи молодым ученым: базовая зарплата варьируется от $113 000 до $150 000 в год.
Наверняка вы заметили, что в этом году заголовки газет были полны новостями о переходе ведущих исследователей из одной компании в другую или о больших зарплатах за позиции ведущих инженеров.
Несмотря на такую жесткую конкуренцию, биг-тек не забыл и про молодых специалистов, тратя огромные суммы на их привлечение.
Например, у Anthropic есть AI Safety Security Fellows Program – программа, предназначенная для ускорения исследований безопасности ИИ и развития исследовательских талантов. Участники получат еженедельную стипендию в размере $3850 + $15 000 в месяц на вычислительные мощности (кстати, заявку на программу можно подать до 12 января).
У OpenAI тоже есть своя программа, в которой предлагают уже $18 300. Об этой программе мы писали здесь.
Meta предлагает уже несколько стажировок, а про Google все и так наслышаны с их множеством программ помощи молодым ученым: базовая зарплата варьируется от $113 000 до $150 000 в год.
❤7
Какие практики используют компании для поддержания продуктивности команд?
Мы пару раз уже говорили о подходах в Google и Amazon, в этот раз рассмотрим такие компании, как Nvidia и LinkedIn.
У Nvidia не такая оригинальная задумка, как Toilet Training, но довольно эффективная – One Team. В компании не ярко выражена бюрократия и нет особых привилегий у руководства. Всё это сделано для того, чтобы ускорить принятие решений и снизить «задержки» между уровнями управления. Помимо этого есть ещё одна практика – «++». Сотрудники Nvidia при рассылках или обсуждениях стараются привлекать большое количество людей к обсуждению тасок. Такое решение не только позволяет взглянуть на задачи под разным углом, но и позволяет держать сотрудников в контексте текущих целей компании.
У LinkedIn тоже есть своя практика повышения продуктивности – Side Project Time. Хоть похожий подход известен у Google, ребята из LinkedIn его немного переделали: инженеры получают возможность работать над собственными проектами в рабочее время, если предварительно обоснуют пользу для компании. Такая практика разгружает голову, даёт пространство для творчества, а иногда разработчики придумывают что-то неожиданное.
Мы пару раз уже говорили о подходах в Google и Amazon, в этот раз рассмотрим такие компании, как Nvidia и LinkedIn.
У Nvidia не такая оригинальная задумка, как Toilet Training, но довольно эффективная – One Team. В компании не ярко выражена бюрократия и нет особых привилегий у руководства. Всё это сделано для того, чтобы ускорить принятие решений и снизить «задержки» между уровнями управления. Помимо этого есть ещё одна практика – «++». Сотрудники Nvidia при рассылках или обсуждениях стараются привлекать большое количество людей к обсуждению тасок. Такое решение не только позволяет взглянуть на задачи под разным углом, но и позволяет держать сотрудников в контексте текущих целей компании.
У LinkedIn тоже есть своя практика повышения продуктивности – Side Project Time. Хоть похожий подход известен у Google, ребята из LinkedIn его немного переделали: инженеры получают возможность работать над собственными проектами в рабочее время, если предварительно обоснуют пользу для компании. Такая практика разгружает голову, даёт пространство для творчества, а иногда разработчики придумывают что-то неожиданное.
❤8
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42
Подборка открытых вакансий 🔵
Data Scientist в 2GIS
Удаленно / Гибрид / Офис в Москве, Санкт-Петербурге, Новосибирске
Middle Data Scientist/Ai Engineer в Beeline
Удаленно / Гибрид / Офис в Москве
Стажер Data Science в Сбер
Офис в Новосибирске
Senior Data Analyst в Золотое Яблоко
Удаленно / Гибрид / Офис в Екатеринбурге
Data analyst в Магнит Tech
Удаленно / Гибрид / Офис в Москве, Краснодаре
Junior+/Middle Data Scientist в Самолет
Удаленно / Гибрид / Офис в Москве
Data Engineer в Korona Tech
Удаленно / Гибрид / Офис в Санкт-Петербурге
Senior/Middle ML researcher в VK Team
Гибрид / Офис в Москве
Data Scientist в 2GIS
Удаленно / Гибрид / Офис в Москве, Санкт-Петербурге, Новосибирске
Middle Data Scientist/Ai Engineer в Beeline
Удаленно / Гибрид / Офис в Москве
Стажер Data Science в Сбер
Офис в Новосибирске
Senior Data Analyst в Золотое Яблоко
Удаленно / Гибрид / Офис в Екатеринбурге
Data analyst в Магнит Tech
Удаленно / Гибрид / Офис в Москве, Краснодаре
Junior+/Middle Data Scientist в Самолет
Удаленно / Гибрид / Офис в Москве
Data Engineer в Korona Tech
Удаленно / Гибрид / Офис в Санкт-Петербурге
Senior/Middle ML researcher в VK Team
Гибрид / Офис в Москве
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Разбор вопроса с собеседования в Netflix
➖ Ты обучил новую модель рекомендаций.
Как ты убедишься, что она готова заменить старую?»
Простой и очевидный ответ: сравнить метрики на валидации и тесте. Но такой ответ не полный и не совсем верный.
Проблема в том, что даже если модель отлично показала себя локально, мгновенно заменять ею предыдущую модель – часто плохая идея.
Потому что воспроизвести реальные продакшен-условия офлайн крайне сложно, а высокие accuracy на val/test ещё не гарантируют успеха в проде.
Более надёжная стратегия, да и в целом стандартная практика – тестировать модель прямо в проде. Вот какие могут быть подходы:
🔷 A/B-тестирование
Входящие запросы распределяются неравномерно между legacy-моделью и candidate-моделью. Например:
90% трафика → старая модель
10% трафика → новая модель
Так ограничивается влияние candidate-модели и снижаются риски.
🔷 Canary-тестирование
В A/B-тестировании трафик распределяется случайно между всеми пользователями. В canary-подходе новая модель сначала показывается небольшой группе пользователей, а затем постепенно раскатывается дальше, если метрики хорошие.
🔷 Interleaved-тестирование
В этом подходе ответы смешиваются. Например, в рекомендательной системе Netflix: часть рекомендаций приходит от legacy-модели, а другая часть – от candidate-модели. При этом логируются downstream-метрики:
- CTR,
- «неполезная рекомендация»
- и другие – для последующего сравнения.
🔷 Shadow-тестирование
Все предыдущие методы влияют на пользователей (частично или полностью). Shadow-тестирование позволяет прогнать новую модель в продакшене без влияния на пользовательский опыт.
Как это работает: candidate-модель разворачивается рядом с legacy-моделью, затем получает те же запросы, но её ответы не показываются пользователям, а результаты просто логируются для анализа.
Зачем деплоить, а не тестировать офлайн?
Потому что продакшн окружение почти невозможно точно воспроизвести локально, а userfacing метрики измерить проблематично: клики, вовлечённость, конверсии – всё это недоступно.
Как ты убедишься, что она готова заменить старую?»
Простой и очевидный ответ: сравнить метрики на валидации и тесте. Но такой ответ не полный и не совсем верный.
Проблема в том, что даже если модель отлично показала себя локально, мгновенно заменять ею предыдущую модель – часто плохая идея.
Потому что воспроизвести реальные продакшен-условия офлайн крайне сложно, а высокие accuracy на val/test ещё не гарантируют успеха в проде.
Более надёжная стратегия, да и в целом стандартная практика – тестировать модель прямо в проде. Вот какие могут быть подходы:
Входящие запросы распределяются неравномерно между legacy-моделью и candidate-моделью. Например:
90% трафика → старая модель
10% трафика → новая модель
Так ограничивается влияние candidate-модели и снижаются риски.
В A/B-тестировании трафик распределяется случайно между всеми пользователями. В canary-подходе новая модель сначала показывается небольшой группе пользователей, а затем постепенно раскатывается дальше, если метрики хорошие.
В этом подходе ответы смешиваются. Например, в рекомендательной системе Netflix: часть рекомендаций приходит от legacy-модели, а другая часть – от candidate-модели. При этом логируются downstream-метрики:
- CTR,
- «неполезная рекомендация»
- и другие – для последующего сравнения.
Все предыдущие методы влияют на пользователей (частично или полностью). Shadow-тестирование позволяет прогнать новую модель в продакшене без влияния на пользовательский опыт.
Как это работает: candidate-модель разворачивается рядом с legacy-моделью, затем получает те же запросы, но её ответы не показываются пользователям, а результаты просто логируются для анализа.
Зачем деплоить, а не тестировать офлайн?
Потому что продакшн окружение почти невозможно точно воспроизвести локально, а userfacing метрики измерить проблематично: клики, вовлечённость, конверсии – всё это недоступно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤28
Middle/Senior ML-разработчик в Яндекс
Гибрид / Офис в Москве
Предстоит: погрузиться в анализ графов, связывающих миллиарды идентификаторов устройств и пользователей; улучшать качество склейки, чтобы обеспечить максимально полную и точную картину поведения каждого пользователя Яндекса… Узнать подробнее🔵
Гибрид / Офис в Москве
Предстоит: погрузиться в анализ графов, связывающих миллиарды идентификаторов устройств и пользователей; улучшать качество склейки, чтобы обеспечить максимально полную и точную картину поведения каждого пользователя Яндекса… Узнать подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
Спрос на ИИ-специалистов в России превысил предложение
За 25-й год спрос на специалистов в сфере ИИ вырос на 18% по сравнению с годом ранее. Общее же число вакансий достигло около 200 тысяч (в прошлом году таких вакансий было всего 170 тысяч).
Количество предложений о работе для сотрудников с ИИ-навыками растет в стране на 5% быстрее, чем число соответсвующих кадров, последних насчитывается от 100 до 120 тысяч.
За 25-й год спрос на специалистов в сфере ИИ вырос на 18% по сравнению с годом ранее. Общее же число вакансий достигло около 200 тысяч (в прошлом году таких вакансий было всего 170 тысяч).
Количество предложений о работе для сотрудников с ИИ-навыками растет в стране на 5% быстрее, чем число соответсвующих кадров, последних насчитывается от 100 до 120 тысяч.
❤22
Пока все еще отходят от тазиков с оливье, пора бы подвести итоги 2025 года и освежить в памяти технологические события за год:
Январь. DeepSeek-R1: хоть демонстрация этой модели была еще в ноябре 2024, полноценный выпуск состоялся в январе, поэтому R1 можно считать главным событием месяца. Полный разбор модели делали здесь.
Февраль. OpenAI официально анонсировала инструмент Deep Research, способный заниматься сбором, анализом и синтезом научной информации из интернета. Об этом кстати тоже делали разбор.
Март. Google представил Gemini 2.5 Pro с native reasoning, усиленной мультимодальностью и огромным контекстом (> 1 млн токенов).
Апрел. Первые полностью автономные научные системы: The AI Scientist-v2 – агентная система, способная формировать гипотезы, проводить эксперименты и создавать научные статьи.
Май. Google DeepMind представил AlphaEvolve – модель, использующую LLM-подходы для кодинга. Наш полный разбор можете почитать здесь.
Июнь. Mistral выпустили ризонинг-модель Magistral. По словам исследователей ответы можно получать в 10 раз быстрее, чем у конкурентов, если воспользоваться режимом Flash Answers.
Июль порадовал выходом Grok-4 с улучшенным voice mode. Новая модель хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью.
В августе Anthropic релизнули Claude Opus 4.1 с приростов на SWE-bench в 2%. Но это не самый громкий релиз: OpenAI выпустили опенсорс модели.
Сентябрь. Qwen3-Max-Preview с триллионом параметров. По бенчмаркам бьет их предыдущего лидера Qwen3-235B-A22B-2507, а также Claude Opus 4 Non-Thinking и DeepSeek V3.1.
Октябрь знаменует созданием аналога Википедии, а именно Grokipedia. По словам Маска Grokipedia такая же непредвзятая, как и Grok😏
Ноябрь. Kimi K2 Thinking, который успели окрестить как DeepSeek moment 2.0. Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp.
Декабрь. OpenAI выпустила GPT-5.2 – модель с расширенными reasoning-возможностями, агентными инструментами и улучшенным восприятием визуальных данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15
Что нас ждет в 2026 году? Прогноз от Стэнфордского университета
⭐ Разумеется, первое, о чем был прогноз – это AGI. А точнее, о том, что он не будет достигнут. Тем не менее мы продолжим видеть огромные инвестиции в ИИ-компании, особенно в центры обработки данных (ЦОД). По прогнозу одного из аналитиков, центры будут размещаться по всему миру, но есть и опасения: в какой-то момент не получится привязать все деньги мира к вливанию средств в ЦОД, что очень похоже на спекулятивный пузырь.
⭐ Уже другой проффесор считает, что в 2026 году все больше компаний будут говорить, что ИИ не продемонстрировал повышения производительности, за исключением таких областей, как колл-центры или разработка. Но мы также увидим новый пользовательский ИИ, помимо простого чата или браузера. Возможно, самих продуктов не увидим, но превью будет продемонстрировано. Этот же профессор считает, что в этом году фокус сместится на модели поменьше и качественнее, а также на подготовку более качественных датасетов.
⭐ Уже другой профессор Стэнфорда надеется увидеть в новом году смещение фокуса на “черный ящик”. По его словам, исследователи уже уделяют все больше внимания не инференсу, а внутренней архитектуре. Возможно, нас ждет все больше исследований, направленных на этот вопрос.
⭐ Немного печальный прогноз от доцента и старшего сотрудника: мы можем не достичь всего того, что надеемся переложить на ИИ, особенно учитывая, что от ИИ иногда может быть вред и экологические издержки. Старший научный сотрудник ждет реализма в отношении ИИ.
⭐ Некоторые ученые Стэнфорда полагают, что мы наконец-то увидим методы или приборы, которые будут отслеживать пользу/вред от использования ИИ. Возможно, это будет панель со статистикой, которая будет меняться не через годы, а раз в месяц. Так руководители смогут отслеживать реальную пользу от ИИ. По крайней мере на это надеется группа исследователей.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8