Data Secrets | Карьера – Telegram
Data Secrets | Карьера
6.56K subscribers
1.14K photos
53 videos
1 file
1.28K links
Вакансии Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Прислать вакансию/сотрудничество: @veron_28

https://telega.in/c/data_secrets_career
Download Telegram
Каждый раз перед сном ты думаешь только о ней… о плохо обучающейся модели
39
Подборка открытых вакансий 🔵

Senior Data Engineer в Яндекс
Гибрид / Офис в Москве, Санкт-Петербурге


Middle Data Scientist в Ozon
Офис

Senior Data Scientist в Lamoda
Офис в Москве

Middle/Senior Data Analyst в Wildberries
Удаленно

Middle Research Engineer в Сбер
Офис в Москве

Middle/Senior Data Analyst в Авиасейлс
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Ян Лекун считает, что если вы обучаетесь на специальности по компьютерным наукам и проходите лишь минимально обязательные курсы математики, то в какой-то момент рискуете обнаружить, что не способны адаптироваться к технологическим сдвигам.

«Моя рекомендация заключалась в том, чтобы не избегать CS как специальности, а в том, чтобы пройти максимальное количество курсов по основам (например, курсы по математике, физике), а не посещать курсы по модной технологии du jour (прим. по трендовой технологии)», – сказал он Business Insider.


Не только Лекун, но и Джеффри Хинтон высказался об образовании:
«Некоторые навыки, которые всегда будут ценными, такие как знание математики, немного статистики и теории вероятностей, знание таких вещей, как линейная алгебра, которое всегда будет ценно», – недавно сказал Хинтон Business Insider. «Это не знание, которое исчезнет».


Чтобы оставаться востребованным специалистом, необходимо не только знать базу, но и следить за трендами. Без этого даже прочный фундамент может оказаться недостаточным.
45
Middle Data Engineer в Korona Tech
Удаленно / Гибрид / Офис в Новосибирске

Предстоит: проектирование и построение DWH; подготовка витрин данных для отчетности, бизнеса и дата аналитики; организация пайплайнов сбора данных от бэкендов и других хранилищ… Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Hugging Face недавно выпустили Smol Training Playbook

Это бесплатный и очень подробный практический гайд по тренировке и оптимизации LLM. Полноценные уроки на примере обучения SmolLM3 и других моделей, с подробным объяснением отладки, выбора данных и оптимальных методик, которые редко описываются в статьях.

Вам покажут реальные решения и ошибки при создании современных моделей, а не просто теорию. Курс хорошо подойдет тем, кто хочет углубиться в сферу LLM, особенно в условиях когда задача специфична, а вычислительных ресурсов мало.
25
Middle/Senior DS-инженер в Авито
Удаленно / Гибрид / Офис в Москве

Предстоит: обеспечивать полный цикл разработки ML-моделей: от постановки задач до AB-экспериментов и поддержки модели в продакшене; разрабатывать и улучшать модели CTR и CR; разрабатывать и поддерживать сервисы на Python… Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Опыт прохождения собеседования на должность Data Engineer: взгляд рекрутера

Рекрутер собеседовал сотни инженеров и выработал свою позицию в найме сотрудников. В своей статье он поделился наблюдениями и опытом:

Рекрутер заметил, что многие кандидаты пропускают этап «о себе». Вместо того чтобы рассказать, кто он, бывает так, что будущие сотрудники сразу переходят к обсуждению инструментов или других технических деталей. Очень важно не забыть представиться, рассказать о том, как долго и кем вы работали до этого.

Также рекрутер рассказал об этапе совместного рисования. То есть во время беседы кандидат, обсуждая решение или проблему, визуализирует свои мысли: накидывает план архитектуры или рисует диаграммы. Очень полезный этап тем, что это совместное упражнение показывает умение рассуждать, а также является явным сигналом способности сотрудничать с другими.

Если затрагивать технический раунд, то не всегда получается спросить всё, что хочется. Поэтому рекрутер руководствуется тремя основными сценариями:

1️⃣Простой ETL-стек данных
Разбор базового кейса: «у вас есть небольшой e-commerce, и вам нужно построить первую инфраструктуру для данных». Кандидату предлагают описать, какие компоненты он выберет для извлечения, обработки и хранения данных. При этом ожидается, что кандидат будет задавать уточняющие вопросы, делать обоснованные предположения и объяснять свои архитектурные решения в зависимости от требований.

2️⃣Пайплайны со стримингом
После базового ETL-кейса сценарий усложняется: данные должны поступать в систему с низкой задержкой (например, 1–5 минут). Это заставляет кандидата переработать архитектуру под стриминг-подход, рассмотреть Pub/Sub-системы, обсудить семантику доставки (например, at-least-once vs exactly-once) и обработку поздних событий.

3️⃣Аналитика для внешних клиентов
В этом сценарии кандидату предлагается построить архитектуру, которая обслуживает внешних пользователей – например, предоставляет предварительно рассчитанную аналитику приложению. Здесь оценивается способность проектировать архитектуры, которые балансируют свежесть данных, производительность и масштабируемость (включая кэширование, OLTP vs OLAP, частичные агрегации и т.д.).

Напоследок рекрутер дал свои рекомендации по подготовке к собеседованию: детально изучите 3–4 ключевые технологии, практикуйтесь объяснять сложные вещи простым языком, больше работайте с практикой и учитесь на ошибках.
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Data Analyst в Сбер
Офис в Москве

Предстоит: автоматизация и обеспечение расчёта ключевых показателей системы Антифрод; обновление и актуализация методологии по расчёту различных метрик, связанных с фродмониторингом; участие в проектах со смежными DS/DE- командами… Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Сколько получают Research Scientist в Nvidia?

На основе данных о зарплатах более чем 1000 сотрудников базовая зарплата ресерчера в Nvidia составляет 202–269 тысяч долларов в год. Различные бонусы добавляют к зарплате около 77–144 тысяч долларов.

Для специалистов с опытом работы 1–3 года средняя зарплата варьируется от 219 до 332 тысяч долларов. Для менее опытных сотрудников — 199–319 тысяч долларов.
17
Подборка открытых вакансий 🔵

Middle ML-разработчик в VK team
Гибрид / Офис в Москве


Senior Data Science в МТС
Офис в Москве

Data Scientist в Beeline
Удаленно

Middle Data Engineer в 2GIS
Удаленно

Data Scientist в Мегафон

Data Engineer в Wildberries
Удаленно / Гибрид / Офис в Москве
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️

Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.

На праздниках самое время проверить себя и определить точки роста.

Ссылку на тест оставили здесь ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
Борьба за будущие таланты: как биг-тек борется не только за уже устоявшихся специалистов, но и отбирает студентов, подающих надежды

Наверняка вы заметили, что в этом году заголовки газет были полны новостями о переходе ведущих исследователей из одной компании в другую или о больших зарплатах за позиции ведущих инженеров.
Несмотря на такую жесткую конкуренцию, биг-тек не забыл и про молодых специалистов, тратя огромные суммы на их привлечение.

Например, у Anthropic есть AI Safety Security Fellows Program – программа, предназначенная для ускорения исследований безопасности ИИ и развития исследовательских талантов. Участники получат еженедельную стипендию в размере $3850 + $15 000 в месяц на вычислительные мощности (кстати, заявку на программу можно подать до 12 января).

У OpenAI тоже есть своя программа, в которой предлагают уже $18 300. Об этой программе мы писали здесь.

Meta предлагает уже несколько стажировок, а про Google все и так наслышаны с их множеством программ помощи молодым ученым: базовая зарплата варьируется от $113 000 до $150 000 в год.
7
Какие практики используют компании для поддержания продуктивности команд?

Мы пару раз уже говорили о подходах в Google и Amazon, в этот раз рассмотрим такие компании, как Nvidia и LinkedIn.

У Nvidia не такая оригинальная задумка, как Toilet Training, но довольно эффективная – One Team. В компании не ярко выражена бюрократия и нет особых привилегий у руководства. Всё это сделано для того, чтобы ускорить принятие решений и снизить «задержки» между уровнями управления. Помимо этого есть ещё одна практика – «++». Сотрудники Nvidia при рассылках или обсуждениях стараются привлекать большое количество людей к обсуждению тасок. Такое решение не только позволяет взглянуть на задачи под разным углом, но и позволяет держать сотрудников в контексте текущих целей компании.

У LinkedIn тоже есть своя практика повышения продуктивности – Side Project Time. Хоть похожий подход известен у Google, ребята из LinkedIn его немного переделали: инженеры получают возможность работать над собственными проектами в рабочее время, если предварительно обоснуют пользу для компании. Такая практика разгружает голову, даёт пространство для творчества, а иногда разработчики придумывают что-то неожиданное.
8
Звучит также, как «у меня свой ИИ-стартап», где под капотом апишки различных моделей 😮‍💨
Please open Telegram to view this post
VIEW IN TELEGRAM
41
Подборка открытых вакансий 🔵

Data Scientist в 2GIS
Удаленно / Гибрид / Офис в Москве, Санкт-Петербурге, Новосибирске


Middle Data Scientist/Ai Engineer в Beeline
Удаленно / Гибрид / Офис в Москве


Стажер Data Science в Сбер
Офис в Новосибирске

Senior Data Analyst в Золотое Яблоко
Удаленно / Гибрид / Офис в Екатеринбурге

Data analyst в Магнит Tech
Удаленно / Гибрид / Офис в Москве, Краснодаре

Junior+/Middle Data Scientist в Самолет
Удаленно / Гибрид / Офис в Москве

Data Engineer в Korona Tech
Удаленно / Гибрид / Офис в Санкт-Петербурге

Senior/Middle ML researcher в VK Team
Гибрид / Офис в Москве
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Разбор вопроса с собеседования в Netflix

Ты обучил новую модель рекомендаций.
Как ты убедишься, что она готова заменить старую?»

Простой и очевидный ответ: сравнить метрики на валидации и тесте. Но такой ответ не полный и не совсем верный.

Проблема в том, что даже если модель отлично показала себя локально, мгновенно заменять ею предыдущую модель – часто плохая идея.

Потому что воспроизвести реальные продакшен-условия офлайн крайне сложно, а высокие accuracy на val/test ещё не гарантируют успеха в проде.

Более надёжная стратегия, да и в целом стандартная практика – тестировать модель прямо в проде. Вот какие могут быть подходы:

🔷 A/B-тестирование
Входящие запросы распределяются неравномерно между legacy-моделью и candidate-моделью. Например:
90% трафика → старая модель
10% трафика → новая модель
Так ограничивается влияние candidate-модели и снижаются риски.

🔷 Canary-тестирование
В A/B-тестировании трафик распределяется случайно между всеми пользователями. В canary-подходе новая модель сначала показывается небольшой группе пользователей, а затем постепенно раскатывается дальше, если метрики хорошие.

🔷 Interleaved-тестирование
В этом подходе ответы смешиваются. Например, в рекомендательной системе Netflix: часть рекомендаций приходит от legacy-модели, а другая часть – от candidate-модели. При этом логируются downstream-метрики:
- CTR,
- «неполезная рекомендация»
- и другие – для последующего сравнения.

🔷 Shadow-тестирование
Все предыдущие методы влияют на пользователей (частично или полностью). Shadow-тестирование позволяет прогнать новую модель в продакшене без влияния на пользовательский опыт.

Как это работает: candidate-модель разворачивается рядом с legacy-моделью, затем получает те же запросы, но её ответы не показываются пользователям, а результаты просто логируются для анализа.

Зачем деплоить, а не тестировать офлайн?
Потому что продакшн окружение почти невозможно точно воспроизвести локально, а userfacing метрики измерить проблематично: клики, вовлечённость, конверсии – всё это недоступно.
Please open Telegram to view this post
VIEW IN TELEGRAM
26
Middle/Senior ML-разработчик в Яндекс
Гибрид / Офис в Москве

Предстоит: погрузиться в анализ графов, связывающих миллиарды идентификаторов устройств и пользователей; улучшать качество склейки, чтобы обеспечить максимально полную и точную картину поведения каждого пользователя Яндекса… Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Спрос на ИИ-специалистов в России превысил предложение

За 25-й год спрос на специалистов в сфере ИИ вырос на 18% по сравнению с годом ранее. Общее же число вакансий достигло около 200 тысяч (в прошлом году таких вакансий было всего 170 тысяч).

Количество предложений о работе для сотрудников с ИИ-навыками растет в стране на 5% быстрее, чем число соответсвующих кадров, последних насчитывается от 100 до 120 тысяч.
20
Команда Data Secrets поздравляет всех с наступающим Новым годом ❤️

2025 год подошёл к концу, самое время немного порефлексировать и подвести итоги, поэтому наша команда подготовила для вас небольшой квиз «Кто ты из мира ИИ?».

Спасибо, что остаётесь с нами, и не забывайте делиться результатами в чате.
Please open Telegram to view this post
VIEW IN TELEGRAM
16
Пока все еще отходят от тазиков с оливье, пора бы подвести итоги 2025 года и освежить в памяти технологические события за год:

Январь. DeepSeek-R1: хоть демонстрация этой модели была еще в ноябре 2024, полноценный выпуск состоялся в январе, поэтому R1 можно считать главным событием месяца. Полный разбор модели делали здесь.

Февраль. OpenAI официально анонсировала инструмент Deep Research, способный заниматься сбором, анализом и синтезом научной информации из интернета. Об этом кстати тоже делали разбор.

Март. Google представил Gemini 2.5 Pro с native reasoning, усиленной мультимодальностью и огромным контекстом (> 1 млн токенов).

Апрел. Первые полностью автономные научные системы: The AI Scientist-v2 – агентная система, способная формировать гипотезы, проводить эксперименты и создавать научные статьи.

Май. Google DeepMind представил AlphaEvolve – модель, использующую LLM-подходы для кодинга. Наш полный разбор можете почитать здесь.

Июнь. Mistral выпустили ризонинг-модель Magistral. По словам исследователей ответы можно получать в 10 раз быстрее, чем у конкурентов, если воспользоваться режимом Flash Answers.

Июль порадовал выходом Grok-4 с улучшенным voice mode. Новая модель хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью.

В августе Anthropic релизнули Claude Opus 4.1 с приростов на SWE-bench в 2%. Но это не самый громкий релиз: OpenAI выпустили опенсорс модели.

Сентябрь. Qwen3-Max-Preview с триллионом параметров. По бенчмаркам бьет их предыдущего лидера Qwen3-235B-A22B-2507, а также Claude Opus 4 Non-Thinking и DeepSeek V3.1.

Октябрь знаменует созданием аналога Википедии, а именно Grokipedia. По словам Маска Grokipedia такая же непредвзятая, как и Grok 😏

Ноябрь. Kimi K2 Thinking, который успели окрестить как DeepSeek moment 2.0. Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp.

Декабрь. OpenAI выпустила GPT-5.2 – модель с расширенными reasoning-возможностями, агентными инструментами и улучшенным восприятием визуальных данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
8