Data Secrets | Карьера – Telegram
Data Secrets | Карьера
6.61K subscribers
1.14K photos
53 videos
1 file
1.28K links
Вакансии Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Прислать вакансию/сотрудничество: @veron_28

https://telega.in/c/data_secrets_career
Download Telegram
Когда большая часть новогоднего стола съедена, а от вида оливье становится дурно... наступает то самое время отвлечься и немного попрактиковаться в ML!

Идеальный вариант заняться практикой – это принять участие в хакатоне! Поэтому сегодня мы собрали для вас пост-новогоднюю подборку соревнований, которые идут прямо сейчас:

Konwinski Prize
Цель команды: стать первыми, кто выбьет 90% на бенчмарке SWE-bench. Неожиданно, но организатором является сам Энди Конвински - сооснователь Perplexity и Databricks. Если вдруг станет инетерсно, то вот здесь мы подробно рассказали об этом соревновании.
Призовой фонд 1 225 000$
Крайний срок подачи решения: 6 марта.

Forecasting Sticker Sales
Цель: спрогнозировать продажи наклеек в разных странах. Соревнование проводит Kaggle, но на денежные призы рассчитывать не приходится. Сами же организаторы говорят про свое соревнование так: "В Kaggle мы относимся к наклейкам серьезно!".
Призовой фонд выбор подарков от Kaggle
Крайняя дата подачи решения: 1 февраля.

Autoimmune Disease Machine Learning Challenge
Цель: определить генные маркеры раковых областей по фотографии кишечника. Ученые из Клеточной обсерватории Клармана надеются, что такой такой конкурс поможет врачам лучше выявлять злокачественные опухоли.
Призовой фонд 50 000$
Крайняя дата подачи заявки: 31 января.

Kuyesera AI Disaster Damage and Displacement Challenge
Цель: разработать модель по определению местоположения домов, поврежденных циклоном Фредди. Особенность этого соревнования в том, что победители соревнования смогут внедрить свое решение в реальную систему при поддержке Амазон. Ходят слухи, что победителей возьмут в штат AWS, но это неточно.
Призовой фонд 12 500$
Крайний срок подачи заявления: 1 февраля.

Santa 2024 - The Perplexity Permutation Puzzle
Цель: переставить слова в тексте так, чтобы получить связный и логичный текст. Хакатон уже в самом разгаре, но вы еще можете испытать удачу и поучаствовать в нем. Для тех, кто еще думает, подробнее о соревновании мы рассказывали здесь.
Призовой фонд 50 000$.
Крайний срок подачи решения: 25 января.

Для самых юных наших подписчиков скоро начнется соревнование от Академии ИИ «По следам животных». Важное условие: чтобы принять участие в этом хакатоне, вам должно быть от 14 до 18 лет!
Please open Telegram to view this post
VIEW IN TELEGRAM
11
Вместо молотка новая модель SOTA

За мем спасибо нашему
чату
20
Подборка статей по Random Forest (вдохновились новогодними елочками):

➡️ XGBoost and Random Forest with Bayesian Optimisation
Статья о том, как объединить эти два подхода в решении задач с байесовской оптимизацией. Статья полезна тем, что раскрывает так плюсы, так и минусы каждого алгоритма.

➡️ WildWood: a new Random Forest algorithm
Это новый ускоренный алгоритм случайного леса. По словам автора статьи, у WildWood прогнозы точнее, и работает метод гораздо быстрее, за счет особого агрегирования прогнозов с помощью "context
tree weighting".

➡️ Applying the Random Forest Algorithm to Image Classification
Этот мини-урок мы предлагаем изучить тем, кто только начинает вкатываться в CV. Довольно просто рассказывается об использовании случайного леса для классификации денежных банкнот.
Please open Telegram to view this post
VIEW IN TELEGRAM
16
Нашли тут интересное интервью бывшего сотрудника GitHub

Омоджу Миллер работала в GitHub на должности старшего MLE и поделилась в интервью о своем опыте работы в такой крупной компании:

➡️ Над чем Вы работали в GitHub?
Я создавала рекомендательные системы, которые помогали принимать решения разработчикам на основе их вклада в опенсорс.


➡️ Что было самым сложным в Вашей работе? Что больше всего нравилось?
Самое сложное — набраться терпения. Компания долго принимала решения насчет каждого продукта, а я была эгоцентрична и у меня было много идей и задумок, которые хотелось реализовать поскорее. К тому же, наша команда была первой ML-командой в GitHub, поэтому компании необходимо было чуть больше времени на внедрение.


➡️ Что Вам нравилось?
Больше всего мне нравился набор данных и возможность улучшать процесс разработки ПО. Набор данных был уникальным, так как практически все разработки ведутся на GitHub. Я чувствовала себя антропологом, который использует понимание стиля кодирования людей для ускорения общего прогресса.


➡️ Какой технологический стек использовался?
Для пайплайнов использовались SQL и Presto. В качестве редактора я использовала Atom, а если писала на Python, то использовался Jupyter, так как там очень удобно записывать гипотезы и предположения. Для развертывания — Kubeflow.


➡️ Вы работали над рядом проектов, как этот опыт сказался на понимании ML и будущего образовании?
Самое важное, что я поняла, — это то, что технология — это инструмент для людей. Если долго оставаться в рядах академиков, то можно легко увлечься технологиями ради технологий. Для ML-инженера это опасно. Важна не сама модель, а то, как ее можно использовать в пользу людей.


➡️ Порекомендовали бы Вы начинающим инженерам получить докторскую степень?
Если эта докторская степень будет чисто теоретической, то нет. Роль MLE не в том, чтобы раздвигать границы знаний, а в том, чтобы раздвинуть границы возможностей людей. То есть мы должны рассматривать перспективу влияния нашей технологии на ближайший год-два, в то время как научные исследования могут начать воздействовать на мир только лет через 10 или более.
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Для тех, кто уже устал от новогодних праздников и хочет начать вкатываться в рабочие ритмы, предлагаем посетить онлайн-мероприятие AWS Meetup: Enhancing Data Streaming Efficiency at Grab with AutoMQ.

12 января опытные инженеры данных из Amazon поделятся своими инсайтами в области потоковой передачи и расскажут о своей новой разработке.

Для тех, кто готов лично посетить митап в Сингапуре, оставляем ссылку на регистрацию здесь, а для всех остальных желающих ссылка на трансляцию будет тут.
8
Энтузиаст создал целый кладезь полезных материалов по LLM. На этом сайте есть буквально все:

Видео-уроки по файтюнингу, RAG, трансформерам и прочим нужным вещам;
Бесплатные курсы от топовых университетов;
Открытые наборы данных для обучения моделей;
Материалы по развертыванию LLM и многое другое.

Ссылку на сокровище оставляем здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
47
Учить ML теорию vs Забывать ML теорию.
186
Какие тенденции в ИИ ожидают в 2025 году?

Если вы думаете о смене деятельности или, наоборот, только начинаете свой путь в области ИИ, предлагаем взглянуть на прогноз трендов 2025 года:

🔵 Основным трендом 2025 года станут мультимодальные системы. Если раньше фокус был на создании алгоритмов ИИ, способных решать конкретные задачи, то в 2025 стоит ждать ажиотажа вокруг мультимодальных моделей.

🔵 Сотрудники Meta предсказывают появление новых архитектур, которые изначально будут мультимодальными, и что в дальнейшем модели, обученные на таких архитектурах, приведут к новым вариантам использования ИИ.

🔵 Исполнительный директор PyTorch Foundation Мэтт Уайт предполагает, что модели будут становиться всё меньше, но гораздо эффективнее. Он надеется, что появятся инновации, способные уменьшить не только затраты на обучение, но и размер моделей, сохраняя при этом высокую производительность.
Please open Telegram to view this post
VIEW IN TELEGRAM
17
Чего ждать на собеседование на позицию Data Analyst?

Что посеешь, то пожмешь - девиз всех дата аналитиков, ведь хорошие данные — залог хорошей модели. Поэтому от аналитика данных требуют отличные знания в области обработки и очистки данных. Коротко о том, что вы можете ждать на собеседовании по анализу данных:

➡️ На интервью у вас могут спросить, с какими типами данных вы работали. Здесь важно рассказать не только об опыте работы со сложными данными, но и рассказать об опыте работы с огромными массивами данных. Рекрутеры обращают внимание на ваше умение работать с большими и сложными датасетами, поэтому, если у вас есть такой опыт, не стесняйтесь делиться им.

➡️ Кроме того, рекрутерам важно узнать о вашем опыте обработке и очистке данных. Подробно расскажите о трудностях, с которыми вы сталкивались, и о том, как вы их решали.

➡️Помимо глубоких знаний статистики и методов обработки, не забудьте упомянуть, как вы презентуете результаты своей работы людям, далеким от технической части. Здесь особенно проверяются ваши софт-скиллы и умение визуализировать результаты исследований.
Please open Telegram to view this post
VIEW IN TELEGRAM
18
Тише едешь - дальше будешь...

На просторах интернета мы нашли забавную игру по изучению SQL, авторы которой вдохновились нашумевшим сериалом "Игра в кальмара".

Предупреждаем: уровней немного - всего 9 штук, но чем выше уровень, тем выше сложность. Только сильный в SQL игрок сможет дойти до конца и забрать весь выигрыш. Дерзайте!
116
Нашли сайт, похожий на LeetCode, но только по Data Engineering 🚀

Всё то же самое: задания разбиты по уровням сложности, а выполнять задачи можно на PySpark, SQL или Python.

Кстати, похожий сайт, но только с ML-задачами, мы уже кидали. Для тех, кто пропустил, ссылку на пост дублируем тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
39
#VK: Руководитель команды Data Science в AI VK
#Офис / #Гибрид / #Удаленно

➡️ Кому подойдет:
Команда создаёт самую большую рекомендательную систему в России, выпускает приложения под Android и iOS, разрабатывает редактор видео и помогает интересным блогерам найти новую аудиторию, а пользователям — интересные публикации.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
8
Собрали небольшую подборку того, что можно посмотреть по DL и ML. Это, конечно, не лекции Андрея Карпаты, но тоже довольно полезно!

🟦 Reinforcement Learning from Human Feedback
В этом докладе научный сотрудник Hugging Face рассказывает об основах обучения с подкреплением на основе обратной связи и о том, как эта технология используется в современных ML-инструментах.

🟦 Practical Deep Learning for Coders
Авторы короткого видео-курса надеются, что после изучения материала вы сможете самостоятельно применять методы ML и развертывать модели. Также авторы упоминают, что для понимания их лекций необязательно глубоко знать математику: они сами объяснят базовые понятия.

🟦 AI & Machine Learning
Целый плейлист с лекциями по основам машинного обучения от Артема Кирсанова. Очень подробный материал со всеми основами машинного обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
10
#Kaspersky: Data Engineer (DWH)
#Офис

➡️ Кому подойдет:
Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
4
На просторах интернета обнаружили статью, в которой кандидат делится своим опытом прохождения собеседований в Microsoft на должность Data Scientist:

1 этап
На тот момент компания искала специалиста, у которого был опыт в создании алгоритмов обнаружения мошенничества, поэтому на телефонном интервью основной упор уделялся именно этому опыту.


2 этап
На втором собеседовании рекрутеры задавали вопрос о том: как я проверяю данные; расспрашивали о сложных ситуациях, с которыми я столкнулся; и как мне приходилось их решать.


3 этап
Третий этап был сосредоточен на технических знаниях: как работать с несбалансированной выборкой, какие основные показатели связаны с обнаружением мошенничества, как выбрать модель и какие ограничения могут возникнуть для бизнеса.


4 этап
На первом этапе кодирования рекрутеры смотрели на то, как я обрабатываю категориальные переменные, как управляю размерностью при её увеличении и какие методы использовал. Ещё меня спросили, работает ли PCA с прямым кодированием.


5 этап
На втором этапе по кодингу мне необходимо было в режиме реального времени столкнуться с текущими проблемами, которые решает Microsoft: нужно было определить, является ли вход в систему незаконным, а также подумать о том, как можно использовать меченые данные для разметки новых.


6 этап
На финальном этапе менеджер оценивал моё желание заниматься подобной задачей и мою способность к креативности. Также расспрашивали о том, какие вопросы я бы задал, если бы ко мне пришёл заказчик с такой задачей, и попросили описать примерную постановку проекта.


Маленький спойлер: кандидата так и не взяли на работу, его отмели на финальном этапе. Я не плачу, просто жиза в глаз попала...
Please open Telegram to view this post
VIEW IN TELEGRAM
27
#Мегафон: Data Analyst (middle)
#Офис

➡️ Кому подойдет:
Мегафон анализирует большие данные, чтобы лучше понимать каждого своего абонента, поэтому компания нуждается в хорошем дата-аналитике.

🚀Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Вот чем на самом деле занимаются Data-специалисты
42
➡️ Авито
DS-инженер в команду Data Monetization
Офис, Гибрид, Удаленно

➡️ МТС
Старший инженер данных
Офис

➡️ Иннотех
Data Scientist (ДАДМ)
Офис

➡️ Wildberries
Data Scientist в товарные рекомендации
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Чем бы заняться в январе?

Для тех, кто задавался подобным вопросом, мы нашли решение! 18 и 29 января пройдут два интересных мероприятия:

⚡️ Moscow Python Meetup
МТС Финтех 29 января проведёт митап, на котором опытные разработчики расскажут как решают рабочие задачи с использованием Python. Особое внимание заслуживает доклад NLP нейросети в защите данных: опыт Makves DCAP.
Когда: 29 января.
Где: Москва или офлайн.

⚡️ Data-ёлка — ODS в гостях у ecom.tech
Вы, наверное, уже слышали, что скоро состоится Data Ёлка! А если нет, то рассказываем: на этом мероприятии ecom.tech расскажут о своих достижениях за 2024 год в различных областях: робототехника, MLOps, LLM и даже медицине.
Когда: 18 января.
Где: Санкт-Петербург или офлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
7
#ЦИАН: Team Lead Data Scientist
#Офис / #Гибрид / #Удаленно

➡️ Кому подойдет:
Циан ищет Team Lead Data Scientist - в команду оптимизации прайсинга. Главная задача команды — оптимизация ценообразования платных продуктов Циан (размещение и продвижение объявлений).

🚀Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Опытный MLE-специалист в своем блоге делится советами по трудоустройству на должность MLE, но есть нюанс: автор считает, что трудоустройство — это своего рода вступление в брак. Поэтому он рассказал пару советов, чтобы удачно "жениться":

Если у вас достаточно сильное резюме, то вам назначат пару встреч с HR, но для того чтобы компания предложила руку и сердце в виде оффера, ваши знания и опыт должны соответствовать плану работы компании, а ваша личность — культуре команды. В противном случае женитьба будет недолгой и болезненной.


🔷 Что нужно, чтобы получить оффер?
Прежде всего, вам нужна мотивация. Звучит странно, но так оно и есть. На собеседованиях (и на работе) необходимы знания как в программировании, так и в ML. Иногда нужна сила воли, чтобы охватить весь этот обширный пласт знаний в ML. Читайте больше литературы, общайтесь с людьми, ищите креативные решения.


🔷 Кто такой успешный кандидат?
Как правило, успешный кандидат — это хороший кодер с прочной базой ML, который уже реализовал крутые и сложные ML-проекты, а также в курсе всех последних новостей в области. Как сказал один из знакомых разработчиков: хорошие MLE — единороги.


🔷 Как подготовиться к этапу по программированию?
Этап кодирования можно условно разделить на три типа: LeetCode (решение задач разного уровня сложности за определенное время), написание простой модели ML (например, регрессии или алгоритма k-средних) и ООП (в основном задачи на ООП дают там, где должность подразумевает выполнение задач с интенсивной бэкенд-разработкой). Важно! Даже если вы успешно решите задачу, это еще не значит, что вас примут; необходимо будет защитить решение и объяснить ключевые моменты.


🔷 На что еще смотрит компания на этапе по программированию?
На этапе проектирования систем ML рекрутеры смотрят на ваше умение мыслить о том, как вы бы спроектировали масштабируемую систему ML для текущей бизнес-задачи: сбор данных, понимание целей задачи, выбор модели, развертывание и многое другое. Стоит помнить, что некоторые компании в большей степени делают упор на "ML", а другие на "E", поэтому не забывайте, что MLE — это не только про модельки.


🔷 О чем еще стоит помнить при подготовке к собеседованию?
Я шучу с друзьями, что управление проектами — это единственный настоящий навык, стоящий за подготовкой к собеседованию ML. Найти время уже сложно — требуются преданность, мотивация и дисциплина, чтобы последовательно продвигаться к своим целям, будь то изучение современного уровня техники или расширение базовых знаний, которые вы накопили за эти годы.
Please open Telegram to view this post
VIEW IN TELEGRAM
21