Когда большая часть новогоднего стола съедена, а от вида оливье становится дурно... наступает то самое время отвлечься и немного попрактиковаться в ML!
Идеальный вариант заняться практикой – это принять участие в хакатоне! Поэтому сегодня мы собрали для вас пост-новогоднюю подборку соревнований, которые идут прямо сейчас:
⭐ Konwinski Prize
Цель команды: стать первыми, кто выбьет 90% на бенчмарке SWE-bench. Неожиданно, но организатором является сам Энди Конвински - сооснователь Perplexity и Databricks. Если вдруг станет инетерсно, то вот здесь мы подробно рассказали об этом соревновании.
Призовой фонд 1 225 000$
Крайний срок подачи решения: 6 марта.
⭐ Forecasting Sticker Sales
Цель: спрогнозировать продажи наклеек в разных странах. Соревнование проводит Kaggle, но на денежные призы рассчитывать не приходится. Сами же организаторы говорят про свое соревнование так: "В Kaggle мы относимся к наклейкам серьезно!".
Призовой фонд выбор подарков от Kaggle
Крайняя дата подачи решения: 1 февраля.
⭐ Autoimmune Disease Machine Learning Challenge
Цель: определить генные маркеры раковых областей по фотографии кишечника. Ученые из Клеточной обсерватории Клармана надеются, что такой такой конкурс поможет врачам лучше выявлять злокачественные опухоли.
Призовой фонд 50 000$
Крайняя дата подачи заявки: 31 января.
⭐ Kuyesera AI Disaster Damage and Displacement Challenge
Цель: разработать модель по определению местоположения домов, поврежденных циклоном Фредди. Особенность этого соревнования в том, что победители соревнования смогут внедрить свое решение в реальную систему при поддержке Амазон. Ходят слухи, что победителей возьмут в штат AWS, но это неточно.
Призовой фонд 12 500$
Крайний срок подачи заявления: 1 февраля.
⭐ Santa 2024 - The Perplexity Permutation Puzzle
Цель: переставить слова в тексте так, чтобы получить связный и логичный текст. Хакатон уже в самом разгаре, но вы еще можете испытать удачу и поучаствовать в нем. Для тех, кто еще думает, подробнее о соревновании мы рассказывали здесь.
Призовой фонд 50 000$.
Крайний срок подачи решения: 25 января.
Для самых юных наших подписчиков скоро начнется соревнование от Академии ИИ «По следам животных». Важное условие: чтобы принять участие в этом хакатоне, вам должно быть от 14 до 18 лет!
Идеальный вариант заняться практикой – это принять участие в хакатоне! Поэтому сегодня мы собрали для вас пост-новогоднюю подборку соревнований, которые идут прямо сейчас:
Цель команды: стать первыми, кто выбьет 90% на бенчмарке SWE-bench. Неожиданно, но организатором является сам Энди Конвински - сооснователь Perplexity и Databricks. Если вдруг станет инетерсно, то вот здесь мы подробно рассказали об этом соревновании.
Призовой фонд 1 225 000$
Крайний срок подачи решения: 6 марта.
Цель: спрогнозировать продажи наклеек в разных странах. Соревнование проводит Kaggle, но на денежные призы рассчитывать не приходится. Сами же организаторы говорят про свое соревнование так: "В Kaggle мы относимся к наклейкам серьезно!".
Призовой фонд выбор подарков от Kaggle
Крайняя дата подачи решения: 1 февраля.
Цель: определить генные маркеры раковых областей по фотографии кишечника. Ученые из Клеточной обсерватории Клармана надеются, что такой такой конкурс поможет врачам лучше выявлять злокачественные опухоли.
Призовой фонд 50 000$
Крайняя дата подачи заявки: 31 января.
Цель: разработать модель по определению местоположения домов, поврежденных циклоном Фредди. Особенность этого соревнования в том, что победители соревнования смогут внедрить свое решение в реальную систему при поддержке Амазон. Ходят слухи, что победителей возьмут в штат AWS, но это неточно.
Призовой фонд 12 500$
Крайний срок подачи заявления: 1 февраля.
Цель: переставить слова в тексте так, чтобы получить связный и логичный текст. Хакатон уже в самом разгаре, но вы еще можете испытать удачу и поучаствовать в нем. Для тех, кто еще думает, подробнее о соревновании мы рассказывали здесь.
Призовой фонд 50 000$.
Крайний срок подачи решения: 25 января.
Для самых юных наших подписчиков скоро начнется соревнование от Академии ИИ «По следам животных». Важное условие: чтобы принять участие в этом хакатоне, вам должно быть от 14 до 18 лет!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11
Подборка статей по Random Forest (вдохновились новогодними елочками):
➡️ XGBoost and Random Forest with Bayesian Optimisation
Статья о том, как объединить эти два подхода в решении задач с байесовской оптимизацией. Статья полезна тем, что раскрывает так плюсы, так и минусы каждого алгоритма.
➡️ WildWood: a new Random Forest algorithm
Это новый ускоренный алгоритм случайного леса. По словам автора статьи, у WildWood прогнозы точнее, и работает метод гораздо быстрее, за счет особого агрегирования прогнозов с помощью "context
tree weighting".
➡️ Applying the Random Forest Algorithm to Image Classification
Этот мини-урок мы предлагаем изучить тем, кто только начинает вкатываться в CV. Довольно просто рассказывается об использовании случайного леса для классификации денежных банкнот.
Статья о том, как объединить эти два подхода в решении задач с байесовской оптимизацией. Статья полезна тем, что раскрывает так плюсы, так и минусы каждого алгоритма.
Это новый ускоренный алгоритм случайного леса. По словам автора статьи, у WildWood прогнозы точнее, и работает метод гораздо быстрее, за счет особого агрегирования прогнозов с помощью "context
tree weighting".
Этот мини-урок мы предлагаем изучить тем, кто только начинает вкатываться в CV. Довольно просто рассказывается об использовании случайного леса для классификации денежных банкнот.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16
Нашли тут интересное интервью бывшего сотрудника GitHub
Омоджу Миллер работала в GitHub на должности старшего MLE и поделилась в интервью о своем опыте работы в такой крупной компании:
➡️ Над чем Вы работали в GitHub?
➡️ Что было самым сложным в Вашей работе? Что больше всего нравилось?
➡️ Что Вам нравилось?
➡️ Какой технологический стек использовался?
➡️ Вы работали над рядом проектов, как этот опыт сказался на понимании ML и будущего образовании?
➡️ Порекомендовали бы Вы начинающим инженерам получить докторскую степень?
Омоджу Миллер работала в GitHub на должности старшего MLE и поделилась в интервью о своем опыте работы в такой крупной компании:
Я создавала рекомендательные системы, которые помогали принимать решения разработчикам на основе их вклада в опенсорс.
Самое сложное — набраться терпения. Компания долго принимала решения насчет каждого продукта, а я была эгоцентрична и у меня было много идей и задумок, которые хотелось реализовать поскорее. К тому же, наша команда была первой ML-командой в GitHub, поэтому компании необходимо было чуть больше времени на внедрение.
Больше всего мне нравился набор данных и возможность улучшать процесс разработки ПО. Набор данных был уникальным, так как практически все разработки ведутся на GitHub. Я чувствовала себя антропологом, который использует понимание стиля кодирования людей для ускорения общего прогресса.
Для пайплайнов использовались SQL и Presto. В качестве редактора я использовала Atom, а если писала на Python, то использовался Jupyter, так как там очень удобно записывать гипотезы и предположения. Для развертывания — Kubeflow.
Самое важное, что я поняла, — это то, что технология — это инструмент для людей. Если долго оставаться в рядах академиков, то можно легко увлечься технологиями ради технологий. Для ML-инженера это опасно. Важна не сама модель, а то, как ее можно использовать в пользу людей.
Если эта докторская степень будет чисто теоретической, то нет. Роль MLE не в том, чтобы раздвигать границы знаний, а в том, чтобы раздвинуть границы возможностей людей. То есть мы должны рассматривать перспективу влияния нашей технологии на ближайший год-два, в то время как научные исследования могут начать воздействовать на мир только лет через 10 или более.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31
Для тех, кто уже устал от новогодних праздников и хочет начать вкатываться в рабочие ритмы, предлагаем посетить онлайн-мероприятие AWS Meetup: Enhancing Data Streaming Efficiency at Grab with AutoMQ.
12 января опытные инженеры данных из Amazon поделятся своими инсайтами в области потоковой передачи и расскажут о своей новой разработке.
Для тех, кто готов лично посетить митап в Сингапуре, оставляем ссылку на регистрацию здесь, а для всех остальных желающих ссылка на трансляцию будет тут.
12 января опытные инженеры данных из Amazon поделятся своими инсайтами в области потоковой передачи и расскажут о своей новой разработке.
Для тех, кто готов лично посетить митап в Сингапуре, оставляем ссылку на регистрацию здесь, а для всех остальных желающих ссылка на трансляцию будет тут.
❤8
Энтузиаст создал целый кладезь полезных материалов по LLM. На этом сайте есть буквально все:
⭐ Видео-уроки по файтюнингу, RAG, трансформерам и прочим нужным вещам;
⭐ Бесплатные курсы от топовых университетов;
⭐ Открытые наборы данных для обучения моделей;
⭐ Материалы по развертыванию LLM и многое другое.
Ссылку на сокровище оставляем здесь.
Ссылку на сокровище оставляем здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47
Какие тенденции в ИИ ожидают в 2025 году?
Если вы думаете о смене деятельности или, наоборот, только начинаете свой путь в области ИИ, предлагаем взглянуть на прогноз трендов 2025 года:
🔵 Основным трендом 2025 года станут мультимодальные системы. Если раньше фокус был на создании алгоритмов ИИ, способных решать конкретные задачи, то в 2025 стоит ждать ажиотажа вокруг мультимодальных моделей.
🔵 Сотрудники Meta предсказывают появление новых архитектур, которые изначально будут мультимодальными, и что в дальнейшем модели, обученные на таких архитектурах, приведут к новым вариантам использования ИИ.
🔵 Исполнительный директор PyTorch Foundation Мэтт Уайт предполагает, что модели будут становиться всё меньше, но гораздо эффективнее. Он надеется, что появятся инновации, способные уменьшить не только затраты на обучение, но и размер моделей, сохраняя при этом высокую производительность.
Если вы думаете о смене деятельности или, наоборот, только начинаете свой путь в области ИИ, предлагаем взглянуть на прогноз трендов 2025 года:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17
Чего ждать на собеседование на позицию Data Analyst?
Что посеешь, то пожмешь - девиз всех дата аналитиков, ведь хорошие данные — залог хорошей модели. Поэтому от аналитика данных требуют отличные знания в области обработки и очистки данных. Коротко о том, что вы можете ждать на собеседовании по анализу данных:
➡️ На интервью у вас могут спросить, с какими типами данных вы работали. Здесь важно рассказать не только об опыте работы со сложными данными, но и рассказать об опыте работы с огромными массивами данных. Рекрутеры обращают внимание на ваше умение работать с большими и сложными датасетами, поэтому, если у вас есть такой опыт, не стесняйтесь делиться им.
➡️ Кроме того, рекрутерам важно узнать о вашем опыте обработке и очистке данных. Подробно расскажите о трудностях, с которыми вы сталкивались, и о том, как вы их решали.
➡️ Помимо глубоких знаний статистики и методов обработки, не забудьте упомянуть, как вы презентуете результаты своей работы людям, далеким от технической части. Здесь особенно проверяются ваши софт-скиллы и умение визуализировать результаты исследований.
Что посеешь, то пожмешь - девиз всех дата аналитиков, ведь хорошие данные — залог хорошей модели. Поэтому от аналитика данных требуют отличные знания в области обработки и очистки данных. Коротко о том, что вы можете ждать на собеседовании по анализу данных:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18
Тише едешь - дальше будешь...
На просторах интернета мы нашли забавную игру по изучению SQL, авторы которой вдохновились нашумевшим сериалом "Игра в кальмара".
Предупреждаем: уровней немного - всего 9 штук, но чем выше уровень, тем выше сложность. Только сильный в SQL игрок сможет дойти до конца и забрать весь выигрыш. Дерзайте!
На просторах интернета мы нашли забавную игру по изучению SQL, авторы которой вдохновились нашумевшим сериалом "Игра в кальмара".
Предупреждаем: уровней немного - всего 9 штук, но чем выше уровень, тем выше сложность. Только сильный в SQL игрок сможет дойти до конца и забрать весь выигрыш. Дерзайте!
1❤16
#VK: Руководитель команды Data Science в AI VK
#Офис / #Гибрид / #Удаленно
➡️ Кому подойдет:
Команда создаёт самую большую рекомендательную систему в России, выпускает приложения под Android и iOS, разрабатывает редактор видео и помогает интересным блогерам найти новую аудиторию, а пользователям — интересные публикации.
🚀 Откликнуться | Все вакансии
#Офис / #Гибрид / #Удаленно
Команда создаёт самую большую рекомендательную систему в России, выпускает приложения под Android и iOS, разрабатывает редактор видео и помогает интересным блогерам найти новую аудиторию, а пользователям — интересные публикации.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8
Собрали небольшую подборку того, что можно посмотреть по DL и ML. Это, конечно, не лекции Андрея Карпаты, но тоже довольно полезно!
🟦 Reinforcement Learning from Human Feedback
В этом докладе научный сотрудник Hugging Face рассказывает об основах обучения с подкреплением на основе обратной связи и о том, как эта технология используется в современных ML-инструментах.
🟦 Practical Deep Learning for Coders
Авторы короткого видео-курса надеются, что после изучения материала вы сможете самостоятельно применять методы ML и развертывать модели. Также авторы упоминают, что для понимания их лекций необязательно глубоко знать математику: они сами объяснят базовые понятия.
🟦 AI & Machine Learning
Целый плейлист с лекциями по основам машинного обучения от Артема Кирсанова. Очень подробный материал со всеми основами машинного обучения.
В этом докладе научный сотрудник Hugging Face рассказывает об основах обучения с подкреплением на основе обратной связи и о том, как эта технология используется в современных ML-инструментах.
Авторы короткого видео-курса надеются, что после изучения материала вы сможете самостоятельно применять методы ML и развертывать модели. Также авторы упоминают, что для понимания их лекций необязательно глубоко знать математику: они сами объяснят базовые понятия.
Целый плейлист с лекциями по основам машинного обучения от Артема Кирсанова. Очень подробный материал со всеми основами машинного обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
#Kaspersky: Data Engineer (DWH)
#Офис
➡️ Кому подойдет:
Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.
🚀 Откликнуться | Все вакансии
#Офис
Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
На просторах интернета обнаружили статью, в которой кандидат делится своим опытом прохождения собеседований в Microsoft на должность Data Scientist:
➖ 1 этап
➖ 2 этап
➖ 3 этап
➖ 4 этап
➖ 5 этап
➖ 6 этап
Маленький спойлер: кандидата так и не взяли на работу, его отмели на финальном этапе.Я не плачу, просто жиза в глаз попала...
На тот момент компания искала специалиста, у которого был опыт в создании алгоритмов обнаружения мошенничества, поэтому на телефонном интервью основной упор уделялся именно этому опыту.
На втором собеседовании рекрутеры задавали вопрос о том: как я проверяю данные; расспрашивали о сложных ситуациях, с которыми я столкнулся; и как мне приходилось их решать.
Третий этап был сосредоточен на технических знаниях: как работать с несбалансированной выборкой, какие основные показатели связаны с обнаружением мошенничества, как выбрать модель и какие ограничения могут возникнуть для бизнеса.
На первом этапе кодирования рекрутеры смотрели на то, как я обрабатываю категориальные переменные, как управляю размерностью при её увеличении и какие методы использовал. Ещё меня спросили, работает ли PCA с прямым кодированием.
На втором этапе по кодингу мне необходимо было в режиме реального времени столкнуться с текущими проблемами, которые решает Microsoft: нужно было определить, является ли вход в систему незаконным, а также подумать о том, как можно использовать меченые данные для разметки новых.
На финальном этапе менеджер оценивал моё желание заниматься подобной задачей и мою способность к креативности. Также расспрашивали о том, какие вопросы я бы задал, если бы ко мне пришёл заказчик с такой задачей, и попросили описать примерную постановку проекта.
Маленький спойлер: кандидата так и не взяли на работу, его отмели на финальном этапе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27
#Мегафон: Data Analyst (middle)
#Офис
➡️ Кому подойдет:
Мегафон анализирует большие данные, чтобы лучше понимать каждого своего абонента, поэтому компания нуждается в хорошем дата-аналитике.
🚀 Откликнуться | Все вакансии
#Офис
Мегафон анализирует большие данные, чтобы лучше понимать каждого своего абонента, поэтому компания нуждается в хорошем дата-аналитике.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
DS-инженер в команду Data Monetization
Офис, Гибрид, Удаленно
Старший инженер данных
Офис
Data Scientist (ДАДМ)
Офис
Data Scientist в товарные рекомендации
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Чем бы заняться в январе?
Для тех, кто задавался подобным вопросом, мы нашли решение! 18 и 29 января пройдут два интересных мероприятия:
⚡️ Moscow Python Meetup
МТС Финтех 29 января проведёт митап, на котором опытные разработчики расскажут как решают рабочие задачи с использованием Python. Особое внимание заслуживает доклад NLP нейросети в защите данных: опыт Makves DCAP.
Когда: 29 января.
Где: Москва или офлайн.
⚡️ Data-ёлка — ODS в гостях у ecom.tech
Вы, наверное, уже слышали, что скоро состоится Data Ёлка! А если нет, то рассказываем: на этом мероприятии ecom.tech расскажут о своих достижениях за 2024 год в различных областях: робототехника, MLOps, LLM и даже медицине.
Когда: 18 января.
Где: Санкт-Петербург или офлайн.
Для тех, кто задавался подобным вопросом, мы нашли решение! 18 и 29 января пройдут два интересных мероприятия:
МТС Финтех 29 января проведёт митап, на котором опытные разработчики расскажут как решают рабочие задачи с использованием Python. Особое внимание заслуживает доклад NLP нейросети в защите данных: опыт Makves DCAP.
Когда: 29 января.
Где: Москва или офлайн.
Вы, наверное, уже слышали, что скоро состоится Data Ёлка! А если нет, то рассказываем: на этом мероприятии ecom.tech расскажут о своих достижениях за 2024 год в различных областях: робототехника, MLOps, LLM и даже медицине.
Когда: 18 января.
Где: Санкт-Петербург или офлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
#ЦИАН: Team Lead Data Scientist
#Офис / #Гибрид / #Удаленно
➡️ Кому подойдет:
Циан ищет Team Lead Data Scientist - в команду оптимизации прайсинга. Главная задача команды — оптимизация ценообразования платных продуктов Циан (размещение и продвижение объявлений).
🚀 Откликнуться | Все вакансии
#Офис / #Гибрид / #Удаленно
Циан ищет Team Lead Data Scientist - в команду оптимизации прайсинга. Главная задача команды — оптимизация ценообразования платных продуктов Циан (размещение и продвижение объявлений).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Опытный MLE-специалист в своем блоге делится советами по трудоустройству на должность MLE, но есть нюанс: автор считает, что трудоустройство — это своего рода вступление в брак. Поэтому он рассказал пару советов, чтобы удачно "жениться":
🔷 Что нужно, чтобы получить оффер?
🔷 Кто такой успешный кандидат?
🔷 Как подготовиться к этапу по программированию?
🔷 На что еще смотрит компания на этапе по программированию?
🔷 О чем еще стоит помнить при подготовке к собеседованию?
Если у вас достаточно сильное резюме, то вам назначат пару встреч с HR, но для того чтобы компания предложила руку и сердце в виде оффера, ваши знания и опыт должны соответствовать плану работы компании, а ваша личность — культуре команды. В противном случае женитьба будет недолгой и болезненной.
Прежде всего, вам нужна мотивация. Звучит странно, но так оно и есть. На собеседованиях (и на работе) необходимы знания как в программировании, так и в ML. Иногда нужна сила воли, чтобы охватить весь этот обширный пласт знаний в ML. Читайте больше литературы, общайтесь с людьми, ищите креативные решения.
Как правило, успешный кандидат — это хороший кодер с прочной базой ML, который уже реализовал крутые и сложные ML-проекты, а также в курсе всех последних новостей в области. Как сказал один из знакомых разработчиков: хорошие MLE — единороги.
Этап кодирования можно условно разделить на три типа: LeetCode (решение задач разного уровня сложности за определенное время), написание простой модели ML (например, регрессии или алгоритма k-средних) и ООП (в основном задачи на ООП дают там, где должность подразумевает выполнение задач с интенсивной бэкенд-разработкой). Важно! Даже если вы успешно решите задачу, это еще не значит, что вас примут; необходимо будет защитить решение и объяснить ключевые моменты.
На этапе проектирования систем ML рекрутеры смотрят на ваше умение мыслить о том, как вы бы спроектировали масштабируемую систему ML для текущей бизнес-задачи: сбор данных, понимание целей задачи, выбор модели, развертывание и многое другое. Стоит помнить, что некоторые компании в большей степени делают упор на "ML", а другие на "E", поэтому не забывайте, что MLE — это не только про модельки.
Я шучу с друзьями, что управление проектами — это единственный настоящий навык, стоящий за подготовкой к собеседованию ML. Найти время уже сложно — требуются преданность, мотивация и дисциплина, чтобы последовательно продвигаться к своим целям, будь то изучение современного уровня техники или расширение базовых знаний, которые вы накопили за эти годы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21