🤩БЕСПЛАТНАЯ КОНФЕРЕНЦИЯ ПО DATA SCIENCE И РАЗРАБОТКЕ
29 февраля в ЦДП состоится конференция X5 Retail Hero, посвященная Data Science и разработке в сфере ритейла. Мероприятие включает в себя 3 соревнования и конференцию. Участие бесплатное, необходима предварительная регистрация. Ссылку оставляем!
Среди спикеров будут выступать специалисты из крупных компаний:
Ссылка на конфу:
https://retailhero.ai
29 февраля в ЦДП состоится конференция X5 Retail Hero, посвященная Data Science и разработке в сфере ритейла. Мероприятие включает в себя 3 соревнования и конференцию. Участие бесплатное, необходима предварительная регистрация. Ссылку оставляем!
Среди спикеров будут выступать специалисты из крупных компаний:
• Георг Гаал (X5) расскажет о DevOps в видеоаналитике. • Юрий Юрченко (X5) выступит с темой «Валидация эффектов цифровых проектов». • Валерий Бабушкин (X5) расскажет, как скрестить аплифт-деревья и RL для рекомендательной системы, а в следующем выступлении объяснит, почему вы никогда не найдете дата-сайентиста. • Александр Фонарев (Rubbles) представит доклад на тему «Искусственный интеллект для предсказания спроса: как это работает на самом деле». • Асхат Уразбаев (ScrumTrek) представит доклад на тему «Гибкое управление DS-проектами». • Адам Елдаров (YouDo) выступит с докладом «Scrum или Kanban? Процессные фреймворки лучше работают в Data Science проектах».Ссылка на конфу:
https://retailhero.ai
Абсолютно бесплатный вебинар для тех, кто давно хотел узнать про анализ данных с Python-библиотеками Pandas и Numpy:
https://geekbrains.ru/events/869
P.S. Бесплатный, только не забудьте зарегистрироваться 🙂
Всем хорошего и продуктивного Data Science дня!
https://geekbrains.ru/events/869
P.S. Бесплатный, только не забудьте зарегистрироваться 🙂
Всем хорошего и продуктивного Data Science дня!
GeekBrains
Анализируем данные с Python-библиотеками Pandas и Numpy
На вебинаре вы познакомитесь с библиотеками Pandas и Numpy. Мы также разберем ключевые понятия в анализе данных:
* Векторы. Числовые характеристики объектов в анализе данных.
* Линейная независимость и ее реальное применение.
* Операции в векторных пространствах.…
* Векторы. Числовые характеристики объектов в анализе данных.
* Линейная независимость и ее реальное применение.
* Операции в векторных пространствах.…
🌎Изменения, происходящие в среде Data Science и Data Engineering Tooling Environment
- кто сейчас нужен компанииям: Data Scientist или Data Engineer
- может ли Data Scientist быть также и Data Engineer'ом
- какие инструменты им нужны в работе, насколько они разные
Об этом и даже больше можно почитать в статье (правда на английском):
https://www.forbes.com/sites/cognitiveworld/2019/12/01/why-data-scientists-arent-data-engineers/#2d92d7bf3445
- кто сейчас нужен компанииям: Data Scientist или Data Engineer
- может ли Data Scientist быть также и Data Engineer'ом
- какие инструменты им нужны в работе, насколько они разные
Об этом и даже больше можно почитать в статье (правда на английском):
https://www.forbes.com/sites/cognitiveworld/2019/12/01/why-data-scientists-arent-data-engineers/#2d92d7bf3445
Forbes
The Changing Data Science And Data Engineering Tooling Environment
Many enterprises, vendors, and startups often confuse the role of data scientist and data engineers. While the overlap of these roles is substantial they’re not particularly interchangeable.
Машинное обучение обучает не только машины: в университете Северной Каролины (США) AI помогает студентам лучше усвоить материал с помощью индивидуального тестирования в игровой форме. Подробнее читайте тут:
https://www.sciencedaily.com/releases/2020/02/200205132409.htm
https://www.sciencedaily.com/releases/2020/02/200205132409.htm
ScienceDaily
Improving AI's ability to identify students who need help
Researchers have designed an artificial intelligence (AI) model that is better able to predict how much students are learning in educational games. The improved model makes use of an AI training concept called multi-task learning, and could be used to improve…
📹Netflix open sources data science management tool
Metaflow (инструмент, разработанный внутри компании) полностью управляет проектами в области данных Python, работает с любой библиотекой машинного обучения и интегрируется с облачными сервисами AWS.
Читаем больше об этом сервисе по ссылке:
https://www.infoworld.com/article/3488796/netflix-open-sources-data-science-management-tool.html
Также на habr есть довольно подробная статья (и даже на русском): https://habr.com/ru/company/ruvds/blog/482462/
Metaflow (инструмент, разработанный внутри компании) полностью управляет проектами в области данных Python, работает с любой библиотекой машинного обучения и интегрируется с облачными сервисами AWS.
Читаем больше об этом сервисе по ссылке:
https://www.infoworld.com/article/3488796/netflix-open-sources-data-science-management-tool.html
Также на habr есть довольно подробная статья (и даже на русском): https://habr.com/ru/company/ruvds/blog/482462/
InfoWorld
Netflix open sources data science management tool
Metaflow manages Python data science projects end-to-end, works with any machine learning library, and integrates with AWS cloud services
CCMatrix - самый большой на сегодня датасет для машинного перевода, в 50 раз больше WikiMatrix: около 4,5 миллиардов параллельных предложений в 576 языковых парах. При создании использовались методы массивно-параллельной обработки информации и библиотека FAISS для быстрого поиска по сходству. Автоматизированный и распараллеленный процесс интеллектуального анализа битов обрабатывал сразу несколько пакетов с данными по 50 миллионов примеров одновременно на сервере с 8 графическими процессорами. Благодаря этому удалось быстро извлекать предложения на разных языках из множества общедоступных текстов. Ожидается, что CCMatrix улучшит системы машинного перевода и поможет разработать новые способы создания крупномасштабных мультиязыковых датасетов. Подробную статью на английском читайте здесь: https://ai.facebook.com/blog/ccmatrix-a-billion-scale-bitext-data-set-for-training-translation-models/
Meta
CCMatrix: A billion-scale bitext dataset for training translation models
With 4.5B parallel sentences in 576 language pairs, CCMatrix is the largest dataset of high-quality, web-based bitexts for training translation models. Now Facebook AI is sharing tools for other researchers to use this corpus for their work.
🏂Как обычно, в конце месяца мы публикуем дайджест интересных событий в мире Data Science: научные конференции, практические митапы, хакатоны и бизнес-форумы. Итак, в марте нас ждут:
• 03.03.2020 - Intelligent Automation Exchange (Майами, США) - Практический форум и выставка профессиональных достижений в сфере DS, ML, AI https://ecoadmin.iqpc.com/?event_id=5d3827e131202579a874b106
• 05.03.2020 - DS + Prod = One Love (Санкт-Петербург) - Профессиональная ИТ-встреча, где эксперты из Одноклассников, Вконтакте и Сбербанка расскажут о реальных кейсах внедрения DS в production https://dsprodone-love.timepad.ru/event/1259508/
• 10.03.2020 - AI Hardware Summit Europe (Мюнхен, Германия) - Научно-практический саммит по аппаратному обеспечению ИИ-приложений https://aihardwaresummiteu.com/events/ai-hardware-summit-europe
• 11.03.2020 - Big Data & AI World (Лондон, Великобритания) - Крупная научно-практическая конференция по вопросам DS, ML, AI с привлечением вендоров Big Data систем и бизнес-экспертов https://www.bigdataworld.com/
• 16.03.2020 - Кому нужен ваш креатив, или переводим
с бизнесового на человеческий (Москва) - Практический митап по бренд-маркетингу в категории B2C: эксперты Яндекса и приглашенные специалисты расскажут, что такое CJM и креативность в рекламе https://events.yandex.ru/events/brand-marketing-meetup-2020
• 17.03.2020 - AI & Big Data Expo Global (Лондон, Великобритания) - Международная выставка научно-технических достижений в сфере больших данных, DS, ML, AI https://www.ai-expo.net/global/
• 19.03.2020 - Data Innovation Summit 2020 (Стокгольм, Швеция) - Международный научно-практический саммит по аналитике данных и ее приложениям в бизнесе https://datainnovationsummit.com/
• 20.03.2020 - Дзен-митап: рекомендательные системы (Москва) - Разработчики ВКонтакте и Яндекс.Дзена расскажут о своих подходах к проектированию рекомендательных систем https://events.yandex.ru/events/zen-meetup/20-03-2020
• 21.03.2020 - International Conference on Applied Mathematics & Computional Science (ICAMCS 2020) – Венеция, Италия - Международная конференция по применению математических методов и моделей в различных отраслях промышленности и бизнеса: от медицины до маркетинга - https://www.icamcs.net/
• 21-22.03.2020 - Хакатон от Яндекс.Недвижимости (Москва) - Командное соревнование для разработчиков, анлитиков и дизайнеров с призовым фондом 500 тысяч рублей. Прием заявок на готовые задачи или презентацию собственных стартапов до 10 марта -https://yandex.ru/promo/realty/hacktherealty
• 23.03.2020 - Gartner Data & Analytics Summit (Техас, США) - Практический саммит от самого авторитетного исследовательского бюро - аналитической компании Gartner: современная аналитика данных для аналитиков, менеджеров, руководителей и ИТ-архитекторов https://www.gartner.com/en/conferences/na/data-analytics-us
• 26.03.2020 - Machine Learning School (Севилья, Испания) - Школа машинного обучения для начинающих и профессионалов: от основ к рабочим ML-приложениям https://bigml.com/events/machine-learning-school-in-seville-2020
• 28.03.2020 - International Conference on Mathematics, Statistics and Economics (Бангкок, Таиланд) - Международная научно-практическая конференция по математическим методам и статистике в экономике: модели ML и темы Big Data и DS также будут обсуждаться https://waset.org/mathematics-and-statistical-science-conference-in-february-2020-in-bangkok
Напомню, некоторые из этих мероприятий можно посетить бесплатно по предварительной регистрации. Участвуйте и повышайте свой профессиональный уровень в Big Data Science!🎯
• 03.03.2020 - Intelligent Automation Exchange (Майами, США) - Практический форум и выставка профессиональных достижений в сфере DS, ML, AI https://ecoadmin.iqpc.com/?event_id=5d3827e131202579a874b106
• 05.03.2020 - DS + Prod = One Love (Санкт-Петербург) - Профессиональная ИТ-встреча, где эксперты из Одноклассников, Вконтакте и Сбербанка расскажут о реальных кейсах внедрения DS в production https://dsprodone-love.timepad.ru/event/1259508/
• 10.03.2020 - AI Hardware Summit Europe (Мюнхен, Германия) - Научно-практический саммит по аппаратному обеспечению ИИ-приложений https://aihardwaresummiteu.com/events/ai-hardware-summit-europe
• 11.03.2020 - Big Data & AI World (Лондон, Великобритания) - Крупная научно-практическая конференция по вопросам DS, ML, AI с привлечением вендоров Big Data систем и бизнес-экспертов https://www.bigdataworld.com/
• 16.03.2020 - Кому нужен ваш креатив, или переводим
с бизнесового на человеческий (Москва) - Практический митап по бренд-маркетингу в категории B2C: эксперты Яндекса и приглашенные специалисты расскажут, что такое CJM и креативность в рекламе https://events.yandex.ru/events/brand-marketing-meetup-2020
• 17.03.2020 - AI & Big Data Expo Global (Лондон, Великобритания) - Международная выставка научно-технических достижений в сфере больших данных, DS, ML, AI https://www.ai-expo.net/global/
• 19.03.2020 - Data Innovation Summit 2020 (Стокгольм, Швеция) - Международный научно-практический саммит по аналитике данных и ее приложениям в бизнесе https://datainnovationsummit.com/
• 20.03.2020 - Дзен-митап: рекомендательные системы (Москва) - Разработчики ВКонтакте и Яндекс.Дзена расскажут о своих подходах к проектированию рекомендательных систем https://events.yandex.ru/events/zen-meetup/20-03-2020
• 21.03.2020 - International Conference on Applied Mathematics & Computional Science (ICAMCS 2020) – Венеция, Италия - Международная конференция по применению математических методов и моделей в различных отраслях промышленности и бизнеса: от медицины до маркетинга - https://www.icamcs.net/
• 21-22.03.2020 - Хакатон от Яндекс.Недвижимости (Москва) - Командное соревнование для разработчиков, анлитиков и дизайнеров с призовым фондом 500 тысяч рублей. Прием заявок на готовые задачи или презентацию собственных стартапов до 10 марта -https://yandex.ru/promo/realty/hacktherealty
• 23.03.2020 - Gartner Data & Analytics Summit (Техас, США) - Практический саммит от самого авторитетного исследовательского бюро - аналитической компании Gartner: современная аналитика данных для аналитиков, менеджеров, руководителей и ИТ-архитекторов https://www.gartner.com/en/conferences/na/data-analytics-us
• 26.03.2020 - Machine Learning School (Севилья, Испания) - Школа машинного обучения для начинающих и профессионалов: от основ к рабочим ML-приложениям https://bigml.com/events/machine-learning-school-in-seville-2020
• 28.03.2020 - International Conference on Mathematics, Statistics and Economics (Бангкок, Таиланд) - Международная научно-практическая конференция по математическим методам и статистике в экономике: модели ML и темы Big Data и DS также будут обсуждаться https://waset.org/mathematics-and-statistical-science-conference-in-february-2020-in-bangkok
Напомню, некоторые из этих мероприятий можно посетить бесплатно по предварительной регистрации. Участвуйте и повышайте свой профессиональный уровень в Big Data Science!🎯
dsprodone-love.timepad.ru
DS + Prod = One Love / События на TimePad.ru
Data Science уже много лет не сходит с вершины хайпа, и это заслужено - DS решения действительно помогают добиваться выдающихся результатов, но только в том случае, если доходят до промышленной эксплуатации, что получается не так часто, как хотелось бы.…
Объяснимый ИИ, блокчейн и фабрики данных: исследовательское бюро Gartner прогнозирует самые перспективные на 2020 год тренды в аналитике данных: https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/
Gartner
Gartner Top 10 Data and Analytics Trends for 2019
These data and analytics technology trends will have significant disruptive potential over the next three to five years.
😱Наглядная шпаргалка по операциям с DataFrame в pandas для data wrangling и не только:
https://tproger.ru/articles/pandas-data-wrangling-cheatsheet/
https://tproger.ru/articles/pandas-data-wrangling-cheatsheet/
Tproger
Наглядная шпаргалка по операциям с DataFrame в pandas для data wrangling и не только
Удобная и наглядная шпаргалка по основным операциям с DataFrame в pandas. Подходит для data wrangling и не только.
🥳Впереди продолжительные выходные, а значит можно посвятить это время тому, до чего долгое время не доходили руки. Например, изучить Data Science или посмотреть фильмы из давно сохраненной подборки!
Расширяем подборку фильмов для айтишников и программистов:
Расширяем подборку фильмов для айтишников и программистов:
Forwarded from Data Science
2002.07112.pdf
1 MB
🤜🏻🦠Data Scientist’ы против COVID-19!
Чтобы помочь медикам, специалистам по ЧС и каждому из нас бороться с пандемией коронавируса, DS-площадка Kaggle запустила крупнейшее онлайн-соревнование по анализу открытых данных о COVID-19. Датасет включает информацию из 29 000 научных статей о COVID-19, SARS-CoV-2 и связанных с ними коронавирусах. Конкурс состоит из 10 задач, из которых можно выбрать 1 или решать сразу несколько. Задачи поставлены на основе научных направлений Национальной академии наук NASA и исследований ВОЗ по COVID-19. Большинство задач направлены на интеллектуальный анализ текстовой информации из научных статей и материалов полевых исследований.
Kaggle предлагает приз 1000 долларов за задачу. Как обычно, победитель (команда или индивидуальный участник) определяется по оценочным критериям. Призеры могут сами получить денежную награду или сразу направить ее на благотворительность для помощи в дальнейших исследованиях COVID-19.
Материалы участников будут оцениваться в 2 тура. Последний срок подачи заявок 1-го раунда 16 апреля 2020 года в 23:59 UTC. 2-о1 раунд заканчивается 16 июня 2020 года в 23:59 UTC.
Призываю каждого DS-специалиста внести посильный вклад в борьбу с COVID-19 и одновременно повысить свой профессиональный уровень!
Чтобы помочь медикам, специалистам по ЧС и каждому из нас бороться с пандемией коронавируса, DS-площадка Kaggle запустила крупнейшее онлайн-соревнование по анализу открытых данных о COVID-19. Датасет включает информацию из 29 000 научных статей о COVID-19, SARS-CoV-2 и связанных с ними коронавирусах. Конкурс состоит из 10 задач, из которых можно выбрать 1 или решать сразу несколько. Задачи поставлены на основе научных направлений Национальной академии наук NASA и исследований ВОЗ по COVID-19. Большинство задач направлены на интеллектуальный анализ текстовой информации из научных статей и материалов полевых исследований.
Kaggle предлагает приз 1000 долларов за задачу. Как обычно, победитель (команда или индивидуальный участник) определяется по оценочным критериям. Призеры могут сами получить денежную награду или сразу направить ее на благотворительность для помощи в дальнейших исследованиях COVID-19.
Материалы участников будут оцениваться в 2 тура. Последний срок подачи заявок 1-го раунда 16 апреля 2020 года в 23:59 UTC. 2-о1 раунд заканчивается 16 июня 2020 года в 23:59 UTC.
Призываю каждого DS-специалиста внести посильный вклад в борьбу с COVID-19 и одновременно повысить свой профессиональный уровень!
Kaggle
COVID-19 Open Research Dataset Challenge (CORD-19)
An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House
💥🦠🥁Data Science vs COVID-19!
Проведи самоизоляцию с пользой для всех – прими участие в открытом DS-соревновании по прогнозированию динамики распространения коронавируса. Точный прогноз поможет ученым, медикам и специалистам по ЧС оптимально распределить усилия для борьбы с пандемией. А для простого обывателя это даст ответ на вопрос, ставший сегодня главным: когда все это закончится.
В соревновании от сообщества Open Data Science и Сбербанка требуется построить алгоритм, который максимально точно предскажет динамику числа зарегистрированных случаев заражения коронавирусом COVID-19 по каждой стране на следующую неделю. Участникам необходимо сделать ежедневный прогноз, с начала соревнования до конца 2020 года, предсказав для каждой даты количество зафиксированных случаев и смертей.
Исходные данные собраны из множества разных источников (официальные каналы, пресса и т.д.) и не до конца достоверны. Поэтому следует учесть свойства выборок, схему получения данных, особенности государств, меры предупреждения и другие факторы.
Соревнование пройдет в 3 этапа:
• победители за неделю 13.04 - 19.04 определяются во вторник 21.04. Дедлайн отправки решений 12.04 в 23:59 по МСК. Призовой фонд 300 тысяч рублей на 5 лучших прогнозов и 1 лучшее публичное решение.
• победители за неделю 20.04 - 26.04 определяются во вторник 28.04. Дедлайн отправки решений 19.04 в 23:59 по МСК. Призовой фонд 300 тысяч рублей на 5 лучших прогнозов и 1 лучшее публичное решение.
• победители за неделю 27.04 - 03.05 определяются во вторник 05.05. Дедлайн отправки решений 26.04 в 23:59 по МСК. Призовой фонд 1 миллион рублей на 5 лучших прогнозов и 5 лучших публичных решений.
К конкурсу допускаются индивидуальные совершеннолетние участники и команды не более 4-х человек.
Участвуй и внеси свой вклад в борьбу с коронавирусом!
Проведи самоизоляцию с пользой для всех – прими участие в открытом DS-соревновании по прогнозированию динамики распространения коронавируса. Точный прогноз поможет ученым, медикам и специалистам по ЧС оптимально распределить усилия для борьбы с пандемией. А для простого обывателя это даст ответ на вопрос, ставший сегодня главным: когда все это закончится.
В соревновании от сообщества Open Data Science и Сбербанка требуется построить алгоритм, который максимально точно предскажет динамику числа зарегистрированных случаев заражения коронавирусом COVID-19 по каждой стране на следующую неделю. Участникам необходимо сделать ежедневный прогноз, с начала соревнования до конца 2020 года, предсказав для каждой даты количество зафиксированных случаев и смертей.
Исходные данные собраны из множества разных источников (официальные каналы, пресса и т.д.) и не до конца достоверны. Поэтому следует учесть свойства выборок, схему получения данных, особенности государств, меры предупреждения и другие факторы.
Соревнование пройдет в 3 этапа:
• победители за неделю 13.04 - 19.04 определяются во вторник 21.04. Дедлайн отправки решений 12.04 в 23:59 по МСК. Призовой фонд 300 тысяч рублей на 5 лучших прогнозов и 1 лучшее публичное решение.
• победители за неделю 20.04 - 26.04 определяются во вторник 28.04. Дедлайн отправки решений 19.04 в 23:59 по МСК. Призовой фонд 300 тысяч рублей на 5 лучших прогнозов и 1 лучшее публичное решение.
• победители за неделю 27.04 - 03.05 определяются во вторник 05.05. Дедлайн отправки решений 26.04 в 23:59 по МСК. Призовой фонд 1 миллион рублей на 5 лучших прогнозов и 5 лучших публичных решений.
К конкурсу допускаются индивидуальные совершеннолетние участники и команды не более 4-х человек.
Участвуй и внеси свой вклад в борьбу с коронавирусом!
Open Data Science (ODS.ai)
Forecast the Global Spread of COVID-19
Use any data you can find to predict the future increase of the number of reported cases of COVID-19.
🎯Polynote – open-source инструмент для Data Scientist’a и разработчика Big Data с поддержкой Scala, Python и SQL, интеграцией Apache Spark, автозаполнением по типу данных, визуализацией и множеством других практических фич от Netflix. Теперь можно быстро связать ML-модели на Scala с популярными библиотеками машинного обучения и графическими возможностями Python. При этом, аналогично работе с Apache Spark, вам не придется волноваться о распределенной кластерной среде – Polynote сам позаботится о воспроизводимости кода на любом узле. Подробнее о проекте читайте здесь
Medium
Open-sourcing Polynote: an IDE-inspired polyglot notebook
Jeremy Smith, Jonathan Indig, Faisal Siddiqi