Чек-лист для руководителя. Чего ожидать от Data Science.
🧜♂️Наука о данных (Data Science) — не магия. Ваш бизнес никто не знает лучше вас. Помогайте специалисту инсайтами и информацией о бизнес-процессах. Знание и понимание предметной области критически важно. Дата сайентист просто не может разбираться во всех областях и знать специфику и все нюансы бизнеса.
📈Для анализа данных нужны данные. Лучше, если их много и они адекватные. Модель никогда не будет лучше данных, которые ей дадут. Не забывайте принцип «Мусор на входе — мусор на выходе». Постарайтесь максимально подробно описать откуда и как поступают данные и какие «подводные камни» в них могут быть.
💸Всегда перед постановкой ML-задачи спрашивайте себя: принесет ли решение значимую выгоду? Если нет, не ставьте ее. Время специалиста дорого.
▶️ Только вы определяете бизнес-метрику. Определите, к какому результату должна стремиться модель, что именно нужно максимизировать или минимизировать. На сколько критичны те или иные ошибки. Опишите, как правильно стоит оценивать качество прогноза.
🧜♂️Наука о данных (Data Science) — не магия. Ваш бизнес никто не знает лучше вас. Помогайте специалисту инсайтами и информацией о бизнес-процессах. Знание и понимание предметной области критически важно. Дата сайентист просто не может разбираться во всех областях и знать специфику и все нюансы бизнеса.
📈Для анализа данных нужны данные. Лучше, если их много и они адекватные. Модель никогда не будет лучше данных, которые ей дадут. Не забывайте принцип «Мусор на входе — мусор на выходе». Постарайтесь максимально подробно описать откуда и как поступают данные и какие «подводные камни» в них могут быть.
💸Всегда перед постановкой ML-задачи спрашивайте себя: принесет ли решение значимую выгоду? Если нет, не ставьте ее. Время специалиста дорого.
▶️ Только вы определяете бизнес-метрику. Определите, к какому результату должна стремиться модель, что именно нужно максимизировать или минимизировать. На сколько критичны те или иные ошибки. Опишите, как правильно стоит оценивать качество прогноза.
🔥ABBYY впервые опубликовала на GitHub свою библиотеку разработок машинного обучения с открытым кодом NeoML на GitHub.
Это позволит ускорить разработку продуктов за счёт обратной связи от разработчиков и расширить сферу применения технологий компании.
Библиотека уже поддерживает языки программирования C++, Java, Objective C, а скоро ABBYY добавит к ним Python.
NeoML можно использовать на Windows, Linux, macOS, iOS и Android, библиотека поддерживает процессоры CPU и GPU.
Это позволит ускорить разработку продуктов за счёт обратной связи от разработчиков и расширить сферу применения технологий компании.
Библиотека уже поддерживает языки программирования C++, Java, Objective C, а скоро ABBYY добавит к ним Python.
NeoML можно использовать на Windows, Linux, macOS, iOS и Android, библиотека поддерживает процессоры CPU и GPU.
GitHub
NeoML
Cross-platform machine learning framework. Supports both deep learning and traditional ML algorithms. - NeoML
💫Бесплатная онлайн-конференция Data Science
30 июня пройдёт очередная Data Science конференция, которая начнётся в 11:00, однако на этот раз в онлайн-формате! А это значит, что у вас больше шансов на неё попасть и узнать много классных вещей.
Конференция будет состоять из двух потоков - технический и бизнес, однако они оба посвящены Data Science, но с разных сторон. Полную программу можно посмотреть по ссылке ниже.
Если вы ещё не там, то обязательно регистрируйтесь по ссылке:
https://clck.ru/P45gm
30 июня пройдёт очередная Data Science конференция, которая начнётся в 11:00, однако на этот раз в онлайн-формате! А это значит, что у вас больше шансов на неё попасть и узнать много классных вещей.
Конференция будет состоять из двух потоков - технический и бизнес, однако они оба посвящены Data Science, но с разных сторон. Полную программу можно посмотреть по ссылке ниже.
Если вы ещё не там, то обязательно регистрируйтесь по ссылке:
https://clck.ru/P45gm
datastart.ru
Бесплатная летняя онлайн-конференция Data Science 2020
Обучающие конференции по Data Science в
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
☀️Неделю назад, 18 июня, состоялся онлайн-семинар Лаборатории искусственного интеллекта - совместного проекта ВКонтакте и ФПМК МФТИ. Кто пропустил прямую трансляцию, самое время скачать 4 видеодоклада и pdf-презентации по Deep Learning от спикеров VK Lab Talks:
сжатие BERT, графовые эмбеддинги, деградация языковых моделей и боты из техподдержки.
Материалы доступны по ссылке: https://vk.com/wall-44016343_31113
сжатие BERT, графовые эмбеддинги, деградация языковых моделей и боты из техподдержки.
Материалы доступны по ссылке: https://vk.com/wall-44016343_31113
VK
Deep Learning
Ламповая атмосфера, доходчивость, интересная и полезная информация — не только в теории, но и на практике. Так описывают VK Lab Talks участники второго семинара. Публикуем записи выступлений и презентации наших спикеров с минувшей онлайн-встречи. Исследуйте…
Geekhub приглашает на Big Data Online Meetup — обсудим, как обрабатывать большие массивы данных на маленьких компьютерах, как использовать ML для увеличения уровня добычи нефти и компьютерное зрение + сверточные нейросети для оценки изображений.
Программа:
«Используем компьютерное зрение и сверточные нейросети для оценки картинки: история одной модели»
Александр Прохоров, аналитик в отделе контроля качества Skyeng,
«Большие данные на маленьких компьютерах. DASK»
Антон Недосеков, заместитель начальника управления архитектуры данных и бизнес аналитики Департамента управления клиентами массовых сегментов Банка Санкт-Петербург,
«Применение методов машинного обучения для увеличения уровня добычи нефти»
Михаил Шавкунов, аналитик данных, Центр разработки и монетизации данных, Дирекция по цифровой трансформации ПАО «Газпром нефть».
Участие бесплатное, но нужно зарегистрироваться: https://geekhub.ru
Программа:
«Используем компьютерное зрение и сверточные нейросети для оценки картинки: история одной модели»
Александр Прохоров, аналитик в отделе контроля качества Skyeng,
«Большие данные на маленьких компьютерах. DASK»
Антон Недосеков, заместитель начальника управления архитектуры данных и бизнес аналитики Департамента управления клиентами массовых сегментов Банка Санкт-Петербург,
«Применение методов машинного обучения для увеличения уровня добычи нефти»
Михаил Шавкунов, аналитик данных, Центр разработки и монетизации данных, Дирекция по цифровой трансформации ПАО «Газпром нефть».
Участие бесплатное, но нужно зарегистрироваться: https://geekhub.ru
Data Analyst/Data Scientist — в чём разница?
#DS #DataAnalyst #DataScience #DataScientist #DataAnalysis #BigData #BigDataScience
#DS #DataAnalyst #DataScience #DataScientist #DataAnalysis #BigData #BigDataScience
🗣SMILES: SUMMER SCHOOL OF MACHINE LEARNING - недельный онлайн-интенсив по методам современной статистике и машинному обучению на английском языке от Сколтеха: абсолютно бесплатно и полностью онлайн! Спикеры со всего мира (Нью-Йорк, Тель-Авив, Калифорния, Дармштад) проведут видео-лекции и семинары с практическими заданиями по темам Reinforcement Learning, Robust DL, NLP, Causal inference и другим интересным направлениям Data Science. Регистрация открыта с 26 июня по 26 июля, отобранные участники получат приглашения к 1-му августа 2020 года. Мероприятие пройдет с 16 по 21 августа 2020 года. Успевайте подать заявку на участие! https://smiles.skoltech.ru/
smiles.skoltech.ru
SMILES: summer school of machine learning. 2025
Media is too big
VIEW IN TELEGRAM
Дизайн-студия Артемия Лебедева заявила, что создала «искусственный дизайнерский интеллект» и больше года выдавала его за реального человека. За это время нейросеть якобы разработала больше 20 логотипов для разных заказчиков. Никто из них не знал, что заказ выполнила машина.
Подробнее в видео.
Источник: YouTube канал Артемия Лебедева
Подробнее в видео.
Источник: YouTube канал Артемия Лебедева
👍Уникальная возможность поучаствовать в хакатоне Sigma-Thon 1.0. от HackerEarth!
Data Hackathons — это идеальное поле битвы для начинающих Data Scientist'ов. Организации постоянно ищут различные модели и идеи, чтобы поставлять нужные продукты в нужное время. Розничная торговля является одной из таких отраслей.
Что необходимо сделать: создать data-driven решение для предприятий розничной торговли, чтобы обновить свои каналы розничной торговли с помощью моделей данных, механизмов рекомендаций и многого другого. Можно участвовать командой до 4-х человек.
Дедлайн подачи заявок и решений: 12 июля, 2020
Ссылка: https://www.hackerearth.com/ru/challenges/hackathon/sigma-thon-v1/#overview
Data Hackathons — это идеальное поле битвы для начинающих Data Scientist'ов. Организации постоянно ищут различные модели и идеи, чтобы поставлять нужные продукты в нужное время. Розничная торговля является одной из таких отраслей.
Что необходимо сделать: создать data-driven решение для предприятий розничной торговли, чтобы обновить свои каналы розничной торговли с помощью моделей данных, механизмов рекомендаций и многого другого. Можно участвовать командой до 4-х человек.
Дедлайн подачи заявок и решений: 12 июля, 2020
Ссылка: https://www.hackerearth.com/ru/challenges/hackathon/sigma-thon-v1/#overview
This media is not supported in your browser
VIEW IN TELEGRAM
🎞Лучшая подборка видео о Machine Learning:
1. Введение в машинное обучение — https://youtu.be/ukzFI9rgwfU
2. Базовые знания об обработке естественного языка (Natural language processing) — https://youtu.be/d4gGtcobq8M
3. О работе компьютерного зрения — https://www.youtube.com/watch?v=OcycT1Jwsns&feature=youtu.be
4. Многоагентная система (Multi-agent) игры в прятки — https://youtu.be/kopoLzvh5jY
5. Машинное обучение видеоигр — https://youtu.be/qv6UVOQ0F44
Приятного просмотра!
1. Введение в машинное обучение — https://youtu.be/ukzFI9rgwfU
2. Базовые знания об обработке естественного языка (Natural language processing) — https://youtu.be/d4gGtcobq8M
3. О работе компьютерного зрения — https://www.youtube.com/watch?v=OcycT1Jwsns&feature=youtu.be
4. Многоагентная система (Multi-agent) игры в прятки — https://youtu.be/kopoLzvh5jY
5. Машинное обучение видеоигр — https://youtu.be/qv6UVOQ0F44
Приятного просмотра!
SimCLR - простая база для сравнительного обучения (одно из направлений самообучения) визуальным представлениям.
Результаты, описанные в этой статье, могут быть использованы для повышения точности в любом приложении компьютерного зрения, где намного дороже и труднее маркировать дополнительные данные, нежели обучать большие модели.
Github: https://github.com/google-research/simclr
Статья: https://arxiv.org/abs/2006.10029
Результаты, описанные в этой статье, могут быть использованы для повышения точности в любом приложении компьютерного зрения, где намного дороже и труднее маркировать дополнительные данные, нежели обучать большие модели.
Github: https://github.com/google-research/simclr
Статья: https://arxiv.org/abs/2006.10029
GitHub
GitHub - google-research/simclr: SimCLRv2 - Big Self-Supervised Models are Strong Semi-Supervised Learners
SimCLRv2 - Big Self-Supervised Models are Strong Semi-Supervised Learners - google-research/simclr
LeanDS — канал об управлении проектами и продуктами в Data Science
@LeanDS — канал сообщества LeanDS. Коллеги проводят бесплатные митапы по методам управления в Data Science, публикуют статьи и видео.
Если вам интересна тема менеджмента в DS, вы хотите знать, как применять Agile/Scrum в DS и задумывались над тем, как сделать создание ML продуктов более эффективным — присоединяйтесь.
@LeanDS — канал сообщества LeanDS. Коллеги проводят бесплатные митапы по методам управления в Data Science, публикуют статьи и видео.
Если вам интересна тема менеджмента в DS, вы хотите знать, как применять Agile/Scrum в DS и задумывались над тем, как сделать создание ML продуктов более эффективным — присоединяйтесь.
7 лучших фреймворков AutoML в 2020 году
Предположим, есть набор данных, по которому мы хотим получить прогнозную модель. Традиционный подход к машинному обучению требует следующей последовательности действий:
⁃ предварительная обработка данных;
⁃ определение характерных особенностей построения новых функций;
⁃ выбор правильной модели обучения;
⁃ оптимизация гиперпараметров;
⁃ тренировка с оптимальными параметрами.
Процесс может быть долгим и, следовательно, дорогим. Действительно, для лучшего результата необходимо многократно проверять гипотезу, более того, на каждом шаге она может уточняться дальше.
Задача автоматического машинного обучения (AutoML) состоит в том, чтобы автоматизировать все или хотя бы некоторые из этих шагов без потери точности прогнозирования. Идеальная стратегия AutoML предполагает, что любой пользователь может брать необработанные данные, строить на них модель и получать прогнозы с максимально возможной (для доступной выборки) точностью.
Лучшие фреймворки собрали для вас:
1. MLBox хорошо решает следующие задачи:
⁃ Подготовка данных (самая развитая часть библиотеки)
⁃ Выбор модели
⁃ Поиск гиперпараметров
2. Auto Sklearn Framework построен на основе популярной библиотеки машинного обучения scikit-learn. Что может он может делать:
⁃ Выбор модели
⁃ Гипер Настройки
3. TPOT позиционируется как структура, в которой пайплайн машинного обучения полностью автоматизирован. Много различных моделей строятся с выбором лучших в прогнозирующей точности.
4. H2O AutoML поддерживает как традиционные модели машинного обучения, так и нейронные сети. Особенно подходит для тех, кто ищет способ автоматизировать глубокое обучение.
5. Auto Keras использует классический API, как в scikit-learn, но при этом использует мощный поиск нейронной сети для параметров модели с использованием Keras.
6. Cloud AutoML использует архитектуру нейронной сети. Этот продукт Google имеет простой пользовательский интерфейс для изучения и развертывания моделей.
7. Auto-WEKA представляет собой пакет множества различных алгоритмов машинного обучения с открытым исходным кодом. Однако каждый из этих алгоритмов имеет свои собственные гиперпараметры, которые могут радикально изменить их производительность. Auto-WEKA рассматривает проблему одновременного выбора алгоритма обучения и установки его гиперпараметров, выходя за рамки предыдущих методов, которые решают эти проблемы изолированно, и использует полностью автоматизированный подход.
Предположим, есть набор данных, по которому мы хотим получить прогнозную модель. Традиционный подход к машинному обучению требует следующей последовательности действий:
⁃ предварительная обработка данных;
⁃ определение характерных особенностей построения новых функций;
⁃ выбор правильной модели обучения;
⁃ оптимизация гиперпараметров;
⁃ тренировка с оптимальными параметрами.
Процесс может быть долгим и, следовательно, дорогим. Действительно, для лучшего результата необходимо многократно проверять гипотезу, более того, на каждом шаге она может уточняться дальше.
Задача автоматического машинного обучения (AutoML) состоит в том, чтобы автоматизировать все или хотя бы некоторые из этих шагов без потери точности прогнозирования. Идеальная стратегия AutoML предполагает, что любой пользователь может брать необработанные данные, строить на них модель и получать прогнозы с максимально возможной (для доступной выборки) точностью.
Лучшие фреймворки собрали для вас:
1. MLBox хорошо решает следующие задачи:
⁃ Подготовка данных (самая развитая часть библиотеки)
⁃ Выбор модели
⁃ Поиск гиперпараметров
2. Auto Sklearn Framework построен на основе популярной библиотеки машинного обучения scikit-learn. Что может он может делать:
⁃ Выбор модели
⁃ Гипер Настройки
3. TPOT позиционируется как структура, в которой пайплайн машинного обучения полностью автоматизирован. Много различных моделей строятся с выбором лучших в прогнозирующей точности.
4. H2O AutoML поддерживает как традиционные модели машинного обучения, так и нейронные сети. Особенно подходит для тех, кто ищет способ автоматизировать глубокое обучение.
5. Auto Keras использует классический API, как в scikit-learn, но при этом использует мощный поиск нейронной сети для параметров модели с использованием Keras.
6. Cloud AutoML использует архитектуру нейронной сети. Этот продукт Google имеет простой пользовательский интерфейс для изучения и развертывания моделей.
7. Auto-WEKA представляет собой пакет множества различных алгоритмов машинного обучения с открытым исходным кодом. Однако каждый из этих алгоритмов имеет свои собственные гиперпараметры, которые могут радикально изменить их производительность. Auto-WEKA рассматривает проблему одновременного выбора алгоритма обучения и установки его гиперпараметров, выходя за рамки предыдущих методов, которые решают эти проблемы изолированно, и использует полностью автоматизированный подход.
This media is not supported in your browser
VIEW IN TELEGRAM
❤️Полный мэтч: машинное обучение в дейтинге
Сайты знакомств и дейтинговые приложения – одни из самых интересных и в тоже время абсолютно типичных применений современных алгоритмов машинного обучения. В этой статье рассмотрены основные задачи и принципы работы дейтинговых систем с точки зрения Data Science, а также приведены оригинальные примеры пользовательских попыток «хакнуть».
Ссылка на статью:
https://chernobrovov.ru/articles/polnyj-metch-mashinnoe-obuchenie-v-dejtinge.html
Сайты знакомств и дейтинговые приложения – одни из самых интересных и в тоже время абсолютно типичных применений современных алгоритмов машинного обучения. В этой статье рассмотрены основные задачи и принципы работы дейтинговых систем с точки зрения Data Science, а также приведены оригинальные примеры пользовательских попыток «хакнуть».
Ссылка на статью:
https://chernobrovov.ru/articles/polnyj-metch-mashinnoe-obuchenie-v-dejtinge.html
☄️BREAK INTO NLP
Еще одно классное (бесплатное!) онлайн-мероприятие, организованное deeplearning.ai, с участием выдающихся экспертов по NLP, которые поделятся своими мыслями о текущих тенденциях и применениях NLP.
Событие будет транслироваться на YouTube с 20:00 до 21:30 по московскому времени 29 июля. Если вы не сможете посмотреть вживую, обязательно зарегистрируйтесь, чтобы получить ссылку для записи.
Ссылка на событие и регистрацию — Break into NLP.
Всем продуктивных выходных!
Еще одно классное (бесплатное!) онлайн-мероприятие, организованное deeplearning.ai, с участием выдающихся экспертов по NLP, которые поделятся своими мыслями о текущих тенденциях и применениях NLP.
Событие будет транслироваться на YouTube с 20:00 до 21:30 по московскому времени 29 июля. Если вы не сможете посмотреть вживую, обязательно зарегистрируйтесь, чтобы получить ссылку для записи.
Ссылка на событие и регистрацию — Break into NLP.
Всем продуктивных выходных!
Eventbrite
Break into Natural Language Processing
An online event hosted by deeplearning.ai featuring distinguished NLP experts sharing their thoughts on current NLP trend and applications.
Релиз TensorFlow 2.3.0!!!
https://blog.tensorflow.org/2020/07/whats-new-in-tensorflow-2-3.html
Релиз : https://github.com/tensorflow/tensorflow/releases
https://blog.tensorflow.org/2020/07/whats-new-in-tensorflow-2-3.html
Релиз : https://github.com/tensorflow/tensorflow/releases
blog.tensorflow.org
What's new in TensorFlow 2.3?
TensorFlow 2.3 has been released with new tools to make it easier to load and preprocess data, and solve input-pipeline bottlenecks.
Forwarded from Karim Iskakov - канал (Vladimir Ivashkin)
This media is not supported in your browser
VIEW IN TELEGRAM
BREAKING NEWS! (sound on)
Our iOS app Avatarify is #1 in Russian App Store, and today we release it worldwide.
Vivify any photo with your face in real time: celebrity, your boss or even pet. Record video and share it to amaze your friends.
NN works completely on the device in zero-shot mode. Check it out!
📱 App Store
🌐 avatarify.ai
📉 @loss_function_porn
Our iOS app Avatarify is #1 in Russian App Store, and today we release it worldwide.
Vivify any photo with your face in real time: celebrity, your boss or even pet. Record video and share it to amaze your friends.
NN works completely on the device in zero-shot mode. Check it out!
📱 App Store
🌐 avatarify.ai
📉 @loss_function_porn
🇷🇺Россия, вперед! Согласно исследованию Coursera, наша страна возглавила мировой рейтинг по компетенциям в области технологий и Data Science. Наиболее сильные компетенции показали студенты ВУЗов Москвы, Петербурга, Томска и Новосибирска.
Coursera
Global Skills Report 2025 | Coursera
Download Coursera’s Global Skills Report 2025 to explore ...
💰После выхода выпуска у Дудя про Кремниевую Долину наверняка каждый подумал о том, как бы туда попасть.
Предлагаем посмотреть довольно интересную статью про детальный разбор структуры зарплат IT-специалистов в Кремниевой долине, а также на то, сколько в совокупности можно было бы получать в год в топовых компаниях США.
https://habr.com/ru/post/512598/
Хорошая мотивация?
Предлагаем посмотреть довольно интересную статью про детальный разбор структуры зарплат IT-специалистов в Кремниевой долине, а также на то, сколько в совокупности можно было бы получать в год в топовых компаниях США.
https://habr.com/ru/post/512598/
Хорошая мотивация?
Хабр
Детальный разбор структуры зарплат IT-специалистов в Кремниевой Долине
О чем пойдет речь В рамках пятничного безумия, давайте представим, что у Вас волшебным образом появилось разрешение на работу в США, и Вы уже готовы после завтрака телепортироваться в самый центр...
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Netflix’s Polynote is a New Open Source Framework to Build Better Data Science Notebooks
Polynote is an experimental polyglot notebook environment. Currently, it supports Scala and Python, SQL, and Vega.
https://www.kdnuggets.com/2020/08/netflix-polynote-open-source-framework-better-data-science-notebooks.html
Project page: https://polynote.org/
Github: https://github.com/polynote/polynote
@ai_machinelearning_big_data
Polynote is an experimental polyglot notebook environment. Currently, it supports Scala and Python, SQL, and Vega.
https://www.kdnuggets.com/2020/08/netflix-polynote-open-source-framework-better-data-science-notebooks.html
Project page: https://polynote.org/
Github: https://github.com/polynote/polynote
@ai_machinelearning_big_data