Уже 2 октября стартует онлайн-хакатон от ODS Pet Projects ( https://news.1rj.ru/str/ods_pet_projects ) !
Так как хакатон навеян петпроджектами (проектами, направленными на фан, развитие навыков и пополнение резюме), а еще потому, что мы все там веселые люди, то общая тема хакатона у нас есть будет под описанием "тебе должно быть весело". В списке тем - генерация салатника по фото Дэвида Боуи, стилизация речи под говор попугая, генератор тем для Шнобелевских премий и другие темы. (ещё больше тем можно найти в формочке для регистрации - и если вам они не понравятся, можно идти со своей темой).
Хакатон будет продолжаться до 10 октября (в 18:00 уже презентации проектов). Каждой команде помогать будут менторы, а оценивать проекты - комитет жюри. И те, и другие - эксперты в разных областях DS из сообщества Open Data Science.
Призы - мерч ОДС и купоны на обучающие программы!
Ссылка на регистрацию тут:
https://forms.gle/BMyS4SJ7aL5YrkbT6
Так как хакатон навеян петпроджектами (проектами, направленными на фан, развитие навыков и пополнение резюме), а еще потому, что мы все там веселые люди, то общая тема хакатона у нас есть будет под описанием "тебе должно быть весело". В списке тем - генерация салатника по фото Дэвида Боуи, стилизация речи под говор попугая, генератор тем для Шнобелевских премий и другие темы. (ещё больше тем можно найти в формочке для регистрации - и если вам они не понравятся, можно идти со своей темой).
Хакатон будет продолжаться до 10 октября (в 18:00 уже презентации проектов). Каждой команде помогать будут менторы, а оценивать проекты - комитет жюри. И те, и другие - эксперты в разных областях DS из сообщества Open Data Science.
Призы - мерч ОДС и купоны на обучающие программы!
Ссылка на регистрацию тут:
https://forms.gle/BMyS4SJ7aL5YrkbT6
Telegram
ODS Pet Projects
FAQ: https://link.medium.com/7zr33R3Hi0
Если вы не знаете, как простыми словами рассказать зачем нужен Data Science и какая роль специалиста по данным в продукте – то рекомендую это видео. Алексей Чернобровов рассказывает о «Роли науки о данных в построении продуктов» для сотрудников студии Лебедева.
🌏https://www.youtube.com/watch?v=7wqiKDHhRTo
🌏https://www.youtube.com/watch?v=7wqiKDHhRTo
YouTube
Алексей Чернобровов. Роль науки о данных в построении продуктов
Семинар в Студии Артемия Лебедева
00:01:55 — Выбор лучшей версии сайта
00:05:21 — Какие существуют роли в построении продукта
00:10:15 — Суть науки о данных
00:12:03 — Обучающая выборка
00:15:37 — Метрика
00:18:51 — Навыки специалиста по данным
00:28:17…
00:01:55 — Выбор лучшей версии сайта
00:05:21 — Какие существуют роли в построении продукта
00:10:15 — Суть науки о данных
00:12:03 — Обучающая выборка
00:15:37 — Метрика
00:18:51 — Навыки специалиста по данным
00:28:17…
Forwarded from Machinelearning
From Trees to Continuous Embeddings and Back: Hyperbolic Hierarchical Clustering
Gitgub: https://github.com/HazyResearch/HypHC
Paper: https://arxiv.org/abs/2010.00402
Gitgub: https://github.com/HazyResearch/HypHC
Paper: https://arxiv.org/abs/2010.00402
В этой статье представлен обзор нескольких распространенных вариантов использования Azure Cosmos DB.
На какие вопросы вы получите ответы из этой статьи:
⁃ Каковы распространенные варианты использования Azure Cosmos DB?
⁃ Каковы преимущества использования Azure Cosmos DB в ритейле?
⁃ Каковы преимущества использования Azure Cosmos DB в качестве хранилища данных для систем Интернет вещей (IoT)?
⁃ Каковы преимущества использования Azure Cosmos DB для веб-приложений и мобильных приложений?
Azure Cosmos DB — это глобально распределенная многомодельная служба базы данных Майкрософт. Сервис разработан, чтобы позволить клиентам эластично (и независимо) масштабировать пропускную способность и хранилище в любом количестве географических регионов. С помощью одного лишь нажатия кнопки Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любых регионах Azure по всему миру.
Ссылка на БД — https://azure.microsoft.com/ru-ru/services/cosmos-db/
Ссылка на документ (русская версия) — https://docs.microsoft.com/ru-ru/azure/cosmos-db/introduction
Ссылка на документ (английская версия) https://docs.microsoft.com/en-us/azure/cosmos-db/use-cases
На какие вопросы вы получите ответы из этой статьи:
⁃ Каковы распространенные варианты использования Azure Cosmos DB?
⁃ Каковы преимущества использования Azure Cosmos DB в ритейле?
⁃ Каковы преимущества использования Azure Cosmos DB в качестве хранилища данных для систем Интернет вещей (IoT)?
⁃ Каковы преимущества использования Azure Cosmos DB для веб-приложений и мобильных приложений?
Azure Cosmos DB — это глобально распределенная многомодельная служба базы данных Майкрософт. Сервис разработан, чтобы позволить клиентам эластично (и независимо) масштабировать пропускную способность и хранилище в любом количестве географических регионов. С помощью одного лишь нажатия кнопки Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любых регионах Azure по всему миру.
Ссылка на БД — https://azure.microsoft.com/ru-ru/services/cosmos-db/
Ссылка на документ (русская версия) — https://docs.microsoft.com/ru-ru/azure/cosmos-db/introduction
Ссылка на документ (английская версия) https://docs.microsoft.com/en-us/azure/cosmos-db/use-cases
Microsoft
Azure Cosmos DB — NoSQL и реляционная база данных | Microsoft Azure
Azure Cosmos DB — это полностью управляемая реляционная база данных NoSQL для разработки современных приложений. Начните создавать приложения с бесплатной пробной версией.
Data Science Summit — крупнейшая независимая конференция по науке о данных в регионе Центральной и Восточной Европы. Конференция дополнительно сопровождается выставкой Data Science Expo, в которой представлены стенды поставщиков технологий / решений в области науки о данных и в настоящее время нанимают работодателей.
Мероприятие в связи с пандемией COVID-19 в этом году будет проходить в смешанном формате — конференция и выставка будут полностью онлайн и будут сопровождаться деловыми и мероприятиями, происходящими в Варшаве.
У вас есть уникальная возможность увидеть видео доклады топовых спикеров Европы и мира в области Data Science (большинство на английском языке) из Google, Huawei, Vertica и других известных компаний.
В этом году представлены следующие потоки тем:
⁃ Machine Learning, извлечение и исследование (просмотр) данных в таких областях, как сегментация, Интернет вещей, ценообразование, Computer Vision и др.
⁃ Анализ и статистика
⁃ Визуализация/Business Intelligence
⁃ Тренды и инновации
И огромное количество других интересных тем, со списком которых вы можете ознакомиться на сайте.
Больше информации — www.DSSconf.pl/en
Мероприятие в связи с пандемией COVID-19 в этом году будет проходить в смешанном формате — конференция и выставка будут полностью онлайн и будут сопровождаться деловыми и мероприятиями, происходящими в Варшаве.
У вас есть уникальная возможность увидеть видео доклады топовых спикеров Европы и мира в области Data Science (большинство на английском языке) из Google, Huawei, Vertica и других известных компаний.
В этом году представлены следующие потоки тем:
⁃ Machine Learning, извлечение и исследование (просмотр) данных в таких областях, как сегментация, Интернет вещей, ценообразование, Computer Vision и др.
⁃ Анализ и статистика
⁃ Визуализация/Business Intelligence
⁃ Тренды и инновации
И огромное количество других интересных тем, со списком которых вы можете ознакомиться на сайте.
Больше информации — www.DSSconf.pl/en
Data Science Summit – the leading data science conference in Poland
16 tracks and 200+ talks from top data area speakers from Poland and abroad
This media is not supported in your browser
VIEW IN TELEGRAM
Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно.
В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто человеку обмануть модель.
На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.
Подробнее узнать про систему можно на официальном сайте проекта.
Ссылка на Dynabench - https://dynabench.org
В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто человеку обмануть модель.
На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.
Подробнее узнать про систему можно на официальном сайте проекта.
Ссылка на Dynabench - https://dynabench.org
why_gradient_clipping_accelerates_training_a_theoretical_justification.pdf
1.4 MB
📚Why gradient clipping accelerates training: A theoretical justification for adaptivity [Почему градиентное отсечение ускоряет обучение: теоретическое обоснование адаптивности]
Теоретическое объяснение эффективности градиентного отсечения при обучении глубоких нейронных сетей. Подробнее в работе Jingzhao Zhang, Tianxing He, Suvrit Sra и Ali Jadbabaie.
Теоретическое объяснение эффективности градиентного отсечения при обучении глубоких нейронных сетей. Подробнее в работе Jingzhao Zhang, Tianxing He, Suvrit Sra и Ali Jadbabaie.
This media is not supported in your browser
VIEW IN TELEGRAM
🎶В Google теперь можно найти песню, если напеть ее мотив
В Google Assistant добавили обновленную версию поиска песен. Теперь мелодию можно напеть, «промычать» или просвистеть, а система опознает трек.
Компания утверждает, что достаточно напеть 10-15 секунд отрывка. Для активации функции нужно предварительно спросить: «Что это за песня?».
Модель машинного обучения преобразует звук в цифровую последовательность, представляющую мелодию песни. Голосовой помощник подберет несколько вариантов на выбор. Каждый из них будет содержать данные о треке, исполнителе, видеоклипах и другие.
Кроме того, Google подберет каверы и другие варианты оригинальной композиции, если они были проиндексированы поисковыми ботами.
Пока функция доступна на английском языке для iOS и более чем на 20 языках на Android. Вскоре ее планируется выпустить на большем количестве языков.
Функцию разработали в команде AI Research по распознаванию музыки.
В Google Assistant добавили обновленную версию поиска песен. Теперь мелодию можно напеть, «промычать» или просвистеть, а система опознает трек.
Компания утверждает, что достаточно напеть 10-15 секунд отрывка. Для активации функции нужно предварительно спросить: «Что это за песня?».
Модель машинного обучения преобразует звук в цифровую последовательность, представляющую мелодию песни. Голосовой помощник подберет несколько вариантов на выбор. Каждый из них будет содержать данные о треке, исполнителе, видеоклипах и другие.
Кроме того, Google подберет каверы и другие варианты оригинальной композиции, если они были проиндексированы поисковыми ботами.
Пока функция доступна на английском языке для iOS и более чем на 20 языках на Android. Вскоре ее планируется выпустить на большем количестве языков.
Функцию разработали в команде AI Research по распознаванию музыки.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Text2Code для Jupyter notebook
Расширение Jupiter, которое преобразует английские запросы в соответствующий код Python.
Это поможет специалистам по данным и опытным пользователям создавать более сложные запросы и проще код.
Разработчики и специалисты по данным в безопасности (пока 😉).
Github: https://github.com/deepklarity/jupyter-text2code#a-proof-of-concept-jupyter-extension-which-converts-english-queries-into-relevant-python-code
#innovation #artificialintelligence #deeplearning #technology #datascience #bigdata
Расширение Jupiter, которое преобразует английские запросы в соответствующий код Python.
Это поможет специалистам по данным и опытным пользователям создавать более сложные запросы и проще код.
Разработчики и специалисты по данным в безопасности (пока 😉).
Github: https://github.com/deepklarity/jupyter-text2code#a-proof-of-concept-jupyter-extension-which-converts-english-queries-into-relevant-python-code
#innovation #artificialintelligence #deeplearning #technology #datascience #bigdata
📚8 лучших библиотек обработки естественного языка для Python (NLP)
1. Инструментарий естественного языка (NLTK)
NLTK — это важная библиотека, поддерживающая такие задачи, как классификация, стемминг, маркировка, синтаксический анализ и семантическое рассуждение в Python. Это ваш основной инструмент для обработки естественного языка и машинного обучения. Сегодня он служит образовательной основой для разработчиков Python, которые только приступают к изучению NLP и машинного обучения.
2. TextBlo
TextBlob является обязательным для разработчиков, которые начинают свое путешествие в NLP в Python. Идеально подходит для первого знакомства с NLP. TextBlob предоставляет новичкам простой интерфейс для помощи в освоении большинства основных задач NLP, таких как анализ настроений, POS-маркировка или извлечение именных фраз.
3. CoreNLP
CoreNLP - библиотека оснащена оболочками для многих языков, включая Python, что делает ее полезной разработчикам, желающим попробовать свои силы в обработке естественного языка на Python. Библиотека действительно быстра и хорошо работает в средах разработки продуктов. Кроме того, некоторые компоненты CoreNLP могут быть интегрированы с NLTK, что неизбежно повысит эффективность последнего.
4. Gensim
Gensim — это библиотека Python, которая специализируется на выявлении семантического сходства между двумя документами посредством векторного пространственного моделирования и инструментария тематического моделирования. Она может обрабатывать большие текстовые массивы с помощью эффективной потоковой передачи данных и инкрементных алгоритмов. В ней реализованы Word2Vec, Doc2Vec, а также FastText.
5. spaCy
spaCy относительно молодая библиотека, предназначенная для производственного использования. Вот почему она гораздо доступнее других NLP-библиотек Python, таких как NLTK. spaCy предлагает самый быстрый синтаксический парсер, имеющийся сегодня на рынке. Кроме того, поскольку инструментарий написан на языке Cython, он также очень быстр и эффективен.
6. Polyglot
Следующая библиотека менее известна, но она относится к числу наших любимых библиотек, поскольку предлагает широкий спектр анализа и впечатляющий охват языка. Благодаря NumPy, она также работает очень быстро. Использование polyglot похоже на spaCy. Это очень эффективный, простой и в принципе отличный вариант для проектов, связанных с языками, не поддерживаемыми spaCy. Библиотека выделяется на фоне остальных еще и потому, что запрашивает использование выделенной команды в командной строке через конвейерные механизмы.
7. Scikit–learn
Эта NLP-библиотека удобна в использовании. Она предоставляет разработчикам широкий спектр алгоритмов для построения моделей машинного обучения. Ее функционал позволяет использовать метод «мешок слов» (bag-of-words model) для создания объектов, призванных решать задачи классификации текста. Сильной стороной этой библиотеки являются интуитивные методы классов. Кроме того, scikit-learn имеет отличную документацию, которая помогает разработчикам максимально использовать свои возможности.
8. Pattern
Еще одна жемчужина среди библиотек NLP, используемых разработчиками Python для работы с естественными языками. Pattern предоставляет инструменты для частеречной разметки (part-of-speech tagging), анализа настроений, векторных пространств, моделирования (SVM), классификации, кластеризации, n-граммы поиска и WordNet. Вы можете воспользоваться преимуществами парсера DOM, веб-искателя, а также некоторыми полезными API, такими как API Twitter или Facebook. Тем не менее, этот инструмент по сути является веб-майнером и может оказаться недостаточным для выполнения других задач обработки естественного языка.
1. Инструментарий естественного языка (NLTK)
NLTK — это важная библиотека, поддерживающая такие задачи, как классификация, стемминг, маркировка, синтаксический анализ и семантическое рассуждение в Python. Это ваш основной инструмент для обработки естественного языка и машинного обучения. Сегодня он служит образовательной основой для разработчиков Python, которые только приступают к изучению NLP и машинного обучения.
2. TextBlo
TextBlob является обязательным для разработчиков, которые начинают свое путешествие в NLP в Python. Идеально подходит для первого знакомства с NLP. TextBlob предоставляет новичкам простой интерфейс для помощи в освоении большинства основных задач NLP, таких как анализ настроений, POS-маркировка или извлечение именных фраз.
3. CoreNLP
CoreNLP - библиотека оснащена оболочками для многих языков, включая Python, что делает ее полезной разработчикам, желающим попробовать свои силы в обработке естественного языка на Python. Библиотека действительно быстра и хорошо работает в средах разработки продуктов. Кроме того, некоторые компоненты CoreNLP могут быть интегрированы с NLTK, что неизбежно повысит эффективность последнего.
4. Gensim
Gensim — это библиотека Python, которая специализируется на выявлении семантического сходства между двумя документами посредством векторного пространственного моделирования и инструментария тематического моделирования. Она может обрабатывать большие текстовые массивы с помощью эффективной потоковой передачи данных и инкрементных алгоритмов. В ней реализованы Word2Vec, Doc2Vec, а также FastText.
5. spaCy
spaCy относительно молодая библиотека, предназначенная для производственного использования. Вот почему она гораздо доступнее других NLP-библиотек Python, таких как NLTK. spaCy предлагает самый быстрый синтаксический парсер, имеющийся сегодня на рынке. Кроме того, поскольку инструментарий написан на языке Cython, он также очень быстр и эффективен.
6. Polyglot
Следующая библиотека менее известна, но она относится к числу наших любимых библиотек, поскольку предлагает широкий спектр анализа и впечатляющий охват языка. Благодаря NumPy, она также работает очень быстро. Использование polyglot похоже на spaCy. Это очень эффективный, простой и в принципе отличный вариант для проектов, связанных с языками, не поддерживаемыми spaCy. Библиотека выделяется на фоне остальных еще и потому, что запрашивает использование выделенной команды в командной строке через конвейерные механизмы.
7. Scikit–learn
Эта NLP-библиотека удобна в использовании. Она предоставляет разработчикам широкий спектр алгоритмов для построения моделей машинного обучения. Ее функционал позволяет использовать метод «мешок слов» (bag-of-words model) для создания объектов, призванных решать задачи классификации текста. Сильной стороной этой библиотеки являются интуитивные методы классов. Кроме того, scikit-learn имеет отличную документацию, которая помогает разработчикам максимально использовать свои возможности.
8. Pattern
Еще одна жемчужина среди библиотек NLP, используемых разработчиками Python для работы с естественными языками. Pattern предоставляет инструменты для частеречной разметки (part-of-speech tagging), анализа настроений, векторных пространств, моделирования (SVM), классификации, кластеризации, n-граммы поиска и WordNet. Вы можете воспользоваться преимуществами парсера DOM, веб-искателя, а также некоторыми полезными API, такими как API Twitter или Facebook. Тем не менее, этот инструмент по сути является веб-майнером и может оказаться недостаточным для выполнения других задач обработки естественного языка.
CoreNLP
High-performance human language analysis tools, now with native deep learning modules in Python, available in many human languages.
A LITE BERT (ALBERT) — это оптимизированная версия BERT от Google.
В статье «ALBERT: облегченный BERT для самообучения языковым представлениям», была представлена обновленная версия BERT’а, которая показывает более высокие результаты в 12 задачах обработки языка.
ALBERT основана на архитектуре стандартного BERT, но модифицирована с помощью 2-х методов.
Методы:
• Матрица векторных представлений слов делится на 2 маленькие матрицы: размер скрытых слоев напрямую отделяется от размера векторов (factorized embedding parameterization);
• Нейросеть передает параметры между слоями, чтобы параметры не росли с увеличением глубины нейросети (cross-layer parameter sharing).
На картинке представлено сравнение размеров стандартного BERT и ALBERT. Показательно то, что увеличение размера модели на этапе предобучения векторных представлений слов часто результирует в улучшение качества предсказаний.
Успех ALBERT демонстрирует важность выявления аспектов модели, которые помогают создать мощные контекстные представления.
В статье «ALBERT: облегченный BERT для самообучения языковым представлениям», была представлена обновленная версия BERT’а, которая показывает более высокие результаты в 12 задачах обработки языка.
ALBERT основана на архитектуре стандартного BERT, но модифицирована с помощью 2-х методов.
Методы:
• Матрица векторных представлений слов делится на 2 маленькие матрицы: размер скрытых слоев напрямую отделяется от размера векторов (factorized embedding parameterization);
• Нейросеть передает параметры между слоями, чтобы параметры не росли с увеличением глубины нейросети (cross-layer parameter sharing).
На картинке представлено сравнение размеров стандартного BERT и ALBERT. Показательно то, что увеличение размера модели на этапе предобучения векторных представлений слов часто результирует в улучшение качества предсказаний.
Успех ALBERT демонстрирует важность выявления аспектов модели, которые помогают создать мощные контекстные представления.
💻Компьютер Nvidia Jetson Nano позволяет при небольшом бюджете создавать автономные аппаратные системы, работающие на моделях глубокого обучения с GPU-ускорением.
Всего лишь прочитав статью, закупив оборудование и написав 200 строчек кода, вы сможете сделать систему, которая будет отслежить и запоминать ваших гостей.
Читайте оригинал — https://medium.com/@ageitgey/build-a-hardware-based-face-recognition-system-for-150-with-the-nvidia-jetson-nano-and-python-a25cb8c891fd
Всего лишь прочитав статью, закупив оборудование и написав 200 строчек кода, вы сможете сделать систему, которая будет отслежить и запоминать ваших гостей.
Читайте оригинал — https://medium.com/@ageitgey/build-a-hardware-based-face-recognition-system-for-150-with-the-nvidia-jetson-nano-and-python-a25cb8c891fd
Medium
Build a Hardware-based Face Recognition System for $150 with the Nvidia Jetson Nano and Python
Using Python 3.6, OpenCV, Dlib and the face_recognition module
🔥На github классная подборка самых интересующих всех вопросов в области Data Science и ответы на них. Здесь собраны всевозможные алгоритмы, тьюториалы и другие вещи, на которые стоит обратить внимание.
Переходите — https://github.com/academic/awesome-datascience
Переходите — https://github.com/academic/awesome-datascience
GitHub
GitHub - academic/awesome-datascience: :memo: An awesome Data Science repository to learn and apply for real world problems.
:memo: An awesome Data Science repository to learn and apply for real world problems. - academic/awesome-datascience
🖌Artbreeder — нейросеть, которая генерирует случайные лица, абстракцию, обложки и пейзажи.
Сайт вышел в открытый доступ 9-го сентября, и с тех пор пользователи ежеминутно загружают лучшие работы.
Artbreeder может смешать несколько разных картинок в одну, сгенерировать абстрактные изображения на манер обложек музыкальных альбомов и показать сюрреалистичные пейзажи.
Но главный инструмент нейросети – генерация портретов.
Чтобы создать картинки на аватарку, фото для профиля или портрет онлайн бесплатно с помощью нейросети Artbreeder, для начала зарегистрируйтесь на главной странице сайта. После регистрации нажмите кнопку "Create" и перейдите к следующему шагу - использованию генератора изображений. Всего лишь два шага, и вы уже становитесь создателем цифрового искусства.
Ссылка на сервис — https://artbreeder.com
Сайт вышел в открытый доступ 9-го сентября, и с тех пор пользователи ежеминутно загружают лучшие работы.
Artbreeder может смешать несколько разных картинок в одну, сгенерировать абстрактные изображения на манер обложек музыкальных альбомов и показать сюрреалистичные пейзажи.
Но главный инструмент нейросети – генерация портретов.
Чтобы создать картинки на аватарку, фото для профиля или портрет онлайн бесплатно с помощью нейросети Artbreeder, для начала зарегистрируйтесь на главной странице сайта. После регистрации нажмите кнопку "Create" и перейдите к следующему шагу - использованию генератора изображений. Всего лишь два шага, и вы уже становитесь создателем цифрового искусства.
Ссылка на сервис — https://artbreeder.com
📚21-22 ноября 2020 года пройдёт хакатон и конференция по современным технологиям «Hack Life». Более 15 классных спикеров проведут онлайн-лекции по искусственному интеллекту, машинному обучению, data science, big data, AR/VR и blockchain.
Конференция пройдёт в двух треках: общий трек для всех желающих и специальный трек для программистов.
Подать заявку на участие в хакатоне можно до 18 ноября — как индивидуально, так и в команде от трех до шести человек.
Участие — БЕСПЛАТНОЕ! 🔥
Ссылка на сайт мероприятия.
Конференция пройдёт в двух треках: общий трек для всех желающих и специальный трек для программистов.
Подать заявку на участие в хакатоне можно до 18 ноября — как индивидуально, так и в команде от трех до шести человек.
Участие — БЕСПЛАТНОЕ! 🔥
Ссылка на сайт мероприятия.
🔥Презентация флагманской системы AutoML: Auto-Sklearn 2.0
Недавний существенный прогресс в машинном обучении (ML) привел к растущему спросу на системы машинного обучения, которые могут помочь разработчикам и новичкам в машинном обучении.
Предыдущая версия AutoML была больше направлена на автоматизацию части data science, связанной с машинным обучением. Но одна из самых сложных частей классического data science - это конструирование признаков, которое требует довольного большого количества трудозатрат. Теперь платформы с возможностями автоматизированной разработки признаков позволяют автоматизировать создание таблиц характеристик из реляционных данных и неструтурированных файлов.
Если кто-то думает, что AutoML 2.0 заменит Data Scientist'ов, то они ошибаются. Единственная цель AutoML 2.0 — повысить продуктивность Data Scientist'ов.
Подробнее о новой версии AutoML здесь — https://arxiv.org/abs/2007.04074
Недавний существенный прогресс в машинном обучении (ML) привел к растущему спросу на системы машинного обучения, которые могут помочь разработчикам и новичкам в машинном обучении.
Предыдущая версия AutoML была больше направлена на автоматизацию части data science, связанной с машинным обучением. Но одна из самых сложных частей классического data science - это конструирование признаков, которое требует довольного большого количества трудозатрат. Теперь платформы с возможностями автоматизированной разработки признаков позволяют автоматизировать создание таблиц характеристик из реляционных данных и неструтурированных файлов.
Если кто-то думает, что AutoML 2.0 заменит Data Scientist'ов, то они ошибаются. Единственная цель AutoML 2.0 — повысить продуктивность Data Scientist'ов.
Подробнее о новой версии AutoML здесь — https://arxiv.org/abs/2007.04074
🏂Профилирование данных с Apache Spark: 3 простых способа
Профилирование данных (Data Profiling) – это процесс их исследования для выяснения статистических характеристик (характер распределения величин, наличие выбросов, параметры выборки), а также предварительная оценка качества: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и пр. Для этой обязательной DS-работы с данными в Apache Spark пригодятся следующие инструменты:
1. Deequ от Amazon Web Services, интегрированный с AWS-решениями. Сначала необходимо определить объект «AnalysisRunner», чтобы добавить ряд предопределенных анализаторов, таких как соответствие, размер, полнота, уникальность и пр. Deequ не только обеспечивает проверку качества данных с фиксированными порогами, но и позволяет находить аномалии, а также поддерживает работу с изменяющимися метриками.
2. Great Expectation – фреймворк, который интегрируется с DAG-подобными приложениями типа Spark, Airflow и пр. Благодаря наличию API Python, CLI и удобному пользовательскому интерфейсу, его можно активно использовать в даже в крупных проектах, включая распределенные среды, такие как Redshift и Databrics. Great Expectation поддерживает не только Apache Spark, но и SQLAlchemy с Pandas и даже BigQuery.
3. Наконец, встроенные функции API Apache Spark. Можно просто обернуть список преобразований в настраиваемую функцию и сделать собственное решение для профилирования данных. Например, создать функцию-шаблон поиска минимальных, максимальных и пропущенных значений в датасете.
Профилирование данных (Data Profiling) – это процесс их исследования для выяснения статистических характеристик (характер распределения величин, наличие выбросов, параметры выборки), а также предварительная оценка качества: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и пр. Для этой обязательной DS-работы с данными в Apache Spark пригодятся следующие инструменты:
1. Deequ от Amazon Web Services, интегрированный с AWS-решениями. Сначала необходимо определить объект «AnalysisRunner», чтобы добавить ряд предопределенных анализаторов, таких как соответствие, размер, полнота, уникальность и пр. Deequ не только обеспечивает проверку качества данных с фиксированными порогами, но и позволяет находить аномалии, а также поддерживает работу с изменяющимися метриками.
2. Great Expectation – фреймворк, который интегрируется с DAG-подобными приложениями типа Spark, Airflow и пр. Благодаря наличию API Python, CLI и удобному пользовательскому интерфейсу, его можно активно использовать в даже в крупных проектах, включая распределенные среды, такие как Redshift и Databrics. Great Expectation поддерживает не только Apache Spark, но и SQLAlchemy с Pandas и даже BigQuery.
3. Наконец, встроенные функции API Apache Spark. Можно просто обернуть список преобразований в настраиваемую функцию и сделать собственное решение для профилирования данных. Например, создать функцию-шаблон поиска минимальных, максимальных и пропущенных значений в датасете.
Amazon
Test data quality at scale with Deequ | Amazon Web Services
In this blog post, we introduce Deequ, an open source tool developed and used at Amazon. Deequ allows you to calculate data quality metrics on your dataset, define and verify data quality constraints, and be informed about changes in the data distribution.…
🛹5 шагов от Python к PySpark и 10 лучших практик настройки Spark-заданий
Узнайте, как быстро конвертировать Python-скрипты в задания PySpark, эффективно используя всю мощь распределенных вычислений Apache Spark.
1. Преобразуйте локальный датафрейм Pandas в Spark Dataframe через Apache Arrow (независимый от языка столбчатый формат в памяти) или Koalas (API Pandas в Apache Spark)
2. Напишите пользовательскую функцию PySpark (UDF) для функции Python. UDF PySpark принимают столбцы и применяет логику построчно для создания нового столбца
3. Загрузите датасет в Spark RDD или DataFrame
4. Избегайте циклов, используя преобразование map() для каждого элемента RDD с использованием функции, возвращающей новый RDD.
5. Учитывайте взаимозависимость датафреймов – если новое значение столбца DataFrame зависит от других таких же структур данных, объедините их через JOIN и вызовите UDF, чтобы получить новое значение столбца.
Чтобы по максимуму использовать все возможности кластера, перед запуском Spark-заданий помните о следующих рекомендациях:
1. Избегайте слишком больших структур данных (RDD, DataFrames) и помните про форматы (Avro и Parquet лучше, чем TXT, CSV или JSON)
2. Для уменьшения накладных расходов на параллельную обработку данных используйте coalesce(), чтобы сократить количество разделов
3. Сокращайте неиспользуемые ресурсы (ядра в кластере), распределяя данные с помощью repartition()
4. Используйте reduceByKey вместо groupByKey, настраивая уровень параллелизма и задавая количество разделов при вызове операций перетасовки данных (shuffle)
5. Избегайте перетасовки больших объемов данных, настроив spark.sql.shuffle.partitions для указания количества разделов при перетасовке для объединений или агрегатов.
6. Отфильтруйте данные перед обработкой, убрав лишнее
7. Используйте Broadcast-переменные, подобные распределенному кэшу в Hadoop, чтобы повысить производительность, сделав данные доступными для всех исполнителей и уменьшив их перетасовку
8. Если RDD или DataFrame используется более одного раза, кэшируйте их, чтобы избежать повторного вычисления и повысить производительность
9. Следите за пользовательским интерфейсом Spark для настройки своего приложения
10. Используйте динамическое размещение (spark.dynamicAllocation.enabled), чтобы масштабировать количество исполнителей в приложении в зависимости от рабочей нагрузки
Узнайте, как быстро конвертировать Python-скрипты в задания PySpark, эффективно используя всю мощь распределенных вычислений Apache Spark.
1. Преобразуйте локальный датафрейм Pandas в Spark Dataframe через Apache Arrow (независимый от языка столбчатый формат в памяти) или Koalas (API Pandas в Apache Spark)
2. Напишите пользовательскую функцию PySpark (UDF) для функции Python. UDF PySpark принимают столбцы и применяет логику построчно для создания нового столбца
3. Загрузите датасет в Spark RDD или DataFrame
4. Избегайте циклов, используя преобразование map() для каждого элемента RDD с использованием функции, возвращающей новый RDD.
5. Учитывайте взаимозависимость датафреймов – если новое значение столбца DataFrame зависит от других таких же структур данных, объедините их через JOIN и вызовите UDF, чтобы получить новое значение столбца.
Чтобы по максимуму использовать все возможности кластера, перед запуском Spark-заданий помните о следующих рекомендациях:
1. Избегайте слишком больших структур данных (RDD, DataFrames) и помните про форматы (Avro и Parquet лучше, чем TXT, CSV или JSON)
2. Для уменьшения накладных расходов на параллельную обработку данных используйте coalesce(), чтобы сократить количество разделов
3. Сокращайте неиспользуемые ресурсы (ядра в кластере), распределяя данные с помощью repartition()
4. Используйте reduceByKey вместо groupByKey, настраивая уровень параллелизма и задавая количество разделов при вызове операций перетасовки данных (shuffle)
5. Избегайте перетасовки больших объемов данных, настроив spark.sql.shuffle.partitions для указания количества разделов при перетасовке для объединений или агрегатов.
6. Отфильтруйте данные перед обработкой, убрав лишнее
7. Используйте Broadcast-переменные, подобные распределенному кэшу в Hadoop, чтобы повысить производительность, сделав данные доступными для всех исполнителей и уменьшив их перетасовку
8. Если RDD или DataFrame используется более одного раза, кэшируйте их, чтобы избежать повторного вычисления и повысить производительность
9. Следите за пользовательским интерфейсом Spark для настройки своего приложения
10. Используйте динамическое размещение (spark.dynamicAllocation.enabled), чтобы масштабировать количество исполнителей в приложении в зависимости от рабочей нагрузки
🎄В последний месяц уходящего года нас ждут не только декабрьские корпоративы, но и множество интересных событий: конференции, митапы, хакатоны и прочие образовательные мероприятия по Data Science, Machine Learning и Big Data. Многое из нашего дайджеста проводится бесплатно, онлайн и доступно для удаленного участия:
• 1 декабря – Форум для лидеров цифрового развития "Пульс цифровизации" - о новых реалиях и смене бизнес-стратегии, роли и значении AI, Big Data, IoT, Clouds в современном мире http://fcongress.forbes.ru/digital2020
• 2-4 декабря – Web Summit 2020 – англоязычная конференция по развитию веб-технологий и их влиянии на нашу жизнь, в т.ч. применение DS и ML для персонализации контента и маркетинга, повышения эффективности ретаргетинга и пр. https://websummit.com/
• 3 декабря – второй отраслевой форум «Информационные технологии в металлургии и металлообработке». Вопросам DS и ML посвящена тема «Искусственный интеллект и машинное зрение как наиболее перспективные направления цифровизации с точки зрения возврата инвестиций» https://итметалл.рф/
• 3 декабря – встреча “Технологии BigData и лидогенерация” из серии онлайн-встреч ”Цифровизация бизнеса: Инструкция по применению”. Будут рассмотрены Большие данные в маркетинге, Поиск своего клиента по MAC-адресам и профилирование целевой аудитории, способы повышения эффективности рекламы и продажи https://club.atlanty.ru/cifra
• 3 декабря - “Front-End Hero”, онлайн-митап для разработчиков от Andersen. "Нейронные сети в твоем браузере" https://docs.google.com/forms/d/e/1FAIpQLSdtxnT-2FYdM3QS4nwiTnT70-aMRb3A4vPK9p_e8nz85S3VJw/viewform
• 3–5 декабря – AI Journey 2020, онлайн-конференция по искусственному интеллекту от Сбербанка: международное онлайн-соревнование по технологиям ИИ, трехдневная международная онлайн-конференция, а также конференция AI Journey Junior для учащихся средних и старших классов школы https://ai-journey.ru/
• 10 декабря – YaTalks для разработчиков - 30 часов контента + открытые дискуссии про Highload-сервисы и сложную разработку: Mobile, FrontEnd, BackEnd и ML, а также масса интересного от ТОП-менеджеров, тимлидов и HR https://yatalks.yandex.ru/
• 10 декабря – ежегодный декабрьский митап от X5 Retail Group, “X5Tech Future Night Online”: загляните "под капот" продуктовой розницы, чтобы узнать, как создается новый ритейл. Поговорим о больших данных и искусственном интеллекте в ритейле, подискутируем на тему генно-модифицированной еды и обсудим тенденции в производстве продуктов питания https://x5retail.tech/
• 11-13 декабря – AgroCode 2020 – комплексное мероприятие в области агротехнологий от Россельхозбанка: цифровая экосистема для фермеров, IT-специалистов, аналитиков, представителей аграрного бизнеса и всех неравнодушных к сельскому хозяйству. На онлайн-площадке вас ждет хакатон Agro Hack, конкурс идей Agro Idea и конференция FutureTech Conference https://agro-code.ru/
• 12-29 декабря - “Alfa Battle 2.0”, онлайн-чемпионат для российских DS-специалистов от Альфа-Банка. Получите свой миллион рублей, оценив надёжность заёмщика и угадав действия клиента в приложении https://alfabattle.ru/2
• 15 декабря – Практикум Kubernetes в Yandex.Cloud. Под онлайн-руководством наставника вы научитесь разворачивать сервисы Managed Service for Kubernetes®, Managed Service for PostgreSQL и Container Registry, создадите кластер и подключите Load Balancer. Работа в консоли, для заданий тестовое облако Yandex.Cloud. Мероприятие бесплатное, но вход только по приглашениям https://cloud.yandex.ru/events/294
• 16 декабря – “Sit Insights In Technology Conference 2020 “, онлайн-конференция в области компьютерных наук, искусственного интеллекта, машинного обучения, квантовых технологий, передовых материалов и бизнеса https://insights2020.sit.events/home
• 1 декабря – Форум для лидеров цифрового развития "Пульс цифровизации" - о новых реалиях и смене бизнес-стратегии, роли и значении AI, Big Data, IoT, Clouds в современном мире http://fcongress.forbes.ru/digital2020
• 2-4 декабря – Web Summit 2020 – англоязычная конференция по развитию веб-технологий и их влиянии на нашу жизнь, в т.ч. применение DS и ML для персонализации контента и маркетинга, повышения эффективности ретаргетинга и пр. https://websummit.com/
• 3 декабря – второй отраслевой форум «Информационные технологии в металлургии и металлообработке». Вопросам DS и ML посвящена тема «Искусственный интеллект и машинное зрение как наиболее перспективные направления цифровизации с точки зрения возврата инвестиций» https://итметалл.рф/
• 3 декабря – встреча “Технологии BigData и лидогенерация” из серии онлайн-встреч ”Цифровизация бизнеса: Инструкция по применению”. Будут рассмотрены Большие данные в маркетинге, Поиск своего клиента по MAC-адресам и профилирование целевой аудитории, способы повышения эффективности рекламы и продажи https://club.atlanty.ru/cifra
• 3 декабря - “Front-End Hero”, онлайн-митап для разработчиков от Andersen. "Нейронные сети в твоем браузере" https://docs.google.com/forms/d/e/1FAIpQLSdtxnT-2FYdM3QS4nwiTnT70-aMRb3A4vPK9p_e8nz85S3VJw/viewform
• 3–5 декабря – AI Journey 2020, онлайн-конференция по искусственному интеллекту от Сбербанка: международное онлайн-соревнование по технологиям ИИ, трехдневная международная онлайн-конференция, а также конференция AI Journey Junior для учащихся средних и старших классов школы https://ai-journey.ru/
• 10 декабря – YaTalks для разработчиков - 30 часов контента + открытые дискуссии про Highload-сервисы и сложную разработку: Mobile, FrontEnd, BackEnd и ML, а также масса интересного от ТОП-менеджеров, тимлидов и HR https://yatalks.yandex.ru/
• 10 декабря – ежегодный декабрьский митап от X5 Retail Group, “X5Tech Future Night Online”: загляните "под капот" продуктовой розницы, чтобы узнать, как создается новый ритейл. Поговорим о больших данных и искусственном интеллекте в ритейле, подискутируем на тему генно-модифицированной еды и обсудим тенденции в производстве продуктов питания https://x5retail.tech/
• 11-13 декабря – AgroCode 2020 – комплексное мероприятие в области агротехнологий от Россельхозбанка: цифровая экосистема для фермеров, IT-специалистов, аналитиков, представителей аграрного бизнеса и всех неравнодушных к сельскому хозяйству. На онлайн-площадке вас ждет хакатон Agro Hack, конкурс идей Agro Idea и конференция FutureTech Conference https://agro-code.ru/
• 12-29 декабря - “Alfa Battle 2.0”, онлайн-чемпионат для российских DS-специалистов от Альфа-Банка. Получите свой миллион рублей, оценив надёжность заёмщика и угадав действия клиента в приложении https://alfabattle.ru/2
• 15 декабря – Практикум Kubernetes в Yandex.Cloud. Под онлайн-руководством наставника вы научитесь разворачивать сервисы Managed Service for Kubernetes®, Managed Service for PostgreSQL и Container Registry, создадите кластер и подключите Load Balancer. Работа в консоли, для заданий тестовое облако Yandex.Cloud. Мероприятие бесплатное, но вход только по приглашениям https://cloud.yandex.ru/events/294
• 16 декабря – “Sit Insights In Technology Conference 2020 “, онлайн-конференция в области компьютерных наук, искусственного интеллекта, машинного обучения, квантовых технологий, передовых материалов и бизнеса https://insights2020.sit.events/home
FCongress
Пульс цифровизации
Форум лидеров цифрового развития о новых реалиях и смене бизнес-стратегии
• 16-18 декабря – Конгресс FIT-M о главных трендах применения современных информационных технологий в биохимии, физике, материаловедении, биоинформатике, медицине, генетике и конструкторско-инженерных науках. На базе МГУ им. М.В. Ломоносова в Москве пройдут Конференция и Круглые Столы, серия интенсивов, воркшопов и мастер-классов, а также Хакатон или Технобаттл. 8 треков Технологических направлений IT для научных фундаментальных исследований и промышленных технологий Индустрии 4.0 https://fit-m.org/
• 18 декабря, 19:00 - 22:00 по Москве - Дзен-митап от Яндекса: исследования и рекомендательные системы. Reinforcement Learning в рекомендательных системах 2020; От оптимизации кликов к оптимизации «профицита»; Злонамеренные атаки на модели последовательных данных. https://events.yandex.ru/events/zen-meetup/18-12-2020
Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science! 🎉
• 18 декабря, 19:00 - 22:00 по Москве - Дзен-митап от Яндекса: исследования и рекомендательные системы. Reinforcement Learning в рекомендательных системах 2020; От оптимизации кликов к оптимизации «профицита»; Злонамеренные атаки на модели последовательных данных. https://events.yandex.ru/events/zen-meetup/18-12-2020
Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science! 🎉