NEW BOT Телеграм, страница

Big Data Science

📚21-22 ноября 2020 года пройдёт хакатон и конференция по современным технологиям «Hack Life». Более 15 классных спикеров проведут онлайн-лекции по искусственному интеллекту, машинному обучению, data science, big data, AR/VR и blockchain.
Конференция пройдёт в двух треках: общий трек для всех желающих и специальный трек для программистов.

Подать заявку на участие в хакатоне можно до 18 ноября — как индивидуально, так и в команде от трех до шести человек.
Участие — БЕСПЛАТНОЕ! 🔥

Ссылка на сайт мероприятия.

1.43K views11:44

Big Data Science

🔥Презентация флагманской системы AutoML: Auto-Sklearn 2.0

Недавний существенный прогресс в машинном обучении (ML) привел к растущему спросу на системы машинного обучения, которые могут помочь разработчикам и новичкам в машинном обучении.

Предыдущая версия AutoML была больше направлена на автоматизацию части data science, связанной с машинным обучением. Но одна из самых сложных частей классического data science - это конструирование признаков, которое требует довольного большого количества трудозатрат. Теперь платформы с возможностями автоматизированной разработки признаков позволяют автоматизировать создание таблиц характеристик из реляционных данных и неструтурированных файлов.

Если кто-то думает, что AutoML 2.0 заменит Data Scientist'ов, то они ошибаются. Единственная цель AutoML 2.0 — повысить продуктивность Data Scientist'ов.

Подробнее о новой версии AutoML здесь — https://arxiv.org/abs/2007.04074

1.25K views08:47

Big Data Science

🏂Профилирование данных с Apache Spark: 3 простых способа
Профилирование данных (Data Profiling) – это процесс их исследования для выяснения статистических характеристик (характер распределения величин, наличие выбросов, параметры выборки), а также предварительная оценка качества: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и пр. Для этой обязательной DS-работы с данными в Apache Spark пригодятся следующие инструменты:
1. Deequ от Amazon Web Services, интегрированный с AWS-решениями. Сначала необходимо определить объект «AnalysisRunner», чтобы добавить ряд предопределенных анализаторов, таких как соответствие, размер, полнота, уникальность и пр. Deequ не только обеспечивает проверку качества данных с фиксированными порогами, но и позволяет находить аномалии, а также поддерживает работу с изменяющимися метриками.
2. Great Expectation – фреймворк, который интегрируется с DAG-подобными приложениями типа Spark, Airflow и пр. Благодаря наличию API Python, CLI и удобному пользовательскому интерфейсу, его можно активно использовать в даже в крупных проектах, включая распределенные среды, такие как Redshift и Databrics. Great Expectation поддерживает не только Apache Spark, но и SQLAlchemy с Pandas и даже BigQuery.
3. Наконец, встроенные функции API Apache Spark. Можно просто обернуть список преобразований в настраиваемую функцию и сделать собственное решение для профилирования данных. Например, создать функцию-шаблон поиска минимальных, максимальных и пропущенных значений в датасете.

Amazon

Test data quality at scale with Deequ | Amazon Web Services

In this blog post, we introduce Deequ, an open source tool developed and used at Amazon. Deequ allows you to calculate data quality metrics on your dataset, define and verify data quality constraints, and be informed about changes in the data distribution.…

1.22K views14:35

Big Data Science

🛹5 шагов от Python к PySpark и 10 лучших практик настройки Spark-заданий
Узнайте, как быстро конвертировать Python-скрипты в задания PySpark, эффективно используя всю мощь распределенных вычислений Apache Spark.
1. Преобразуйте локальный датафрейм Pandas в Spark Dataframe через Apache Arrow (независимый от языка столбчатый формат в памяти) или Koalas (API Pandas в Apache Spark)
2. Напишите пользовательскую функцию PySpark (UDF) для функции Python. UDF PySpark принимают столбцы и применяет логику построчно для создания нового столбца
3. Загрузите датасет в Spark RDD или DataFrame
4. Избегайте циклов, используя преобразование map() для каждого элемента RDD с использованием функции, возвращающей новый RDD.
5. Учитывайте взаимозависимость датафреймов – если новое значение столбца DataFrame зависит от других таких же структур данных, объедините их через JOIN и вызовите UDF, чтобы получить новое значение столбца.

Чтобы по максимуму использовать все возможности кластера, перед запуском Spark-заданий помните о следующих рекомендациях:
1. Избегайте слишком больших структур данных (RDD, DataFrames) и помните про форматы (Avro и Parquet лучше, чем TXT, CSV или JSON)
2. Для уменьшения накладных расходов на параллельную обработку данных используйте coalesce(), чтобы сократить количество разделов
3. Сокращайте неиспользуемые ресурсы (ядра в кластере), распределяя данные с помощью repartition()
4. Используйте reduceByKey вместо groupByKey, настраивая уровень параллелизма и задавая количество разделов при вызове операций перетасовки данных (shuffle)
5. Избегайте перетасовки больших объемов данных, настроив spark.sql.shuffle.partitions для указания количества разделов при перетасовке для объединений или агрегатов.
6. Отфильтруйте данные перед обработкой, убрав лишнее
7. Используйте Broadcast-переменные, подобные распределенному кэшу в Hadoop, чтобы повысить производительность, сделав данные доступными для всех исполнителей и уменьшив их перетасовку
8. Если RDD или DataFrame используется более одного раза, кэшируйте их, чтобы избежать повторного вычисления и повысить производительность
9. Следите за пользовательским интерфейсом Spark для настройки своего приложения
10. Используйте динамическое размещение (spark.dynamicAllocation.enabled), чтобы масштабировать количество исполнителей в приложении в зависимости от рабочей нагрузки

1.08K views13:45

Big Data Science

🎄В последний месяц уходящего года нас ждут не только декабрьские корпоративы, но и множество интересных событий: конференции, митапы, хакатоны и прочие образовательные мероприятия по Data Science, Machine Learning и Big Data. Многое из нашего дайджеста проводится бесплатно, онлайн и доступно для удаленного участия:
• 1 декабря – Форум для лидеров цифрового развития "Пульс цифровизации" - о новых реалиях и смене бизнес-стратегии, роли и значении AI, Big Data, IoT, Clouds в современном мире http://fcongress.forbes.ru/digital2020
• 2-4 декабря – Web Summit 2020 – англоязычная конференция по развитию веб-технологий и их влиянии на нашу жизнь, в т.ч. применение DS и ML для персонализации контента и маркетинга, повышения эффективности ретаргетинга и пр. https://websummit.com/
• 3 декабря – второй отраслевой форум «Информационные технологии в металлургии и металлообработке». Вопросам DS и ML посвящена тема «Искусственный интеллект и машинное зрение как наиболее перспективные направления цифровизации с точки зрения возврата инвестиций» https://итметалл.рф/
• 3 декабря – встреча “Технологии BigData и лидогенерация” из серии онлайн-встреч ”Цифровизация бизнеса: Инструкция по применению”. Будут рассмотрены Большие данные в маркетинге, Поиск своего клиента по MAC-адресам и профилирование целевой аудитории, способы повышения эффективности рекламы и продажи https://club.atlanty.ru/cifra
• 3 декабря - “Front-End Hero”, онлайн-митап для разработчиков от Andersen. "Нейронные сети в твоем браузере" https://docs.google.com/forms/d/e/1FAIpQLSdtxnT-2FYdM3QS4nwiTnT70-aMRb3A4vPK9p_e8nz85S3VJw/viewform
• 3–5 декабря – AI Journey 2020, онлайн-конференция по искусственному интеллекту от Сбербанка: международное онлайн-соревнование по технологиям ИИ, трехдневная международная онлайн-конференция, а также конференция AI Journey Junior для учащихся средних и старших классов школы https://ai-journey.ru/
• 10 декабря – YaTalks для разработчиков - 30 часов контента + открытые дискуссии про Highload-сервисы и сложную разработку: Mobile, FrontEnd, BackEnd и ML, а также масса интересного от ТОП-менеджеров, тимлидов и HR https://yatalks.yandex.ru/
• 10 декабря – ежегодный декабрьский митап от X5 Retail Group, “X5Tech Future Night Online”: загляните "под капот" продуктовой розницы, чтобы узнать, как создается новый ритейл. Поговорим о больших данных и искусственном интеллекте в ритейле, подискутируем на тему генно-модифицированной еды и обсудим тенденции в производстве продуктов питания https://x5retail.tech/
• 11-13 декабря – AgroCode 2020 – комплексное мероприятие в области агротехнологий от Россельхозбанка: цифровая экосистема для фермеров, IT-специалистов, аналитиков, представителей аграрного бизнеса и всех неравнодушных к сельскому хозяйству. На онлайн-площадке вас ждет хакатон Agro Hack, конкурс идей Agro Idea и конференция FutureTech Conference https://agro-code.ru/
• 12-29 декабря - “Alfa Battle 2.0”, онлайн-чемпионат для российских DS-специалистов от Альфа-Банка. Получите свой миллион рублей, оценив надёжность заёмщика и угадав действия клиента в приложении https://alfabattle.ru/2
• 15 декабря – Практикум Kubernetes в Yandex.Cloud. Под онлайн-руководством наставника вы научитесь разворачивать сервисы Managed Service for Kubernetes®, Managed Service for PostgreSQL и Container Registry, создадите кластер и подключите Load Balancer. Работа в консоли, для заданий тестовое облако Yandex.Cloud. Мероприятие бесплатное, но вход только по приглашениям https://cloud.yandex.ru/events/294
• 16 декабря – “Sit Insights In Technology Conference 2020 “, онлайн-конференция в области компьютерных наук, искусственного интеллекта, машинного обучения, квантовых технологий, передовых материалов и бизнеса https://insights2020.sit.events/home

FCongress

Пульс цифровизации

Форум лидеров цифрового развития о новых реалиях и смене бизнес-стратегии

1.04K views02:27

Big Data Science

• 16-18 декабря – Конгресс FIT-M о главных трендах применения современных информационных технологий в биохимии, физике, материаловедении, биоинформатике, медицине, генетике и конструкторско-инженерных науках. На базе МГУ им. М.В. Ломоносова в Москве пройдут Конференция и Круглые Столы, серия интенсивов, воркшопов и мастер-классов, а также Хакатон или Технобаттл. 8 треков Технологических направлений IT для научных фундаментальных исследований и промышленных технологий Индустрии 4.0 https://fit-m.org/
• 18 декабря, 19:00 - 22:00 по Москве - Дзен-митап от Яндекса: исследования и рекомендательные системы. Reinforcement Learning в рекомендательных системах 2020; От оптимизации кликов к оптимизации «профицита»; Злонамеренные атаки на модели последовательных данных. https://events.yandex.ru/events/zen-meetup/18-12-2020

Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science! 🎉

1.06K views02:27

Big Data Science

🎯7 инструментов MLOps
MLOps (Machine Learning Operations) – это культура и набор практик комплексного и автоматизированного управления жизненным циклом систем машинного обучения, объединяющие их разработку и операции эксплуатационного сопровождения, в т.ч. интеграцию, тестирование, выпуск, развертывание и управление инфраструктурой.
Обычно MLOps-система включает платформы сбора и агрегации данных, их анализа и подготовки к ML-моделированию, средства выполнения вычислений и аналитики, а также инструменты автоматизированного перемещения ML-моделей, данных и созданных на их основе программных продуктов между различными процессами жизненного цикла. Такие унифицированные конвейеры частично или полностью автоматизируют рабочие задачи Data Scientist’a, дата-инженера, ML-специалиста, архитектора и разработчика Big Data решений.
Инструментальным воплощением MLOps может быть готовая ML-платформа и даже собственное решение на базе open-source библиотек. Сегодня наиболее популярными инструментами MLOps считаются следующие:
• AI Platform от Google Cloud - полностью управляемая комплексная облачная платформа для анализа данных и машинного обучения https://cloud.google.com/ai-platform
• Azure Machine Learning от Microsoft – облачная служба машинного обучения корпоративного уровня для быстрого создания и развертывания ML-моделей, интегрированная с другими сервисами MS Azure https://azure.microsoft.com/ru-ru/services/machine-learning/
• SageMaker от Amazon Web Services - платформа облачного машинного обучения, позволяющая разработчикам создавать, обучать и развертывать ML-модели в облаке AWS https://aws.amazon.com/ru/sagemaker/
• Kubeflow от Google для Kubernetes - бесплатная ML-платформа с открытым исходным кодом для использования конвейеров машинного обучения в среде контейнерной виртуализации Kubernetes https://www.kubeflow.org/
• MLFlow – open-source платформа для управления жизненным циклом машинного обучения, включая эксперименты, воспроизведение, развертывание и центральный реестр ML-моделей https://mlflow.org/
• Sacred – инструмент для автоматизации проведения ML-экспериментов, от отслеживания параметров до сохранения конфигураций и воспроизведения результатов https://github.com/IDSIA/sacred
• DVC – Git-подобная система контроля версий ML-проектов с открытым исходным кодом для локального использования https://dvc.org/

Google Cloud

Vertex AI Platform

Enterprise ready, fully-managed, unified AI development platform. Access and utilize Vertex AI Studio, Agent Builder, and 200+ foundation models.

1.27K views02:01

Big Data Science

5-6 декабря состоится DevFest Siberia 2020 — пятая ежегодная конференция для разработчиков.
В этом году на 4 потоках поговорят про Frontend, Backend, DevOps, Data Science, безопасность и веб-разработку.

На площадке будет:
• 4 потока трансляций, переключаться между которыми можно в любое время;
• общий чат в каждом потоке, где можно задать вопросы спикеру;
• личные сообщения с любым гостем площадки.

Вас ждут спикеры из Atlassian, Twitter, IBM, Revolut, Cloudflare, R3, Airbus, IceRock, Hazelcast.

Чтобы попасть на конференцию, необходимо купить билет на сайте конференции - https://gdg-siberia.com

1.19K views16:56

Big Data Science

👍🏻4 отличные NN-модели трансферного обучения для компьютерного зрения👀

953 views08:27

Big Data Science

👍🏻4 отличные NN-модели трансферного обучения для компьютерного зрения👀
Трансферное обучение (Transfer Learning), когда ML-модель предварительно обучена на других задачах, хорошо работает в условиях недостатка вычислительных ресурсов для тренировки и/или количества данных. В области Computer Vision неплохих результатов позволяют добиться следующие нейросетевые модели трансферного обучения:
• VGG-19 – сверточная нейронная сеть из 19 главных слоев (16 сверточных, 3 полносвязных), 5 слоев MaxPool и 1 слой SoftMax. Она была разработана и обучена в Оксфордском университете в 2014 году. Для обучения VGG-19 использовалось более 1 миллиона цветных изображениях 224×224px из базы данных ImageNet.
• Inceptionv3 – сверточная нейронная сеть глубиной 50 основных слоев, созданная и обученная в Google также на примерах базы ImageNet, но размер входного изображения чуть больше, чем у VGG-19 – 299×299px. На соревнованиях ImageNet 2014 года, где решались задачи детектирования, классификации и локализации объектов на изображении, именно Inceptionv3 заняла 1-е место, а ее основной конкурент, VGG19 – второе.
• ResNet50 - сверточная нейросеть из 50 основных слоев, разработанная в 2015 году Microsoft для распознавания изображений. Эта ML-модель также обучена на миллионе цветных изображений 224×224px из базы ImageNet и может классифицировать до 1000 объектов. Сеть была создана, чтобы избавиться от затухающих и взрывных градиентов. При том, что ResNet50 имеет меньше параметров, чем VGG-19, она показывает более точные результаты.
• EfficientNet – сверточная нейросеть 2019 года от Google, которая сегодня считается одной из самых эффективных и точных ML-моделей. Точность сверточных нейросетей растет с увеличением ширины (количества фильтров в каждом слое), глубины (количества слоев в модели) и разрешения (размер входного изображения). Но возрастание этих параметров приводит к существенному росту вычислительных затрат. Поэтому было создано 8 реализаций архитектуры EfficientNet, даже самая простая из которых (B0) показывает отличные результаты распознавания изображений при 5,3 миллионах параметров.

1.04K views08:28

Big Data Science

🤜🏻От слов к делу: 3 NLP-метода векторизации слов в PySpark
Обработка естественного языка (NLP, Natural Language Processing) предполагает перевод обрабатываемых слов в числовую форму с последующей векторизацией полученных данных для передачи алгоритмам машинного обучения. Для этого в Apache Spark можно использовать следующие методы:
• CountVectorizer, который считает, сколько раз слово встретилось в документе (предложении, абзаце, посте, комментарии). CountVectorizer возвращает разреженные вектора (sparse vectors), значения в которых отсортированы по частоте встречаемости слова.
• TF-IDF – метод векторизации признаков, часто используемый при анализе текстов. Он помогает отразить важность слова в отдельном документе и в целом наборе (корпусе). TF-IDF состоит из Term Frequency (TF, частота слова) и Inverse Document Frequency (IDF, обратная частота документа). TF – это отношение встречаемости слов к общему числу слов в документе. IDF считается для каждого слова в словаре, а не в документе. Интересно, что в PySpark, в отличие от Python-библиотеки Scikit-learn, части TF и IDF считаются отдельно друг от друга. TF можно также посчитать через CountVectorizer или его более быстрый аналог HashingTF, в котором индексы значений хранятся в хэш-кодах, вычисляемых через алгоритм MurmurHash3. В PySpark за вычисление IDF отвечает одноименный класс, метод fit() которого возвращает объект IDFModel, куда следует передать результат TF (HashingTF или CountVectorizer).
• Word2Vec – нейросеть, вычисляющая распределенное векторное представление слов, которое считается одним из самых эффективных методов векторизации в NLP, и используется для распознавания именованных сущностей, устранения неоднозначностей, синтаксического анализа и машинного перевода. Векторизация Word2Vec в PySpark выполняется с помощью одноименного метода. В аргументах метода, кроме входного датасета и результата, можно также указать длину векторного представления vectorSize (по умолчанию 100) и minCount – минимальное число встречаемости слова, чтобы включить его в словарь модели и избавиться от редких слов.

1.15K views14:32

Big Data Science

👍🏻4 полезные Python-библиотек для NLP!
Часто Data Scientist’у нужно решать маленькие NLP-задачи, которые не реализованы в популярных и крупных фреймворках. Поэтому будет полезно знать о небольших библиотеках с отличной документацией и удобным интерфейсом, которые помогут справиться со специальными видами обработками текстов:
• EMOT – библиотека для обнаружения эмотиконов и эмодзи. Она пригодится, если нужно предварительно обработать текстовые данные, чтобы удалить эмотиконы с эмодзи или изучить их влияние на семантику текста. На практике это подходит для анализа данные из соцсетей, например, Twitter. https://github.com/NeelShah18/emot
• Flastext – библиотека для извлечения и замены ключевых слов в предложениях. Благодаря использованию собственных алгоритмов, она работает гораздо быстрее регулярных выражений. https://github.com/vi3k6i5/flashtext
• Numerizer – библиотека, которая переводит числа, записанные словами на английском языке, в набор арабских цифр. Это пригодится в NLP-задачах, где требуется извлечь данные из текста. https://github.com/jaidevd/numerizer
• Word-to-Number-Russian – аналог Numerizer для перевода числительных на русском языке. https://github.com/SergeyShk/Word-to-Number-Russian

GitHub

GitHub - NeelShah18/emot: Open source Emoticons and Emoji detection library: emot

Open source Emoticons and Emoji detection library: emot - NeelShah18/emot

1.27K views10:02

Big Data Science

💥Evidently помогает анализировать модели машинного обучения во время разработки, проверки или мониторинга производства. Инструмент генерирует интерактивные отчеты из pandas DataFrame.

Evidently — это полноценный MVP, который сегодня умеет оценивать только Data Drift, а совсем скоро научится делать ещё массу всего полезного, например, ассеcсмент ML модели — а дальше полноценный мониторинг!

🌏Подробнее: https://github.com/evidentlyai/evidently

GitHub

GitHub - evidentlyai/evidently: Evidently is an open-source ML and LLM observability framework. Evaluate, test, and monitor any…

Evidently is an open-source ML and LLM observability framework. Evaluate, test, and monitor any AI-powered system or data pipeline. From tabular data to Gen AI. 100+ metrics. - evidentlyai/evidently

1.32K viewsedited 14:15

Big Data Science

🌎 5 Python-библиотек для работы с картами
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/

pyglet.org

Home — pyglet

Web site of the pyglet project

1.36K views09:40

Big Data Science

🏂4 причины строить ML-конвейеры, а не просто модели с Apache Spark MLLib
Конвейеры - это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning:
• чистый код за счет автоматизации процедур подготовки данных (выборка, очистка, генерация фичей и пр.)
• сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить какой-то этап
• простота развертывания в production – обычно преобразовать ML-модель от прототипа к масштабируемому и надежному решению для промышленной эксплуатации достаточно сложно, однако конвейеры помогут и здесь, облегчая тестирование и прочие MLOps-процедуры
• дополнительная проверка ML-модели: можно применить перекрестную проверку (кросс-валидацию) и другие методы к этапам конвейера, пробуя различные параметры. Это ускоряет оптимизацию алгоритма и выбор наилучших конфигурационных настроек.
В конвейер могут входить следующие операции:
• устранение пропусков
• преобразование категориальных значений в номинальные и числовые
• нормализация диапазона значений для каждого измерения
• непосредственно ML-моделирование, где обучается алгоритм машинного обучения.
Таким образом, можно объединить весь поток обработки данных в один конвейер, и использовать его в дальнейшем.
Apache Spark 3.0 воплощает идею конвейеров машинного обучения, предоставляя единый набор высокоуровневых API-интерфейсов на основе DataFrame, которые помогают пользователям создавать и настраивать ML-pipeline’ы. Инструмент машинного обучения Apache Spark, библиотека MLlib стандартизирует API-интерфейсы для ML-алгоритмов, чтобы упростить объединение нескольких алгоритмов в один конвейер или рабочий процесс. Это реализовано с помощью специальных методов, упакованных в преобразователи (Transformer) и оценщики (Estimator). Как они работают на практике с примерами кода, смотрите здесь https://medium.com/towards-artificial-intelligence/big-data-pipelines-with-sparkml-8207c86fc995

Medium

Big-Data Pipelines with SparkML

Creating Apache Spark ML Pipelines for Big-Data Analysis

1.15K views06:40

Big Data Science

👀7 Python-библиотек для визуализации данных
Быстро построить наглядный статический график или реализовать интерактивную диаграмму вам помогут следующие Python-библиотеки:
• Matplotlib – простая библиотека с широким набором инструментов для построения статических диаграмм всего за пару строчек кода. Также Matplotlib используется другими библиотеками, например, Pandas и Seaborn. Интерфейс Matplotlib очень прост и похож на MATLAB. Библиотека пригодится, если нужно быстро проверить гипотезу. Но строить в ней трехмерные графики не очень удобно, а двухмерные диаграммы более презентабельно получаются с помощью Plotly. https://matplotlib.org/
• Seaborn – высокоуровневая библиотека на основе Matplotlib с дополнительными инструментами, такими как, heatmap и violin plots, а также встроенными темами оформления. Seaborn отлично интегрируется с Pandas, и пригодится для визуализации статистических графиков, например, линейной регрессии. https://seaborn.pydata.org/index.html
• Missingno, которая хорошо подходит для разведочного анализа данных, когда нужно понять исходный датасет и провести его первичную оценку. Например, Missingno быстро отфильтрует и визуализирует пропуски (отсутствующие значения) в виде баров, матрицы, тепловой матрицы (heatmap) или дендограммы (dendrogram), а также поможет выявить корреляцию между различными атрибутами. https://github.com/ResidentMario/missingno
• Altair – простая и удобная библиотека для статистической визуализации и интерактивных графиков на базе Vega-Lite. Altair можно считать промежуточным звеном между Seaborn и Plotly: она более кастомизуруемая, чем Seaborn, но не настолько интерактивна как Plotly. Altair пригодится, если нужно быстро получить красивые результаты, в т.ч. интерактивные диаграмы, которые возвращают данные в формате JSON, чтобы потом их отрисовать с помощью Vega-Lite. Как и Seaborn, Altair отлично интегрируется с Pandas. https://altair-viz.github.io/
• Plotly - библиотека, написанная на JavaScript, с множеством алгоритмов для машинного обучения и анализа данных, в т.ч. их визуализации. Она позволяет строить интерактивные диаграммы с анимациями, создавать сложные красивые карты, презентовать научные и финансовые результаты, а также показывать наглядные трехмерные графики. https://plotly.com/
• Bokeh – это библиотека на основе Javanoscript для интерактивной визуализации с тремя типами уровня управления для разных пользователей. Самый высокий уровень позволяет создавать стандартные диаграммы (столбчатые, точечные и пр.). Средний уровень дает возможность контролировать основные строительные блоки каждой диаграммы. Наконец, полный контроль над каждым элементом диаграммы доступен на самом низком уровне. Bokeh пригодится, если нужны анимации и красивые интерактивные диаграммы, а также полный контроль над построением графиков. Однако, для 3D-диаграмм эта библиотека не очень удобна. https://bokeh.org/
• Pygal – библиотека с разнообразными видами графиков, которые возвращают XML, чтобы отобразить его в браузере или сохранить в формате SVG. Для экспорта в PNG понадобятся дополнительные зависимости. Также Pygal позволяет работать с простыми картами. http://www.pygal.org/en/stable/

GitHub

GitHub - ResidentMario/missingno: Missing data visualization module for Python.

Missing data visualization module for Python. Contribute to ResidentMario/missingno development by creating an account on GitHub.

1.21K viewsedited 09:27

Big Data Science

🔥27 декабря, с 10:00, состоится Ladies in tech митап о карьере в ИТ и AI!
Событие пройдет оффлайн, но будет доступна онлайн-трансляция и запись.

📌Цель митапа — рассказать о различных карьерах в ИТ (AI, ML, Software Engineering, Product Management etc.), показать, какими многими удивительными проектами можно заниматься в ИТ и AI сфере в EPFL, Yandex, Samsung, Intel, Google и др, как не только построить карьеру в России и Европе, но и как действовать в соответствии с своими ценностями и принципами, как оставаясь собой, добиться успехов и сделать вклад в полезные, высокотехнологичные проекты.

📍Митап пройдёт в здании SOK, малый зал.
Точный адрес: м. Динамо/Петровский парк (от метро 7-10 мин) Ленинградский пр-т., 36 строение 11.

Регистрацию на митап можно пройти по следующей ссылке — https://anna-perova.timepad.ru/event/1512474/?fbclid=IwAR2gq7Py8jSV723tPTFp46He0UGLd0JB-1a6hqQx1tRBJUOzbldgP_2gI7g

1.13K views09:13

Big Data Science

Про RecSys 2020
🌼В сентябре 2020 года прошла очередная международная ACM-конференция по рекомендательным системам – в этот раз полностью онлайн. 5 дней подряд ученые и ведущие специалисты из Google, Amazon, Microsoft и других крупных компаний делились опытом использования существующих алгоритмов и создания новых для повышения качества рекомендаций. ML-команда Одноклассников внимательно посмотрела все выступления и подготовила собственный обзор наиболее интересных статей и коротких докладов. Подробнее про достоинства и недостатки новых рекомендательных алгоритмов, а также подходы к уточнению оценки «старых добрых решений» читайте здесь: https://habr.com/ru/company/odnoklassniki/blog/532388/

Хабр

Разбор статей конференции RecSys 2020

Привет, Хабр! Несмотря на все невзгоды года текущего, интересные мероприятия и статьи с них никуда не деваются. Поэтому ML команда Одноклассников подготовила разборы работ коллег из Google, Microsoft,...

1.16K views02:22

Big Data Science

🎄С Новым Годом! ML-итоги 2020: ТОП-5 новинок в науке о данных
Вот и подошел к концу непростой 2020. Давайте же вспомним наиболее интересные и крупные события в области Big Data Science, которые случились в этом сложном для всех году:
• в мае профессиональное сообщество OpenAI выпустило 3-ю версию языковой нейросети GPT, которая пишет текст, стихи, музыку и код, связывая уже созданные людьми данные. Иногда результаты очень близки к человеческим трудам https://openai.com/blog/openai-licenses-gpt-3-technology-to-microsoft/
• в июне вышел мажорный релиз популярного фреймворка для аналитик больших данных – Apache Spark 3.0 с новой структурой адаптивного выполнения SQL-запросов, улучшениями в API-интерфейсах библиотеки Pandas, включая подсказки типов Python и дополнительные UDF-функции, оптимизацией обработки ошибок Python и упрощение исключений PySpark, а также ускорением вызова UDF-функций языка R в десятки раз https://spark.apache.org/docs/latest/index.html
• в ноябре состоялся полноценный релиз открытой модели AlphaFold, которая используется для анализа структуры белковых и других химических соединений, позволяя биологам и химикам быстро анализировать вещества без реальных экспериментов https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
• под конец года вышла новая нейросеть для обнаружения объектов Scaled YOLO v4, которая показала наилучшие результаты на датасете Microsoft COCO с оптимальным соотношением скорости к точности. Она успешно обошла своих конкурентов Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data), Amazon Cascade-RCNN ResNest200, Microsoft RepPoints v2, Facebook RetinaNet SpineNet-190. https://habr.com/ru/post/531786/
• тренд на объяснимый ИИ. В 2020 году очень много компаний и исследователей занимались задачей автоматической интерпретации ML-моделей. Были получены отличные результаты для нейронных сетей и распознавания образов, а также для разных видов бустингов и сложных многомерных задач. Существенно доработаны SHAP, LIME, MLxtend и д.р. А Google и Amazon планируют в ближайшее время представить свои решения, которые станут частью их облачных платформ. https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html

Кроме того, появилось много новых DS-стартапов (Evidently, DABL) и ML-библиотек, значительно продвинулась концепция MLOps, начиная от AutoKeras до инструментов Google Cloud AI Platform. Прошло более 100 профессиональных конференций, митапов и хакатонов, в каждом из которых можно было принять участие благодаря онлайн-формату. В общем, несмотря на все вирусы, кризисы, карантины и прочие «прелести» 2020 года, этот период в целом был удачным для развития DS-сферы. Пусть все хорошее, что все же было в уходящем году, продолжится в следующие 12 месяцев, а число негативных новостей сократится. Всем здоровья, интересных задач, высокой точности алгоритмов и сходимости ML-моделей! С Новым Годом и до встречи в 2021! (надеюсь, не только онлайн))).💥

Openai

OpenAI licenses GPT-3 technology to Microsoft

OpenAI has agreed to license GPT-3 to Microsoft for their own products and services.

1.35K views03:38

Big Data Science

💥Год уже начался! Чтобы вы смогли активнее включиться в рабочий режим после длинных каникул, мы отобрали для вас ТОП-10 конференций по Big Data Science, Machine Learning и Artificial Intelligence. На многие из них еще открыт прием заявок и тезисов. Выбирайте подходящее мероприятие и участвуйте!
• ODSC-2021 – 2 онлайн и 2 офлайн-конференции по DS и AI: 30 марта – 1 апреля, 8-10 июня, 15-18 ноября и 8-9 декабря. Узнайте про самые современные тренды в науке и инженерии Big Data Science: от решения классических NLP-задач новыми методами до автоматизации MLOps.
• The Data Science Conference – независимая конференция DS-специалистов (без спонсоров, вендоров и рекрутеров), 22-23 апреля, Чикаго. Профессиональное пространство для аналитиков данных и ML-инженеров, где они смогут обсудить друг с другом специфические вопросы по современным методам и средствам интеллектуального анализа больших данных.
• SDM21 от Society for Industrial and Applied Mathematics (SIAM) – онлайн-конференция по Data Mining, 29 апреля – 1 мая. Профильная конференция в области интеллектуального анализа данных позволяет DM-исследователям представить свою работу экспертам из ведущих мировых университетов и коммерческих компаний с упором на принципиальные методы с прочной математической основой.
• Word Data Summit – 19-21 мая, Амстердам. Узнайте, как разработать аналитическую модель своего бизнеса и поведения клиентов, обсудив с экспертами все аспекты анализа данных, от обработки неструктурированной информации до улучшения визуализации и интерпретируемости результатов ML-моделирования и статистических исследований.
• Серия конференций от Predictive Analytics World. Целый набор конференций, саммитов и других интересных событий по DS, Big Data, AI и ML. Первым мероприятием будет Machine Learning Week, 24-28 мая, онлайн. Оно будет посвящено преимущественно применению Deep Learning.
• ML Innovations – 21-23 июня, Мюнхен или онлайн. 3 полных дня новинок в Machine Learning от экспертов-практиков и научных исследователей, структурированных в 4 трека: продвинутая разработка, ML-принципы, бизнес-стратегия и инструментальные средства.
• DATA 2021 – 10-ая глобальная конференция для разных аналитиков, от бизнес-аналитики до информационной безопасности, 6-8 июля, онлайн. Совместное мероприятие для исследователей, инженеров и практиков в базах данных, Big Data, Data Mining, управлении данными и безопасности информационных систем позволит вам прокачаться в разных направлениях прикладного анализа.
• KDD-2021 – 27-ая ACM-конференция по Knowledge Discovery and Data Mining – 14-18 августа, Сингапур. Эксперты из ведущих университетов и мировых научно-исследовательских центров помогут разобраться во всех аспектах жизненного цикла науки о данных, от очистки и подготовки данных до интерпретируемости и распространения результатов.
• RecSys-2021 – 15-ая конференция по рекомендательным системам от ACM, 27 сентября – 1 октября, Амстердам. Пожалуй, это главный международный форум для презентации новых исследований и методов в области рекомендательных систем, объединяющий международные исследовательские группы и ведущие мировые компании.
• ReWork, как обычно, предлагают множество интересных конференций по AI и Deep Learning. Рекомендую обратить внимание на Reinforcement Learning Summit и Deep Learning Summit, 19-20 октября, Торонто. Ожидается звездный состав спикеров от всех ведущих технологических компаний.

Open Data Science Conference

ODSC is the top applied data science training conference! Attend one of our AI events to learn more about how you can build AI today.

1.32K viewsedited 18:16

Big Data Science

В 2021 году нас ждёт очень много DS-событий, не все из них ещё анонсировали дату и формат. Здесь есть перечень интересных конференций, которые не вошли в топ. Примечательно, что очень много мероприятий заявлены оффлайн и ожидаются в азиатском регионе: Южная Корея, Япония, и, конечно же, Китай! Также в таблице есть дата до которой можно подать доклад, если вы хотите участвовать.

Google Docs

Data Science Conference 2021

Conference

Title,Country,City,Link,Date,Call before
2nd International Conference on Computing and Data Science (CONF-CDS 2021),USA,Palo Alto,<a href="https://www.confcds.org/index.html">https://www.confcds.org/index.html</a>,28.01.21,14.01.2021
2021 2nd…

1.28K views11:17

About

Blog

Apps

Platform