👍🏻4 полезные Python-библиотек для NLP!
Часто Data Scientist’у нужно решать маленькие NLP-задачи, которые не реализованы в популярных и крупных фреймворках. Поэтому будет полезно знать о небольших библиотеках с отличной документацией и удобным интерфейсом, которые помогут справиться со специальными видами обработками текстов:
• EMOT – библиотека для обнаружения эмотиконов и эмодзи. Она пригодится, если нужно предварительно обработать текстовые данные, чтобы удалить эмотиконы с эмодзи или изучить их влияние на семантику текста. На практике это подходит для анализа данные из соцсетей, например, Twitter. https://github.com/NeelShah18/emot
• Flastext – библиотека для извлечения и замены ключевых слов в предложениях. Благодаря использованию собственных алгоритмов, она работает гораздо быстрее регулярных выражений. https://github.com/vi3k6i5/flashtext
• Numerizer – библиотека, которая переводит числа, записанные словами на английском языке, в набор арабских цифр. Это пригодится в NLP-задачах, где требуется извлечь данные из текста. https://github.com/jaidevd/numerizer
• Word-to-Number-Russian – аналог Numerizer для перевода числительных на русском языке. https://github.com/SergeyShk/Word-to-Number-Russian
Часто Data Scientist’у нужно решать маленькие NLP-задачи, которые не реализованы в популярных и крупных фреймворках. Поэтому будет полезно знать о небольших библиотеках с отличной документацией и удобным интерфейсом, которые помогут справиться со специальными видами обработками текстов:
• EMOT – библиотека для обнаружения эмотиконов и эмодзи. Она пригодится, если нужно предварительно обработать текстовые данные, чтобы удалить эмотиконы с эмодзи или изучить их влияние на семантику текста. На практике это подходит для анализа данные из соцсетей, например, Twitter. https://github.com/NeelShah18/emot
• Flastext – библиотека для извлечения и замены ключевых слов в предложениях. Благодаря использованию собственных алгоритмов, она работает гораздо быстрее регулярных выражений. https://github.com/vi3k6i5/flashtext
• Numerizer – библиотека, которая переводит числа, записанные словами на английском языке, в набор арабских цифр. Это пригодится в NLP-задачах, где требуется извлечь данные из текста. https://github.com/jaidevd/numerizer
• Word-to-Number-Russian – аналог Numerizer для перевода числительных на русском языке. https://github.com/SergeyShk/Word-to-Number-Russian
GitHub
GitHub - NeelShah18/emot: Open source Emoticons and Emoji detection library: emot
Open source Emoticons and Emoji detection library: emot - NeelShah18/emot
💥Evidently помогает анализировать модели машинного обучения во время разработки, проверки или мониторинга производства. Инструмент генерирует интерактивные отчеты из pandas DataFrame.
Evidently — это полноценный MVP, который сегодня умеет оценивать только Data Drift, а совсем скоро научится делать ещё массу всего полезного, например, ассеcсмент ML модели — а дальше полноценный мониторинг!
🌏Подробнее: https://github.com/evidentlyai/evidently
Evidently — это полноценный MVP, который сегодня умеет оценивать только Data Drift, а совсем скоро научится делать ещё массу всего полезного, например, ассеcсмент ML модели — а дальше полноценный мониторинг!
🌏Подробнее: https://github.com/evidentlyai/evidently
GitHub
GitHub - evidentlyai/evidently: Evidently is an open-source ML and LLM observability framework. Evaluate, test, and monitor any…
Evidently is an open-source ML and LLM observability framework. Evaluate, test, and monitor any AI-powered system or data pipeline. From tabular data to Gen AI. 100+ metrics. - evidentlyai/evidently
🌎 5 Python-библиотек для работы с картами
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
pyglet.org
Home — pyglet
Web site of the pyglet project
🏂4 причины строить ML-конвейеры, а не просто модели с Apache Spark MLLib
Конвейеры - это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning:
• чистый код за счет автоматизации процедур подготовки данных (выборка, очистка, генерация фичей и пр.)
• сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить какой-то этап
• простота развертывания в production – обычно преобразовать ML-модель от прототипа к масштабируемому и надежному решению для промышленной эксплуатации достаточно сложно, однако конвейеры помогут и здесь, облегчая тестирование и прочие MLOps-процедуры
• дополнительная проверка ML-модели: можно применить перекрестную проверку (кросс-валидацию) и другие методы к этапам конвейера, пробуя различные параметры. Это ускоряет оптимизацию алгоритма и выбор наилучших конфигурационных настроек.
В конвейер могут входить следующие операции:
• устранение пропусков
• преобразование категориальных значений в номинальные и числовые
• нормализация диапазона значений для каждого измерения
• непосредственно ML-моделирование, где обучается алгоритм машинного обучения.
Таким образом, можно объединить весь поток обработки данных в один конвейер, и использовать его в дальнейшем.
Apache Spark 3.0 воплощает идею конвейеров машинного обучения, предоставляя единый набор высокоуровневых API-интерфейсов на основе DataFrame, которые помогают пользователям создавать и настраивать ML-pipeline’ы. Инструмент машинного обучения Apache Spark, библиотека MLlib стандартизирует API-интерфейсы для ML-алгоритмов, чтобы упростить объединение нескольких алгоритмов в один конвейер или рабочий процесс. Это реализовано с помощью специальных методов, упакованных в преобразователи (Transformer) и оценщики (Estimator). Как они работают на практике с примерами кода, смотрите здесь https://medium.com/towards-artificial-intelligence/big-data-pipelines-with-sparkml-8207c86fc995
Конвейеры - это простой способ упорядочить код предварительной обработки данных и ML-моделирования. Непрерывная цепочка связанных работ дает следующие преимущества в промышленном Machine Learning:
• чистый код за счет автоматизации процедур подготовки данных (выборка, очистка, генерация фичей и пр.)
• сокращение ошибок благодаря отработанной последовательности шагов, не получится пропустить или неправильно выполнить какой-то этап
• простота развертывания в production – обычно преобразовать ML-модель от прототипа к масштабируемому и надежному решению для промышленной эксплуатации достаточно сложно, однако конвейеры помогут и здесь, облегчая тестирование и прочие MLOps-процедуры
• дополнительная проверка ML-модели: можно применить перекрестную проверку (кросс-валидацию) и другие методы к этапам конвейера, пробуя различные параметры. Это ускоряет оптимизацию алгоритма и выбор наилучших конфигурационных настроек.
В конвейер могут входить следующие операции:
• устранение пропусков
• преобразование категориальных значений в номинальные и числовые
• нормализация диапазона значений для каждого измерения
• непосредственно ML-моделирование, где обучается алгоритм машинного обучения.
Таким образом, можно объединить весь поток обработки данных в один конвейер, и использовать его в дальнейшем.
Apache Spark 3.0 воплощает идею конвейеров машинного обучения, предоставляя единый набор высокоуровневых API-интерфейсов на основе DataFrame, которые помогают пользователям создавать и настраивать ML-pipeline’ы. Инструмент машинного обучения Apache Spark, библиотека MLlib стандартизирует API-интерфейсы для ML-алгоритмов, чтобы упростить объединение нескольких алгоритмов в один конвейер или рабочий процесс. Это реализовано с помощью специальных методов, упакованных в преобразователи (Transformer) и оценщики (Estimator). Как они работают на практике с примерами кода, смотрите здесь https://medium.com/towards-artificial-intelligence/big-data-pipelines-with-sparkml-8207c86fc995
Medium
Big-Data Pipelines with SparkML
Creating Apache Spark ML Pipelines for Big-Data Analysis
👀7 Python-библиотек для визуализации данных
Быстро построить наглядный статический график или реализовать интерактивную диаграмму вам помогут следующие Python-библиотеки:
• Matplotlib – простая библиотека с широким набором инструментов для построения статических диаграмм всего за пару строчек кода. Также Matplotlib используется другими библиотеками, например, Pandas и Seaborn. Интерфейс Matplotlib очень прост и похож на MATLAB. Библиотека пригодится, если нужно быстро проверить гипотезу. Но строить в ней трехмерные графики не очень удобно, а двухмерные диаграммы более презентабельно получаются с помощью Plotly. https://matplotlib.org/
• Seaborn – высокоуровневая библиотека на основе Matplotlib с дополнительными инструментами, такими как, heatmap и violin plots, а также встроенными темами оформления. Seaborn отлично интегрируется с Pandas, и пригодится для визуализации статистических графиков, например, линейной регрессии. https://seaborn.pydata.org/index.html
• Missingno, которая хорошо подходит для разведочного анализа данных, когда нужно понять исходный датасет и провести его первичную оценку. Например, Missingno быстро отфильтрует и визуализирует пропуски (отсутствующие значения) в виде баров, матрицы, тепловой матрицы (heatmap) или дендограммы (dendrogram), а также поможет выявить корреляцию между различными атрибутами. https://github.com/ResidentMario/missingno
• Altair – простая и удобная библиотека для статистической визуализации и интерактивных графиков на базе Vega-Lite. Altair можно считать промежуточным звеном между Seaborn и Plotly: она более кастомизуруемая, чем Seaborn, но не настолько интерактивна как Plotly. Altair пригодится, если нужно быстро получить красивые результаты, в т.ч. интерактивные диаграмы, которые возвращают данные в формате JSON, чтобы потом их отрисовать с помощью Vega-Lite. Как и Seaborn, Altair отлично интегрируется с Pandas. https://altair-viz.github.io/
• Plotly - библиотека, написанная на JavaScript, с множеством алгоритмов для машинного обучения и анализа данных, в т.ч. их визуализации. Она позволяет строить интерактивные диаграммы с анимациями, создавать сложные красивые карты, презентовать научные и финансовые результаты, а также показывать наглядные трехмерные графики. https://plotly.com/
• Bokeh – это библиотека на основе Javanoscript для интерактивной визуализации с тремя типами уровня управления для разных пользователей. Самый высокий уровень позволяет создавать стандартные диаграммы (столбчатые, точечные и пр.). Средний уровень дает возможность контролировать основные строительные блоки каждой диаграммы. Наконец, полный контроль над каждым элементом диаграммы доступен на самом низком уровне. Bokeh пригодится, если нужны анимации и красивые интерактивные диаграммы, а также полный контроль над построением графиков. Однако, для 3D-диаграмм эта библиотека не очень удобна. https://bokeh.org/
• Pygal – библиотека с разнообразными видами графиков, которые возвращают XML, чтобы отобразить его в браузере или сохранить в формате SVG. Для экспорта в PNG понадобятся дополнительные зависимости. Также Pygal позволяет работать с простыми картами. http://www.pygal.org/en/stable/
Быстро построить наглядный статический график или реализовать интерактивную диаграмму вам помогут следующие Python-библиотеки:
• Matplotlib – простая библиотека с широким набором инструментов для построения статических диаграмм всего за пару строчек кода. Также Matplotlib используется другими библиотеками, например, Pandas и Seaborn. Интерфейс Matplotlib очень прост и похож на MATLAB. Библиотека пригодится, если нужно быстро проверить гипотезу. Но строить в ней трехмерные графики не очень удобно, а двухмерные диаграммы более презентабельно получаются с помощью Plotly. https://matplotlib.org/
• Seaborn – высокоуровневая библиотека на основе Matplotlib с дополнительными инструментами, такими как, heatmap и violin plots, а также встроенными темами оформления. Seaborn отлично интегрируется с Pandas, и пригодится для визуализации статистических графиков, например, линейной регрессии. https://seaborn.pydata.org/index.html
• Missingno, которая хорошо подходит для разведочного анализа данных, когда нужно понять исходный датасет и провести его первичную оценку. Например, Missingno быстро отфильтрует и визуализирует пропуски (отсутствующие значения) в виде баров, матрицы, тепловой матрицы (heatmap) или дендограммы (dendrogram), а также поможет выявить корреляцию между различными атрибутами. https://github.com/ResidentMario/missingno
• Altair – простая и удобная библиотека для статистической визуализации и интерактивных графиков на базе Vega-Lite. Altair можно считать промежуточным звеном между Seaborn и Plotly: она более кастомизуруемая, чем Seaborn, но не настолько интерактивна как Plotly. Altair пригодится, если нужно быстро получить красивые результаты, в т.ч. интерактивные диаграмы, которые возвращают данные в формате JSON, чтобы потом их отрисовать с помощью Vega-Lite. Как и Seaborn, Altair отлично интегрируется с Pandas. https://altair-viz.github.io/
• Plotly - библиотека, написанная на JavaScript, с множеством алгоритмов для машинного обучения и анализа данных, в т.ч. их визуализации. Она позволяет строить интерактивные диаграммы с анимациями, создавать сложные красивые карты, презентовать научные и финансовые результаты, а также показывать наглядные трехмерные графики. https://plotly.com/
• Bokeh – это библиотека на основе Javanoscript для интерактивной визуализации с тремя типами уровня управления для разных пользователей. Самый высокий уровень позволяет создавать стандартные диаграммы (столбчатые, точечные и пр.). Средний уровень дает возможность контролировать основные строительные блоки каждой диаграммы. Наконец, полный контроль над каждым элементом диаграммы доступен на самом низком уровне. Bokeh пригодится, если нужны анимации и красивые интерактивные диаграммы, а также полный контроль над построением графиков. Однако, для 3D-диаграмм эта библиотека не очень удобна. https://bokeh.org/
• Pygal – библиотека с разнообразными видами графиков, которые возвращают XML, чтобы отобразить его в браузере или сохранить в формате SVG. Для экспорта в PNG понадобятся дополнительные зависимости. Также Pygal позволяет работать с простыми картами. http://www.pygal.org/en/stable/
GitHub
GitHub - ResidentMario/missingno: Missing data visualization module for Python.
Missing data visualization module for Python. Contribute to ResidentMario/missingno development by creating an account on GitHub.
🔥27 декабря, с 10:00, состоится Ladies in tech митап о карьере в ИТ и AI!
Событие пройдет оффлайн, но будет доступна онлайн-трансляция и запись.
📌Цель митапа — рассказать о различных карьерах в ИТ (AI, ML, Software Engineering, Product Management etc.), показать, какими многими удивительными проектами можно заниматься в ИТ и AI сфере в EPFL, Yandex, Samsung, Intel, Google и др, как не только построить карьеру в России и Европе, но и как действовать в соответствии с своими ценностями и принципами, как оставаясь собой, добиться успехов и сделать вклад в полезные, высокотехнологичные проекты.
📍Митап пройдёт в здании SOK, малый зал.
Точный адрес: м. Динамо/Петровский парк (от метро 7-10 мин) Ленинградский пр-т., 36 строение 11.
Регистрацию на митап можно пройти по следующей ссылке — https://anna-perova.timepad.ru/event/1512474/?fbclid=IwAR2gq7Py8jSV723tPTFp46He0UGLd0JB-1a6hqQx1tRBJUOzbldgP_2gI7g
Событие пройдет оффлайн, но будет доступна онлайн-трансляция и запись.
📌Цель митапа — рассказать о различных карьерах в ИТ (AI, ML, Software Engineering, Product Management etc.), показать, какими многими удивительными проектами можно заниматься в ИТ и AI сфере в EPFL, Yandex, Samsung, Intel, Google и др, как не только построить карьеру в России и Европе, но и как действовать в соответствии с своими ценностями и принципами, как оставаясь собой, добиться успехов и сделать вклад в полезные, высокотехнологичные проекты.
📍Митап пройдёт в здании SOK, малый зал.
Точный адрес: м. Динамо/Петровский парк (от метро 7-10 мин) Ленинградский пр-т., 36 строение 11.
Регистрацию на митап можно пройти по следующей ссылке — https://anna-perova.timepad.ru/event/1512474/?fbclid=IwAR2gq7Py8jSV723tPTFp46He0UGLd0JB-1a6hqQx1tRBJUOzbldgP_2gI7g
Про RecSys 2020
🌼В сентябре 2020 года прошла очередная международная ACM-конференция по рекомендательным системам – в этот раз полностью онлайн. 5 дней подряд ученые и ведущие специалисты из Google, Amazon, Microsoft и других крупных компаний делились опытом использования существующих алгоритмов и создания новых для повышения качества рекомендаций. ML-команда Одноклассников внимательно посмотрела все выступления и подготовила собственный обзор наиболее интересных статей и коротких докладов. Подробнее про достоинства и недостатки новых рекомендательных алгоритмов, а также подходы к уточнению оценки «старых добрых решений» читайте здесь: https://habr.com/ru/company/odnoklassniki/blog/532388/
🌼В сентябре 2020 года прошла очередная международная ACM-конференция по рекомендательным системам – в этот раз полностью онлайн. 5 дней подряд ученые и ведущие специалисты из Google, Amazon, Microsoft и других крупных компаний делились опытом использования существующих алгоритмов и создания новых для повышения качества рекомендаций. ML-команда Одноклассников внимательно посмотрела все выступления и подготовила собственный обзор наиболее интересных статей и коротких докладов. Подробнее про достоинства и недостатки новых рекомендательных алгоритмов, а также подходы к уточнению оценки «старых добрых решений» читайте здесь: https://habr.com/ru/company/odnoklassniki/blog/532388/
Хабр
Разбор статей конференции RecSys 2020
Привет, Хабр! Несмотря на все невзгоды года текущего, интересные мероприятия и статьи с них никуда не деваются. Поэтому ML команда Одноклассников подготовила разборы работ коллег из Google, Microsoft,...
🎄С Новым Годом! ML-итоги 2020: ТОП-5 новинок в науке о данных
Вот и подошел к концу непростой 2020. Давайте же вспомним наиболее интересные и крупные события в области Big Data Science, которые случились в этом сложном для всех году:
• в мае профессиональное сообщество OpenAI выпустило 3-ю версию языковой нейросети GPT, которая пишет текст, стихи, музыку и код, связывая уже созданные людьми данные. Иногда результаты очень близки к человеческим трудам https://openai.com/blog/openai-licenses-gpt-3-technology-to-microsoft/
• в июне вышел мажорный релиз популярного фреймворка для аналитик больших данных – Apache Spark 3.0 с новой структурой адаптивного выполнения SQL-запросов, улучшениями в API-интерфейсах библиотеки Pandas, включая подсказки типов Python и дополнительные UDF-функции, оптимизацией обработки ошибок Python и упрощение исключений PySpark, а также ускорением вызова UDF-функций языка R в десятки раз https://spark.apache.org/docs/latest/index.html
• в ноябре состоялся полноценный релиз открытой модели AlphaFold, которая используется для анализа структуры белковых и других химических соединений, позволяя биологам и химикам быстро анализировать вещества без реальных экспериментов https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
• под конец года вышла новая нейросеть для обнаружения объектов Scaled YOLO v4, которая показала наилучшие результаты на датасете Microsoft COCO с оптимальным соотношением скорости к точности. Она успешно обошла своих конкурентов Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data), Amazon Cascade-RCNN ResNest200, Microsoft RepPoints v2, Facebook RetinaNet SpineNet-190. https://habr.com/ru/post/531786/
• тренд на объяснимый ИИ. В 2020 году очень много компаний и исследователей занимались задачей автоматической интерпретации ML-моделей. Были получены отличные результаты для нейронных сетей и распознавания образов, а также для разных видов бустингов и сложных многомерных задач. Существенно доработаны SHAP, LIME, MLxtend и д.р. А Google и Amazon планируют в ближайшее время представить свои решения, которые станут частью их облачных платформ. https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html
Кроме того, появилось много новых DS-стартапов (Evidently, DABL) и ML-библиотек, значительно продвинулась концепция MLOps, начиная от AutoKeras до инструментов Google Cloud AI Platform. Прошло более 100 профессиональных конференций, митапов и хакатонов, в каждом из которых можно было принять участие благодаря онлайн-формату. В общем, несмотря на все вирусы, кризисы, карантины и прочие «прелести» 2020 года, этот период в целом был удачным для развития DS-сферы. Пусть все хорошее, что все же было в уходящем году, продолжится в следующие 12 месяцев, а число негативных новостей сократится. Всем здоровья, интересных задач, высокой точности алгоритмов и сходимости ML-моделей! С Новым Годом и до встречи в 2021! (надеюсь, не только онлайн))).💥
Вот и подошел к концу непростой 2020. Давайте же вспомним наиболее интересные и крупные события в области Big Data Science, которые случились в этом сложном для всех году:
• в мае профессиональное сообщество OpenAI выпустило 3-ю версию языковой нейросети GPT, которая пишет текст, стихи, музыку и код, связывая уже созданные людьми данные. Иногда результаты очень близки к человеческим трудам https://openai.com/blog/openai-licenses-gpt-3-technology-to-microsoft/
• в июне вышел мажорный релиз популярного фреймворка для аналитик больших данных – Apache Spark 3.0 с новой структурой адаптивного выполнения SQL-запросов, улучшениями в API-интерфейсах библиотеки Pandas, включая подсказки типов Python и дополнительные UDF-функции, оптимизацией обработки ошибок Python и упрощение исключений PySpark, а также ускорением вызова UDF-функций языка R в десятки раз https://spark.apache.org/docs/latest/index.html
• в ноябре состоялся полноценный релиз открытой модели AlphaFold, которая используется для анализа структуры белковых и других химических соединений, позволяя биологам и химикам быстро анализировать вещества без реальных экспериментов https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
• под конец года вышла новая нейросеть для обнаружения объектов Scaled YOLO v4, которая показала наилучшие результаты на датасете Microsoft COCO с оптимальным соотношением скорости к точности. Она успешно обошла своих конкурентов Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data), Amazon Cascade-RCNN ResNest200, Microsoft RepPoints v2, Facebook RetinaNet SpineNet-190. https://habr.com/ru/post/531786/
• тренд на объяснимый ИИ. В 2020 году очень много компаний и исследователей занимались задачей автоматической интерпретации ML-моделей. Были получены отличные результаты для нейронных сетей и распознавания образов, а также для разных видов бустингов и сложных многомерных задач. Существенно доработаны SHAP, LIME, MLxtend и д.р. А Google и Amazon планируют в ближайшее время представить свои решения, которые станут частью их облачных платформ. https://chernobrovov.ru/articles/interpretiruj-eto-metod-shap-v-data-science.html
Кроме того, появилось много новых DS-стартапов (Evidently, DABL) и ML-библиотек, значительно продвинулась концепция MLOps, начиная от AutoKeras до инструментов Google Cloud AI Platform. Прошло более 100 профессиональных конференций, митапов и хакатонов, в каждом из которых можно было принять участие благодаря онлайн-формату. В общем, несмотря на все вирусы, кризисы, карантины и прочие «прелести» 2020 года, этот период в целом был удачным для развития DS-сферы. Пусть все хорошее, что все же было в уходящем году, продолжится в следующие 12 месяцев, а число негативных новостей сократится. Всем здоровья, интересных задач, высокой точности алгоритмов и сходимости ML-моделей! С Новым Годом и до встречи в 2021! (надеюсь, не только онлайн))).💥
Openai
OpenAI licenses GPT-3 technology to Microsoft
OpenAI has agreed to license GPT-3 to Microsoft for their own products and services.
💥Год уже начался! Чтобы вы смогли активнее включиться в рабочий режим после длинных каникул, мы отобрали для вас ТОП-10 конференций по Big Data Science, Machine Learning и Artificial Intelligence. На многие из них еще открыт прием заявок и тезисов. Выбирайте подходящее мероприятие и участвуйте!
• ODSC-2021 – 2 онлайн и 2 офлайн-конференции по DS и AI: 30 марта – 1 апреля, 8-10 июня, 15-18 ноября и 8-9 декабря. Узнайте про самые современные тренды в науке и инженерии Big Data Science: от решения классических NLP-задач новыми методами до автоматизации MLOps.
• The Data Science Conference – независимая конференция DS-специалистов (без спонсоров, вендоров и рекрутеров), 22-23 апреля, Чикаго. Профессиональное пространство для аналитиков данных и ML-инженеров, где они смогут обсудить друг с другом специфические вопросы по современным методам и средствам интеллектуального анализа больших данных.
• SDM21 от Society for Industrial and Applied Mathematics (SIAM) – онлайн-конференция по Data Mining, 29 апреля – 1 мая. Профильная конференция в области интеллектуального анализа данных позволяет DM-исследователям представить свою работу экспертам из ведущих мировых университетов и коммерческих компаний с упором на принципиальные методы с прочной математической основой.
• Word Data Summit – 19-21 мая, Амстердам. Узнайте, как разработать аналитическую модель своего бизнеса и поведения клиентов, обсудив с экспертами все аспекты анализа данных, от обработки неструктурированной информации до улучшения визуализации и интерпретируемости результатов ML-моделирования и статистических исследований.
• Серия конференций от Predictive Analytics World. Целый набор конференций, саммитов и других интересных событий по DS, Big Data, AI и ML. Первым мероприятием будет Machine Learning Week, 24-28 мая, онлайн. Оно будет посвящено преимущественно применению Deep Learning.
• ML Innovations – 21-23 июня, Мюнхен или онлайн. 3 полных дня новинок в Machine Learning от экспертов-практиков и научных исследователей, структурированных в 4 трека: продвинутая разработка, ML-принципы, бизнес-стратегия и инструментальные средства.
• DATA 2021 – 10-ая глобальная конференция для разных аналитиков, от бизнес-аналитики до информационной безопасности, 6-8 июля, онлайн. Совместное мероприятие для исследователей, инженеров и практиков в базах данных, Big Data, Data Mining, управлении данными и безопасности информационных систем позволит вам прокачаться в разных направлениях прикладного анализа.
• KDD-2021 – 27-ая ACM-конференция по Knowledge Discovery and Data Mining – 14-18 августа, Сингапур. Эксперты из ведущих университетов и мировых научно-исследовательских центров помогут разобраться во всех аспектах жизненного цикла науки о данных, от очистки и подготовки данных до интерпретируемости и распространения результатов.
• RecSys-2021 – 15-ая конференция по рекомендательным системам от ACM, 27 сентября – 1 октября, Амстердам. Пожалуй, это главный международный форум для презентации новых исследований и методов в области рекомендательных систем, объединяющий международные исследовательские группы и ведущие мировые компании.
• ReWork, как обычно, предлагают множество интересных конференций по AI и Deep Learning. Рекомендую обратить внимание на Reinforcement Learning Summit и Deep Learning Summit, 19-20 октября, Торонто. Ожидается звездный состав спикеров от всех ведущих технологических компаний.
• ODSC-2021 – 2 онлайн и 2 офлайн-конференции по DS и AI: 30 марта – 1 апреля, 8-10 июня, 15-18 ноября и 8-9 декабря. Узнайте про самые современные тренды в науке и инженерии Big Data Science: от решения классических NLP-задач новыми методами до автоматизации MLOps.
• The Data Science Conference – независимая конференция DS-специалистов (без спонсоров, вендоров и рекрутеров), 22-23 апреля, Чикаго. Профессиональное пространство для аналитиков данных и ML-инженеров, где они смогут обсудить друг с другом специфические вопросы по современным методам и средствам интеллектуального анализа больших данных.
• SDM21 от Society for Industrial and Applied Mathematics (SIAM) – онлайн-конференция по Data Mining, 29 апреля – 1 мая. Профильная конференция в области интеллектуального анализа данных позволяет DM-исследователям представить свою работу экспертам из ведущих мировых университетов и коммерческих компаний с упором на принципиальные методы с прочной математической основой.
• Word Data Summit – 19-21 мая, Амстердам. Узнайте, как разработать аналитическую модель своего бизнеса и поведения клиентов, обсудив с экспертами все аспекты анализа данных, от обработки неструктурированной информации до улучшения визуализации и интерпретируемости результатов ML-моделирования и статистических исследований.
• Серия конференций от Predictive Analytics World. Целый набор конференций, саммитов и других интересных событий по DS, Big Data, AI и ML. Первым мероприятием будет Machine Learning Week, 24-28 мая, онлайн. Оно будет посвящено преимущественно применению Deep Learning.
• ML Innovations – 21-23 июня, Мюнхен или онлайн. 3 полных дня новинок в Machine Learning от экспертов-практиков и научных исследователей, структурированных в 4 трека: продвинутая разработка, ML-принципы, бизнес-стратегия и инструментальные средства.
• DATA 2021 – 10-ая глобальная конференция для разных аналитиков, от бизнес-аналитики до информационной безопасности, 6-8 июля, онлайн. Совместное мероприятие для исследователей, инженеров и практиков в базах данных, Big Data, Data Mining, управлении данными и безопасности информационных систем позволит вам прокачаться в разных направлениях прикладного анализа.
• KDD-2021 – 27-ая ACM-конференция по Knowledge Discovery and Data Mining – 14-18 августа, Сингапур. Эксперты из ведущих университетов и мировых научно-исследовательских центров помогут разобраться во всех аспектах жизненного цикла науки о данных, от очистки и подготовки данных до интерпретируемости и распространения результатов.
• RecSys-2021 – 15-ая конференция по рекомендательным системам от ACM, 27 сентября – 1 октября, Амстердам. Пожалуй, это главный международный форум для презентации новых исследований и методов в области рекомендательных систем, объединяющий международные исследовательские группы и ведущие мировые компании.
• ReWork, как обычно, предлагают множество интересных конференций по AI и Deep Learning. Рекомендую обратить внимание на Reinforcement Learning Summit и Deep Learning Summit, 19-20 октября, Торонто. Ожидается звездный состав спикеров от всех ведущих технологических компаний.
Open Data Science Conference
ODSC is the top applied data science training conference! Attend one of our AI events to learn more about how you can build AI today.
В 2021 году нас ждёт очень много DS-событий, не все из них ещё анонсировали дату и формат. Здесь есть перечень интересных конференций, которые не вошли в топ. Примечательно, что очень много мероприятий заявлены оффлайн и ожидаются в азиатском регионе: Южная Корея, Япония, и, конечно же, Китай! Также в таблице есть дата до которой можно подать доклад, если вы хотите участвовать.
Google Docs
Data Science Conference 2021
Conference
Title,Country,City,Link,Date,Call before
2nd International Conference on Computing and Data Science (CONF-CDS 2021),USA,Palo Alto,<a href="https://www.confcds.org/index.html">https://www.confcds.org/index.html</a>,28.01.21,14.01.2021
2021 2nd…
Title,Country,City,Link,Date,Call before
2nd International Conference on Computing and Data Science (CONF-CDS 2021),USA,Palo Alto,<a href="https://www.confcds.org/index.html">https://www.confcds.org/index.html</a>,28.01.21,14.01.2021
2021 2nd…
🏂 Недавно мы рассказывали про международные конференции, которые состоятся за рубежом. А сейчас поговорим о российских мероприятиях, ожидающих нас в ближайшие пару недель. Хотя половина января уже прошла в режиме каникул, до конца месяца еще есть время посетить несколько онлайн или офлайн DS-событий: митапы, конференции, хакатоны. Выбирай событие на свой вкус и участвуй!
• NeurIPS New Year AfterParty от Яндекса – рассмотрим итоги NeurIPS (NIPS), одной из самых престижных международных ML-конференций. Выступят авторы статей, принятых на NeurIPS, 15-минутные обзоры работ по NLP, RL и CV, несколько быстрых докладов и большая дискуссия по методам оптимизации, краудсорсинга, прогнозах дорожной ситуации для беспилотников и других интересных DS-темах. https://events.yandex.ru/events/neurips-afterparty2020, 19.01.21, 18:00 по МСК
• Онлайн-вебинар от Yandex.Cloud - практический пример использования serverless в разработке приложений: интеграция Yandex SpeechKit с голосовыми технологиями Voximplant, настройка и автоматизация обработки диалога, запуск CRM-телефонии serverless. 26 января 2021 г., 16:00 https://cloud.yandex.ru/events/298
• Data Practice Webinar – онлайн-вебинар для начинающих по DS и BI-аналитике от EPAM. 28.01.21, 18:30 МСК, https://community-z.com/events/data-practice-webinar
• Alfa Battle 2.0 – финальный этап онлайн-чемпионата для российских дата-сайентистов от Альфа-Банка. https://alfabattle.ru/2
• NeurIPS New Year AfterParty от Яндекса – рассмотрим итоги NeurIPS (NIPS), одной из самых престижных международных ML-конференций. Выступят авторы статей, принятых на NeurIPS, 15-минутные обзоры работ по NLP, RL и CV, несколько быстрых докладов и большая дискуссия по методам оптимизации, краудсорсинга, прогнозах дорожной ситуации для беспилотников и других интересных DS-темах. https://events.yandex.ru/events/neurips-afterparty2020, 19.01.21, 18:00 по МСК
• Онлайн-вебинар от Yandex.Cloud - практический пример использования serverless в разработке приложений: интеграция Yandex SpeechKit с голосовыми технологиями Voximplant, настройка и автоматизация обработки диалога, запуск CRM-телефонии serverless. 26 января 2021 г., 16:00 https://cloud.yandex.ru/events/298
• Data Practice Webinar – онлайн-вебинар для начинающих по DS и BI-аналитике от EPAM. 28.01.21, 18:30 МСК, https://community-z.com/events/data-practice-webinar
• Alfa Battle 2.0 – финальный этап онлайн-чемпионата для российских дата-сайентистов от Альфа-Банка. https://alfabattle.ru/2
Организаторы BigData & AI Conference 2021 анонсировали, что конференция состоится в этом году 23 и 24 сентября. Очень надеемся, что это будет оффлайн. Но даже если санитарные ограничения не позволят этого сделать, одно останется неизменным — организаторы обещают отбирать только свежие, ранее не засвеченные кейсы, и будут доклады об анализе данных без воды и визионерства. Отбор выступающих стартует в апреле – так что самое время готовить доклады.
https://ai-conf.org/
https://ai-conf.org/
BIG DATA AND AI CONFERENCE - Анализ данных без визионерства. Только реальные кейсы.
Site is undergoing maintenance
Site will be available soon. Thank you for your patience!
🚀Google уверенно держит лидерство в гонке ИИ-достижений! Встречайте новый метод масштабного обучения Switch Transformer, когда используется только подкласс веса ML-модели или параметров, которые изменяют входящие данные. Такая простая архитектура снижает время и стоимость процесса обучения, позволяя обрабатывать огромные объемы данных эффективнее сложных алгоритмов. Например, ML-модель c 1,5 трлн параметров обучилась в 4 раза быстрее, чем Т5-XXL от самой Google и в 10 раз обошла главного конкурента – алгоритм GPT-3 от Open AI.
https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/
https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/
Synced | AI Technology & Industry Review
Google Brain’s Switch Transformer Language Model Packs 1.6-Trillion Parameters | Synced
Google Brain’s Switch Transformer language model packs a whopping 1.6 trillion parameters while effectively controlling computational cost. The model achieved a 4x pretraining speedup over a strongly tuned T5-XXL baseline.
Учение – свет!☀️ ТОП-5 полезных книг с практическими советами для дата-инженера
1. I Hearts Logs (Jay Kreps, 2014 год, 50 стр) о роли логов в распределенной среде и принципах работы Apache Kafka
2. Designing Data-Intensive Applications (Martin Kleppmann, 2017, 550 стр) – базовые концепции разработки приложений, интенсивно использующих данные, от понятия модели данных до потоковой обработки
3. Rebuilding Reliable Data Pipelines Through Modern Tools (Ted Malaska, 2019, 100 стр.) – основы конвейерной (пайплайной) обработки данных и особенности построения эффективных конвейеров на базе современных технологий Big Data
4. Expert Hadoop Administration (Sam R. Alapati, 2016, 750 стр.) – от понятий MapReduce HDFS к разработке и обеспечению безопасности Spark-кластеров, оптимизации Hadoop и настройке YARN
5. Architecting Modern Data Platforms (Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George, 2018, 600 стр) – особенности локального и облачного развертывания Big Data инфраструктуры, включая все тонкости администрирования внешних служб Hadoop, от ОЗУ сервера и спецификации ЦП кластерных узлов до требований к сетевому соединению
https://towardsdatascience.com/5-books-for-data-engineers-f174bc1e7906
1. I Hearts Logs (Jay Kreps, 2014 год, 50 стр) о роли логов в распределенной среде и принципах работы Apache Kafka
2. Designing Data-Intensive Applications (Martin Kleppmann, 2017, 550 стр) – базовые концепции разработки приложений, интенсивно использующих данные, от понятия модели данных до потоковой обработки
3. Rebuilding Reliable Data Pipelines Through Modern Tools (Ted Malaska, 2019, 100 стр.) – основы конвейерной (пайплайной) обработки данных и особенности построения эффективных конвейеров на базе современных технологий Big Data
4. Expert Hadoop Administration (Sam R. Alapati, 2016, 750 стр.) – от понятий MapReduce HDFS к разработке и обеспечению безопасности Spark-кластеров, оптимизации Hadoop и настройке YARN
5. Architecting Modern Data Platforms (Jan Kunigk, Ian Buss, Paul Wilkinson, Lars George, 2018, 600 стр) – особенности локального и облачного развертывания Big Data инфраструктуры, включая все тонкости администрирования внешних служб Hadoop, от ОЗУ сервера и спецификации ЦП кластерных узлов до требований к сетевому соединению
https://towardsdatascience.com/5-books-for-data-engineers-f174bc1e7906
Medium
5 Books for Data Engineers
Building foundations and framing your viewpoint towards data engineering
🎯MLOps-tools save your time and efforts to develop, test and deploy Machine Learning models. MlFlow is one of the most useful and popular MLOps-tools. If you are interested how to use it in practice, read this brief article https://medium.com/hashmapinc/why-i-love-mlflow-951b8d1134be
Medium
Why I Love MLflow
And You Should Too! MLflow is the best tool out there in this space. You need to know what MLflow is and why you should be using it.
😁Теперь в этом канале мы будем постить интересные новости и статьи сразу на английском языке. А русскоязычные публикации и дайджесты отечественных ивентов читайте здесь: https://news.1rj.ru/str/bdscience_ru
Telegram
Big Data Science [RU]
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://news.1rj.ru/str/bdscience — Big Data Science channel (english version)
💼 — https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://news.1rj.ru/str/bdscience — Big Data Science channel (english version)
💼 — https://news.1rj.ru/str/bds_job — channel about Data Science jobs and career
👀How to find medical image from billions of templates through Spark SQL: scalable library to efficiently read DICOM-files in Dataframe https://bd-practice.medium.com/dicom-read-library-apache-spark-third-party-contribution-e6cb269e5c3c
Medium
Dicom Read Library (Apache Spark Third Party Contribution)
Article by Nirali Gandhi, Big Data & Cloud Lead Developer
Forwarded from Machinelearning
🎨 Colorization Transformer by Google
💻 Github: https://github.com/google-research/google-research/tree/master/coltran
📝 Paper: https://arxiv.org/abs/2102.04432v1
🌐 Pre-trained model: https://console.cloud.google.com/storage/browser/gresearch/coltran;tab=objects?pli=1&prefix=&forceOnObjectsSortingFiltering=false
@ai_machinelearning_big_data
💻 Github: https://github.com/google-research/google-research/tree/master/coltran
📝 Paper: https://arxiv.org/abs/2102.04432v1
🌐 Pre-trained model: https://console.cloud.google.com/storage/browser/gresearch/coltran;tab=objects?pli=1&prefix=&forceOnObjectsSortingFiltering=false
@ai_machinelearning_big_data
Why Data Engineer is the best friend of Data Scientist and Data Analyst - the shifting role in 2021: tasks, responsibilities, salaries and perspectives
https://palakdatascientist.medium.com/data-engineers-of-2021-the-shifting-role-35d13c9106f
https://palakdatascientist.medium.com/data-engineers-of-2021-the-shifting-role-35d13c9106f
Medium
Data Engineers of 2021: The Shifting Role
The role of big data engineer professionals is continuously evolving with the evolution of technologies and tools. Learn about the…
Typical use cases for the most popular ML-algorithms with BigQuery - from regression to time series analysis
https://medium.com/cloudzone/try-62d6aeb4a5e1
https://medium.com/cloudzone/try-62d6aeb4a5e1
Medium
5 Machine Learning Models You Can Deploy Using BigQuery
Deploying machine learning (ML) models requires multiple teams and coordination. Developing a statistical model or picking which one to…
How to streamline the implementation of reasoning systems with ReAgent from Facebook.
ReAgent is the end-to-end platform applied Reinforcement Learning designed for large-scale, distributed recommendation/optimization tasks where we don’t have access to a simulator. The main purpose of this framework is to make the development & experimentation of deep reinforcement algorithms fast. ReAgent is built on Python. It uses PyTorch framework for data modelling. ReAgent holds different algorithms for data preprocessing, feature engineering, model training & evaluation and lastly for optimized serving. It is capable of handling Large-dimension datasets, provides optimized algorithms for data preprocessing, training, and gives a highly efficient production environment for model serving. https://analyticsindiamag.com/hands-on-to-reagent-end-to-end-platform-for-applied-reinforcement-learning/
ReAgent is the end-to-end platform applied Reinforcement Learning designed for large-scale, distributed recommendation/optimization tasks where we don’t have access to a simulator. The main purpose of this framework is to make the development & experimentation of deep reinforcement algorithms fast. ReAgent is built on Python. It uses PyTorch framework for data modelling. ReAgent holds different algorithms for data preprocessing, feature engineering, model training & evaluation and lastly for optimized serving. It is capable of handling Large-dimension datasets, provides optimized algorithms for data preprocessing, training, and gives a highly efficient production environment for model serving. https://analyticsindiamag.com/hands-on-to-reagent-end-to-end-platform-for-applied-reinforcement-learning/
Analytics India Magazine
Hands-on to ReAgent: End-to-End Platform for Applied Reinforcement Learning
Facebook ReAgent, previously known as Horizon is an end-to-end platform for using applied Reinforcement Learning in order to solve industrial