Forwarded from Big Data Science
🌎 5 Python-библиотек для работы с картами
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
pyglet.org
Home — pyglet
Web site of the pyglet project
Forwarded from Пристанище Дата Сайентиста
AtsPy - Автоматизация предсказания временных рядов
Бибилиотека AtsPy позволяет легко создавать модели для прогнозирования временных рядов. В библиотеки реализованы следующие модели:
Установка:
Применение:
Бибилиотека AtsPy позволяет легко создавать модели для прогнозирования временных рядов. В библиотеки реализованы следующие модели:
ARIMA - Automated ARIMA ModellingProphet - Modeling Multiple Seasonality With Linear or Non-linear GrowthHWAAS - Exponential Smoothing With Additive Trend and Additive SeasonalityHWAMS - Exponential Smoothing with Additive Trend and Multiplicative SeasonalityNBEATS - Neural basis expansion analysis (now fixed at 20 Epochs)Gluonts - RNN-based Model (now fixed at 20 Epochs)TATS - Seasonal and Trend no Box CoxTBAT - Trend and Box CoxTBATS1 - Trend, Seasonal (one), and Box CoxTBATP1 - TBATS1 but Seasonal Inference is Hardcoded by PeriodicityTBATS2 - TBATS1 With Two Seasonal PeriodsУстановка:
pip install atspyПрименение:
from atspy import AutomatedModelmodel_list = ["HWAMS","HWAAS","TBAT"]am = AutomatedModel(df = df , model_list=model_list,forecast_len=20)all_ensemble_in, all_ensemble_out, all_performance = am.ensemble(forecast_in, forecast_out)all_ensemble_in[["Target","ensemble_lgb__X__HWAMS","HWAMS","HWAAS"]].plot()all_ensemble_out[["ensemble_lgb__X__HWAMS","HWAMS","HWAAS"]].plot()Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?
Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.
https://proglib.io/sh/RKNBTerypS
Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.
https://proglib.io/sh/RKNBTerypS
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Medium
Understanding Neural Networks. From neuron to RNN, CNN, and Deep Learning
Neural Networks is one of the most popular machine learning algorithms at present. It has been decisively proven over time that neural networks outperform other algorithms in accuracy and speed. With…
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
📊 ТОП-10 необходимых для специалиста по Big Data навыков
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
https://proglib.io/sh/wQnkljYm9G
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
https://proglib.io/sh/wQnkljYm9G
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята,
Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅
@sberloga
Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅
@sberloga
deeppavlov.ai
DeepPavlov 3 года
Встреча пользователей и разработчиков открытой библиотеки DeepPavlov 2021
Forwarded from Big Data Science [RU]
🌷Третий – не лишний: к LightGBM и XGBoost присоединился еще один ML-алгоритм вероятностного прогнозирования - Natural Gradient Boosting (NGBoost). Выпущенный в 2019 году, NGBoost состоит из трех абстрактных модулей: базового обучающегося, параметрического распределения вероятностей и оценочных правил. Все три компонента рассматриваются как гиперпараметры, выбранные заранее перед обучением. NGBoost упрощает вероятностную регрессию с помощью гибких древовидных моделей и позволяет проводить вероятностную классификацию, возвращая вероятности по каждому классу. Например, логистическая регрессия возвращает вероятности классов в качестве выходных данных. Эксперименты с несколькими наборами данных регрессии доказали, что NGBoost обеспечивает конкурентоспособные прогностические характеристики как оценок неопределенности, так и традиционных показателей. С другой стороны, его время вычисления намного больше, чем у других двух алгоритмов, и нет некоторых полезных опций, например, отсутствует ранний останов, отображение промежуточных результатов, гибкость выбора базового обучающегося параметра, установка случайного начального состояния. Несмотря на то, что пока можно работать лишь с деревом решений и регрессией Риджа, этот ML-алгоритм вероятностного прогнозирования показывает весьма достойные результаты в сравнении с другими популярными градиентными методами.
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1
Forwarded from Start Career in DS
Мне тут недавно пришлось очень плотно поработать с временными рядами, нашел супер-крутую библиотеку от Facebook для этого:
https://facebook.github.io/prophet/
Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики
https://facebook.github.io/prophet/
Пишут, что хорошо работает с рядами, в которых выражена сезонность. Имеет очень удобный интерфейс и позволяет находу отрисовывать красивые графики
Prophet
Prophet is a forecasting procedure implemented in R and Python. It is fast and provides completely automated forecasts that can be tuned by hand by data scientists and analysts.
Forwarded from Start Career in DS
Каждый уважающий себя DS гоняет xgboost :)
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
Но далеко не каждый понимает что означают те или иные его параметры. Вот статья, в которой рассказывают про смысл большинства из них:
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
Analytics Vidhya
XGBoost Parameters Tuning
Explore XGBoost parameters and hyperparameter tuning like learning rate, depth of trees, regularization, etc. to improve model accuracy.
Forwarded from Пристанище Дата Сайентиста
#полезно #пост_от_подписчика
Мне тут подписчик @Aykhan_txt прислал крутой пост
Год Работы на Google Colab
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.
Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:
1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.
2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook
3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).
4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.
5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.
6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память
Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB
Мне тут подписчик @Aykhan_txt прислал крутой пост
Год Работы на Google Colab
Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook, который дает возможность работать на GPU или TPU. Здесь я расскажу об основных минусах и как я с ними боролся.
Поговорим об ограничениях. Вместе с ними буду предлагать пути решения:
1) Время работы сессии только до 12 часов. После чего, нужно будет перезапускать блокнот. Все данные, которые были на диске благополучно исчезнут.
Поэтому, предлагаю вам подключить к Colab еще и Google Drive и сохранять все логи и веса моделей туда. После отключения блокнота все важные данные у вас будут на вашем Google Drive.
2) При длительном бездействии (30-60 минут) следует отключение блокнота.
Решение этой проблемы можно найти в приложенном jupyter notebook
3) При постоянном использовании (примерно 3-4 дня подряд) доступ к быстрым видеокартам закрывается и для ваших сессий будут выделены более медленные графические процессоры. В некоторых случаях может доступ к GPU закрыт полностью. Для восстановления прежних мощностей придется подождать до 2 суток.
Для себя я нашел решение в переменном использовании Kaggle блокнотов и Colab. Kaggle имеет те же самые параметры и дает возможность использовать сервис 30 часов в неделе (иногда даже больше).
4) Ограниченный объем памяти 60-80 гб.
Решения для этой проблемы я не нашел в рамках самого Colab и я просто пользовался Kaggle, так как там проще подключать датасеты.
5) Загрузка данных с локального компьютера на диск очень медленная.
Лучше всего грузить данные с интернета через команды !wget, !git clone.
6) Очень медленная работа с Google Drive. Если Ваш датасет находится на Гугл диске, знайте, данные оттуда грузятся очень медленно. Лучше все грузить на диск Colab или же сразу в оперативную память
Полезный ноутбук: https://colab.research.google.com/drive/1-6Q3YjFdeLfqSWXuVvdLsl0pUc1nT4Gi#scrollTo=h9qy2qPehifB
Google
Colab tips.ipynb
Colaboratory notebook
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
YouTube
Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)
LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…
…
Отличная статья по использованию ML в Ecommerce https://www.icicletech.com/blog/ai-ml-changing-ecommerce
Icicle - Web & Mobile App Development on Ruby on Rails, React Native, Elixir
8 Ways AI and ML are Changing eCommerce in 2020
eCommerce developers are changing the game with artificial intelligence and machine learning, providing new kinds of customer service and increasing sales. Here’s 8 ways AI and ML are changing online shopping for good.
Forwarded from TechSparks
Во-первых, хорошие популярные материалы про машинное обучение — увы, редкость. Тем более — оригинальные отечественные.
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)
https://youtu.be/zUlm0MKquKo
Во-вторых, я очень люблю все материалы, к которым имеет отношение Саша Крайнов: не просто отличный эксперт, но и талантливый фантазёр и отличный рассказчик.
Вот вам прекрасный ролик с достойным названием «Гадание на датасетах»;)
https://youtu.be/zUlm0MKquKo
YouTube
Гадание на датасетах: машинное обучение
Беспилотные автомобили, обработка естественного языка, компьютерное зрение и даже искусство развиваются благодаря машинному обучению. И оно не стоит на месте — учёные постоянно совершенствуют существующие алгоритмы и создают новые подходы.
Чтобы поддержать…
Чтобы поддержать…