Forwarded from IT лекции
▫️ Лекции по Big Data
1 - BigData. Введение в машинное обучение - Смотреть
2 - BigData. Python - Смотреть
3 - BigData. Что такое BigData - Смотреть
4 - BigData. OLAP. What and why - Смотреть
5 - BigData. IoT и BigData - Смотреть
6 - BigData. Сhallenges of classification - Смотреть
7 - BigData. Formal Context Analysis - Смотреть
8 - BigData. Регрессия - Смотреть
9 - BigData. Хранение и анализ больших данных - Смотреть
10 - BigData. Deep learning - Смотреть
@itlecture
1 - BigData. Введение в машинное обучение - Смотреть
2 - BigData. Python - Смотреть
3 - BigData. Что такое BigData - Смотреть
4 - BigData. OLAP. What and why - Смотреть
5 - BigData. IoT и BigData - Смотреть
6 - BigData. Сhallenges of classification - Смотреть
7 - BigData. Formal Context Analysis - Смотреть
8 - BigData. Регрессия - Смотреть
9 - BigData. Хранение и анализ больших данных - Смотреть
10 - BigData. Deep learning - Смотреть
@itlecture
YouTube
1 - BigData. Введение в машинное обучение
Лекция 1 - Введение в машинное обучение.
В лекции рассказывается о том, что подразумевается под понятием «машинное обучение» и какие задачи решаются с его помощью. Также проведен небольшой экскурс в историю машинного обучения.
Лектор – Александр Обедников…
В лекции рассказывается о том, что подразумевается под понятием «машинное обучение» и какие задачи решаются с его помощью. Также проведен небольшой экскурс в историю машинного обучения.
Лектор – Александр Обедников…
Forwarded from Big Data Science
⚙️Продолжая насущную и довольно интересную тему нейросетей, хотели бы обратить внимание на следующую вещь.
И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.
Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/
Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.
Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/
Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
Хабр
Новые архитектуры нейросетей
Новые архитектуры нейросетей Предыдущая статья « Нейросети. Куда это все движется » В этой статье кратко рассматриваются некоторые архитектуры нейросетей, в основном по задаче обнаружения объектов ,...
Forwarded from мамкин Data Scientist
Здорова, бандиты
Стал замечать рост вакансий связанных с временными рядами, особенно радует интерес корпораций к стажерам на это направление. Тайм сириасы одно из немногих направлений, где МЛ не притянут за huy, перфоманс там реально есть.
Вот только у нубов есть одна критическая ошибка, они пытаются заботать SOTA результаты в области, не сформировав твердую базу. Пусть то временные ряды или другая подобласть МЛ.
Братан, когда приходишь на стажера/джуна, выглядит как минимум стремно слушать про Diffusion Convolutional Recurrent Neural Network и при этом видеть удивленное ebalo при просьбе рассказать идею heapsort.
На какое бы направление МЛ ты не шел, нужно знать следующие вещи:
1. База по алгоритмам
2. База по теор.веру/статам
3. База по классическому МЛ
4. База по направлению. База блять, понял?
Базу по Тайм сириасам можно получить на семидневном мини-курсе. Он покрывает все основные моменты, которые могут спросить джуна/стажера.
Курс → https://machinelearningmastery.com/time-series-forecasting-python-mini-course/
Либо, можно совместить приятное с полезным и выполняя третий пункт из списка, взять спецуху от Яндекса/МФТИ, где на пятом курсе рассказывают основы анализа временных рядов, этого будет достаточно для старта. Можно также посмотреть отдельно эту часть специализации.
Курс → https://www.coursera.org/learn/data-analysis-applications
Первые три пункта можно подобрать под себя в первой и второй частях закрепа. Тут главное понять, что основной упор интервьюера будет направлен именно на них. Ну и, конечно, сверху все нужно шлифануть вопросами с сервиса, который мы сделали общими усилиями мамкиных ДСов.
Вопросы с собесов → https://interview-mds.ru/
А если тайм сириас для тебя рабочая рутина, то следующий продукт порадует. Четыре недели временных рядов на TensorFlow от deeplearning.ai. Тут и DNN, и RNN, все как мы любим. Ведущий — дядька из Google Brain, не предложит выбор из двух стульев, а посадит на каждый из них по очереди. Короче 10 из 10.
Курс → https://www.coursera.org/professional-certificates/tensorflow-in-practice
Работаем, братва
Стал замечать рост вакансий связанных с временными рядами, особенно радует интерес корпораций к стажерам на это направление. Тайм сириасы одно из немногих направлений, где МЛ не притянут за huy, перфоманс там реально есть.
Вот только у нубов есть одна критическая ошибка, они пытаются заботать SOTA результаты в области, не сформировав твердую базу. Пусть то временные ряды или другая подобласть МЛ.
Братан, когда приходишь на стажера/джуна, выглядит как минимум стремно слушать про Diffusion Convolutional Recurrent Neural Network и при этом видеть удивленное ebalo при просьбе рассказать идею heapsort.
На какое бы направление МЛ ты не шел, нужно знать следующие вещи:
1. База по алгоритмам
2. База по теор.веру/статам
3. База по классическому МЛ
4. База по направлению. База блять, понял?
Базу по Тайм сириасам можно получить на семидневном мини-курсе. Он покрывает все основные моменты, которые могут спросить джуна/стажера.
Курс → https://machinelearningmastery.com/time-series-forecasting-python-mini-course/
Либо, можно совместить приятное с полезным и выполняя третий пункт из списка, взять спецуху от Яндекса/МФТИ, где на пятом курсе рассказывают основы анализа временных рядов, этого будет достаточно для старта. Можно также посмотреть отдельно эту часть специализации.
Курс → https://www.coursera.org/learn/data-analysis-applications
Первые три пункта можно подобрать под себя в первой и второй частях закрепа. Тут главное понять, что основной упор интервьюера будет направлен именно на них. Ну и, конечно, сверху все нужно шлифануть вопросами с сервиса, который мы сделали общими усилиями мамкиных ДСов.
Вопросы с собесов → https://interview-mds.ru/
А если тайм сириас для тебя рабочая рутина, то следующий продукт порадует. Четыре недели временных рядов на TensorFlow от deeplearning.ai. Тут и DNN, и RNN, все как мы любим. Ведущий — дядька из Google Brain, не предложит выбор из двух стульев, а посадит на каждый из них по очереди. Короче 10 из 10.
Курс → https://www.coursera.org/professional-certificates/tensorflow-in-practice
Работаем, братва
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
👨🎓📈Как выбрать специализацию и начать обучение Data Science
Рассказываем об этапах обучения, которые необходимо пройти новичку для начала карьеры в Data Science. Путь от выбора специализации до выработки практических навыков будет непростым.
https://proglib.io/sh/ugSNAv8y7x
Рассказываем об этапах обучения, которые необходимо пройти новичку для начала карьеры в Data Science. Путь от выбора специализации до выработки практических навыков будет непростым.
https://proglib.io/sh/ugSNAv8y7x
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Из этой статьи вы узнаете, почему важно разделять набор данных в машинном обучении с учителем и как это делать с помощью traintestsplit() из scikit-learn.
https://proglib.io/w/a11a1252
https://proglib.io/w/a11a1252
Realpython
Split Your Dataset With scikit-learn's train_test_split() – Real Python
In this tutorial, you'll learn why it's important to split your dataset in supervised machine learning and how to do that with train_test_split() from scikit-learn.
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Проверьте свои навыки: 26 вопросов и ответов с собеседований по Data Science.
https://proglib.io/w/c2b5ee64
https://proglib.io/w/c2b5ee64
Medium
Test Your Skills: 26 Data Science Interview Questions & Answers
Can you answer them all?
Forwarded from Яндекс Образование
Школа анализа данных выложила в открытый доступ конспект курса по теории глубинного обучения. Он может быть полезен тем, кто хочет глубже разобраться в том, как работают нейронные сети 🙌🏻
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория (какова связь нейронных сетей с ядровыми методами и что она даёт?).
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория (какова связь нейронных сетей с ядровыми методами и что она даёт?).
Forwarded from Big Data Science
🌎 5 Python-библиотек для работы с картами
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
Обрабатывать географические координаты и визуализировать карты DS-специалисту помогут следующие Python-библиотеки:
• Geoplotlib с целым набором инструментов для создания карт и построения географических данных. Эта интегрированная с Pandas библиотека позволит строить фоновые карты (choropleths), тепловые карты (heatmaps), карты плотности точек (dot density maps), пространственные графы, диаграммы Вороного (Voronoi diagram). Geoplotlib требует наличия специального объектно-ориентированного API – Pyglet. https://github.com/andrea-cuttone/geoplotlib
• Pygal – библиотека с простым интерфейсом и небольшой интерактивностью. Получаемые с ее помощью карты мира можно просматривать в браузере как HTML-страницу либо скачать в формате SVG, а для PNG понадобятся дополнительные пакеты. https://github.com/Kozea/pygal
• OSMnx – библиотека, которая позволяет детализировать местность вплоть до улиц, загружать пространственные модели и геометрию, проектировать, визуализировать и анализировать реальные уличные сети из API Open Street Map. Open Street Map — это свободный и бесплатный проект для работы с подробными географическими картами мира. Благодаря этому в OSMnx можно загружать и моделировать пешеходные, автомобильные или велосипедные городские сети, показывать время в пути, воспроизводить достопримечательности, контуры зданий, а также данные о рельефе местности. https://github.com/gboeing/osmnx
• Bokeh, которая позволяет не только отрисовывать статические карты, но и создавать интерактивные с возможностью перемещения и изменения масштаба. Bokeh предоставляет вышеупомянутый API Open Street Map и Google Map, для работы с которым понадобится Google API Key. https://github.com/bokeh/bokeh
• Наконец, Plotly, которая считается самой широкой интерактивной Python-библиотекой. Для работы с картами в ней используется MapBox, где есть ограничения по бесплатному пользованию, в зависимости от количества загрузок карт. Еще в Plotly есть фоновые и тепловые карты, а также карты плотности точек. На самих картах можно строить графы, наносить линии, прямоугольники и пузыри. Как и Bokeh, Plotly для чтения геокоординат использует GeoJSON. https://plotly.com/python/maps/
pyglet.org
Home — pyglet
Web site of the pyglet project
Forwarded from Пристанище Дата Сайентиста
AtsPy - Автоматизация предсказания временных рядов
Бибилиотека AtsPy позволяет легко создавать модели для прогнозирования временных рядов. В библиотеки реализованы следующие модели:
Установка:
Применение:
Бибилиотека AtsPy позволяет легко создавать модели для прогнозирования временных рядов. В библиотеки реализованы следующие модели:
ARIMA - Automated ARIMA ModellingProphet - Modeling Multiple Seasonality With Linear or Non-linear GrowthHWAAS - Exponential Smoothing With Additive Trend and Additive SeasonalityHWAMS - Exponential Smoothing with Additive Trend and Multiplicative SeasonalityNBEATS - Neural basis expansion analysis (now fixed at 20 Epochs)Gluonts - RNN-based Model (now fixed at 20 Epochs)TATS - Seasonal and Trend no Box CoxTBAT - Trend and Box CoxTBATS1 - Trend, Seasonal (one), and Box CoxTBATP1 - TBATS1 but Seasonal Inference is Hardcoded by PeriodicityTBATS2 - TBATS1 With Two Seasonal PeriodsУстановка:
pip install atspyПрименение:
from atspy import AutomatedModelmodel_list = ["HWAMS","HWAAS","TBAT"]am = AutomatedModel(df = df , model_list=model_list,forecast_len=20)all_ensemble_in, all_ensemble_out, all_performance = am.ensemble(forecast_in, forecast_out)all_ensemble_in[["Target","ensemble_lgb__X__HWAMS","HWAMS","HWAAS"]].plot()all_ensemble_out[["ensemble_lgb__X__HWAMS","HWAMS","HWAAS"]].plot()Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
👉 Эффективное использование Matplotlib
👉 Руководство по кодированию категориальных значений в Python
Приятного чтения! 🐼
PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
📈 Обучение Data Science: какие знания по математике нужны специалисту по анализу данных?
Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.
https://proglib.io/sh/RKNBTerypS
Рассказываем про ключевые математические знания для Data Scientist, а также про книги, курсы и видеолекции в помощь обучающимся. Материал будет полезен не только осваивающим профессию с нуля новичкам, опытные специалисты также могут почерпнуть в нем что-то интересное.
https://proglib.io/sh/RKNBTerypS
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Medium
Understanding Neural Networks. From neuron to RNN, CNN, and Deep Learning
Neural Networks is one of the most popular machine learning algorithms at present. It has been decisively proven over time that neural networks outperform other algorithms in accuracy and speed. With…
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
📊 ТОП-10 необходимых для специалиста по Big Data навыков
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
https://proglib.io/sh/wQnkljYm9G
Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.
https://proglib.io/sh/wQnkljYm9G
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята,
Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅
@sberloga
Позавчера случилось знаменательное событие - открытой библиотеке для обработки естественного языка DeepPavlov, 5 февраля исполнилось 3 года!
Было много интересных докладов https://deeppavlov.ai/events/3year
Трансляцию можно посмотреть тут https://youtu.be/LkvioWrgo5E
Ребята обещали в течении недели всю ее нарезать и выложить на свой канал 👍
Но а я, как человек который в очередной раз все пропустил, начну смотреть в "режиссерской" версии 😅
@sberloga
deeppavlov.ai
DeepPavlov 3 года
Встреча пользователей и разработчиков открытой библиотеки DeepPavlov 2021
Forwarded from Big Data Science [RU]
🌷Третий – не лишний: к LightGBM и XGBoost присоединился еще один ML-алгоритм вероятностного прогнозирования - Natural Gradient Boosting (NGBoost). Выпущенный в 2019 году, NGBoost состоит из трех абстрактных модулей: базового обучающегося, параметрического распределения вероятностей и оценочных правил. Все три компонента рассматриваются как гиперпараметры, выбранные заранее перед обучением. NGBoost упрощает вероятностную регрессию с помощью гибких древовидных моделей и позволяет проводить вероятностную классификацию, возвращая вероятности по каждому классу. Например, логистическая регрессия возвращает вероятности классов в качестве выходных данных. Эксперименты с несколькими наборами данных регрессии доказали, что NGBoost обеспечивает конкурентоспособные прогностические характеристики как оценок неопределенности, так и традиционных показателей. С другой стороны, его время вычисления намного больше, чем у других двух алгоритмов, и нет некоторых полезных опций, например, отсутствует ранний останов, отображение промежуточных результатов, гибкость выбора базового обучающегося параметра, установка случайного начального состояния. Несмотря на то, что пока можно работать лишь с деревом решений и регрессией Риджа, этот ML-алгоритм вероятностного прогнозирования показывает весьма достойные результаты в сравнении с другими популярными градиентными методами.
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1
Подробнее о том, как работает NGBoost, читайте здесь:
http://www.51anomaly.org/pdf/NGBOOST.pdf
https://medium.com/@ODSC/using-the-ngboost-algorithm-8d337b753c58
https://towardsdatascience.com/ngboost-explained-comparison-to-lightgbm-and-xgboost-fda510903e53
https://www.groundai.com/project/ngboost-natural-gradient-boosting-for-probabilistic-prediction/1