С 2015 года мы публикуем лучшие бесплатные курсы, новости и полезные материалы из мира анализа данных и машинного.
Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:
1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.
http://work.caltech.edu/telecourse
2) Бесплатный курс от IBM по SQL специально для Data Science.
https://bit.ly/33whhcC
3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!
https://github.com/afshinea/stanford-cs-230-deep-learning
4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ
http://bit.ly/2NkqRZV
5) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.
Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.
7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.
GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:
1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.
http://work.caltech.edu/telecourse
2) Бесплатный курс от IBM по SQL специально для Data Science.
https://bit.ly/33whhcC
3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!
https://github.com/afshinea/stanford-cs-230-deep-learning
4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ
http://bit.ly/2NkqRZV
5) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.
Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.
7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.
GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
edX
SQL for Data Science
Learn how to use and apply the powerful language of SQL to better communicate and extract data from databases - a must for anyone working in the data science field.
Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Конспект курса ШАД по теории глубинного обучения.
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория
(какова связь нейронных сетей с ядровыми методами и что она даёт?).
https://arxiv.org/abs/2012.05760
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория
(какова связь нейронных сетей с ядровыми методами и что она даёт?).
https://arxiv.org/abs/2012.05760
Обзор новых пакетов для R
на декабрь 2020
https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
на декабрь 2020
https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
Реальный опыт использования Shiny в качестве корпоративной отчетности. Спойлер: Норм, можно использовать.
https://habr.com/ru/post/513634/
https://habr.com/ru/post/513634/
Конспекты статей по computer vision
https://patrick-llgc.github.io/Learning-Deep-Learning/#my-review-posts-by-topics
https://patrick-llgc.github.io/Learning-Deep-Learning/#my-review-posts-by-topics
Cheatsheet по машинному обучению. Полезно перед собеседованием пробежаться глазами.
https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf
https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf
Stanford выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года
BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
https://youtu.be/knTc-NQSjKA
Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT
https://youtu.be/mp95Z5yM92c
BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
https://youtu.be/knTc-NQSjKA
Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT
https://youtu.be/mp95Z5yM92c
В гостях у «Раблз» директор по разработке X5 Retail Group, Андрей Молчанский (более 2000 человек в подчинении).
Про то, как устроен анализ данных и разработка в крупнейшей ритейл-сети, с какими вызовами сталкивается бизнес, когда AI начинает внедряться в бизнес-процессы, а также как результаты цифровой трансформации соотносятся с современными трендами в ритейле.
https://youtu.be/C-pZyCAxq5E
Про то, как устроен анализ данных и разработка в крупнейшей ритейл-сети, с какими вызовами сталкивается бизнес, когда AI начинает внедряться в бизнес-процессы, а также как результаты цифровой трансформации соотносятся с современными трендами в ритейле.
https://youtu.be/C-pZyCAxq5E
Свежий и интересный блог про алгоритмическую торговлю. В постах фактически дана инструкция по написанию торгующего бота.
https://conorjohanlon.com
https://conorjohanlon.com
Качественный курс “Введение в анализ данных и машинное обучение”. Подойдет для тех, кто только начинает знакомство с ML.
https://timeseries-ru.github.io/course/README.html
https://timeseries-ru.github.io/course/README.html
Поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.
https://habr.com/ru/post/538562/
https://habr.com/ru/post/538562/
Сборник теоретических задач по машинному обучению
https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk
https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk
Как писать тесты для ML-проектов. Примеры тестов трех типов:
1) Pre-train tests to ensure correct implementation
2) Post-train tests to ensure expected learned behaviour
3) Evaluation to ensure satisfactory model performance
https://towardsdatascience.com/testing-ml-77cb2089317
1) Pre-train tests to ensure correct implementation
2) Post-train tests to ensure expected learned behaviour
3) Evaluation to ensure satisfactory model performance
https://towardsdatascience.com/testing-ml-77cb2089317
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Vega-lite, добавили поддержку виджетов и параметров в выражениях, конфигурациях графиков
https://github.com/vega/vega-lite/releases/tag/v5.0.0
https://github.com/vega/vega-lite/releases/tag/v5.0.0
Серия видео уроков с помощью которых вы постепенно перейдёте от работы с данными в Excel к одному из наиболее популярных и продвинутых инструментов для обработки данных на сегодняшний день - языку программирования R.
Курс рассчитан на специалистов ранее не имеющих опыта в программировании.
В ходе курса мы разберём некоторые пакеты входящие в библиотеку tidyverse, и научимся основным операциям которые вам понадобятся для работы с данными, начиная от загрузки до их визуализации.
Общая длительность курса: 03:32:25
Плейлист курса: https://www.youtube.com/playlist?list=PLD2LDq8edf4pgGg16wYMobvIYy_0MI0kF
Статья о курсе на Хабре: https://habr.com/ru/post/495438/
Курс рассчитан на специалистов ранее не имеющих опыта в программировании.
В ходе курса мы разберём некоторые пакеты входящие в библиотеку tidyverse, и научимся основным операциям которые вам понадобятся для работы с данными, начиная от загрузки до их визуализации.
Общая длительность курса: 03:32:25
Плейлист курса: https://www.youtube.com/playlist?list=PLD2LDq8edf4pgGg16wYMobvIYy_0MI0kF
Статья о курсе на Хабре: https://habr.com/ru/post/495438/
Отличный рассказ об особенностях работы графовых нейронных сетей в системах с разнородными связанными сущностями
https://graphml.substack.com/p/gml-newsletter-homophily-heterophily
https://graphml.substack.com/p/gml-newsletter-homophily-heterophily