Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.31K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Бесплатный, неплохой, короткий курс по динамическому программированию для новичков.

Смотреть на ютубе:
https://www.youtube.com/watch?v=jTjRGe0wRvI&list=PLVrpF4r7WIhTT1hJqZmjP10nxsmrbRvlf
С 2015 года мы публикуем лучшие бесплатные курсы, новости и полезные материалы из мира анализа данных и машинного.

Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:

1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.

http://work.caltech.edu/telecourse

2) Бесплатный курс от IBM по SQL специально для Data Science.

https://bit.ly/33whhcC

3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!

https://github.com/afshinea/stanford-cs-230-deep-learning

4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ

http://bit.ly/2NkqRZV

5) Статья с подробным примером настройки интерактивного дашборда с помощью dash

http://bit.ly/3hCzpGQ

6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.

Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.

7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.

GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.

https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Конспект курса ШАД по теории глубинного обучения.

В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория
(какова связь нейронных сетей с ядровыми методами и что она даёт?).

https://arxiv.org/abs/2012.05760
Обзор новых пакетов для R
на декабрь 2020

https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
Реальный опыт использования Shiny в качестве корпоративной отчетности. Спойлер: Норм, можно использовать.

https://habr.com/ru/post/513634/
Cheatsheet по машинному обучению. Полезно перед собеседованием пробежаться глазами.

https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf
Stanford выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года

BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
https://youtu.be/knTc-NQSjKA

Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT
https://youtu.be/mp95Z5yM92c
В гостях у «Раблз» директор по разработке X5 Retail Group, Андрей Молчанский (более 2000 человек в подчинении).

Про то, как устроен анализ данных и разработка в крупнейшей ритейл-сети, с какими вызовами сталкивается бизнес, когда AI начинает внедряться в бизнес-процессы, а также как результаты цифровой трансформации соотносятся с современными трендами в ритейле.

https://youtu.be/C-pZyCAxq5E
Свежий и интересный блог про алгоритмическую торговлю. В постах фактически дана инструкция по написанию торгующего бота.

https://conorjohanlon.com
Качественный курс “Введение в анализ данных и машинное обучение”. Подойдет для тех, кто только начинает знакомство с ML.

https://timeseries-ru.github.io/course/README.html
Поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.

https://habr.com/ru/post/538562/
Сборник теоретических задач по машинному обучению

https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk
Как писать тесты для ML-проектов. Примеры тестов трех типов:
1) Pre-train tests to ensure correct implementation
2) Post-train tests to ensure expected learned behaviour
3) Evaluation to ensure satisfactory model performance

https://towardsdatascience.com/testing-ml-77cb2089317
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Vega-lite, добавили поддержку виджетов и параметров в выражениях, конфигурациях графиков

https://github.com/vega/vega-lite/releases/tag/v5.0.0