Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.31K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Обзор новых пакетов для R
на декабрь 2020

https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
Реальный опыт использования Shiny в качестве корпоративной отчетности. Спойлер: Норм, можно использовать.

https://habr.com/ru/post/513634/
Cheatsheet по машинному обучению. Полезно перед собеседованием пробежаться глазами.

https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf
Stanford выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года

BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
https://youtu.be/knTc-NQSjKA

Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT
https://youtu.be/mp95Z5yM92c
В гостях у «Раблз» директор по разработке X5 Retail Group, Андрей Молчанский (более 2000 человек в подчинении).

Про то, как устроен анализ данных и разработка в крупнейшей ритейл-сети, с какими вызовами сталкивается бизнес, когда AI начинает внедряться в бизнес-процессы, а также как результаты цифровой трансформации соотносятся с современными трендами в ритейле.

https://youtu.be/C-pZyCAxq5E
Свежий и интересный блог про алгоритмическую торговлю. В постах фактически дана инструкция по написанию торгующего бота.

https://conorjohanlon.com
Качественный курс “Введение в анализ данных и машинное обучение”. Подойдет для тех, кто только начинает знакомство с ML.

https://timeseries-ru.github.io/course/README.html
Поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.

https://habr.com/ru/post/538562/
Сборник теоретических задач по машинному обучению

https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk
Как писать тесты для ML-проектов. Примеры тестов трех типов:
1) Pre-train tests to ensure correct implementation
2) Post-train tests to ensure expected learned behaviour
3) Evaluation to ensure satisfactory model performance

https://towardsdatascience.com/testing-ml-77cb2089317
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Vega-lite, добавили поддержку виджетов и параметров в выражениях, конфигурациях графиков

https://github.com/vega/vega-lite/releases/tag/v5.0.0
Серия видео уроков с помощью которых вы постепенно перейдёте от работы с данными в Excel к одному из наиболее популярных и продвинутых инструментов для обработки данных на сегодняшний день - языку программирования R.

Курс рассчитан на специалистов ранее не имеющих опыта в программировании.

В ходе курса мы разберём некоторые пакеты входящие в библиотеку tidyverse, и научимся основным операциям которые вам понадобятся для работы с данными, начиная от загрузки до их визуализации.

Общая длительность курса: 03:32:25

Плейлист курса: https://www.youtube.com/playlist?list=PLD2LDq8edf4pgGg16wYMobvIYy_0MI0kF

Статья о курсе на Хабре: https://habr.com/ru/post/495438/
Отличный рассказ об особенностях работы графовых нейронных сетей в системах с разнородными связанными сущностями

https://graphml.substack.com/p/gml-newsletter-homophily-heterophily
#top@datamining.team

ТОП 5 постов за февраль

1) Конспект курса ШАД по теории глубинного обучения

https://vk.com/wall-94208167_5018

2) Сборник теоретических задач по машинному обучению

https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk

3) Cheatsheet по машинному обучению. Полезно перед собеседованием пробежаться глазами.

https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf

4) Поэтапный план освоения data science.

https://habr.com/ru/post/538562/

5) Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.

https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Сборник дизайна рекомендательных систем разных больших компаний

https://www.theinsaneapp.com/2021/03/system-design-and-recommendation-algorithms.html
«Mathematics for Machine Learning», Марк Питер Дейзенрот и Чэн Сун Онг
Авторы собрали 95% актуальных математических дисциплин, необходимых для прокачки знаний и практических навыков в машинном обучении и Data Science. Книга доступна бесплатно:
https://mml-book.github.io