Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.31K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.

https://habr.com/ru/post/538562/
Сборник теоретических задач по машинному обучению

https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk
Как писать тесты для ML-проектов. Примеры тестов трех типов:
1) Pre-train tests to ensure correct implementation
2) Post-train tests to ensure expected learned behaviour
3) Evaluation to ensure satisfactory model performance

https://towardsdatascience.com/testing-ml-77cb2089317
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла новая версия Vega-lite, добавили поддержку виджетов и параметров в выражениях, конфигурациях графиков

https://github.com/vega/vega-lite/releases/tag/v5.0.0
Серия видео уроков с помощью которых вы постепенно перейдёте от работы с данными в Excel к одному из наиболее популярных и продвинутых инструментов для обработки данных на сегодняшний день - языку программирования R.

Курс рассчитан на специалистов ранее не имеющих опыта в программировании.

В ходе курса мы разберём некоторые пакеты входящие в библиотеку tidyverse, и научимся основным операциям которые вам понадобятся для работы с данными, начиная от загрузки до их визуализации.

Общая длительность курса: 03:32:25

Плейлист курса: https://www.youtube.com/playlist?list=PLD2LDq8edf4pgGg16wYMobvIYy_0MI0kF

Статья о курсе на Хабре: https://habr.com/ru/post/495438/
Отличный рассказ об особенностях работы графовых нейронных сетей в системах с разнородными связанными сущностями

https://graphml.substack.com/p/gml-newsletter-homophily-heterophily
#top@datamining.team

ТОП 5 постов за февраль

1) Конспект курса ШАД по теории глубинного обучения

https://vk.com/wall-94208167_5018

2) Сборник теоретических задач по машинному обучению

https://drive.google.com/file/d/1r8CJHH_hwDM16l1Pnpb4KJzoJFrJ5XRi/view?usp=drivesdk

3) Cheatsheet по машинному обучению. Полезно перед собеседованием пробежаться глазами.

https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf

4) Поэтапный план освоения data science.

https://habr.com/ru/post/538562/

5) Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.

https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Сборник дизайна рекомендательных систем разных больших компаний

https://www.theinsaneapp.com/2021/03/system-design-and-recommendation-algorithms.html
«Mathematics for Machine Learning», Марк Питер Дейзенрот и Чэн Сун Онг
Авторы собрали 95% актуальных математических дисциплин, необходимых для прокачки знаний и практических навыков в машинном обучении и Data Science. Книга доступна бесплатно:
https://mml-book.github.io
Видео-объяснение VectorNet - метод для предсказания будущей траектории машин на дороге, который работает на векторизованных данных. VectorNet использовался в решении команды с 10-го места в kaggle

https://www.youtube.com/watch?v=yJFtf-fz3WA
«Deep Learning», Ян Гудфеллоу
Книга познакомит с основными методами и алгоритмами машинного обучения, а также подскажет, как внедрить их на практике. Книга пригодится как новичкам, так и специалистам с опытом работы.

Доступно бесплатно: www.deeplearningbook.org
Классный курс по NLP с классным оформлением, объяснениями и ссылками на релевантные работы.

https://lena-voita.github.io/nlp_course.html
В этом учебнике три профессора по статистике из Стэнфорда рассказывают о математических основах теории машинного обучения, анализируют методологию сбора данных и условия их применимости. Must read для всех, кто хочет получить полный обзор различных аспектов машинного обучения.

Книга доступна бесплатно:
https://web.stanford.edu/~hastie/ElemStatLearn/
Пять типов алгоритмов машинного обучения

http://bit.ly/3bJdnAB
Очень качественный и читаемый учебник по статистике

https://www.statlearning.com/
4 Data Analyst Interview Question Types and how to answer them

http://bit.ly/2OM8qhz
Очень хороший и последовательный список материалов по трансформеру. От high-level до подробностей имплементации.

https://elvissaravia.substack.com/p/learn-about-transformers-a-recipe
GSoC – это международная программа для студентов старше 18 лет, позволяющая участвовать в работе над открытыми проектами. В этом году студенты в течение 10 недель (с 7 июня по 16 августа) могут оттачивать навыки программирования под присмотром наставников-волонтеров из DeepPavlov и получать стипендию от Google.

Посмотреть задачи и связаться можно тут:
https://summerofcode.withgoogle.com/organizations/5648181062270976/

Обратите внимание на требования к участию:
https://developers.google.com/open-source/gsoc/faq#students
Обзор статьи: SCAN: Learning to Classify Images without Labels

https://bit.ly/3qXPIRi
Госдума приняла в третьем, окончательном чтении поправки в закон об образовании, касающиеся просветительской деятельности. Они разрешают проводить такую деятельность только по согласованию с властями.

Просветительскую деятельность, в частности, чтение научно-популярных лекций, будет контролировать правительство, а для её проведения нужно получить специальную лицензию после правительственного заключения.

http://duma.gov.ru/news/50970/