Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.31K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Приличная статья про сравнение разных реализаций градиентного бустинга

https://bit.ly/2Y2rWYw
Как IT-ные вещи меняли мир науки и о важности CS

https://www.nature.com/articles/d41586-021-00075-2
Очень классная серия постов по кластеризации. Многие вещи объясняются "на пальцах".

https://habr.com/ru/post/340360/
Неплохой сайт с задачами по SQL, чтобы набить руку. Решения в премиуме, но они не так уж и нужны.

https://sqlpad.io/
Изображение генотипов народов Европы с помощью метода главных компонент

https://www.nature.com/articles/nature07331
Хороший курс по глубокому обучению

http://bit.ly/2NkqRZV
Госдума принимает закон, запрещающий ученым читать лекции без справки от правительства...
Интересное выступление SJW в MS Research про причины успеха взрослых в контексте условий в детстве

https://youtu.be/EcMKLwVlpJk
#top@datamining.team

ТОП 5 постов за январь

1)Неплохой сайт с задачами по SQL, чтобы набить руку. Решения в премиуме, но они не так уж и нужны.

https://sqlpad.io/

2) Хороший курс по глубокому обучению

http://bit.ly/2NkqRZV

3) Статья с подробным примером настройки интерактивного дашборда с помощью dash

http://bit.ly/3hCzpGQ

4) Закон о больших числах и Центральная предельная теория находятся в центре статистики, анализа данных и большей части науки о данных.

http://bit.ly/3nw1bWR

5) Госдума принимает закон, запрещающий ученым читать лекции без справки от правительства...

https://novayagazeta.ru/articles/2021/01/19/88778-konets-epohi-prosvescheniya
Sequence-to-sequence модели (seq2seq) – это модели глубокого обучения, достигшие больших успехов в таких задачах, как машинный перевод, суммаризация текста, аннотация изображений и др. Так, например, в конце 2016 года подобная модель была встроена в Google Translate.

Перевод статьи по ссылке:
http://bit.ly/3j60DpS
Autoregressive Transformers have taken over the world of Language Modeling (GPT-3). However, in order to train them, people use causal masking and sample parallelism, which means computation only happens in a feedforward manner. This results in higher layer information, which would be available, to not be used in the lower layers of subsequent tokens, and leads to a loss in the computational capabilities of the overall model. Feedback Transformers trade-off training speed for access to these representations and demonstrate remarkable improvements in complex reasoning and long-range dependency tasks.

https://youtu.be/zdb8MM94A5c
https://arxiv.org/abs/2002.09402
Примеры кода на Pytorch с разъяснением

https://nn.labml.ai/
Библиотека, которая сгенерирует дашборд с объяснениями вашей модели

explainerdashboard is a library for quickly building interactive dashboards for analyzing and explaining the predictions and workings of (scikit-learn compatible) machine learning models, including xgboost, catboost and lightgbm. This makes your model transparant and explainable with just two lines of code.

https://explainerdashboard.readthedocs.io/en/latest/
Интересная статья про попытку обучить алгоритм оценивать «надёжность» человека по его лицу

http://bit.ly/39Sy3Wf
Бесплатный курс - "Анализ Данных просто и доступно".
Доступен на платформах: ютуб или степик

https://www.youtube.com/playlist?list=PLUfHxBkkFMSfvgd_rAzt8iM9foo9sbcFx
Департамент информационных технологий Москвы решил создать за 185 миллионов рублей подробную и персонализированную базу данных о каждом жителе города.

https://mdza.io/sTpZgV9qS3k
Бесплатный, неплохой, короткий курс по динамическому программированию для новичков.

Смотреть на ютубе:
https://www.youtube.com/watch?v=jTjRGe0wRvI&list=PLVrpF4r7WIhTT1hJqZmjP10nxsmrbRvlf
С 2015 года мы публикуем лучшие бесплатные курсы, новости и полезные материалы из мира анализа данных и машинного.

Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:

1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.

http://work.caltech.edu/telecourse

2) Бесплатный курс от IBM по SQL специально для Data Science.

https://bit.ly/33whhcC

3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!

https://github.com/afshinea/stanford-cs-230-deep-learning

4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ

http://bit.ly/2NkqRZV

5) Статья с подробным примером настройки интерактивного дашборда с помощью dash

http://bit.ly/3hCzpGQ

6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.

Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.

7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.

GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.

https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md