Очень классная серия постов по кластеризации. Многие вещи объясняются "на пальцах".
https://habr.com/ru/post/340360/
https://habr.com/ru/post/340360/
Неплохой сайт с задачами по SQL, чтобы набить руку. Решения в премиуме, но они не так уж и нужны.
https://sqlpad.io/
https://sqlpad.io/
Изображение генотипов народов Европы с помощью метода главных компонент
https://www.nature.com/articles/nature07331
https://www.nature.com/articles/nature07331
Интересное выступление SJW в MS Research про причины успеха взрослых в контексте условий в детстве
https://youtu.be/EcMKLwVlpJk
https://youtu.be/EcMKLwVlpJk
#top@datamining.team
ТОП 5 постов за январь
1)Неплохой сайт с задачами по SQL, чтобы набить руку. Решения в премиуме, но они не так уж и нужны.
https://sqlpad.io/
2) Хороший курс по глубокому обучению
http://bit.ly/2NkqRZV
3) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
4) Закон о больших числах и Центральная предельная теория находятся в центре статистики, анализа данных и большей части науки о данных.
http://bit.ly/3nw1bWR
5) Госдума принимает закон, запрещающий ученым читать лекции без справки от правительства...
https://novayagazeta.ru/articles/2021/01/19/88778-konets-epohi-prosvescheniya
ТОП 5 постов за январь
1)Неплохой сайт с задачами по SQL, чтобы набить руку. Решения в премиуме, но они не так уж и нужны.
https://sqlpad.io/
2) Хороший курс по глубокому обучению
http://bit.ly/2NkqRZV
3) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
4) Закон о больших числах и Центральная предельная теория находятся в центре статистики, анализа данных и большей части науки о данных.
http://bit.ly/3nw1bWR
5) Госдума принимает закон, запрещающий ученым читать лекции без справки от правительства...
https://novayagazeta.ru/articles/2021/01/19/88778-konets-epohi-prosvescheniya
Sequence-to-sequence модели (seq2seq) – это модели глубокого обучения, достигшие больших успехов в таких задачах, как машинный перевод, суммаризация текста, аннотация изображений и др. Так, например, в конце 2016 года подобная модель была встроена в Google Translate.
Перевод статьи по ссылке:
http://bit.ly/3j60DpS
Перевод статьи по ссылке:
http://bit.ly/3j60DpS
Autoregressive Transformers have taken over the world of Language Modeling (GPT-3). However, in order to train them, people use causal masking and sample parallelism, which means computation only happens in a feedforward manner. This results in higher layer information, which would be available, to not be used in the lower layers of subsequent tokens, and leads to a loss in the computational capabilities of the overall model. Feedback Transformers trade-off training speed for access to these representations and demonstrate remarkable improvements in complex reasoning and long-range dependency tasks.
https://youtu.be/zdb8MM94A5c
https://arxiv.org/abs/2002.09402
https://youtu.be/zdb8MM94A5c
https://arxiv.org/abs/2002.09402
Библиотека, которая сгенерирует дашборд с объяснениями вашей модели
explainerdashboard is a library for quickly building interactive dashboards for analyzing and explaining the predictions and workings of (scikit-learn compatible) machine learning models, including xgboost, catboost and lightgbm. This makes your model transparant and explainable with just two lines of code.
https://explainerdashboard.readthedocs.io/en/latest/
explainerdashboard is a library for quickly building interactive dashboards for analyzing and explaining the predictions and workings of (scikit-learn compatible) machine learning models, including xgboost, catboost and lightgbm. This makes your model transparant and explainable with just two lines of code.
https://explainerdashboard.readthedocs.io/en/latest/
Интересная статья про попытку обучить алгоритм оценивать «надёжность» человека по его лицу
http://bit.ly/39Sy3Wf
http://bit.ly/39Sy3Wf
Бесплатный курс - "Анализ Данных просто и доступно".
Доступен на платформах: ютуб или степик
https://www.youtube.com/playlist?list=PLUfHxBkkFMSfvgd_rAzt8iM9foo9sbcFx
Доступен на платформах: ютуб или степик
https://www.youtube.com/playlist?list=PLUfHxBkkFMSfvgd_rAzt8iM9foo9sbcFx
Департамент информационных технологий Москвы решил создать за 185 миллионов рублей подробную и персонализированную базу данных о каждом жителе города.
https://mdza.io/sTpZgV9qS3k
https://mdza.io/sTpZgV9qS3k
Бесплатный, неплохой, короткий курс по динамическому программированию для новичков.
Смотреть на ютубе:
https://www.youtube.com/watch?v=jTjRGe0wRvI&list=PLVrpF4r7WIhTT1hJqZmjP10nxsmrbRvlf
Смотреть на ютубе:
https://www.youtube.com/watch?v=jTjRGe0wRvI&list=PLVrpF4r7WIhTT1hJqZmjP10nxsmrbRvlf
С 2015 года мы публикуем лучшие бесплатные курсы, новости и полезные материалы из мира анализа данных и машинного.
Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:
1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.
http://work.caltech.edu/telecourse
2) Бесплатный курс от IBM по SQL специально для Data Science.
https://bit.ly/33whhcC
3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!
https://github.com/afshinea/stanford-cs-230-deep-learning
4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ
http://bit.ly/2NkqRZV
5) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.
Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.
7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.
GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
Ниже подборка из 7 не совсем рандомных постов за последние два года существования нашего канала:
1) Вводный курс по машинному обучению от California Institute of Technology. Все те же материалы, что доступны студентам из Caltech: видеолекции, домашние задания и даже экзамен; все совершенно бесплатно.
http://work.caltech.edu/telecourse
2) Бесплатный курс от IBM по SQL специально для Data Science.
https://bit.ly/33whhcC
3) Полезная подборка чит-листов из Стэнфордского CS 230 курса по Глубинному обучению. Содержит иллюстрированные чит-листы для сверточныйх нейронных сетей, рекурретных нейронных сетей и всякие полезные вещи, которые стоит держать в уме при обучении DL-модели. Рекомендуется к ознакомлению!
https://github.com/afshinea/stanford-cs-230-deep-learning
4) Хороший курс по глубинному обучению от ФКН НИУ ВШЭ
http://bit.ly/2NkqRZV
5) Статья с подробным примером настройки интерактивного дашборда с помощью dash
http://bit.ly/3hCzpGQ
6) Stanford продолжает радовать нас материалами своих курсов по машинному обучению. В открытом доступе появились видеозаписи лекций курса CS234: Reinforcement Learning. Также доступны слайды, конспекты, домашние задания с решениями и другие полезные материалы.
Сайт курса: https://goo.gl/5kfKBd.
Плейлист на YouTube: https://goo.gl/CVwEUr.
7) Курс по теории глубокого обучения от МФТИ. Видеолекции, презентации и домашние задания доступны всем интересующимся.
GitHub курса: https://goo.gl/jo8XQb
YouTube плейлист: https://goo.gl/4jDLiv
edX
SQL for Data Science
Learn how to use and apply the powerful language of SQL to better communicate and extract data from databases - a must for anyone working in the data science field.
Список вопросов для подготовки к собеседованию в DS. Много достойных вопросов, к тому же ко многим есть ответы. Список на английском.
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md
Конспект курса ШАД по теории глубинного обучения.
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория
(какова связь нейронных сетей с ядровыми методами и что она даёт?).
https://arxiv.org/abs/2012.05760
В конспекте рассматриваются следующие темы:
— Инициализация нейронных сетей
(кто-нибудь смотрел, как инициализируются сети в pytorch или tensorflow, и почему именно так?);
— Поверхность функции потерь
(почему градиентный спуск — локальный поиск! — способен сколь угодно снизить ошибку на обучении?);
— Обобщающая способность
(почему сеть обученная на одной выборке, хорошо — или плохо — работает на другой?);
— NTK-теория
(какова связь нейронных сетей с ядровыми методами и что она даёт?).
https://arxiv.org/abs/2012.05760
Обзор новых пакетов для R
на декабрь 2020
https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
на декабрь 2020
https://www.r-bloggers.com/2021/01/dec-2020-top-40-new-cran-packages/
Реальный опыт использования Shiny в качестве корпоративной отчетности. Спойлер: Норм, можно использовать.
https://habr.com/ru/post/513634/
https://habr.com/ru/post/513634/