Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.31K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Пользователь reddit под ником hcarlens создал удобный сайт : https://mlcontests.com - на нем вы можете мониторить проходящие ML и AI контесты на разных платформах вместе с дедлайнами.
❤‍🔥1
Обзор лучшей статьи прошедшего на днях ICCV 2019 - SinGAN: обучение GAN по одному изображению (с примером кода)

https://github.com/vlgiitr/papers_we_read/blob/master/summaries/singan.md
ТОП 5 постов за ноябрь!

1) Новый бесплатный курс от Samsung по нейронным сетям и распознованию текстов
https://vk.com/wall-94208167_3963

2) Отличные рекомендации для желающих пройти секцию машинного обучения в Яндексе
https://vk.com/wall-94208167_3983

3) Бесплатная книга про базу прикладной статистики
https://vk.com/wall-94208167_3971

4) Для новичков - специальный подсказчик для работы с pandas
https://vk.com/wall-94208167_3950

5) Визуализация больших графов для самых маленьких
https://vk.com/wall-94208167_3937
Подборка из 25 методик, которые улучшат эффективность вашей работы с pandas

Подробнее: https://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/top_25_pandas_tricks.ipynb
Подборка из 15 книг для новичков в машинном обучении

https://habr.com/ru/post/464871/
Замечательная книга, которую рекомендуем всем, кто интересуется анализом данных.

Есть ли эффект от нового лекарства? Или: различаются ли рейтинги двух политиков? Или: как будет меняться курс доллара на следующей неделе? На все эти вопросы вы сможете ответить, прочитав эту книгу.

Книга доступна по ссылке:
http://ashipunov.info/shipunov/school/books/rbook.pdf
Аягоз Мусабаева закончила мехмат МГУ, потом поступила в магистратуру ФКН “Науки о данных”, а сейчас успешно совмещают карьеру в науке и индустрии. В своем интервью Аягоз расскажет о развитии и применении в современном мире технологии компьютерного зрения, о том, почему в науке так важна коммуникация, и о том, как все успевать.

Читать: https://cs.hse.ru/news/351692526.html
Хорошая серия постов про то, почему сложно сделать GAN для текста. Написано так, что будет понятно всем.

https://bit.ly/2V2kElK
Нетфликс сделал ноутбук для scala/spark/python

https://bit.ly/3bT8jH4
#paperswithcode
Интересный проект с кодом на PyTorch - lossless image compression algorithm. Используя нейронные сети SReC (Super-Resolution based Compression) удачно сжимает изображения.

https://bit.ly/39XrP3Y
Перевод статьи про прогнозирование временных рядов с помощью рекуррентных нейронных сетей.

https://bit.ly/39SHC4d
Репозиторий с различными статьями по классификации графов вместе с имплементацией.

https://bit.ly/2UYbrfg
Cоздатель wolframalpha говорит, что придумал новый подход к физике, и запускает проект, в котором все могут поучаствовать.

https://bit.ly/2XBpTeZ
Любопытная статья от Microsoft

Рассуждают о нескольких проектах по улучшению deep generative models - обзор истории и новые подходы. Пишут про VAE, GAN и авторегрессионные модели. Среди прочего незаметно так заявляют о новой модели трансформера - OPTIMUS (почему никто не додумался до этого?). По факту это VAE, состоящий из BERT и GPT-2

https://bit.ly/3aa2gNh

Для тех, кто захотел загуглить Optimus ниже материалы с разбором:
Статья: https://arxiv.org/abs/2004.04092v1
Код: https://github.com/ChunyuanLI/Optimus (там же есть претренированные модели, или по крайней мере скоро будут)

Авторы предлагают тренировать VAE в качестве языковой модели. Подход не новый, но тут умудрились объединить BERT и GPT-2 в одной модели
Модель лучше GPT-2 тем, что позволяет делать "направленную" генерацию текста; лучше BERT тем, что работает лучше на некоторых задачах NLU благодаря smooth latent space structure.

Credits: @ artgor (ods user) // ods: https://bit.ly/2XDcOli
Маркетинговая модель многоканальной атрибуции на основе последовательности продаж с R.

https://bit.ly/2VERWr9
10 Essential Numerical Summaries in Statistics for Data Science (Theory, Python and R).

https://bit.ly/2Vf6Nd6
#top@datamining.team

Команда Data Mining предлагает вам ознакомиться с ТОП-5 постами за март:

1) Coursera открыла вузам доступ к 3800 онлайн-курсов из-за коронавируса.

https://vk.com/wall-94208167_4478

2)Замечательная книга, которую рекомендуем всем, кто интересуется анализом данных.

https://vk.com/wall-94208167_4464

3)Большая подборка литературы и блогов на тему математической статистики и экспериментам.

https://vk.com/wall-94208167_4475

4)Большой список курсов по Data Science.

https://vk.com/wall-94208167_4473

5)Новое соревнование на Kaggle - CORD-19.

https://vk.com/wall-94208167_4488
Если вы только начали знакомиться с генеративными сетями, то можем вам посоветовать обзорную статью про использование генеративных сетей в задачах компьютерного зрения.

https://theaisummer.com/gan-computer-vision/
Напоминаем вам о том, что у нашего паблика есть зеркало в Телеграмме и Фейсбуке . Можете подписаться, чтобы точно ничего не упустить!

Ссылка на Телеграмм-канал: https://teleg.run/dataminingteam
Ссылка на Фейсбук: http://facebook.com/datamining.community
Как определить, достаточно ли надежны системы машинного обучения для реального мира?

https://bit.ly/2RJ6lRZ