#интересное, #python
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Визуализация - мощный инструмент, которым нужно хорошо владеть DS'ам. Почему? Да потому что построить модели из коробки могут многие, а вот грамотно представить данные так, чтобы были видны их особенности и закономерности - нет. Качественная визуализация позволяет быстро погрузиться в область задачи и понять её особенности.
Советую очень хороший сайт, который даёт кучу примеров визуализации в разбиении по типам данных:
https://www.data-to-viz.com/
Data-To-Viz
From data to Viz | Find the graphic you need
A classification of chart types based on their input data format.
Мне тут студенты задали очень интересный вопрос. Давайте без гугла - правда очень интересно. Чуть позже сделаем подробный разбор :)
👍2
Start Career in DS
Может ли Information Gain при разбиении в дереве быть отрицательным?
Не может.
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Подробности - по ссылке
https://telegra.ph/Mozhet-li-Information-Gain-byt-otricatelnym-10-25
Telegraph
Может ли Information Gain быть отрицательным?
Давайте для начала вспомним, что же такое Information Gain. Это прирост некоего Критерия Информативности (например, Entropy или Gini), который мы получаем в результате разбиения дерева. Как это записать более формальным языком? Давайте думать. Что делает…
Интересная статья про фичи и их отбор. На английском, но он тут достаточно простой:
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
👍2
#метрики
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Очень хорошая статья, которая позволит подробно разобраться с одной из очень часто используемых метрик - ROC-AUC.
Блог Александра Дьяконова в целом очень советую, он содержит в себе большое количество полезностей. Думаю, буду еще на него ссылаться :)
https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
Анализ малых данных
AUC ROC (площадь под кривой ошибок)
Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, …
#SQL
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
На стажëрских позициях SQL не всегда требуют. Но это может сыграть вам на руку и выделить среди других кандидатов :)
А если вы претендуете на позицию джуна, то я бы сказал, что SQL - прям мастхэв.
Самый лучший сайт для изучения SQL с нуля - sql-ex.ru
Там есть всё - и теория, и практика, и куча примеров. И всё бесплатно
👍1
#SQL
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Ещё немного доп. инфы по SQL. Знать его хорошо, но что могут спросить на собеседовании? Вот очень хорошая подборка вопросов:
https://tprg.ru/q7p5
Tproger
25 распространённых вопросов по SQL с собеседований и ответы на них
Вопросы по SQL часто входят в техническое собеседование. Здесь мы собрали популярные вопросы, задачи и дали на них развёрнутые ответы.
Несколько интересных экспериментов с #pandas
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Вновь ссылка на статью Александра Дьякнова. В ней есть сравнение распространённых методов решения разных задач, которые часто возникают на практике:
https://dyakonov.org/2019/09/23/python-и-pandas-делаем-быстрее/
Анализ малых данных
Python и Pandas: делаем быстрее
Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я …
❤1
#алгоритмы
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
В некоторых компаниях на интервью любят спрашивать алгоритмы и структуры данных. Справедливости ради, нужно сказать, что к этим "некоторым компаниям" можно отнести Яндекс, Google и Facebook.
Есть очень классная книжка, которая содержит разборы огромной кучи задач на эту тему. Причем разбирается это всё прямо в виду задач с собесов.
Книга называется "Cracking the coding interview"
Ссылка: https://disk.yandex.ru/i/4_Ef2sBal5LohA
❤1
Достаточно разнородное видео (включает в себя кучу разных тем), но всё равно покрывает много вопросов, которые действительно задаются на собесах.
https://youtu.be/2AXT1yR5_48
https://youtu.be/2AXT1yR5_48
YouTube
Карьера в DATA SCIENCE: TOP-50 Вопросов на собеседовании // PART 1
Новая группа про Data Science ВКонтакте https://vk.com/pymagic
Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - https://pymagic.ru
В этом видео привела основные вопросы на собеседованиях на позицию…
Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - https://pymagic.ru
В этом видео привела основные вопросы на собеседованиях на позицию…
#python
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram
Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
Регулярки в питоне - штука крайне полезная. Они позволяют быстро и удобно работать со строками.
Вот очень хорошая статья, которая даëт все необходимые вводные:
https://tproger.ru/translations/regular-expression-python/?utm_medium=messenger&utm_source=telegram
Самое интересное там начинается со слов "До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам?"
Tproger
Регулярные выражения в Python: теория и практика
Разберём регулярные выражения в Python, их синтаксис, популярные методы специального модуля re, а также попрактикуемся на задачах.
👍2
#DL #курсы
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
"Хочу понять нейронки, куда пойти?"
Мне в своё время очень зашла Deep Learning School от ФМПИ МФТИ: https://www.dlschool.org/
Сейчас ребята даже сделали курс на степике, стало вдвойне удобно.
В их курсах есть вообще всё - начиная с базовой математики, заканчивая соревнованиями на кэгле по распознаванию изображений
Если вы уже разобрались с материалами выше про #SQL, то очень советую поковыряться с оконными функциями.
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
Вот хорошая статья, которая объясняет зачем они нужны и как с ними работать: https://m.habr.com/ru/post/268983/
Оконные функции вообще считаются достаточно продвинутым уровнем SQL. И понимать где их использовать - прям очень круто. Но очень желательно иметь возможность где-то практиковаться - например, на том же sql-ex.ru
Хабр
Как посчитать всё на свете одним SQL-запросом. Оконные функции PostgreSQL
Я с удивлением обнаружил, что многие разработчики, даже давно использующие postgresql, не понимают оконные функции, считая их какой-то особой магией для избранных. Ну или в лучшем случае...
👍1
#git
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU
Вот этот интерактивный туториал поможет понять как грамотно работать с гитом:
https://learngitbranching.js.org/?locale=ru_RU
learngitbranching.js.org
Learn Git Branching
An interactive Git visualization tool to educate and challenge!
#визуализация
Целая куча хороших примеров по построению самых разных визуализаций с помощью matplotlib: https://habr.com/ru/post/468295/
Целая куча хороших примеров по построению самых разных визуализаций с помощью matplotlib: https://habr.com/ru/post/468295/
Хабр
50 оттенков matplotlib — The Master Plots (с полным кодом на Python)
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала про...
#git
Курс для ребят, которые с гитом прежде вообще не работали. Он помягче и поподробнее предыдущего :)
https://githowto.com/ru
Курс для ребят, которые с гитом прежде вообще не работали. Он помягче и поподробнее предыдущего :)
https://githowto.com/ru
Githowto
Git How To: курс обучения Git на русском
Git How To — это интерактивный тур, который познакомит вас с основами Git. Тур создан с пониманием того, что лучший способ научиться использовать Git — попробовать его своими руками.
Спешу поделиться материалами курса, который сам не так давно прошёл.
Сошлюсь на страницу с подробным описанием и ссылкой на плейлист с видео, но далее будет серия из нескольких постов про те лекции, которые показались мне наиболее интересными.
В целом могу сказать, что это один из самых подробных и интересных курсов по анализу данных из всех, что я видел.
https://dyakonov.org/2020/12/30/pzad/
Сошлюсь на страницу с подробным описанием и ссылкой на плейлист с видео, но далее будет серия из нескольких постов про те лекции, которые показались мне наиболее интересными.
В целом могу сказать, что это один из самых подробных и интересных курсов по анализу данных из всех, что я видел.
https://dyakonov.org/2020/12/30/pzad/
Анализ малых данных
курс «Прикладные задачи анализа данных»
На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.…
Несколько наиболее полезных лично для меня лекций.
На собеседованиях (особенно на джуновые позиции) очень любят спрашивать про #метрики
Во многих курсах их введению и объяснению уделяют совсем немного времени, но вот в курсе ПЗАД Александр Геннадьевич провёл две большие лекции по метрикам регрессии и классификации. Очень советую посмотреть - там всё вводится крайне последовательно и понятно.
Лекция 9. Функции ошибки в задаче регрессии: https://youtu.be/7zE1wGk3TVA
Лекция 10. Качество в задачах классификации: https://youtu.be/zX7hzjVBqeM
На собеседованиях (особенно на джуновые позиции) очень любят спрашивать про #метрики
Во многих курсах их введению и объяснению уделяют совсем немного времени, но вот в курсе ПЗАД Александр Геннадьевич провёл две большие лекции по метрикам регрессии и классификации. Очень советую посмотреть - там всё вводится крайне последовательно и понятно.
Лекция 9. Функции ошибки в задаче регрессии: https://youtu.be/7zE1wGk3TVA
Лекция 10. Качество в задачах классификации: https://youtu.be/zX7hzjVBqeM
YouTube
ПЗАД2020. Лекция 9. Функции ошибки в задаче регрессии
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
Продолжение про #метрики в курсе ПЗАД
В этих видео подробно рассматриваются Log Loss, ROC-AUC + ещё ряд интересных и специфичных метрик. В лекциях много практических примеров, мне это прям очень зашло :)
Лекция 11. Скоринговые функции ошибки: https://youtu.be/oKf86OZMf3w
Лекция 12. Кривые в машинном обучении: https://youtu.be/Y3BD_z2DF3M
В этих видео подробно рассматриваются Log Loss, ROC-AUC + ещё ряд интересных и специфичных метрик. В лекциях много практических примеров, мне это прям очень зашло :)
Лекция 11. Скоринговые функции ошибки: https://youtu.be/oKf86OZMf3w
Лекция 12. Кривые в машинном обучении: https://youtu.be/Y3BD_z2DF3M
YouTube
ПЗАД2020. Лекция 11. Скоринговые функции ошибки
курс "Прикладные задачи анализа данных", ВМК МГУ, Дьяконов Александр (https://dyakonov.org/ag/)
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md
страница курса: https://github.com/Dyakonov/PZAD/blob/master/README.md