Канал Саши Михайлова – Telegram
Канал Саши Михайлова
107 subscribers
130 photos
197 links
работаю с данными, интересуюсь разным

я — @SashaMikhailov
Download Telegram
Forwarded from addmeto
Вот вам пятничная новость: ученые переименовали за 2020 целых 27 цепочек в днк. Основная причина: Microsoft Excel на старых названиях думал что это даты :) Типичный пример - MARCH1 (membrane associated ring-CH-Type finger 1), который при вставке в эксель конвертировался в 1-Mar-2020.

Да, ученые всего мира много работают с экселем и такое название - реальная проблема. Удивительны пример правильной гибкости научного мира https://www.theverge.com/2020/8/6/21355674/human-genes-rename-microsoft-excel-misreading-dates?scrolla=5eb6d68b7fedc32c19ef33b4
пока разбираюсь с вопросом, насколько глубоко нужен питон дата-инжеренеру-аналитику, смотрю курс Яндекса по бэкенду. Там-то люди точно умеют в питон. Можно подсмотреть на их кухню и представить, что там делается — и что из этого может пригодится в работе аналитика.

а первой части рассказали про основные понятия в БД, а во второй начался уже полный хардкор:
⁃ драйверы (psycopg2, pg8000 и другие)
⁃ подключения, сессии, курсоры, транзакции
⁃ SQL Alchemy и её query builder
⁃ ORM и миграции
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Крутой контент теперь бесплатно. Я проходил Tabular Data, 3х дневный курс, все по полочкам разложили.
EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0
студия Лебедева применила машинное обучение в дизайне — даже в творческих профессиях есть автоматизируемая рутина
Forwarded from Подкасты евридей (Саша Михайлов)
Николай Иронов

Студия Лебедева разработала «нейросеть», которая рисует дизайны для клиентов. Да, реальные дизайны за реальные деньги. Для Николая сделали почтовый адрес и страницу в интранете — всё это время ни клиенты, ни сотрудники думали, что это просто ещё один сотрудник на удалёнке.

«Нейросеть» в кавычках, потому что там не просто одна какая-нибудь GPT3 под капотом, а целый набор инструментов.

Заменит ли компьютер белковых дизайнеров? Полностью — нет; но работа дизайнеров в будущем будет сильно отличаться. Скорее всего будет меньше рутины.

В целом, Иронов — это ещё один инструмент арт-директора. В принципе, арт-директора всё равно кому давать задание; только вот Иронов справиться быстрее)

Телеграм подкаста
https://news.1rj.ru/str/habrpodcast/111

Слушать в iTunes и Overcast

Работы Н. Иронова на сайте Студии
https://www.artlebedev.ru/ironov/
П Р О С Т О Р
Если карта хочет показать пространство, из которого состоит страна, на ней должны быть:

🗺 ГОРОДА. Люди живут в городах или на территориях, которых к тому или другому городу неизбежно тяготеют.
🗺 ДОРОГИ между ними. Бывают автомобильные и железные. Для дорог немаловажно — куда по ним можно доехать, и поэтому на карте без ближнего зарубежья не обойтись.
🗺 РЕКИ как естественные дороги и рубежи (что особенно актуально для речной страны Россия).
🗺 РЕЛЬЕФ как естественные рамки всего происходящего.

Мне такой карты не хватало, поэтому вот.

#география #транспорт #города #карта
Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days
Forwarded from data будни
Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012
Паралич выбора

Иногда бывает, что передо мной 10 задач, но никак не получается приступить к делу: не могу решиться, за какую именно взяться.

Вроде это называется паралич выбора. По-английски звучит даже в рифму — analysis paralysis.

Сын сталкивается с такой же проблемой: надо собрать 10 игрушек на свои места. И вот он стоит и в нерешительности смотрит на них. И вроде уже можно было два раза их всех собрать за время стояния... но нет.

Чтобы сдвинуть с места процесс, предлагаю ему начать с одной игрушки: давай возьмём кораблик. Берёт. Отлично! давай теперь пчёлку. Ещё одна есть. Теперь пингвина. И вот уже почти половина игрушек на местах, динамика налицо, процесс запущен, дальше уже собирает сам.

Со «взрослыми» задачами работает так же: надо назначить приоритеты. Можно прикинуть, без чего точно нельзя обойтись. Или же просто тыкнут в таск и назначить его самым главным — конкретный метод приоритизации не важен, главное сам факт приоритета. Хоп! и дело пошло.