Where is data, Lebowski – Telegram
Where is data, Lebowski
237 subscribers
83 photos
2 videos
83 links
Канал про разное в data-мире:
- от библиотек визуализации до data egineering
- от графиков до элементов разработки
- от .csv до API
Download Telegram
Forwarded from data будни (Саша Михайлов)
ламповые объявления о работе с Матемаркетинга

кажется, это не попало в официальные трансляции) выложу сюда часть, чтобы добро не продпало
Audio
Иногда приятно, когда ваш любимый  jupyter-notebook  издаёт любимый звук по окончании расчетов, вот ловите как можно это сделать - https://musicinformationretrieval.com/ipython_audio.html

Как сказал  DS-коллега, после этого кода я уже никогда не буду прежним:

```
import IPython.display as ipd
beep = np.sin(2*np.pi*400*np.arange(10000)/10000)
def end_sound():
return ipd.Audio(beep, rate=10000, autoplay=True)

```

А пока вам новогоднего настроения👇🔊
Правильно говорят: сходи посмотри (а-ля наберись опыта), а потом решение принимай 👌
Иногда от такого способа получается потраченное время, но нам привычно думать, что время потрачено впустую, если нет положительного результата (читай нам понравилось, мы в восторге, у нас больше зп и тд..), но знание того что тебе неинтересно, тоже положительно, ибо сокращает поиск как минимум в два раза (а бинарное дерево поиска не самое худшее).
По этой причине у меня сформировались два вектора развития:
1⃣ Python Developer (Python, Django, Flask...)
2⃣ Data Engineer (SQL, ETL /Elt, Airflow и вот это вот всё 😉)

Меня можно отнести к Python evangelist, ну уж очень нравится мне язык, привет змейка 🐍
Среди прочих интересных вещей которые были на курсе Яндекс.Практикум Аналитик данных познакомился с фреймворком Dash, симбиоз Python + Flask + Plotly, отличный инструмент для быстрой разработки не только дашбордов. Со временем прокачался в сим инструменте, да так, что и в работе использую (разработал сервис для разметки данных по одному из проектов) и для собственных проектов (погодный дашборд, сервис для EDA, а об одном из будущих мы ещё поговорим).
 В общем очаровал меня этот фреймфорк, а сегодня узнал еще об одном - streamlit.  Посмотрел сайт, почитал - достойный тул.
Это я всё к чему, если вы хотите попробовать свои силы в разработке или вам нужен некий сервис  вот прям щас, а готового нет, и нет времени на изучение монстров Flask\Django (хотя у них есть свои плюшки), то можете смело смотреть в сторону Dash, streamlit или аналогичных (если о таких знаете, кидайте в комменты), почувствуете себя настоящим разработчиком и принесете пользу себе или команде😎
На заре изучения Python (чего греха таить и сейчас иногда) пользовался отличным сайтом - https://pythontutor.com/visualize.html#mode=edit

Он позволяет визуализировать как работает код, что творится с переменными - позволяет лучше разобраться в работе твоего кода.

Для любимой библиотеки Pandas тоже нашёлся такой инструмент, теперь вы будите лучше понимать почему вы получили именно такой результат, куда делись данные и откуда взялись наны😜

Ловите и используйте https://pandastutor.com/index.html
У каждого, думаю, наберётся стопка вкладок с интересными статьями или вебинарами - хорошего контента много и естественно не успеваешь все переваривать.
В последнее время взял себя в руки и периодически просматриваю интересующие вещи (думаю будет несколько полезных конспектов🙃). Одним из таких источников является Moscow Python Podcast - выпуск Docs as Code - документация как код. Вообще я сторонник всего структурированного и что можно версионировать (привет git), поэтому тема была интересна.
Прозвучало несколько подходов:
- без документации 🤷‍♂️
- дока в Jira/Notion/Confluence...
- дока рядом с кодом

Соображений было много, но кажется ребята сошлись на одной мысли - лучше отсутствие доки, чем её неконсистентная версия, тк создаёт накладные ментальные расходы.
Наличие Docs as Code, а особенно когда интегрировано с CI/CD - также создаёт накладные расходы, мало пофиксить код, система требует пофиксить доку, но если ты не знаешь где, что и как (привет 234 markdown файла), то оказываешься в ступоре.

Вот вам тезисы:
1️⃣ Писать доку - хорошее правило
2️⃣ Пишешь доку - поддерживай
3️⃣ Если не поддерживаешь - лучше не пиши🤷‍♂️
4️⃣ На каком языке - английский vs русский - выбор скорее зависит от команды\продукта (если есть мждународный рынок лучше английский)
5️⃣ Без доки вход новых сотрудников усложняется


Гость программы рассказал про оригинальную методологию разработки - Literate Programming .
Написание программного кода как прозы - не знаю насколько идея работоспособна, но заслуживает внимание своей оригинальностью 😉

Вывод можно извлечь такой:
📍Принимать решение о документации надо в начале (сколько, где и как)
📍И можете оставлять нецензуршину - так веселее😉
Отличный датаарт про типы визуализаий😉

Я питаю "слабость" к круговым диаграммам, поэтому не могу не сделать этот пост, наслаждайтесь красивой картинкой и корректно НЕиспользуйте pie-chart 🖐
#pie #part2
Forwarded from Data-comics
Круговая или пироговая диаграмма (Пай-чарт)

Пай-чарт — парень хозяйственный, он интересуется бизнесом, но главная его страсть — готовка! У него не очень хорошее зрение, и сравнивать данные на глаз у него получается плохо, зато он очень наглядно может показать, сколько кусков пирога осталось в тарелке! Он опасается 3D, потому что уверен, что оно его жутко полнит. Отдельной же слабостью Пай-чарта является любовь к небольшим компаниям.

Круговая диаграмма подходит, чтобы показать, как части целого соотносятся друг с другом и с целым, но эту диаграмму надо применять осторожно.

В идеале на пай-чарте можно отразить 2–4 доли целого, отсортировав их по убыванию, начиная от «полудня» по часовой стрелке.
Мелкие доли лучше объединить в «Прочее» и разместить в конце.
Легенду не стоит убирать далеко, лучше подписать значение показателя и названия категорий прямо около секторов.
Эффекты: градиент, тени и 3D — губительны для Пай-чарта.
Не пытайтесь кодировать в пай-чарте динамику или сравнение элементов.

#диаграммки
Breaking 📰

Дима Аношин подался в разговоры и записал первый подкаст, хотя скорее selfcast🔉

Поделился ответами на вопросы Николая Валиотти о происхождении, идеи и жизни datalearn - бесплатного путеводителя по data миру.

Есть позиции, которые отзываются:
1️⃣ Научился сам - научи других
Как имеющий опыт преподавания всем от детишек до дядек - это хорошо помогает понять материал лучше, уложить в чёткую структуру и глубже разобрать - по пути всегда находится много интересного.

2️⃣ Весь объём информации доступен
Youtube/телеграмм и другие каналы, туториалы вендоров, документация - в информации можно утонуть

3️⃣ Нужно прикладывать усилия для развития и изучения
На мой взгляд, это главное, как говорит, Дима, я должен увидеть страсть у человека, у него должны гореть глаза, тогда и море информации из п2 будет по колено. К сожалению, ни бесплатные курсы, ни платные не могут ничего поделать с отсутствием желания. Да, для некоторых отданные деньги станут в некотором роде мотивацией, но всё равно может иметь место позиция, вот я открыт, наполните меня знаниями. Простите, но так не работает🤷‍♂️

Что очень важно в подготовленных курсах - продуманная методология (не у всех и с ней будет всё ок). Дмитрий отмечает, что потратил достаточно большое количество времени на подготовку курса (сумма, которую он назвал одной из онлайн школ, мне понравилась😝) , а этот труд должен быть оплачен, эквивалент каждый выбирает сам😉

Поэтому, дождавшись курса по DE от Яндекс Практикума, приступаю с сегодняшнего дня к учёбе. Let's Rock Data 🤟

Вероятно, как говорит супруга, за учебным драйвом, конечно без этого никуда: борьба с тренажёром и классные проекты.

Самое классное:
- в наставниках одногруппник по 1 когорте аналитиков
- учится буду с товарищами из 1 когорты аналитиков
- в ревьюверах также коллеги из 1 когорты

Тройное бинго🔥

Приятного прослушивания

#прослушано
Во время изучения чего-то нового (язык программирования, библиотека, фреймворк, инструмент,...) всегда нужно подкрепление в виде практики.

Для меня практика и теория тесно переплетены, иногда делаю практику первичной. Когда есть кейс, всегда легче изучать и применять. Старайтесь находить места для применения новых знаний или изучайте то, что сразу пойдёт в дело👌

Предпосылки для практики:
🔉 люблю музыку и Spotify
🐍 люблю Python
🌶 изучаю Flask (фреймворк для разработки)
🤯 люблю статистику/ML

Из всего этого попробуем реализовать что-то интересное. Какой у нас план:
1⃣ Найти данные
2⃣ Сохранить данные
3⃣ Придумать с сохранёнными данными что-то интересное
4⃣ Сохранить это интересное
5⃣ Пользоваться

Общий план есть, соотнесём его
с преподпосылками:
1. Данные берём из Spotify (какие и как посмотрим позже, вероятно, будут музыкальные треки)
2. Сохраняем данные в БД (у нас всё по-взрослому)
3. Попробуем определять похожесть музыкальных треков
4. Создавать на основе похожих треков плейлисты
5. Загружать плейлисты в Spotify, чтобы можно было слушать и шерить

То есть создадим систему рекомендаций, основанную на похожести треков, научимся следить за похожестью, может даже построим пару графиков😁

Кодить будем всё на Python, Flask выступает в роли веб-фреймворка на котором мы и реализуем сервис по рекомендациям.

Ну что готовы, тогда поехали, в следующих постах будем разбирать отдельные шаги, соединять их вместе и скорее всего где-то свернём не туда.

Не уверен, что каждый шаг будет подробно описан, но это не точно😉

#практика #part0
👍2
С момента прихода Spotify я использовал исключительно его в качестве основного источника музыки, ну и радио Relax люблю🙏

Надо сказать для меня рекомендации Spotify были просто изумительны (ну или просто лучше чем рекомендации ЯМузыки), что мне особенно нравилось:
🔸Spotify Connect - когды вы можете переключаться между вашими устройствами на лету проигрывания, то есть слушали в наушниках, пришли домой, открыли ноутбук, переключили воспроизведение на стереосистему - прямо очень зашло
🔹В отличие от ЯМузыки предоставляют несколько плейлистов по рекомендациям - около 5, обычно они собраны по жанрам
▫️Weekly Discover - открытия недели, новинки, которые максимально близко похожи на то что вы слушаете, стараясь предсказать ваш музыкальный вкус и выбор. Отличная штука, многие композиции из этой подборки перекочевали в мои Liked

Spotify для каждого трека вычисляет некоторые параметры, например, energy\loudness и другие, и эти данные можно получить через API, которое в неспешном темпе изучал и придумал для себя некий проект, в котором можно было бы совместить:
1️⃣ Разработку
2️⃣ Дата инженерию
3️⃣ Data science

Об этом подробнее будет в серии постов.

Но с апреля сервис ушел из России (хотя не знаю насколько масштабно ушел:оплата перестала прииматься картами, мобильное приложение перешло в режим Free, API работает нормально, в общем из грустного только Free Plan на мобиле)

И на такой случай коллеги из ЯМузыки подготовили миграцию из различных сервисов, ознакомился, работает отлично, всё плейлисты переехали, ничего не потерялось, искать переезд тут

В общем несколько кликов и ваша любимая музыка у вас в ЯМузыке📱
👍1
Что-то полезное было днем, а сейчас просто картинка, где делается весь этот ваш/наш ML/DS😁