LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Ночное чтиво: чувак рассказывает как собрал данные с HackerNews в несколько потоков, загрузил в S3, а оттуда в Snowflake и проанализировал с помощью нескольких SQL-запросов. В частности, изучил упоминания популярных в последние дни тикеров $GME и прочих.
И вышел наиболее крупный релиз NumPy 1.20.0, в котором довольно много разнообразных изменений. Тем, кто использует Python для анализа данных имеет смысл ознакомиться.
Уже продложительное время я слушаю подкаст про технологии Запуск завтра.

Горячо его рекомендую, поскольку в русскоязычном пространстве это самый интересный подкаст, который вообще существует.

Автор подкаста Самат Галимов ведет телеграмм-канал Запуск завтра, в котором пишет про технологии. Кстати, как вы уже догадались, подкаст получил название одноименного канала в телеге.

Помимо этого, Самат вместе с партнером помогают бизнесу с IT, так что если вашей компании что-то нужно профессионально разработать или починить разработку, обращайтесь к Самату!
Спешу рассказать любопытную историю про наше тесное аналитическое коммьюнити. На прошлой неделе присоединился к онлайн-дискуссии в рамках ИНИД (в основном, в качестве слушателя), в которой Настя Кузнецова интересно рассказывала про подход к построению визуализации. Настя ведет телеграмм-канал "Настенька и графики", который я читаю и рекомендую.
После своего выступления Настя написала мне в телеграмм и выяснилось, что мы уже около года заочно знакомы (!), т.к. в рамках одного из проектов мы с командой аудировали аналитический стек компании, в которой работает Настя, и я лично задавал Насте n-ное количество вопросов 🙂
Совпадение? Не думаю!
Офигенный пост и про телеграм, и про аналитику.

Давно известно, что в телеграмме есть фича по поиску ближайших к тебе людей (еще можно организовать чат, основанный на локации), в английской версии это называется Find People Nearby.

Чувак конкретно запарился, сэмулировал свою геолокацию GPS, запилил свою версию приложения телеги (тк под андроид опенсорс), в которой логировал передвижения и определение близлежайших к нему людей.

Из математики в посте — описание как он рассчитывал координаты людей поблизости.

Ключевая суть и его консерн о безопасности телеги в том, что потенциально можно подменить свою геолокацию на желаемую и обнаружить практически точные координаты людей поблизости (актуально не для густонаселенных городов).

Хорошая новость в том, что дефолтно эта опция отключена, но если вы ее ранее включили, проверьте на всякий случай (ниже скриншот где искать) :)
Telegram-боты не обладают методами для выгрузки подписчиков из каналов, но это можно сделать при помощи Telegram API. Сегодня напишем скрипт, который при помощи библиотеки Telethon собирает логины, имена, фамилии и телефоны подписчиков вашего канала.

https://leftjoin.ru/all/tg-api-parse/
Недавно наткнулся на очень интересный доклад в Stanford от создателя Segment о том, как они искали свой Product-Market Fit.
Peter (один из фаундеров) делится тем, с чего Segment начинался, насколько кардинально все поменялось в процессе и вообще безумно интересно рассказывает историю возникновения их стартапа.

У доклада есть продолжение в виде подкаста-интервью от YCombinator.
Иногда при возникновении ошибки во время работы с базой данных необходимо отменить все предыдущие действия. Для этого существуют транзакции — они представляют собой единую последовательность действий, у которой есть начало, конец и откат в случае ошибки. Сегодня изучим, как в библиотеке SQLAlchemy для Python использовать транзакции на примере парсинга информации о пользователях ВКонтакте в базу данных MySQL

https://leftjoin.ru/all/tranzakcii-v-sqlalchemy/
Для тех, кто уже в Clubhouse: подписывайтесь на меня @valiotti.

Для тех, кого еще там нет, дарю сегодня 5 инвайтов по случаю своего ДР.
Пишите комментарий, если вам нужен инвайт :)
Looker — BI-инструмент класса self-service: все отчёты и аналитику пользователь может сделать самостоятельно без привлечения специалиста в области данных, а последний заранее настраивает необходимые модели данных.

В новом видео цикла гайдов по BI-системам мы изучим интерфейс Looker, погрузимся в терминологию инструмента, взглянем на готовые приложения в Marketplace, разберёмся с построением Look ML моделей и посмотрим на итоговый дашборд по датасету SuperStore.

Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
39%
1
7%
2
4%
3
4%
4
7%
5
7%
6
11%
7
11%
8
7%
9
4%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
42%
1
9%
2
3%
3
3%
4
12%
5
12%
6
9%
7
3%
8
3%
9
3%
10
«Делайте макет логичным и простым. Провожайте взгляд пользователя по странице, используя последовательную визуальную иерархию заголовков и разделов. Сгруппируйте вместе связанные показатели, чтобы их было легко найти»

Перевели материал специалиста по данным Shopify о том, как поэтапно построить дашборд: какие вопросы себе нужно задать перед проектирвоанием, чем руководствоваться в процессе и что делать после публикации результата:

https://leftjoin.ru/all/make-dashboards-using-product-thinking-approach/
Open Graph — протокол, который позволяет контролировать превью сайта в социальных сетях. В новом материале посмотрим, как при помощи скрипта на php и Open Graph разметки сделать автоматическую генерацию картинок для превью в социальных сетях:

https://leftjoin.ru/all/open-graph-image/
Chartio — одно из решений облачной аналитики приобретен компанией Atlassian, многим известной по Jira / Confluence. Я использовал Chartio в нескольких проектах, у них очень интересно реализован слияние данных из разных источников. Итого, из современных BI-решений сделки по покупке уже состоялись по Looker, Redash, Periscope.
Наша с Ромой совместная работа про анализ зарплат рынка аналитиков данных попала в шортлист датавиз премии. Конечно, весь датавиз принадлежит Роману, однако это была интересная задачка и с точки зрения сбора данных.

И, разумеется, призываю подписчиков проголосовать за эту работу (естественно, в случае если она вам понравилась)🏅
Forwarded from Reveal the Data
Смотрите сколько классных работ на сайте премии Moscow DataViz Awards. Есть визуализации на любой вкус — от дата-арта до лонгридов и печатных работ. Две моих работы тоже попали в шорт-лист: совместная работа с Колей Валиотти про рынок вакансий аналитиков и трибьют Тафти в Табло. 🎉

#ссылка
В статье про Headless BI натыкался на решение Materialize, тогда бегло его изучил, почитав их сайт. Как понятно из названия и сайта, компания решает задачу материализации представлений для стриминга данных.
А вчера ребята рассказали, что сделали коннектор для dbt. Так что, процесс взаимодействия между компонентами modern data stack продолжается.
Владельцам устройств Apple наверняка приглянется новый цикл материалов — в нём мы подробно описываем, как выгрузить данные из приложения «Здоровье», обработать их в pandas и отправить в Google Spreadsheets.

https://leftjoin.ru/all/apple-health-export/

Следите за новыми материалами — в будущих заметках мы настроим ежедневный экспорт новых данных, проанализируем полученную таблицу и построим визуализации.