Один из самых популярных и известных алгоритмов кластеризации — k-means, его знает каждый, кто хоть как-то начинал работу с методами машинного обучения.
Совершенно понятно, что про k-means уже написано огромное количество материалов, что на R, что на Python, но мне попалась интересная ссылка-визуализация того, как работает алгоритм.
Если только начинаете знакомиться, то можно довольно быстро понять принцип обновления центроидов в кластерах.
Совершенно понятно, что про k-means уже написано огромное количество материалов, что на R, что на Python, но мне попалась интересная ссылка-визуализация того, как работает алгоритм.
Если только начинаете знакомиться, то можно довольно быстро понять принцип обновления центроидов в кластерах.
Из поста особенно понравилась табличка сравнения (отправлю ниже). Но, кажется, что ошиблись c Redash и not query centric.
Forwarded from DataEng
Кейс Dropbox по использованию Apache Superset: https://dropbox.tech/application/why-we-chose-apache-superset-as-our-data-exploration-platform
dropbox.tech
Why we chose Apache Superset as our data exploration platform
Для планирования своих ежедневных дел я использую приложение Хаос-контроль, которое доступно как на мобильных устройствах, так и на десктопе.
Недавно я давал интервью создателю приложения о том, что такое тайм-менеджмент для меня, как я управляю своими делами и проектами и как использую приложение автора.
Рекомендую само приложение и делюсь своими соображениями в интервью.
#ссылка #интервью
Недавно я давал интервью создателю приложения о том, что такое тайм-менеджмент для меня, как я управляю своими делами и проектами и как использую приложение автора.
Рекомендую само приложение и делюсь своими соображениями в интервью.
#ссылка #интервью
Хаос-контроль
Интервью с Николаем Валиотти
Мы решили попробовать новый для нас формат публикаций - интервью с пользователями Хаос-контроля. Многие из вас - профессионалы своего дела, у которых есть чему научиться. Поэтому в серии статей #пользователиХК мы будем общаться с интересными людьми на темы…
📈 DATAMARATHON.RU 📈
Сегодня расскажу о запуске авторского обучающего проекта для погружения в область аналитики. MVP был в прошлом году опробован на близким круге знакомых, с тех пор был существенно изменен и переработан.
В интернете много клёвого бесплатного контента: наши коллеги из коммьюнити делают курсы, а мировые вузы выкладывают программы обучения в открытый доступ. Для тех, кто хочет получить профессию, поддержку и хорошую подачу материала есть также и море платных курсов. И всё же, иногда совсем не хочется тратить большие деньги и пару месяцев своего времени на полный теоретический курс, чтобы понять, подходит тебе профессия аналитика или нет.
Мы решили, что нужен пробный курс, который позволяет за 7 дней погрузиться в профессию и назвали его «Марафон данных». Получилась целая разработка по-взрослому: фронтенд в виде чат-бота с материалами, видео-лекциями и заданиями, бэкенд и API, рейтинги, несколько тарифов с обратной связью и без — поэтому наш марафон платный.
При этом базовый тариф стоит смешных денег — 2900 рублей, но если нужны персональные консультации — тоже велком в тарифы с поддержкой инструктора и персональной обратной связью.
Внутри — авторские видео по каждой теме из марафона, уникальные задачи из реального опыта, шпаргалки и вспомогательные материалы.
На выходе — ясное понимание, интересно ли вам углубляться в тему анализа данных, базовое владение базами данных, SQL и аналитическим аппаратом Python.
Бонусом: успеем даже собрать аналитический дашборд на Redash.
👉 Ознакомиться с программой марафона и принять участие 🎟.
Сегодня расскажу о запуске авторского обучающего проекта для погружения в область аналитики. MVP был в прошлом году опробован на близким круге знакомых, с тех пор был существенно изменен и переработан.
В интернете много клёвого бесплатного контента: наши коллеги из коммьюнити делают курсы, а мировые вузы выкладывают программы обучения в открытый доступ. Для тех, кто хочет получить профессию, поддержку и хорошую подачу материала есть также и море платных курсов. И всё же, иногда совсем не хочется тратить большие деньги и пару месяцев своего времени на полный теоретический курс, чтобы понять, подходит тебе профессия аналитика или нет.
Мы решили, что нужен пробный курс, который позволяет за 7 дней погрузиться в профессию и назвали его «Марафон данных». Получилась целая разработка по-взрослому: фронтенд в виде чат-бота с материалами, видео-лекциями и заданиями, бэкенд и API, рейтинги, несколько тарифов с обратной связью и без — поэтому наш марафон платный.
При этом базовый тариф стоит смешных денег — 2900 рублей, но если нужны персональные консультации — тоже велком в тарифы с поддержкой инструктора и персональной обратной связью.
Внутри — авторские видео по каждой теме из марафона, уникальные задачи из реального опыта, шпаргалки и вспомогательные материалы.
На выходе — ясное понимание, интересно ли вам углубляться в тему анализа данных, базовое владение базами данных, SQL и аналитическим аппаратом Python.
Бонусом: успеем даже собрать аналитический дашборд на Redash.
👉 Ознакомиться с программой марафона и принять участие 🎟.
Ночное чтиво: чувак рассказывает как собрал данные с HackerNews в несколько потоков, загрузил в S3, а оттуда в Snowflake и проанализировал с помощью нескольких SQL-запросов. В частности, изучил упоминания популярных в последние дни тикеров $GME и прочих.
И вышел наиболее крупный релиз NumPy 1.20.0, в котором довольно много разнообразных изменений. Тем, кто использует Python для анализа данных имеет смысл ознакомиться.
Уже продложительное время я слушаю подкаст про технологии Запуск завтра.
Горячо его рекомендую, поскольку в русскоязычном пространстве это самый интересный подкаст, который вообще существует.
Автор подкаста Самат Галимов ведет телеграмм-канал Запуск завтра, в котором пишет про технологии. Кстати, как вы уже догадались, подкаст получил название одноименного канала в телеге.
Помимо этого, Самат вместе с партнером помогают бизнесу с IT, так что если вашей компании что-то нужно профессионально разработать или починить разработку, обращайтесь к Самату!
Горячо его рекомендую, поскольку в русскоязычном пространстве это самый интересный подкаст, который вообще существует.
Автор подкаста Самат Галимов ведет телеграмм-канал Запуск завтра, в котором пишет про технологии. Кстати, как вы уже догадались, подкаст получил название одноименного канала в телеге.
Помимо этого, Самат вместе с партнером помогают бизнесу с IT, так что если вашей компании что-то нужно профессионально разработать или починить разработку, обращайтесь к Самату!
Apple Podcasts
Запуск завтра
Подкаст (Технологии) · Еженедельно · Подкаст о технологиях, меняющих нашу жизнь. Самат Галимов – человек, который решает проблемы. Он работает техническим директором и все время должен находить общий язык с людьми самых разных профессий ...
Спешу рассказать любопытную историю про наше тесное аналитическое коммьюнити. На прошлой неделе присоединился к онлайн-дискуссии в рамках ИНИД (в основном, в качестве слушателя), в которой Настя Кузнецова интересно рассказывала про подход к построению визуализации. Настя ведет телеграмм-канал "Настенька и графики", который я читаю и рекомендую.
После своего выступления Настя написала мне в телеграмм и выяснилось, что мы уже около года заочно знакомы (!), т.к. в рамках одного из проектов мы с командой аудировали аналитический стек компании, в которой работает Настя, и я лично задавал Насте n-ное количество вопросов 🙂
Совпадение? Не думаю!
После своего выступления Настя написала мне в телеграмм и выяснилось, что мы уже около года заочно знакомы (!), т.к. в рамках одного из проектов мы с командой аудировали аналитический стек компании, в которой работает Настя, и я лично задавал Насте n-ное количество вопросов 🙂
Совпадение? Не думаю!
Telegram
Anastasiya Kuznetsova
я настенька и графики https://news.1rj.ru/str/nastengraph
Офигенный пост и про телеграм, и про аналитику.
Давно известно, что в телеграмме есть фича по поиску ближайших к тебе людей (еще можно организовать чат, основанный на локации), в английской версии это называется Find People Nearby.
Чувак конкретно запарился, сэмулировал свою геолокацию GPS, запилил свою версию приложения телеги (тк под андроид опенсорс), в которой логировал передвижения и определение близлежайших к нему людей.
Из математики в посте — описание как он рассчитывал координаты людей поблизости.
Ключевая суть и его консерн о безопасности телеги в том, что потенциально можно подменить свою геолокацию на желаемую и обнаружить практически точные координаты людей поблизости (актуально не для густонаселенных городов).
Хорошая новость в том, что дефолтно эта опция отключена, но если вы ее ранее включили, проверьте на всякий случай (ниже скриншот где искать) :)
Давно известно, что в телеграмме есть фича по поиску ближайших к тебе людей (еще можно организовать чат, основанный на локации), в английской версии это называется Find People Nearby.
Чувак конкретно запарился, сэмулировал свою геолокацию GPS, запилил свою версию приложения телеги (тк под андроид опенсорс), в которой логировал передвижения и определение близлежайших к нему людей.
Из математики в посте — описание как он рассчитывал координаты людей поблизости.
Ключевая суть и его консерн о безопасности телеги в том, что потенциально можно подменить свою геолокацию на желаемую и обнаружить практически точные координаты людей поблизости (актуально не для густонаселенных городов).
Хорошая новость в том, что дефолтно эта опция отключена, но если вы ее ранее включили, проверьте на всякий случай (ниже скриншот где искать) :)
Telegram-боты не обладают методами для выгрузки подписчиков из каналов, но это можно сделать при помощи Telegram API. Сегодня напишем скрипт, который при помощи библиотеки Telethon собирает логины, имена, фамилии и телефоны подписчиков вашего канала.
https://leftjoin.ru/all/tg-api-parse/
https://leftjoin.ru/all/tg-api-parse/
LEFT JOIN
Сбор информации о подписчиках Telegram-канала
На 2021 год боты в Telegram так и не имеют метода, позволяющего получать информацию о подписчиках канала. Тем не менее, существует достаточно сложное в освоении Telegram API и построенная на нём библиотека Telethon. Сегодня мы посмотрим, как при помощи библиотеки…
Недавно наткнулся на очень интересный доклад в Stanford от создателя Segment о том, как они искали свой Product-Market Fit.
Peter (один из фаундеров) делится тем, с чего Segment начинался, насколько кардинально все поменялось в процессе и вообще безумно интересно рассказывает историю возникновения их стартапа.
У доклада есть продолжение в виде подкаста-интервью от YCombinator.
Peter (один из фаундеров) делится тем, с чего Segment начинался, насколько кардинально все поменялось в процессе и вообще безумно интересно рассказывает историю возникновения их стартапа.
У доклада есть продолжение в виде подкаста-интервью от YCombinator.
YouTube
How to Find Product Market Fit - Stanford CS183F: Startup School
Peter Reinhardt, co-founder and CEO of Segment, shares his experience on finding product market fit.
Иногда при возникновении ошибки во время работы с базой данных необходимо отменить все предыдущие действия. Для этого существуют транзакции — они представляют собой единую последовательность действий, у которой есть начало, конец и откат в случае ошибки. Сегодня изучим, как в библиотеке SQLAlchemy для Python использовать транзакции на примере парсинга информации о пользователях ВКонтакте в базу данных MySQL
https://leftjoin.ru/all/tranzakcii-v-sqlalchemy/
https://leftjoin.ru/all/tranzakcii-v-sqlalchemy/
Looker — BI-инструмент класса self-service: все отчёты и аналитику пользователь может сделать самостоятельно без привлечения специалиста в области данных, а последний заранее настраивает необходимые модели данных.
В новом видео цикла гайдов по BI-системам мы изучим интерфейс Looker, погрузимся в терминологию инструмента, взглянем на готовые приложения в Marketplace, разберёмся с построением Look ML моделей и посмотрим на итоговый дашборд по датасету SuperStore.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
В новом видео цикла гайдов по BI-системам мы изучим интерфейс Looker, погрузимся в терминологию инструмента, взглянем на готовые приложения в Marketplace, разберёмся с построением Look ML моделей и посмотрим на итоговый дашборд по датасету SuperStore.
Посмотрите на полученный результат в материале блога и ответьте на два небольших вопроса.
YouTube
Как создать дашборд в Looker? | построение дашборда Superstore | Гайд по BI
✔️Получить гайд по BI-системам от команды LEFT JOIN: https://news.1rj.ru/str/leftjoin_helper_bot?start=YouTube-ApacheSuperset
Обзор дашборда, созданного в Looker на основе датасета Superstore.
Полезные ссылки:
🔗 Сайт data-консалтинга LEFT JOIN: https://leftjoin.ru/…
Обзор дашборда, созданного в Looker на основе датасета Superstore.
Полезные ссылки:
🔗 Сайт data-консалтинга LEFT JOIN: https://leftjoin.ru/…
Оцените по 10-балльной шкале насколько, на ваш взгляд, полученный в инструменте дашборд позволяет ответить на исходные вопросы в задаче?
Anonymous Poll
39%
1
7%
2
4%
3
4%
4
7%
5
7%
6
11%
7
11%
8
7%
9
4%
10
Оцените по 10-балльной шкале свой опыт использования данного дашборда (элементы управления, визуализация)?
Anonymous Poll
42%
1
9%
2
3%
3
3%
4
12%
5
12%
6
9%
7
3%
8
3%
9
3%
10
«Делайте макет логичным и простым. Провожайте взгляд пользователя по странице, используя последовательную визуальную иерархию заголовков и разделов. Сгруппируйте вместе связанные показатели, чтобы их было легко найти»
Перевели материал специалиста по данным Shopify о том, как поэтапно построить дашборд: какие вопросы себе нужно задать перед проектирвоанием, чем руководствоваться в процессе и что делать после публикации результата:
https://leftjoin.ru/all/make-dashboards-using-product-thinking-approach/
Перевели материал специалиста по данным Shopify о том, как поэтапно построить дашборд: какие вопросы себе нужно задать перед проектирвоанием, чем руководствоваться в процессе и что делать после публикации результата:
https://leftjoin.ru/all/make-dashboards-using-product-thinking-approach/
LEFT JOIN
Как создавать дашборды, используя подход продуктивного мышления
Этот материал – перевод статьи «How to Make Dashboards Using a Product Thinking Approach» Ни для кого не секрет, что передача результатов исследований другим людям — важнейшая часть науки о данных. Один из инструментов, который мы часто используем в Shopify —…