NEW BOT Телеграм, страница

Forwarded from Интернет-аналитика // Алексей Никушин (Veronica Gardash)

📌Ключевые темы сегодняшнего дня:

Алексей Чернобровов - Как архитектура DWH влияет на Data Quality

Петр Ермаков, Lamoda - Open Source BI: почему стоит выбрать Apache Superset

Сергей Галактионов, JetStat - Как маркетологу настроить и автоматизировать отчетность когда нет аналитика

Николай Валиотти, Valiotti Analytics - Современный облачный Data Stack

Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов

Екатерина Колпакова, Head of DWH Ситимобил - Хочешь построить DWH? Спроси меня как!

Яна Манухина и Алексей Ростоцкий, Bookmate - Как устроить архитектуру DWH и контролировать изменения в ней

Начало в 11:00⏰

FREE: matemarketing.ru

FULL: https://lms.matemarketing.ru

@internetanalytics

353 views08:01

data будни

бесплатная трансляция на ютубе
https://www.youtube.com/watch?v=BPgcKYzgFEQ

YouTube

Матемаркетинг - День 4

429 views08:02

data будни

бесплатная трансляция на ютубе https://www.youtube.com/watch?v=BPgcKYzgFEQ

через 3 минуты там будет лекция Ромы Бунина

Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов

450 views10:58

data будни

SCD — Slowly Changing Dimensions

На одном собеседовании меня спросили как бы я спроектировал табличку для хранения показателей датчика, который иногда но нерегулярно меняется; и так, чтобы потом можно было найти показание за определённую дату простым запросом, не перебирая всю таблицу.

Сначала я долго тупил, но потом минут за 30 мы с собеседующим пришли к рабочему варианту… это оказался вариант по типу SCD2 — уже давно придумали как надо правильно.

Всего типов 6 — вот небольшая статья с примерами данных для каждого типа:
https://habr.com/ru/post/101544/

Хабр

Версионность и история данных

При разработке баз данных зачастую требуется обеспечить поддержку версионности и хранения истории объектов. Например, у работника может изменяться должность, у д...

3.6K viewsedited 04:43

data будни

Forwarded from Smart Data (Denis Solovyov)

#easy

Итак, 1-й фактор эффективности (эффективность = взаимное доверие и уважение) - это Люди.

Но прежде чем рассказывать о hard-skills и soft-skills, которыми должны обладать конкретные специалисты по данным, я хочу рассказать о позициях, которые могут встречаться в data-team. Я выделяю такие основные позиции:

Web-аналитик - один из тех людей, кто занимается первичным сбором данных. Под первичным сбором данных я подразумеваю сбор данных на уровне источников, т.е. это не построение ETL-процессов и data-пайплайнов. Главная задача web-аналитика - собрать данные о поведении пользователей на сайте и в мобильном приложении в системы web/app аналитики, такие как Google Analytics, Яндекс Метрика, Firebase Analytics, AppsFlyer и др. Они собирают данные о том, с каких источников трафика приходят пользователи на сайт или в мобильное приложение, какие страницы они посещают, на какие кнопки нажимают, какие товары покупают в интернет-магазине и т.д. Часто web-аналитики выступают в роли продуктовых аналитиков - они анализируют данные в системах web/app аналитики, строят гипотезы по улучшению эффективности сайта или приложения как продукта, делают A/B-тесты.

Data Engineer (инженер данных) - человек, который отвечает за построение надёжных и масштабируемых ETL-процессов и data-пайплайнов. Его главная задача - извлечь данные из источников, преобразовать данные в пригодный для анализа и data science вид и загрузить их в хранилище данных (Data Warehouse) или озеро данных (Data Lake).

BI Engineer (BI-разработчик) - человек, который отвечает за проектирование и создание отчётности в BI-инструменте (Power BI, Tableau и т.д.). Его главная задача - сделать так, чтобы бизнес-пользователям было удобно пользоваться отчётами и дашбордами, они могли находить инсайты в данных и принимать решения. BI-разработчики более высокого уровня могут не ограничиваться только проектированием и созданием BI-решений. Они также анализируют уже созданные отчёты, находят инсайты, строят гипотезы и предоставляют рекомендации бизнесу.

Data Analyst (аналитик данных) - человек, который анализирует данные (часто, уже подготовленные инженерами данных). Его главная задача - находить инсайты и предоставлять рекомендации бизнесу. В отличие от BI-разработчика он использует более продвинутые методы и инструменты анализа, такие как SQL, Python или R. Аналитики данных более высокого уровня применяют знания статистики и строят простые модели для Machine Learning. Часто Data-аналитики выступают в роли продуктовых аналитиков.

Product Analyst (продуктовый аналитик) - человек, основная задача которого - находить инсайты в данных, строить гипотезы и предоставлять рекомендации по улучшению продукта. Под продуктом подразумевается IT-продукт, т.е. сайт, мобильное приложение, web-приложение и т.д. Продуктовые аналитики используют в своём арсенале инструменты web/app аналитики, SQL, Python/R и сервисы для A/B тестирования (например, Google Optimize).

Data Scientist - человек, который строит модели Machine Learning, Deep Learning и занимается предиктивной аналитикой. Главная его задача - находить закономерности в данных благодаря построенным ML/DL моделям и помогать бизнесу находить скрытые точки роста.

Очень часто один человек может исполнять несколько ролей. Всё зависит от типа компании, её размера, орг. структуры и конкретного проекта. Я, например, выполняю задачи web-аналитика, инженера данных и BI-разработчика)

P.S. Думаю, пост будет очень полезен новичкам, кто ещё не определился с выбором профессии. Возможно, в этих описаниях вы найдёте своё призвание:)

388 views07:01

data будни

Алексей Макаров в гостях у подкаста «Каждый может» рассказал про аналитику в целом и аналитиков данных в частности. Получилась такая хорошая беседа, чтобы понять что это за отрасль такая и чем занимаются аналитики.

Алексей давно в отрасли, ведёт канал @datalytx

Слушать в iTunes и Overcast

Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/

#data_podcast

Apple Podcasts

‎«Каждый МОЖЕТ» в Apple Podcasts

‎Образование · 2021

474 viewsedited 03:34

data будни

Forwarded from addmeto (Grigory Bakunov)

Пятничное: ребята из ClickHouse загрузили в базу кучу статистики про GitHub и сделали кучу готовых запросов, очень много рассказывающих про культуру и опенсорс вцелом. Если вас интересует эта тема - обязательно посмотрите, много неожиданных открытий. Например теперь понятно, какая компания делает самый популярный опенсорс. Или какой контент на гитхабе самый популярный вообще https://gh.clickhouse.tech/explorer/

396 views16:12

data будни

Дата-хакатон по анализу данных от российских судов, полиции и законодателей

с 23 января по 7 февраля

https://coda.io/@ovdinfo/hackathon-with-memes

Coda

Welcome back to Coda. Sign in via Google, Microsoft, Apple, SSO, or enter your email address for a password-free login.

1.09K views13:00

data будни

Forwarded from Denis Sexy IT 🤖

Open AI поделился результатами своего исследования которое я никак кроме как магией назвать не могу – DALL·E, новая нейронка, продолжение идеи GPT-3 на трансформерах, но в этот раз для генерации изображений из текста.

Я часто пишу тут про фантазию, мол, скормил Гарри Поттера нейронке и получил иллюстрации всех сцен книги – кажется это уже не фантазия, но поковырять самому пока ничего не дают.

DALL·E нейронка с 12 миллиардами параметров, натренированная на парах картинка-текст, ее задачи:

✨ Синтезировать картинки по текстовому описанию
✨ Дорисовывать картинки имея часть на входе, с учетом текстового описания

Open AI уже тезерил какие-то вещи в этой области раньше, и вот наконец-то это вышло на такой уровень, что челюсть отпадает, посмотрите примеры что я приложил, вверху текст какой давали на входе.

Уверен, ей пока не дадут поиграться всем.

Предвижу, это исследование сильно повлияет на многие сферы и индустрии, так как это бесконечные сферы применения.

Тут подробнее:
https://openai.com/blog/dall-e/

270 views11:44

data будни

Кем работать, если нравится визуализация данных

Роман Бунин перечислил несколько профессий, где платят за умение визуализировать данные: что делать, сколько платят, насколько востребованы.

Будет удобно тем, кто ещё только присматривается к отрасли (и любит визуализировать данные).

http://revealthedata.com/blog/all/kem-rabotat-esli-nravitsya-vizualizaciya-dannyh/

Там же есть ссылки на чумовые инструменты по анализу вакансий и зарплат на основе API Хедхантер

Общий анализ рынка аналитики
https://revealthedata.com/examples/hh/

Быстрый анализ зарплат по профессии
https://revealthedata.com/examples/vacancies/

Revealthedata

Кем работать, если нравится визуализация данных

Читатель блога спросил кем работать, если нравится визуализация данных. Собрал небольшой гайд по профессиям, где одним из основных навыков является визуализация данных

347 views12:14

data будни

Forwarded from запуск завтра

Супер история о том, как Амазон чуть не умер и переехал с серверов Sun на Linux. Это — история зарождения Amazon Web Services — облака, на котором сегодня работает добрая половина интернета.

Рассказывает один из непосредственных участников.

Самые впечатляющие моменты:

❧ в 2000 лопнул пузырь доткомов — технические компании обесценились в сотни раз, на фондовом рынке кончились деньги и Amazon начал жечь собственные средства — 1 миллиард долларов в год; самой крупной статьей расходов были серверы — их делал Sun, они стоили дорого;

❧ можно было перекупить серверы Sun у компаний, обанкротившихся на пузыре доткомов, но техдир Амазона пошел ва-банк — решил переехать с Sun на обычное железо Hewlett Packard на Линуксе; ядру лунукса тогда было всего 6 лет;

❧ на время переезда они остановили ВСЮ продуктовую разработку! ВСЕ занимались только переездом. В бэклоге лежали сотни функций для увеличения продаж, но все ждали, пока закончится переезд;

❧ заморозка развития сервиса привела к падению продаж → пришлось повышать цены на товары → продажи упали ещё сильнее, запустилась «спираль смерти»;

❧ у Амазона оставалось буквально несколько кварталов до смерти, когда деньги на счету кончатся, но они успели и запустили всё нормально, стоимость масштабирования инфраструктуры упала на 80%;

❧ продажи — сезонный бизнес и Безос придумал, почему бы не сдавать простаивающие серверы в низкий сезон другим компаниям? На презентации он привел аналогию с электрической сетью — в 1900 годы каждый завод строил свою собственную электростанцию, почему бы не сделать «электрическую сеть» для IT? Плюс это круто сочеталось с его идеей разделить команды внутри компании, чтобы команды могли развиваться самостоятельно — каждая команда стала независимым API.

Ну а дальше вы знаете. Сегодня Амазон — это не только интернет-магазин, но и одна из крупнейших IT компаний планеты.

https://twitter.com/DanRose999/status/1347677573900242944

🔥1

340 views11:01

data будни

Читаю заголовок новости «Облачный провайдер дал клиенту 24 часа на „выселение“».

Оставлю в стороне политику, интересует только техническая сторона. Сам я напрямую с облаками много не работал, поэтому позволю себе очень глупые вопросы.

Как продавайдер знает, что вот конкретно эта компания пользуется его облаком? Он же по идее не читает его напрямую. Он может только посмотреть заключён ли договор с этим юрлицом. Или как это работает?

А можно как-то «анонимизировать» клиента в облаке? Типа заключить договор через какую-то компанию-прослойку там.

Или пойти дальше: вот есть же Hadoop — насколько я понимаю, это система распределённого хранения файлов. Нельзя сделать такое же, только для облаков? Чтобы все файлы хранились не на одном облаке, а много где — либо на нескольких аккаунтах одного облака, либо даже на нескольких разных облаках?

Если разбираетесь, расскажите в комментариях, почему так не делают.

343 views04:33

data будни

Смена тарифа по-людски

Код пишу в PyCharm; он платный — каждый месяц абонентская плата.

Есть два тарифа: 1. только PyCharm за $9 и 2. все продукты за $25. Все продукты мне не нужны, я пользуюсь одним, поэтому мой выбор очевиден.

В очередной месяц обнаруживаю списание $25 вместо $9. Иду в настройки — а там почему-то выбран второй тариф. Странно, но ладно. меняю тариф ручками.

Обидно конечно, но чё поделать. Типа этот месяц «шикую» — могу официально пользоваться всеми IDE сразу)) а через месяц они уже поменяют тариф на более простой и будут списывать 9€ как и должны.

(Таким же образом я недавно менял тариф на интернет например: в личном кабинете изменил сейчас — а по факту скорость поменяется только в следующем месяце)

На моё удивление, смена тарифа произошла мгновенно — не пришлось ждать месяц. Деньги, конечно же, не вернули: просто рястянули мой «простой» тариф почти на три месяца.

Мне нравится такой подход. По-хорошему, так и должно всё работать. Почему интернет-провайдер ждёт месяц, чтобы изменить в свой базе настройки мой скорости? Скорее всего ни почему — просто «так сложилось». Зачем морочиться и писать лишний код?

JetBrains

PyCharm: The only Python IDE you need

Built for web, data, and AI/ML professionals. Supercharged with an AI-enhanced IDE experience.

272 views05:00

data будни

Недавно на проекте пригодилась information schema. Надо было сделать технический аудит существующей базы данных: проверить все таблицы и их колонки.

В заметке ещё несколько полезных знаний о PostgreSQL:
⁃ количество таблиц в базе
⁃ размер таблицы
⁃ активные подключение к базе
⁃ удаление дубликатов в таблицах без primary key

https://tproger.ru/translations/useful-postgresql-commands/

Tproger

15 полезных команд PostgreSQL

В сети много руководств по PostgreSQL, которые описывают основные команды. Но при погружении в работу возникают такие практические вопросы, для которых требуются продвинутые команды. Рассмотрим несколько таких команд на примерах, полезных как для разработчиков…

292 views13:32

data будни

Тред про роли в data отрасли

https://twitter.com/dsunderhood/status/1352239176817778691

Twitter

Data Scientist

Сегодня расскажу о том, какие повседневные задачи бывают у аналитиков и поделюсь парой полезных ссылочек и лайфхаков. Но перед этим хочу начать с разнообразия сферы data-related профессий.

297 views04:37

About

Blog

Apps

Platform