Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У нас супер новости, #datalearn превысил 2000 студентов, теперь надо на платную подписку mailchimp.
🐳1
На всякий случай хочу закрпепить информацию про канал и datalearn для новеньких подписчиков и стареньких, кто еще не знает деталей.
❤‍🔥1
Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных проектах, где драйвером являются данные. Видел и Big Data и Machine Learning, AI в действии в масштабе крупнейшей компании мира. После Амазона работал 5 лет в Microsoft Xbox и Microsoft Azure Data&AI. Активно принимал участие в развитии Microsoft продуктов для аналитики - Synapse, Fabric, Azure Databricks.

Теперь, я помогаю создавать инновационные аналитические решения, создавать дата команды и модернизировать устаревшие решения и как хобби обучаю инженеров и аналитиков через свой образовательный проект Surfalytics.com. Задача Surfalytics - ваша прокачка и трудоустройство на западном рынке, у нас закрытое сообщество в Discord, где мы ботаем DE и аналитику и прокачиваем скилы и добываем job offers.

Я написал несколько книг по аналитике и преподаю Облачные Вычисления (Cloud Computing) в Университете Виктории.

У меня большой опыт в развитии дата сообществ и выступлений на конференциях, meetup и user groups.

Все это помогает быть на пике технологий и следить куда движется индустрия аналитики.

В канале Инжиниринг Данных, я буду писать про современные аналитические решения и истории из жизни, связанные с развитием карьеры, много вредных советов и контента не по теме😜

Ну и конечно для всех желающих есть ресурс на русском DataLearn.ru который мы стартанули с Романом Пономаревым. Может сразу переходить в учебник , выбрать свой курс и учится! И также есть отдельный чат для студентов.

Идея datalearn простая, мы бесплатно учим профессиям для работы с данными. Начиная от основ аналитики - зачем нужны данные и аналитика и заканчиваю BigData. Курс полностью бесплатный. За 3 года я успел записать 7 модулей и потом переключился на Surfalytics.

PS Сейчас работаю над порталом Дата Инженеръ - главный 🇷🇺 портал про Инжиниринг Данных. Вы можете стать контрибъютером, если вам интересно напишите мне.
👍10154🔥30🐳11🍾42😁1💯1🍌1😭1🎄1
Инжиниринг Данных pinned «Про канал: Я (Дмитрий Аношин LinkedIn telegram) уже больше 15 лет занимаюсь аналитикой, из них 5 лет был в Амазоне, работал в нескольких командах, включая Alexa AI (в Бостоне) и Customer Behaviour Analytics (в Сиэтле). Поучаствовал в действительно инновационных…»
9-10 декабря будет интерсной ивент - Denodo Data Fest. Как обычно бесплатно практикуем английский и изучаем рынок современных решений и аналитики.

Кстати 2ое подписчиков канала серьезно взялись за Denodo и прошли уже обучение по продукту (Architecture и Developer) и планируют сдавать сертификацию, чтобы поддерживать и развивать Denodo в Канаде удаленно из России. Может быть потом они выступят с докладам и расскажут про свой опыт.

Есть такая же возможнось по Looker и Plotly;)
Пошаговая инструкция для Product Managers, как создавать ML продукты.

От себя добавлю. Польза ML уже доказана для бизнеса. В индустрии есть куча примеров для внедрения ML решений.

Например:
- ранжирование выдчи продуктов для маркетплейсов
- рекомендация товаров и услуг
- классификация продуктов
- бюджетирование и прогнозирования спроса/продаж/действия пользователя
- поиск аномалий
и многое другое.

Product Manager именно тот человек, кто является двигателем прогресса в продуктах и сервисах.
👍4
А вот информация от AWS
Отличный пример использования визуализации для введение в ML. Это очень известная ссылка, но вдруг вы не встречали.
Завтра в это же время будет супер ивент c data monsters. Будет 2 спикера:
- Irja Straus - расскажет на английском про Test Strategy in Data Driven World.

Затем я расскажу про 5 лет в Амазон (на русском)! Почти закончил презентацию, получилось интересно!

https://youtu.be/q5K-iUFg-kA
🔥2
Forwarded from data будни
Отличия ML и DS

Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.

почему специалистов по машинному обучению называют дата саентистами?

пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.

Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.

→ то есть не Data Scientist, а ML Engineer


- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.

Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.

⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.

Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.

Подкаст в iTunes и Overcast
Все привет, мы начинаем. Я наверно минут через 40 расскажу про несколько проектов и концерт Ленинграда в Сиэтле)) Наливайте комбучу и садитесь поудобней))
А может кто-то умеет рисовать стикеры? Можно классных стикеров нафигачить для datalearn...

Вообще поле не паханное со стикерами. Аудитория по дате большая во всяких каналах, а вот стикеров мало;)
Какое-то время я думал, что следующее большое дело в аналитике это renewable energy. Ветряные мельницы и солнечные батареи. Но пока мы еще не дошли до этого. Вот интересный пример использования данных для такой индустрии. До сих пор главный доход у гигантов индустрий от Ad revenue.

Когда я был в Amazon Alexa. Я так же думал, что Alexa это круто, но по факту Amazon создает рынок, и нет пока реального спросы на специалистов со знанием голосовых помощников, в мире всего несколько компаний делают такие девайсы.

Мне кажется, другая крупная индустрия, сопоставима с Ad, это gaming. Если посмотреть, то Amazon, Google, Facebook - инвестируют в сервисы для gaming платформ и стриминга.

А вы как думаете?
😁2
Тут затронули вопрос про аналитику игр, и я нашел классный пост, в котором есть ссылка на 2 топ книги, и одна из них 800 страниц и стоит 150$, причем в ней нет про data analytics внутри, прям альманах. Но еще там много ссылок на главные статьи по игровой аналитике.

Еще посмотрел на курс devtodev, там совсем простенько все. Думаю подайдет всем аналитикам, кто измеряет эффективность приложений.
Все привет, есть интересный вариант для специалистов в области аналитики. Подойдет опытным коллегам. Я вам рассказывал про консалтинг компанию rockyourdata.cloud, которая занимается analytics engineering на рынке Северной Америке. Особенно в штатах довольно крупный рынок и есть возможность иногда предоставлять консалтинг услуги за $. Благодаря разнице курсов, есть возможность демпинговать цены на американском рынке и посутит конурировать с консалтингами из Индии.

Я нашел людей, кто заинтересован в развитии консалтинга и создания sales funnel. И возможно в будущем это даст свои плоды.

Например сейчас есть потребность в 2-3 data engineers со скилами: AWS, Spark, Data Lakes (S3), Python/Scala, Airflow and Redshift и со знанием английского языка на 3-4 месяца.

Если отличная возможность вписаться. Я создал форму для бывалых специалистов, кто работал с облаком, big data и современными аналитическими решениями.

1) Если вам интересен проект из долины по data engineering, то заполните форму.
2) Если вы являетесь крутым специалистом в своей области, со знанием английского, то тоже заполните форму.

Ссылка на опрос.
Спасибо!
Страшно смотреть в сторону ML😵
Возможно кто-то уже слышал про Deeprace. Это машина в масштабе 1:10, у которой есть камера, процессор, wifi. Машинка стоит почти 400US$. Когда мы ее достаем из коробки - они ничего не умеет, задача с использованием ML, научить ее ездить по треку. Когда модель едит через камеру она может сканировать дорогу и отправлять команды, что делать.

AWS создало - Deeprace league - соревнования таких умных авто. Это очень интересное занятие, но подходит больше для offline ивентов. Так как у нас в университете есть организация HighTechU, где выпускники школ создают ИТ проект за 7 недель, учать git, coding, agile и team work. Я там являюсь ментором, и продложил инвестировать в трек. Если получиться, будет здорово! Так же было бы прикольно такое сделать для offline meetup datalearn, когда пройдет covid и учить основы ML через такую игру.
У Амазона новое подразделение - Amazon Pets.
bigdata.gif
36.4 MB
Я рассказывал, что хочу сдать AWS Cloud Practitioner и BigData экзамен, который переименовали в Data Analytics. Так вот, каждый день по 6-8 часов смотрю видео и делаю лабы. Это мега скучно, и я уже пожалел, что записался. Для экзамена надо знать такие подробности, например, сколько мб может писать kinesis, сколько WCU и RCU у Dynamo и тп. Много чисел и определений.

В общем я склоняюсь, что экзамен и сертификация фигня. Есть серьезные экзамены, где надо установить сервер и решить проблему - это круто. В общем я конечно попробую сдать, но думаю будет как с AWS Solution Architect 2 года назад, с наскока не сдал и забил. Так что, могу заявить сертификация переоценена, я кстати на собеседованиях даже не смотрю и не спрашиваю про сертификаты у кандидатов.

Из + есть много контента для лаб модуля 8 по компонентам Hadoop (hive, hbase, hue, zeppelin, spark, pig и другие).

Кстати про нужные экзамены. В сентябре я прошел 2х дневный курс и сдал на лицензию по охоте. А завтра начнется курс по оружию.
❤‍🔥1