Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)
Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Хабр
Apache Airflow и будущее инжиниринга данных: вопрос и ответы
Автор оригинала: Maxime Beauchemin В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston . Перевод подготовлен при поддержке сообщества аналитического курса...
Прособеседуйте команду рекламных продуктов Яндекса
13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.
Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:
- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым
Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.
- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track
PS пост поддержал приют для собак Зоорассвет в Москве
13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.
Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:
- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым
Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.
- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track
PS пост поддержал приют для собак Зоорассвет в Москве
Adtech: Прособеседуйте команду рекламных технологий Яндекса
Приходите на наше онлайн-мероприятие — честный разговор о том, как мы делаем рекламные продукты сегодня.
Кроме выступлений спикеров, вас ждут «обратные собеседования» — возможность задать любые вопросы о работе у нас руководителям рекламных продуктов Яндекса…
Кроме выступлений спикеров, вас ждут «обратные собеседования» — возможность задать любые вопросы о работе у нас руководителям рекламных продуктов Яндекса…
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark.
Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video
Все бесплатно и от лучших в индустрии.
Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video
Все бесплатно и от лучших в индустрии.
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜
Хочу показать пример выполнения задания и фидбек от Романа.
1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.
2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard
3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.
Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.
PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
Хочу показать пример выполнения задания и фидбек от Романа.
1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.
2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard
3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.
Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.
PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
Telegram
Reveal the Data
Канал Ромы Бунина про визуализацию данных, дашборды и развитие BI-систем.
Подробнее про канал, рубрики, правила и контакты — https://news.1rj.ru/str/revealthedata/386
Сайт и блог — https://revealthedata.com/
Подробнее про канал, рубрики, правила и контакты — https://news.1rj.ru/str/revealthedata/386
Сайт и блог — https://revealthedata.com/
AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe
Medium
Industrializing an ML platform with Amazon SageMaker Studio
Steps and considerations when rolling out Studio in an enterprise
Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый приятный.
Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагинам специалист.
Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагинам специалист.
Reuters
Shopify enlists Microsoft, Oracle for business tools on app
Canadian e-commerce platform Shopify Inc is teaming up with top cloud companies including Microsoft Corp and Oracle Corp to help merchants streamline their business operations.
🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉
Дорогой друг, @kender_T ты как нас нашел?🤗
С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))
Дорогой друг, @kender_T ты как нас нашел?🤗
С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))
Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪
Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?
Для меня как минимум:
1) Документация проектов (автоматическая! - business data catalog)
2) Еженедельные office hours
3) Ежеквартальные опросы (BI survey как в модуле 3 data learn)
4) Onboarding материалы (лабы, туториалы и видео)
Именно этим сейчас и занимаюсь.
Для меня как минимум:
1) Документация проектов (автоматическая! - business data catalog)
2) Еженедельные office hours
3) Ежеквартальные опросы (BI survey как в модуле 3 data learn)
4) Onboarding материалы (лабы, туториалы и видео)
Именно этим сейчас и занимаюсь.
Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:
https://towardsdatascience.com/multithreading-vs-multiprocessing-in-python-3afeb73e105f
https://towardsdatascience.com/multithreading-vs-multiprocessing-in-python-3afeb73e105f
Medium
Multithreading vs. Multiprocessing in Python
Python is often regarded as an almost obscene programming language. A libertarian place where everything is permitted and our wildest…
Должна быть полезная книга https://www.oreilly.com/library/view/database-internals/9781492040330/
O’Reilly Online Learning
Database Internals
When it comes to choosing, using, and maintaining a database, understanding its internals is essential. But with so many distributed databases and tools available today, it’s often... - Selection from Database Internals [Book]
Я бы хотел записать модуль datalearn в Half-Life VR. Пример учителя математики - https://youtu.be/R3g9jrqjOZs
Точно учитель года!
Точно учитель года!
YouTube
Math Teacher's Virtual Reality Class In Half-Life Alyx
Want to support Mr. Coomber? https://www.donorschoose.org/classroom/charles-coomber
Если вы не работали в Амазон, вы никогда не поймете это сообщение. А все очень просто, в Амазон 2х факторная авторизация и они использую USB/USB-C токены - https://www.yubico.com/products/
Чтобы его активировать, надо дотронуться и он нагенерит такую строку, вот и получается, что в чатах все время такие сообщения выскакивают, если случайно дотронулся🤗
Чтобы его активировать, надо дотронуться и он нагенерит такую строку, вот и получается, что в чатах все время такие сообщения выскакивают, если случайно дотронулся🤗