data будни – Telegram
data будни
1.48K subscribers
120 photos
1 video
2 files
237 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Download Telegram
Супер история о том, как Амазон чуть не умер и переехал с серверов Sun на Linux. Это — история зарождения Amazon Web Services — облака, на котором сегодня работает добрая половина интернета.

Рассказывает один из непосредственных участников.

Самые впечатляющие моменты:

❧ в 2000 лопнул пузырь доткомов — технические компании обесценились в сотни раз, на фондовом рынке кончились деньги и Amazon начал жечь собственные средства — 1 миллиард долларов в год; самой крупной статьей расходов были серверы — их делал Sun, они стоили дорого;

❧ можно было перекупить серверы Sun у компаний, обанкротившихся на пузыре доткомов, но техдир Амазона пошел ва-банк — решил переехать с Sun на обычное железо Hewlett Packard на Линуксе; ядру лунукса тогда было всего 6 лет;

❧ на время переезда они остановили ВСЮ продуктовую разработку! ВСЕ занимались только переездом. В бэклоге лежали сотни функций для увеличения продаж, но все ждали, пока закончится переезд;

❧ заморозка развития сервиса привела к падению продаж → пришлось повышать цены на товары → продажи упали ещё сильнее, запустилась «спираль смерти»;

❧ у Амазона оставалось буквально несколько кварталов до смерти, когда деньги на счету кончатся, но они успели и запустили всё нормально, стоимость масштабирования инфраструктуры упала на 80%;

❧ продажи — сезонный бизнес и Безос придумал, почему бы не сдавать простаивающие серверы в низкий сезон другим компаниям? На презентации он привел аналогию с электрической сетью — в 1900 годы каждый завод строил свою собственную электростанцию, почему бы не сделать «электрическую сеть» для IT? Плюс это круто сочеталось с его идеей разделить команды внутри компании, чтобы команды могли развиваться самостоятельно — каждая команда стала независимым API.

Ну а дальше вы знаете. Сегодня Амазон — это не только интернет-магазин, но и одна из крупнейших IT компаний планеты.

https://twitter.com/DanRose999/status/1347677573900242944
🔥1
Читаю заголовок новости «Облачный провайдер дал клиенту 24 часа на „выселение“».

Оставлю в стороне политику, интересует только техническая сторона. Сам я напрямую с облаками много не работал, поэтому позволю себе очень глупые вопросы.

Как продавайдер знает, что вот конкретно эта компания пользуется его облаком? Он же по идее не читает его напрямую. Он может только посмотреть заключён ли договор с этим юрлицом. Или как это работает?

А можно как-то «анонимизировать» клиента в облаке? Типа заключить договор через какую-то компанию-прослойку там.

Или пойти дальше: вот есть же Hadoop — насколько я понимаю, это система распределённого хранения файлов. Нельзя сделать такое же, только для облаков? Чтобы все файлы хранились не на одном облаке, а много где — либо на нескольких аккаунтах одного облака, либо даже на нескольких разных облаках?

Если разбираетесь, расскажите в комментариях, почему так не делают.
Смена тарифа по-людски

Код пишу в PyCharm; он платный — каждый месяц абонентская плата.

Есть два тарифа: 1. только PyCharm за $9 и 2. все продукты за $25. Все продукты мне не нужны, я пользуюсь одним, поэтому мой выбор очевиден.

В очередной месяц обнаруживаю списание $25 вместо $9. Иду в настройки — а там почему-то выбран второй тариф. Странно, но ладно. меняю тариф ручками.

Обидно конечно, но чё поделать. Типа этот месяц «шикую» — могу официально пользоваться всеми IDE сразу)) а через месяц они уже поменяют тариф на более простой и будут списывать 9€ как и должны.

(Таким же образом я недавно менял тариф на интернет например: в личном кабинете изменил сейчас — а по факту скорость поменяется только в следующем месяце)

На моё удивление, смена тарифа произошла мгновенно — не пришлось ждать месяц. Деньги, конечно же, не вернули: просто рястянули мой «простой» тариф почти на три месяца.

Мне нравится такой подход. По-хорошему, так и должно всё работать. Почему интернет-провайдер ждёт месяц, чтобы изменить в свой базе настройки мой скорости? Скорее всего ни почему — просто «так сложилось». Зачем морочиться и писать лишний код?
Недавно на проекте пригодилась information schema. Надо было сделать технический аудит существующей базы данных: проверить все таблицы и их колонки.

В заметке ещё несколько полезных знаний о PostgreSQL:
⁃ количество таблиц в базе
⁃ размер таблицы
⁃ активные подключение к базе
⁃ удаление дубликатов в таблицах без primary key

https://tproger.ru/translations/useful-postgresql-commands/
data будни
Тред про роли в data отрасли https://twitter.com/dsunderhood/status/1352239176817778691
красивая картинка оттуда про разделение труда в работе с данными
data будни
Тред про роли в data отрасли https://twitter.com/dsunderhood/status/1352239176817778691
И ещё пост главного по экспериментам из YELP о том, что все роли хороши и всех надо уважать и ценить. «Дата саентист» — это не следующая ступень развития аналитика. И вообще не надо всех подряд называть «дата саентистами».

https://www.linkedin.com/posts/eric-weber-060397b7_data-datascience-activity-6754417602614882304-_37T/
Them: Can you just quickly pull this data for me?

Me
: Sure, let me just:

SELECT * FROM some_ideal_clean_and_pristine.table_that_you_think_exists

https://twitter.com/sethrosen/status/1252291581320757249
Forwarded from Reveal the Data
У меня есть две огненные вакансии про BI и Табло в Яндекс.

📈 BI-аналитик в Яндекс Go
Это новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики приложений Яндекс Go. Необходимо разрабатывать стратегию развития отчётности, собирать данные и делать классные отчёты. Больше всего задач именно про дашборды, но придется готовить и данные. Вы не будете делать все-все дашборды для подразделения, но будете внутренним центром экспертизы по визуализации и Табло внутри команды продуктовой аналитики. Я же буду помогать вам советами и менторством.

Позиция уровня мидл/джун. Нужны классные навыки создания отчётов, сильный SQL, питон как преимущество.

Руководитель — Андрей Кармацкий, которого я считаю нереально крутым специалистом по визуализации и сложным аналитическим инструментам.
Описание вакансии на сайте


📊 Эксперт по визуализации в Маркет
Это позиция уровня тим-лида или мидла, готового к росту. В Маркете есть большая установка Табло и необходимо создать центр компетенций по визуализации. По сути, такая же позиция как у меня в Такси — нужно управлять BI-системой как продуктом. При этом на первом этапе нужно сделать примеры классных отчётов руками, провести обучение, наладить процессы организации контента на сервере, создать задачи на развитие инфраструктуры.

Здесь понадобятся как сильные навыки управления проектами и постановки целей, так и отличные знания визуализации и Табло. Моя команда на первом этапе поможет с примерами того, как это построено у нас.

Руководитель — Максим Левко, отвечающий за развитие DWH и инфраструктуры аналитики в Маркете.
Описание вакансии на сайте


Обе позиции в Москве, но с крутым кандидатом готовы обсудить и другие города. Зарплата обсуждается после интервью. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
В каждой своей гугл таблице делаю так. И в чужих стараюсь тоже)
Forwarded from Че-куда?
Как улучшить таблицу или график.

Часто приходится отправлять эти видосы кому-то.
Выложу сюда.
Forwarded from Че-куда?
Это такая базовая гигиена, можно просто по шагам делать и получится лучше, чем было.
ребята из «Кружка» ездят по глубинке и показывают детям «другую жизнь»: как работают компьютеры, что есть такой интернет, как можно там что-то делать. Для детей это действительно больше дело — говорю как выросший в небольшом городе.

Послушайте подкаст или почитайте про ребят на сайте. Это большое и важное дело.

https://kruzhok.io/

Не знаю, как ребята это всё успевают в довесок к основной работе. Не могу пройти мимо — оформил ежемесячный взнос.
🎙 Образовательный проект «Кружок» ездит по маленьким российским городам и деревням и знакомит подростков с веб-разработкой, музыкой, астрономией и журналистикой. За 3 года «Кружок» был в Калининградской области, Дагестане, Республике Марий Эл и еще в 16 разных поездках.

Это эпизод о людях, которые делают «Кружок» и о тех, кто в нем участвует. Вы услышите голоса и звуки из Тарусы, дагестанского села Хрюг и марийской деревни Сардаял; ссылки ведут на сайты, которые сделали подростки. А ещё, я чуть не расплакался во время этого интервью.

Один из лучших наших эпизодов, блестящая работа нашего редактора Юли Яковлевой и звукорежиссера Нины Мамотиной, слушайте на всех платформах: Apple, Google, ютуб, Castbox, Spotify, Яндекс, Overcast и веб-версия.

А ещё кружок снимает офигенные короткие фильмы о своих поездках, их можно посмотреть на ютубе. Поддержать проект можно вот тут.
Новый джуниор замедляет команду

Чтобы начать приносить пользу, надо много чего узнать. Даже опытным ребятам надо время, чтобы разобраться в новом проекте. И чем меньше опыта, тем больше нужно времени.

А ещё на адаптацию нового сотрудника нужно время сотрудника бывалого — время, которое он мог бы потратить, например, на код. Поэтому новый сотрудник замедляет команду, а не наоборот.

Как может новый сотрудник приносить пользу?

«взгляд новичка» — опытные ребята отдельно прокачивают навык смотреть на свой проект как первый раз. Ведь когда ты сам всё спроектировал с нуля, нестыковки и дефекты уже не бросаются.

А новому сотруднику и тренировать ничего не нужно — он и так всё видит впервые. И поэтому может подмечать что ему было неудобно и где ему жмут новые процессы. Про коммуникацию в слаке, про расположение корпоративных документов, про процедуру регулярных созвонов.

Вот Всеволод Скрипник показывает хороший пример (хоть он и совсем не джуниор)
https://news.1rj.ru/str/vsvld_skrpnk/293

Главное не перегнуть палку, делясь потом наблюдениями :-) Для этого можно представить как Гарри Поттер на своей первой неделе даёт Дамблдору ценные указания по улучшению Хогвартса.
Forwarded from Datalytics
Мальчишки и девчонки! Мы в Практикуме планируем в этом году кратно увеличить количество полезного и задорного образовательного контента, посвященного дата-профессиям.

Мы умеем делать тексты такими, чтобы студенты в них влюблялись: интересными, понятными, образовательными на 100%. Но ничего не получится без экспертов, которые готовы делиться своим опытом и вместе с нами превращать знания в качественный образовательный опыт: продумывать структуру уроков, генерировать и искать датасеты для заданий, придумывать примеры, описывать простыми словами сложные теоретические концепции, создавать проверочные задания и квизы.

Поэтому мы ищем людей, профессионально разбирающихся в таких темах как data science, data analytics, data engineering, готовых вместе с нами делать топовый edtech-контент. Так победим!

Ссылка на вакансию тут

Присылайте резюме на почту polinanagorna@yandex-team.ru или в Telegram Полине @polinanahor
Ложная дихотомия

Ложная дихотомия — это когда кажется, что выбора всего два и надо обязательно выбрать один из них.

Я, как один из тех, кто только выучил новый термин, люблю это рассказывать (вот как сейчас) и находить ложные дихотомии в чужих решениях. Например, с работой: люди решают оставаться или уходить — хотя таких работ на рынке очень много и есть из чего выбрать.

А вчера обсуждали с коллегой курсы по Tableau: он говорил, что дорого — а я вступился и начал оправдывать эту цену (зачем-то). Интересно, что я даже не заметил, как сам провалился в ложную дихотомию! Пока коллега не предложил третий вариант, у меня в голове было всего два выбора: «дорого» и «не дорого».

А вариант, кстати, отличный: за цену групповых курсов нанять себе личного ментора с большим опытом и получить 20+ часов персональных консультаций.

Ложная дихотомия на Википедии
Yandex.Go Data Driven Backstage

Не секрет, что в Yandex.GO (Такси, Драйв, Лавка, Еда) умеют работать с данными. Но прежде чем стать кристально чистой эссенцией пророческих знаний, данные проходят через несколько стадий очистки, перегонки и выдержки — за все это отвечает наша служба DMP (Data Management Platfrom).

На конференции SmartData ребята из службы DMP подсветили часть интересных нюансов про внутреннее устройство подготовки данных для аналитики всего Yandex.GO.

Highly Normilized Hybrid Model
Для того, чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, Евгений и Николай пришли к неожиданному ответу: выбирать надо не между подходами, выбирать надо лучшее из двух подходов.

Как мы разрабатываем DMP для Yandex.GO
Владимир рассказывает про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Из доклада вы узнаете, какие проблемы возникают в процессе разработки DMP и про опыт их решения.

P.S.
Наши ребята засветились в еще одном интересном докладе Максима Стаценко Обзор технологий хранения больших данных как эксперты.

P.P.S.
А еще DMP Такси нанимает