LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Не пора ли менять стандарт SQL?

На глаза попалось несколько ссылочек на эту тему:

1. PRQL — Pipelined Relational Query Language. Его идея в том, чтобы представить обращение к базе данных как логически выстроенный пайплайн трансформаций.
Например, вместо такого запроса
SELECT TOP 20
noscript,
country,
AVG(salary) AS average_salary,
SUM(salary) AS sum_salary,
AVG(salary + payroll_tax) AS average_gross_salary,
SUM(salary + payroll_tax) AS sum_gross_salary,
AVG(salary + payroll_tax + benefits_cost) AS average_gross_cost,
SUM(salary + payroll_tax + benefits_cost) AS sum_gross_cost,
COUNT(*) as count
FROM employees
WHERE salary + payroll_tax + benefits_cost > 0 AND country = 'USA'
GROUP BY noscript, country
ORDER BY sum_gross_cost
HAVING count > 200


запрос на PRQL будет выглядеть так:
from employees
filter country = "USA"
let gross_salary = salary + payroll_tax
let gross_cost = gross_salary + benefits_cost
filter gross_cost > 0
aggregate by:[noscript, country] [
average salary,
sum salary,
average gross_salary,
sum gross_salary,
average gross_cost,
sum gross_cost,
count,
]
sort sum_gross_cost
filter count > 200
take 20


ИМХО, не выглядит существенно удобнее / читаемее. А вы как считаете?

2. Malloy — другая попытка заменить SQL от Looker (однако есть примечание, что этот эксперимент без поддержки Google).
Запрос выглядит вот так:

query: table('malloy-data.faa.flights') -> {
where: origin: 'SFO'
group_by: carrier
aggregate: [
flight_count is count()
average_flight_time is flight_time.avg()
]
}


В общем, резюме: каждая метла метет по своему 🥸

А как вам эти варианты замены SQL, что думаете?
👍10👎5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

🎰 Wordle продолжает захватывать мир
Популярность игры в слова с крайне простым интерфейсом бьет все рекорды, блоггеры и не только хвастаются результатами в сети (особенно, в Twitter), а аналитики собирают статистику, строят графики и анализируют игру и игроков вдоль и поперек.

📉 Лучшая новость для студентов и начинающих аналитиков (и не только)
Возможно, вы уже слышали о библиотеке Faker, но мы все-таки расскажем. Эта библиотека позволяет сгенерировать нужные вам случайные данные для разработки, учебных проектов и вообще любых целей, кроме, пожалуй, научных и исследовательских. Она доступна на языках Ruby, Python, Java, Clojure, PHP, и C#. Наконец можно не искать данные по всем открытым ресурсам в надежде, что они ответят всем нужным условиям, а самостоятельно создать датасет с именами, адресами, ID, телефонными номерами, местом работы человека, кредитными данными, датой, временем, email адресами и еще много-много чем.

💻 Вы точно знаете CSS?
На просторах интернета появился хороший тест из 10 вопросов на знание селекторов CSS. Для новичков есть подсказки из документации, а профи могут проверить себя на скорость, так как на сайте есть таймер.

💸 Утопия, в которой каждый получает базовый доход и все счастливы
Есть мнение, что если всем людям будут выплачивать базовый доход, то большинство людей не будут работать совершенно. Свежее исследование, к счастью, это опровергает. Группа психологов из университета Лейдена, которые занимаются поведенческими экспериментами провели серию исследований. Они показали, что гарантированный базовый доход дает людям возможность найти работу, которая лучше всего соответствует их предпочтениям, мотивации и способностям. В итоге, появится возможность найти лучшее соответствие между желаниями работодателя и работника, ведь люди реже бы оставались на нелюбимой работе только ради зарплаты. Win-win situation, однако, такое пока что возможно только в какой-нибудь чудесной богатой европейской стране.

📝 Вопрос, который пока остается без ответа
Поиск работы – неприятный процесс для любого соискателя. Нужно много раз отправить резюме и сопроводительное письмо, а иногда заполнить с нуля всю информацию на сайте работодателя. Автор этого поста попытался структурировать свое CV, чтобы его было удобно читать и парсить, ведь хочется упростить не только подачу заявок на работу, но и их последующую обработку и быстрее получать четкий и понятный ответ. Как именно это делать пока не ясно, но поскольку вопрос остается открытым, вы можете поучаствовать в дискуссии и предложить свой вариант или просто поделиться мнением.

#weekly #дайджест
👍18🔥1🤩1
Добро пожаловать в мир главного ит тренда - машинного обучения: @machinelearning_ru

В канале вы найдет :
📃Статьи ,
📚Книги
👨‍💻 Код
🔗Ссылки

и много другой полезной информации
#ArtificialIntelligence #DeepLearning
#MachineLearning #DataScience
#Python

1 канал вместо тысячи учебников и курсов 👇👇👇

🤖 @machinelearning_ru
3
🧠 Давайте вместе разберемся, как решать задачки Wordle в Python

Про Wordle вы наверняка слышали уже много раз, многие в него играют, кто-то пытается изучать и исследовать (об этом мы писали вчера в дайджесте). Поскольку большинство из вас проголосовали за перевод статьи про решение Wordle, мы прислушались и опубликовали перевод в нашем блоге.

Читайте, пробуйте повторить для русского языка и не стесняйтесь задавать вопросы в комментариях, если что-то остается непонятным! 😎
👍6
Как-то рассказывал про Mprove.io на одном из мероприятий, посвященным стартапам в СПб. После мероприятия познакомился с очень интересным предпринимателем из списка Forbes 30 Under 30, CEO компании Narrative BI (кажется, писал ранее об этом инструменте) и основателем стартап-платформы founders.ai — Михаилом Румянцевым.

Оказалось, что Михаил ведет свой телеграм канал Start and Win, на который я подписан, в нем реально масса полезных советов для начинающих предпринимателей. Поэтому подписавшись, вы получите полезный контент для основателей стартапов, венчурных и частных инвесторов и всех, кто мечтает начать собственный бизнес.

Если вы хотите больше узнать о том, как строят компании в Кремниевой Долине, и посмотреть на венчурный и публичный рынок глазами инсайдера - велком в канал к Михаилу! 🙂

@startandwin
👍6
Не могу не запостить😄

via @datanature
👍42🔥25😁23
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞️

💈Новая игра! Повелись? Все ещё новости про Wordle
Дни идут, недели сменяются, но Wordle – это уже классика нашего дайджеста (в блоге даже есть статья о решении Wordle с помощью Python). Так вот, в понедельник The New York Times купили игру Wordle у создателя - программиста Джоша Уордла - за скромную семизначную цену (не меньше миллиона долларов). Самое интересное в этой истории – ее цикличность: Уордл сказал репортеру Times, что он создал Wordle после того, как они с девушкой подсели на кроссворды The Times и игру Spelling Bee во время пандемии. Теперь Wordle тоже в числе этих игр 🎲

🧠 Опровержение метода ‘мозгового штурма
Перед вами исследование теории “мозгового штурма“, которое провел Мэтью Стром. Оказалось, что этот метод был впервые использован в середине прошлого века, а также описан Алексом Озборном в книге “Your Creative Power” во всех своих положительных чертах. На самом деле, метод работает далеко не всегда и иногда может загубить стоящие идеи. Только в случае, когда в группе построено психологически безопасное пространство, “мозговой штурм” может сработать, как случайно и получилось в эксперименте Озборна, поскольку в 1940е годы иметь хоть какую-то идею было уже весьма почетно.

📉 И маркетплейс, и инструмент для аналитики
Теперь продавцы товаров на Ozon могут получать аналитические отчеты по обороту в своей категории товаров. Помимо просмотра показателей собственного товарооборота, у каждого продавца есть возможность отследить место, которое они занимают по заработку среди конкурентов и как эта позиция меняется. Все данные, конечно, обезличены и часто предоставляются в агрегированном виде: средний оборот в категории, средний оборот среди 5% и так далее. Такой ход наверняка усилит конкуренцию между участниками маркетплейса и заставит их прилагать больше усилий для повышения позиции в рейтинге.

💡У вас появилась идея. Что дальше?
Для начала стоит разобраться в том, что такое идея и она ли это. Может, это просто мысль? Затем стоит задуматься о её дополнении и, что самое важное, о том, как объяснить идею другим. Все это (а также наглядные примеры работы с идеями) есть в увлекательной статье Марка Полларда, которую стоит посмотреть даже если ваша работа/деятельность никак не связана с генерацией идей.

#weekly #дайджест
👍4
Одна из самых ключевых стадий стартапа — поиск так называемого product / market fit. Об этом, например, интересно рассказывают в различных акселлераторах. Однако часто команды не могут создать ценность или найти этот самый product/market fit. Но если это произошло, наступает фаза роста, а для нее нужны деньги и значит придется идти к инвесторам. Кому дают деньги, а кому нет? Об этом расскажет Андрей Торбичев, партнер инвестиционного фонда Месторождение (группа ТилТех), автор канала Индекс дятла.

У каждого инвестора свой подход и инструменты оценки. И все же есть несколько вещей, на которые смотрят все:

1. Рынок. “Главное — правильно выбрать стол”, — говорил Тони Шей, основатель Zappos. Если потребителей мало, не имеет значения насколько круто выстроен ваш продукт. Он просто не сможет расти. И да, если вы показываете нишевое решение, придётся убедительно объяснить, как сможете выйти из ниши. В России интересны рынки, где есть хотя бы 10 млрд.+ рублей.

2. Конкуренты и преимущество. Если есть рынок значит есть и конкуренты. У кого вы будете отбирать клиентов и за счет чего — вот два вопроса, которые волнуют инвесторов. Обычно мы видим таблички с кучей галочек, где приводятся сравнения разных решений. Лучше выбрать трёх главных конкурентов и выделить ОДНО, но сильное преимущество перед ними.
🌳Свежак — исследование Sequoia о компенсациях в США. Помимо того, что там красивые, приятные графички, есть интересные наблюдения:

1. Распределение зарплат у женщин смещено в левую (более низкую) сторону, чем у мужчин (куда же смотрит ваш chief diversity officer?)
2. Самый большой разрыв между мужчинами и женщинами в финансах технических компаний.
3. В BI, аналитике и Data science ЗП женщин растут, а у мужчин нет (ах, вот куда смотрел Chief Diversity officer)
4. А вот с точки зрения цвета кожи белые люди растут в заарплате в Продуктах и дизайне и Административном управлении в сравнении с цветными людьми.
😁4
Учитесь у экспертов Microsoft!

Станьте участником бесплатного онлайн-митапа «Microsoft Virtual Training Day: основы Power Platform». В первый раз профессионалы поговорят об этой теме на русском языке.

Там вы научитесь:
> Создавать инновационные бизнес-решения и управлять ими с помощью Microsoft Power Platform.
> С лёгкостью подключать все данные для анализа эффективности бизнеса.
> Автоматизировать рабочие процессы.

После мероприятия вы сможете бесплатно сдать сертификационный экзамен по основам платформы.

Чтобы стать участником, регистрируйтесь по ссылке

Ждём вас 9 февраля в 12.00 (МСК).
#реклама
👍1
📣 Ищем спикеров!

Я уже рассказывал, что мы в процессе создания подкаста и первый выпуск уже совсем скоро будет опубликован! В нем мы обсуждали платное онлайн-образование в области анализа данных. Теперь разбираемся с бесплатным и я прошу подписчиков, которые обучались на бесплатных платформах, откликнуться. Просьба такая: если вы готовы дать аудиокомментарий по ряду вопросов относительно бесплатного образования (он будет опубликован публично), отпишитесь, пожалуйста, в комментариях к этому посту плюсиком или еще как-то 🙂
Затем мы свяжемся с вами и зададим вопросы, которые у нас имеются.

P.S. Конкретных пожеланий по вашим историям нет. Если вы изучали бесплатно только базовые инструменты, а продолжали обучение за деньги, или вовсе бросили затею учиться все истории интересны!
👍1
Disclaimer: This course can be very tough for many!
The amounts of time students spend on this class greatly vary, based on their backgrounds, and what they may already know. Some former students told us they spent about 40-60 hours on each homework assignment (we have 4 big assignments, and no exams), and some reported much less.

Именно с такого дисклеймера начался мой очередной курс в Georgia Tech OMSA. Курс назывался CSE-6242 и был посвящен визуализации и обработке данных. Домашние работы и правда отнимали львиную долю времени, но оно того стоило, разумеется. Это была супер-жесть, а не курс! Изначально, я хотел взять два (этот и еще один), но от второго пришлось быстренько отписаться, после того как я увидел программу CSE-6242.

На курсе мы освоили:
1. Обработку данных на Python и построение графа связей
2. Изучение библиотеки d3.js с нуля до вменяемых рабочих графиков (все хочу небольшой интро-курс сделать, но рук не хватает)
3. Облачные масштабируемые вычисления: Databricks, Google Computing, AWS
4. Методы машинного обучения: кластеризацию и классификацию.

Преподаватели Georgia Tech очень любят, чтобы домашние задания представляли собой не простые отработки моделей “fit-predict”, а состояли из алгоритмов, написанных с нуля с использованием самых базовых библиотек.

В финале курса был групповой проект, который мы выполняли с 5 студентами из разных стран: надо придумать задачу, где используются технологии инжиринга данных и машинного обучения на одном из огромных датасетов.
Мы придумали проект про создание EDA Tool, который берет датасет и выдает всю описательную статистику, в том числе для текстов. В моем идеальном представления это выглядело очень круто, на деле получилось прям совсем не очень. Видимо, за полтора месяца слепить MVP группой студентов оказалось тяжеловато.

Однако, в курсе было много полезных знаний и картинок (отправляю их вам) + супер полезные видео.
Из интересных результатов работы: кривая Retention из Игры в Кальмара на d3.js, много погружения в Scala, Spark. Короче, прошлись по современному датавизу и клауду “галоппом по европам“.

Итоговый результат: оценка A, клевый опыт, рабочие ноутбуки, остаточные знания d3.js.
P.S. А ниже картинка с напоминанием себе ряда слайдов из обучения.

#omsa #gatech
🔥2👍1
В последнем выпуске рассылки от Benn Stancil есть абсолютно прекрасный абзац с кучей ссылок на современные инструменты в области данных и аналитики, поэтому хочется прямо его процитировать как есть:

Instead, the front of the data stack is represented by an explosion of tools, all tacking in slightly different directions. There’s
traditional BI; there’s modern BI; there’s headless BI; there’s open-source BI; there’s Bitcoin-based BI. There are notebooks for analysis, notebooks for SQL, notebooks for collaboration, notebooks for apps, and apps for notebooks. There are data visualization tools, data visualizations for notebooks, and notebooks for data visualizations. There are SQL editors for teams, SQL editors for people who don’t want to write SQL, and SQL editors for Snowflake customers. There are collaborative workspaces, and tools that combine lots of things together. There are spreadsheets we can’t get rid of and spreadsheets replacing the spreadsheets we can’t get rid of; there are rebuilt spreadsheets; there are spreadsheets, but BI. And more of everything is coming.

#ссылка
😱9👍3🔥2😁2
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

🧩 Список ежедневных дел пополняется
После оглушительного успеха классического Wordle и продажи игры за весьма приличную сумму, многие разработчики с фантазией стали следовать примеру мастера и создавать подобные игры. Теперь у нас есть русский Вордли (отчаянно советую создателю поработать над названием!), немецкий, французский, испанский (если вы знаете эти языки, конечно), Nerdle (угадать арифметическое выражение) и Three Magical Words (угадать фразу из трех слов с некоторыми подсказками). Хоть последний сильно отличается от оригинала, все эти игры отлично разминают мозг перед началом рабочего дня или на кофе-брейке!

🕸 Кажется, подключить всех людей к одной сети не получится
Если бы Facebook был человеком, то недавно он бы достиг совершеннолетия. А еще, впервые за свою 18-летнюю историю, в социальной сети снизился ежедневный поток пользователей: за последние три месяца примерно полмиллиона человек перестали заходить в фейсбук на ежедневной основе. Больше всего “отточных пользователей” в Африке, Латинской Америке и Индии. Новостные ресурсы пестрят заголовками “Мечты о подключении всего мира к одной соцсети мертвы“, однако, результаты, которых достиг Цукерберг и без того впечатляющи!

🥱 К чему приводит хронический недосып? (ни к чему хорошему)
В период пандемии многие люди стали гораздо сильнее заботиться о своем здоровье. Однако, если вы все еще отчаянный трудоголик и спите недостаточно много, то вот вам пугающий (он таким и должен быть) список крайне неприятных последствий недостатка сна. Тут и потенциальный набор веса, нездоровые зависимости, ухудшение памяти и многое другое. Высыпайтесь, друзья!

🎤 Секреты и тайны Apple Podcacts
Шон Холлистер заметил весьма странную закономерность. Во-первых, рейтинг приложения в App Store сильно вырос за последнее время, хотя в приложени не было никаких обновлений. Во-вторых, большинство пользователей в отзывах хвалят не само приложение, а сами подкасты, которые им нравятся. В итоге, у приложения невероятно высокий рейтинг, несмотря на то, что в нем куча мелких и крупных багов. А вам нравится приложение Apple Podcasts? Если нет, то какое приложение лучше?

👨‍🏫 Школьники, выдыхаем!
На Open AI вышел интересный материал про нейронную сеть, которую обучили для решения теорем из школьных олимпиад по математике. Модель учится на всех примерах, которые она успешно решила и постепенно справляется с более сложными теоремами. В общем, если вы учитесь (или преподаете) в школе, то можете попробовать воспользоваться таким красивым методом для решения домашек.

🪁 Бонус: Увлекательный комикс о том, как не жить от отпуска до отпуска, а быть счатливым всегда

#weekly #дайджест
👍4🔥4👎1