LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Как считаете стоит ли соединить все посты про оконные функции в статью для leftjoin.ru?
Anonymous Poll
77%
Да, конечно!
11%
Нет, удобнее читать в телеграм-канале
8%
Мне все равно
4%
Посмотреть результаты
Text Generation Tasks and Modern Data – Nikolay Valiotti.pdf
3.2 MB
🤖 Задачи генерации текста и современный стек данных 💻
Друзья, сегодня я выступал на конференции Linq в секции ML/AI и рассказывал об интересных рабочих кейсах (и не только). Если вы меня слушали и хотите изучить презентацию внимательнее или если вас не было, но вам интересно узнать, о чем я рассказывал – прикладываю файл презентации.
Задавайте вопросы в комментариях, по возможности всем отвечу!

Всем организаторам и участникам большое спасибо, было классно!
👏19❤‍🔥8👍6
🎉Ура! Вас уже 20 тысяч! 🎉
Хочу искренне поблагодарить новых подписчиков за интерес к каналу LEFT JOIN, а “старичков” – за многолетнюю поддержку и активность. Вы безумно мотивируете меня и мою команду ресерчить новости мира аналитики, рассказывать вам все самое лучшее и полезное и записывать подкасты с теми, чей опыт в аналитике достоин быть услышанным!
Если вы с нами совсем недавно, то у нас для вас есть пост-знакомство со всей важной информацией о канале. А еще, мы всегда открыты к предложениям, поэтому пишите в комментариях, какие темы и направления вы бы хотели чаще видеть в LEFT JOIN.

Спасибо, что вы с нами! ❤️
94🎉39👍8🍌7🏆5
🚨 dbt теперь поддерживает трансформации с помощью Python
На этой неделе dbt выпустили версию 1.3 ядра dbt, которая включает поддержку моделей Python🐍.
Эта функция теперь доступна как в dbt Core, так и в dbt Cloud для пользователей на поддерживаемых платформах данных: BigQuery, Databricks и Snowflake.
Кажется, это настоящий game-changer. Если раньше работа с данными в инструменте была только с помощью SQL, то теперь трансформации и обработка данных возможны с помощью различных Python-функций 😎

Важное пояснение: предполагается использованием либ Python, не являющимися моделями машинного обучения. В SQL-модели dbt представляют собой одну инструкцию SELECT, которая материализует объект в платформе данных. С ними можно работать, определив свою python-функцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍1141
📝 Неизбежная реформация гуманитарного образования 🤔
Когда-то давно появление калькуляторов в доме у каждого школьника и студента во многом изменило подход к изучению математики и других точных наук. С одной стороны, когда человеку нужно выучить правила арифметики, то без самостоятельной практики не обойтись. Однако, если вам нужно решить более сложную задачу (например, посчитать ускорение машины на уроке физики или решить уравнение на алгебре), то можно и на калькуляторе посчитать, главная суть-то не в этом.
Сейчас многие преподаватели уже привыкли к наличию калькуляторов и либо дают задания на счет в классе, либо дают более сложные задания на дом, понимая, что расчеты (скорее всего) будут сделаны не в уме и не в столбик.

Это я к чему?
Сейчас в сети то и дело появляются новости о том, что студенты сдают эссе, написанные AI-моделью, и получают хорошие оценки. Как и в примере, результат которого мы уже знаем, на это можно посмотреть с двух точек зрения: как на большую проблему и как на пространство для роста (в том числе преподавательского).

Почему это не проблема?
В некоторых случаях целью написания эссе является обучение навыкам письма или критического мышления. Для того чтобы удостовериться в самостоятельном выполнении задания, нужно либо дать его во время урока, либо придумать такой вопрос, с которым модель не справится (а модели сейчас далеко не совершенны). В общем, обойти этот нюанс точно можно.

Почему это пространство для роста?
Зачастую, эссе — чистая скука. Именно в таких скучных эссе превосходно проявляют себя языковые модели, которые, например, обучились на сотне эссе из гугла "Пять преимуществ здорового образа жизни". Возможно, именно такие модели помогут искоренить банальные и шаблонные задания, однако, это уже зависит от преподавателей.
Причина, по которой преподаватели просят писать такие эссе, заключается не в черствости или некомпетентности. Обычно это происходит потому, что учителям недоплачивают и они перегружены работой, и гораздо проще спросить что-то стандартное, чем придумать вопрос, который заставит студента хорошенько пораскинуть мозгами.

В общем, хоть это и многогранная проблема, мне кажется, что преподавателям вскоре придется адаптироваться к новой реальности и, при всем этом, студенты не разучатся писать вдумчивые эссе.
44🔥20👍177
Вы ведь не забыли правила счета, несмотря на калькуляторы?
Сколько будет 148*3-2?
Anonymous Quiz
2%
438
5%
440
88%
442
1%
148
4%
Не знаю, покажите ответ
16🕊1
🎶 А не спеть ли нам песню о...? А, подождите-ка, это другой блог! 📈
А не проанализировать ли нам тексты песен и метаданные, чтобы нарисовать картину музыкальной индустрии в графиках и диаграммах? Собрав датасет из 115 318 песен, мы проанализировали его по жанрам, годам, лексическому содержанию песен и показателю repetitiveness. И да, конечно же, мы не могли не подсчитать динамику изменения частоты употребления мата в песнях за разные года.
Ну что, готовы узнать, с чем начинка у вашего плейлиста?
🔥326🐳5👍1
Привет! На связи DataHeroes и мы, совместно с онлайн-школой Fless, приготовили для вас крутой гайд по успешному прохождению собеседования 👾

Вы узнаете о:
📌 неочевидных ошибках на собеседовании и о том, как их избежать
📌 моментах, которые НЕ стоит указывать в резюме
📌 необходимости высшего образования у кандидата
📌 о том, что писать в сопроводительном письме
📌 существовании универсальной формулы успешного собеседования
📌 важности «мыслей вслух» во время ответов на вопросы
и многое другое!

Включайте подкаст, впитывайте рекомендации и забудьте о фразе «Мы вам перезвоним»! 🚀


СПИКЕРЫ: Виктор Рогуленко и Николай Валиотти.

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)

#подкаст #DataHeroes
👍14🔥5❤‍🔥2
Audio
13
Знаете, сколько человек в США одевается на Хэллоуин Илоном Маском?
Вот и мы не знаем! Но, как и вы, следим за его (со вчерашнего дня – целиком и полностью) Твиттером и словесными баталиями вне зависимости от того, согласны ли мы с его утверждениями или нет. Но любая прокрастинация должна иметь практическую пользу. So here you go: ловите генератор твитов в стиле Илона Маска!
Если наряжаться миллиардером на Хэллоуин вам не хочется, а хочется им быть (причем, по жизни), то можно потренироваться на таком генераторе, чтобы примерить на себя логику мышления самого богатого человека на планете 😏
🔥11👍4💯3🤣3😱1
Практический гайд по деплою модели на базе GPT-2
Для своего генератора твитов в стиле Илона Маска, мы развернули стилизованную модель GPT-2 для получения логических выводов в режиме реального времени (Real-time inference) с помощью Amazon SageMaker. А чтобы полученный опыт не пропал даром, собрали все скриншоты в последовательный гид с комментариями по SageMaker JumpStart, выбранной нами модели Hugging Face и подробным объяснением, как работать с такой моделью GPT-2 извне AWS.

Оставляйте реакции, если такие статьи вам полезны, и пишите в комментариях, какие темы и задачи нам еще стоит разобрать!
🔥20👍84
Сервис для менеджмента экспериментов и фичей в продукте – EXPF Sigma
Над каким бы онлайн-продуктом вы ни работали, сомнения в правильности выбора есть всегда. Для того чтобы развенчать все сомнения нужно проводить A/B тесты, ведь это бесценный кладезь информации для всех, кто принимает решения в онлайн-среде. Но как и где их проводить?

Мои друзья из продуктовой и консалтинговой компании EXPF уже создали улетную платформу EXPF Sigma, на которой можно:
1. Запускать эксперименты на любые сегменты пользователей при помощи фича-менеджера
2. Управлять доставкой фичей после проведенного эксперимента используя сегментацию и фича менеджер
3. Запускать эксперименты со слоями и без слоев
4. Отправлять информацию о экспериментах в любую систему аналитики

Теперь после простой интеграции вы сможете запускать сколько угодно экспериментов по любым правилам и развивать свой продукт в разы быстрее 😎
#leftjoin_рекомендует
37👍26🔥16
This media is not supported in your browser
VIEW IN TELEGRAM
👋 AI-сгенерированные подсказки в Google Sheets
Шубхро Саха придумал гениальную вещь: функцию =GPT3(), которая запускает подсказки от модели GPT-3 в Google Sheets.
Просто посмотрите, как классно она упрощает формулирование сложных функций.
Как думаете: for real 💯 или fake 🤨?
🤨33🤯17💯13🔥4🤔3
На связи Data Heroes и сегодня в нашей школе чародейства и волшебства… Стоп. Мы же не Хогвартс🧙🏻

Однако, сегодняшняя тема подкаста – практически магия, ведь она превращает понятные лишь аналитику таблицы и метрики в очевидные и красочные результаты. Мы поговорим о визуализации данных.

Наши эксперты – топовые профессионалы и настоящие звезды датавиза. Сегодня они расскажут о своем пути в профессии и ответят на самые важные вопросы:
- Почему график стоит тысячи слов?
- Как убеждать одним графиком и нужно ли вообще это делать?
- Правда ли, что датавиз управляет общественным мнением?
- С чего начать новичку в специальности?
- Технические навыки или творчество - чего больше в визуализации?

Скорее включайте подкаст и погружайтесь в датавиз вместе с нами! 🚀 Спойлер: Это только первая часть выпуска о визуализации — через неделю будет продолжение!

БОНУС: в эпизоде будет много отличных рекомендаций, полезных материалов по визуализации данных! 📗

ALL STARS CAST: Роман Бунин, Татьяна Мисютина, Наталия Степанова, Александр Богачев

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podacsts, Google, Yandex, Mave, Castbox, Overcast, Telegram (↓)

#подкаст #DataHeroes
🔥17👍13🐳74
Audio
26
🖌 Цвет в визуализации данных 🎨
Как говорили в нашем вчерашнем выпуске подкаста, цвет — один из основных инструментов, который мы используем для визуализации данных. В колористике считается, что у цвета есть 4 характеристики: цветовой тон, яркость, насыщенность и светлота тона.
Дизайнер Лиза Шарлотта Мут написала статью о том, когда использовать тона (качественную палитру), а когда оттенки или градиенты (количественную палитру). А мы не могли не перевести ее, так как цвет — это универсальный язык визуализации, и каждый, кто работает с цветом, должен знать, какие подводные камни и наблюдения подметили зарубежные специалисты по датавизу.
19🔥5👍4
🍂 Не осень, а сезон ренейминга какой-то! 🍁
Помните RStudio? Ребята решили переименовать свой продукт в Posit, и теперь их новый сайт и все контакты тоже основаны на домене posit.co. По заявлению главных инженеров RStudio/Posit, ребрендинг инструментов имеет чисто эстетические цели и не повлияет на политику компании, функционал и доступность их продуктов.

To posit — это настоящее слово, которое переводится с английского как «‎класть в основу доводов» или «предлагать для обсуждения». Вдохновившись идеей создания новых возможностей для научного познания мира, Джозеф Аллер, основатель RStudio, решил подчеркнуть в новом названии ту доступность работы с данными, которую дают инструменты с открытым исходным кодом.

А как часто вы пользовались RStudio? И что предпочитаете, RStudio Desktop или RStudio Server?
13👍3🤡31
LEFT JOIN pinned a photo
Mathics, аналог Wolfram Research Mathematica
Когда-то давно я писал о Wolfram Research Mathematica, но сегодня я хотел бы рассказать вам об альтернативном варианте такой системы – Mathics. Она имеет модульную структуру, что позволяет запускать ее элементы с индивидуальными зависимостями и минимальными требованиями по ресурсам.

Mathics — бесплатный проект с открытым кодом, синтаксис и функции которой совместимы с Wolfram Research Mathematica. Полагающаяся на экосистему Python, Mathics может быть установлена из Python Package Index (PyPI) или посредством контейнера Docker.
Кстати, уже давно существует Octave (который является аналогом Matlab).

В состав Mathics входят:
Mathics Core, обязательный компонент для любой работы с системой;
• mathicsnoscript, клиент с пользовательским интерфейсом;
• Mathics-Django, веб-сервер для браузера с выводом в формате MathML и графикой от Three.js.

Основную документацию разработчики выложили онлайн в PDF. А регулярно обновляемый справочник по внутренней документации Mathics можно найти здесь.
👍15🔥32
▫️ LEFT JOIN: меняем логотип, оставляем суть
Ровно 4 года назад я стал вести телеграм-канал LEFT JOIN, который изначально представлял довольно хаотичный набор моих мыслей. На старте автора читают 40-50 подписчиков из числа друзей и порой мотивацию писать дальше найти крайне сложно. Однако, я сторонник оформленных продуктов, поэтому даже тогда собрал простую «наколеночную» версию логотипа канала (она очень узнаваема для всех, кто сталкивался с диаграммами Венна).

Основым контентом канала был анализ данных, который до сих пор мне интересен. А философия блога и канала очень простая: вы присоединяетесь, если вам нравится (ну, как в базах данных). Никаких обязательств. А если не нравится – это тоже окей, се ля ви.

Со временем мои интересы трансформировались и расширялись. Спустя два года, когда у моего канала появилась аудитория, я решился на небольшой рестайлинг логотипа, который вы видели в своей ленте до недавнего времени. Основной по-прежнему была диаграмма Венна и мой любимый цвет – насыщенный синий. И, как вы догадались, я продолжил развивать канал с большей силой и упорством. В частности, ряд постов мы делаем совместно с нашими чудесными аналитиками и прекраснейшим копирайтером, который помогает оформить мои сухие мысли в более литературный текст.

Сегодня, по прошествии еще двух лет, пришло время обновиться. Канал перерос меня и точно стал чем-то большим, чем просто личный блог. Теперь это, пусть и камерное, но медиа об анализе данных: к примеру, мы регулярно выпускаем подкаст Data Heroes. В этом канале я, как и раньше, буду освещать интересные мне новости, делиться своими наработками и открытиями, писать просто о сложных механизмах. А новый логотип переосмысляет диаграмму Венна в современном стиле!

Закрепляйте @leftjoin в своей ленте каналов Telegram и оставайтесь на связи, ведь скоро будет чуть более грандиозный анонс,
Николай Валиотти
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5138🐳14👍10❤‍🔥6
Data Heroes продолжают говорить о волшебной визуализации данных! 🎨

В этом эпизоде вы узнаете больше об истории этого направления, его расцвете и роли в современном мире. Наши эксперты – звезды специализации – расскажут:
- Какие особенности у русскоязычного датавиз-комьюнити?
- Вырос ли уровень визуальной грамотности?
- Какая польза датавиза для бизнеса?
- Почему современный мир невозможно представить без визуализации данных?

И, конечно же, будут новые советы для юных волшебников джунов! Включайте подкаст и начинайте увлекательное путешествие вместе с нами! 🚀

БОНУС: мы собрали для вас пост с полезными материалами по датавизу от спикеров первой и второй части эпизода о визуализации. Скоро он будет опубликован на канале – следите за обновлениями! 📚

СПИКЕРЫ
: Андрей Дорожный, Анастасия Кузнецова, Никита Рокотян

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)

#подкаст #DataHeroes
🔥204👍3