LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
Data Heroes — подкаст о супер-героях в области данных и аналитики🦸🏻🦹🏻‍♀️

Осенью мы проводили большое исследование о рынке онлайн-школ (помните этот дашборд?). Исследование вызвало бурное обсуждение, поэтому мы его расширили, связались с участниками и попросили дать аудио-комментарий о прохождении курсов по анализу данных и другим направлениям.

Так родился наш первый выпуск подкаста! Делать этот выпуск было о-о-очень интересно: равнодушные преподаватели и отсутствие обратной связи за 100 тысяч – пожалуйста! Крутой старт в новой карьере за те же деньги – тоже без проблем.
В этом выпуске мы подготовили для вас не только захватывающие истории, но и рекомендации "как не выкинуть деньги на ветер".

Также будут комментарии с противоположной стороны: от Анатолия Карпова и Алексея Макарова.

Слушайте подкаст в:
Spotify
Anchor
Apple Podcasts
Castbox
Яндекс
Telegram (↓)

Если вам нравится такой формат – оставляйте реакции и мы будем продолать выпускать подкасты! 🔥

#подкаст #dataheroes
🔥41👍164
Audio
🔥19👍4
Audio
В прошлой версии подписчики нашли баг в аудио телеграмма, поэтому обновляю файл с записью 🎧
🔥13👍5
💱 Разбираемся с криптовалютами вместе: как легко и просто парсить данные? 💸

Все мы сейчас живем в удивительные времена. Еще недавно вложения в криптовалюту были одними из самых высокорисковых и многие инвесторы предпочитали более стабильные варианты инвестиций: акции и облигации компаний, в особенности “голубых фишек“. Теперь, когда в эти ценные бумаги вера уменьшилась, инвесторы и люди, которые просто хотят застраховать свои сбережения, стали разбираться в криптовалютных биржах и открывать там счета.

Мы тоже всерьез этим заинтересовались и выпустили небольшой гайд с подробными скриптами о том, как получать нужную информацию о валютах и обрабатывать всю информацию на бирже быстро. Снабжаем вас подходящими инструментами для анализа криптовалют, чтобы принимать взвешенные решения.
👍24
🐙 Осьминог и кенгуру теперь дружат: Airbyte купили Grouparoo 🦘
В марте мы уже вам рассказывали про одну большую сделку (Snowflake купил Streamlit) и объяснили, почему соединение двух компаний – важно. Сегодня мы поговорим о другой большой сделке, которая не только выглядит мило (↑), но и также важна по своей сути.

Разберемся, что здесь интересного

В пятницу Airbyte (open-source ETL-платформа) объявила о приобретении Grouparoo (open-source стартап, который помогает предприятиям синхронизировать данные между хранилищами данных и облачными сервисами). Таким образом, услуги, которые предлагает Airbyte, дополняются новыми “недостающими” деталями: Осьминожка фокусируется на загрузке данных в хранилища, а Кенгуру специализируется на операционализации этих данных.

Обе компании не раскрыли цену приобретения, однако, скорее всего, цена сделки исчисляется несколькими миллионами долларов.

Теперь нам с вами остается с нетерпением ждать, как именно будет улучшен и дополнен сервис Airbyte в результате этой сделки :)
👍159
Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает программу обучения по специальности «Инженер данных». Курс предназначен для студентов с как минимум базовым знанием SQL и Python — перед стартом необходимо пройти тест.

Авторы и преподаватели – практикующие эксперты ведущих российских IT-компаний.

Длительность — 6,5 месяцев.

Курс на 75% состоит из практических занятий – по окончании программы в вашем портфолио будет не менее 10 проектов.

Вы научитесь:
- работать с технологиями Python, SQL, Metabase, Airflow, PostgreSQL, MongoDB, ClickHouse, Celery, Kafka, Hadoop, Apache Spark, Spark Streaming и Yandex.Cloud
- извлекать, очищать и сохранять данные
- создавать и поддерживать хранилища типов Data Warehouse и Data Lake
- работать со стриминговой обработкой данных и облаками

Претендовать на работу по новой специальности студенты курса смогут уже в ходе обучения – с поиском вакансии помогут специалисты карьерного центра Яндекс Практикум.

Запись на курс открыта, старт занятий для ближайшего потока студентов – 18 апреля.

Стоимость курса:
95 000 рублей при разовой оплате, при оплате в рассрочку – 17 000 рублей в месяц.

По завершении программы студенты получат диплом о профессиональной переподготовке.

Запись на бесплатную вводную часть и подробности по ссылке.

#реклама
👍23
Децентрализованный Twitter? Что?

Уже некоторое время популярной темой для обсуждения считается Web3.0 (клевая статья у вастрика на этот счет).
Недавно на просторах сети я наткнулся на новую open-source социальную сеть – Mastodon. Ее основное отличие – децентрализованность. Каждый пользователь может развернуть эту соцсеть на своем сервере со своими правилами, целями и так далее. Личные данные в полной безопасности, ведь они не передаются на общий сервер, а остаются лишь у вас. Можно подписываться как на пользователей внутри одного сервера, так и на любых других пользователей сети, делиться контентом, выкладывать фотографии и оставлять коменты. Поскольку в этой соцсети нет услуг для монетизации контента, она не может обанкротиться или быть заблокированной (сейчас это кажется весьма актуальным!). А еще там нет рекламы (ну, пока), в общем, сплошные плюсы 😎
👍13
Совершенно удивительные достижения из мира AI

Еще одна новость про AI-модель: DALL·E 2 — новая система искусственного интеллекта, которая может создавать реалистичные изображения и рисунки исходя из описания на естественном языке. Ну, то есть, вы даете на вход модели данные: “An astronaut riding a horse in a photorealistic style”, а получаете вот такое изображение ⚡️
А еще модель может:
▫️ добавлять и удалять элементы, принимая во внимание тени, отражения и текстуры
▫️ вдохновиться оригиналом картины, рисунка или фотографии и создать изображение в похожем стиле
Модель уже очень занимательно повертели в этой статье. Брам Адамс тоже проверил, как работает модель: особенно интересно, как она придумывает постеры и обложки для музыкальных альбомов. Музыканты теперь могут вообще не тратить на то время, а лишь набрасывать идеи и поручать DALL·E всю креативную работу.
У меня и моей команды совершенно нет слов, это настоящий прорыв в мире AI. Не терпится пощупать и проверить все своими руками (подали заявку, ждем)!

#leftjoin_ai
👏33👍2
Самая скучная профессия?
Исследование Университета Эссекса определило портрет самого скучного человека в мире — это религиозный специалист по вводу данных, который любит смотреть телевизор и живет в городе. А самой скучной профессией стал Data Analysis.
😱13👍6🔥2
🎉 Finally, we are on Twitter! 🎉

Друзья, хочу поделиться с вами ссылкой на свой твиттер, подпишитесь прямо сейчас, если интересен контент на английском. Сейчас у нас в планах море англоязычного контента, которым я буду делиться там, плюс периодически собираюсь скидывать туда полезные ссылки на тему аналитики, BI, AI и так далее. А еще планирую периодически разбавлять контент юмором, который мне по душе, может он и вас заставит улыбнуться 😉

Конечно, этот телеграм-канал также будет пополняться новыми интересными постами, но если вы хотите видеть новости и контент чаще, то подписывайтесь!

P.S. Вчера в Twitter я уже опубликовал ссылку на наш первый материал на Medium.
👍12
Шиншилла, которая всех победила

Продолжаем новости из мира AI: недавно было проведено исследование-сравнение различных современных языковых моделей. В результате, новая языковая модель Chinchilla 70B значительно превосходит результаты таких моделей, как Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) и Megatron-Turing NLG (530B). Исследователи обнаружили, что, несмотря на использование различных процедур подбора и обученных моделей, эти три подхода дают сопоставимые прогнозы для оптимального масштабирования параметров и токенов с помощью FLOP.
В общем, если вы работаете с языковыми моделями, то пора пробовать новую.

#leftjoin_ai
👏10👍7
Все что вам может понадобиться во время работы с Yandex.Datalens

Павел Дубинин собрал в один пост все (вообще все!) ссылки, которые могут вам пригодиться при работе с Yandex.DataLens. Тут и демо-дашборды, и ссылки на сообщества, и гайды по работе с сервисом, и примеры аналитики реальных данных и многое-многое другое. 💪
👍33
🦸🏻 Ура! Второй эпизод подкаста DataHeroes уже в сети 🚀

Судя по тому, что многие из вас послушали первый выпуск подкаста, мы движемся в верном направлении!

У нас вышел второй выпуск, в котором мы продолжаем говорить об онлайн-образовании в России. Обучение аналитике без денег — миф или реальность? Сегодня мы поговорим о том, почему бесплатно не значит плохо, как найти в себе мотивацию на самообучение и зачем вообще нужны бесплатные курсы их создателям.

Наши спикеры — те, кому удалось получить новую профессию без финансовых вложений, а также руководители известных онлайн-платформ и образовательных центров Computer Science Center, DataYoga и DataLearn.

Если вы до сих пор считаете, что бесплатный сыр только в мышеловке, то скорее включайте подкаст, мы вас в этом разубедим!

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Castbox, Overcast, Google, Yandex, Telegram (↓)

#DataHeroes #подкаст
🔥19👍75
Audio
🔥17👍1
LEFT JOIN pinned a photo
Вопрос личного характера: может ли кто-то поменять мои Tinkoff USD на крипту (стейбл / любые другие монеты), если можете, напишите в ЛС @valiotti
🤔17🎉2👍1
В течение десятилетий центральное место в разработке приложений занимала реляционная модель данных, которая используется в таких реляционных СУБД, как Oracle, DB2, SQL Server, MySQL и PostgreSQL. Но в последнее время большое распространение стали получать и другие модели данных - нереляционные / NoSQL.

NoSQL — это вид нетабличных баз данных, которые помогают хранить большие массивы данных без определённой структуры.
NoSQL стали популярным решением из-за простоты и гибкости разработки, широкого функционала, высокой производительности и возможности горизонтального масштабирования.
 
В зависимости от модели данных и подходов к распределённости и репликации в NoSQL выделяют четыре основных типа систем:
▪️ключ - значение (Redis, Memcached)
▪️колоночные (SAP IQ, Vertica, ClickHouse, Google BigTable, InfoBright, Cassandra)
▪️документо-ориентированные (CouchDB, MongoDB, Amazon DocumentDB)
▪️графовые (Neo4j, Amazon Neptune, InfiniteGraph, InfoGrid)

Данные типы систем используются
для решения задач кэширования, машинного обучения, хранения time-series данных или данных различающихся по структуре, размеру и содержанию.

Подробнее о преимуществах и недостатках применения различных типов NoSQL-систем и многом другом можете узнать на канале Базы данных и SQL

Подписывайтесь: @db_in_it
👍10😱9
Помните историю про утечку данных Яндекс.Еды?

А вот какое наказание понесла «Яндекс.Еда»: 60 тысяч рублей за наши с вами данные. SRSLY??
На минутку, в этом датасете как минимум 148 тыс. юзеров имеют общую сумму заказов больше чем на 60 тыс. рублей.
❗️А сумма в 60 тысяч рублей это всего лишь 0.0001163% от всей выручки за период в датасете (51,567 миллиардов рублей).

Так вот здорово охраняются наши с вами персональные данные🛡

Риторический вопрос: эта статья и наказание означает, что в РФ вообще больше никому нельзя оставлять валидные ПД?
👍38😱6🤔2
👨‍🎨 Как работает DALL-E 2? 🖼

В одном из последних постов рассказали вам про новую AI-модель и поделились кучей ссылок с примерами её работы. Давайте попробуем разобраться, что за магия происходит в модели и как она создает совершенно новые изображения с помощью короткого текстового описания.
💭 Итак, если объяснять процессы, которые происходят в модели простым языком, то глобально их три: модель получает текстовое описание, которое декодируется и попадает в пространство текстовых эмбедингов (математический способ представления информации). Затем они попадают в пространство эмбедингов изображений, где идет поиск наилучшего совпадения. После этого полученный эмбединг декодируется и мы получаем изображение. Вуаля!

📺 В основе модели лежит модель CLIP, которая занимается прямо противоположным: подбирает наиболее точное описание к каждому изображению. Как вы понимаете, для обеих моделей совершенно необходимо огроменное количество данных, а именно пар (изображение–точное описание). Вручную такое сделать достаточно трудно (руки и глаза точно устанут), поэтому данные собраны со всего Интернета.

🧪 Также, при построении DALL-E 2 использовались диффузионные модели. Сейчас мы быстро постараемся это понять, если к этому моменту вы еще не перегружены информацией. Эти модели берут изображение и постепенно добавляют к нему различные шумы до тех пор пока изображение не меняется до неузнаваемости. Затем, они пытаются провернуть этот процесс задом наперед: воссоздать исходное изображение. Таким образом, модель учится самостоятельно генерировать изображения (или любую другую информацию, например, музыку).

🔗 Сила DALL-E 2 заключается в большом количестве парных данных (естественного языка–изображения), которые доступны в Интернете. Использование таких данных не только устраняет недочеты, вызванные трудоемким процессом ручной маркировки данных. В первую очередь, шумный и даже неконтролируемый характер таких данных лучше всего отражает реальные данные, к которым должны быть устойчивы модели глубокого обучения.

Если все эти выводы кажутся вам непонятными или недостаточными, то в этом видео девушка еще более подробно (на примере схем и изображений) рассказывает о том, как именно работает DALL-E 2 и почему каждый этап обработки важен и незаменим.

#leftjoin_ai
👍20
Ура! 🎉
Мы пробили отметку в 10К подписчиков!
Спасибо всем и каждому, кто подписан, вы невероятно мотивируете меня и всю команду продолжать делать интересный контент. 😎😎
Иногда вспоминаю времена, когда в канале было 100 человек и некоторые мои знакомые удивлялись для чего я все это делаю! Конечно же, в большей степени для себя, но очень рад, что посты, контент и любые другие медийные материалы, которые мы выпускаем, принимаются коммьюнити с интересом 😇

Поэтому огромная благодарность за ваши реакции и репосты 👍👍👍

Пробив отметку в 10К собираюсь написать краткий пост с основными ссылками на публикации в этом канале и блоге, а также с информацией об авторе, чтобы все вновь прибывшие сразу могли узнать, что мы тут публикуем ☺️
52🎉31👍27👏1