Как случайность объясняет мир вокруг нас?
Давайте продолжим разговор про главный инструмент аналитиков данных и дата саентистов — про статистику.
Мы уже освежили в памяти базовые вещи, вспомнили, что такое выборка и генеральная совокупность, вспомнили как посчитать основные описательные статистики.
Сегодня давайте вспомним одну из самых главных вещей в статистике — центральную предельную теорему (ЦПТ). Если уже все про нее знаете, все равно просмотрите карточки — потом блеснете на собеседовании фундаментальными знаниями.
P.S. Помните, что никто не в силах вам запретить поставить забавную реакцию этому посту или переслать пост из канала @leftjoin лучшему другу.
#основы_статистики
Давайте продолжим разговор про главный инструмент аналитиков данных и дата саентистов — про статистику.
Мы уже освежили в памяти базовые вещи, вспомнили, что такое выборка и генеральная совокупность, вспомнили как посчитать основные описательные статистики.
Сегодня давайте вспомним одну из самых главных вещей в статистике — центральную предельную теорему (ЦПТ). Если уже все про нее знаете, все равно просмотрите карточки — потом блеснете на собеседовании фундаментальными знаниями.
P.S. Помните, что никто не в силах вам запретить поставить забавную реакцию этому посту или переслать пост из канала @leftjoin лучшему другу.
#основы_статистики
🔥61👾15👍9🐳7❤6
ChatGPT: как будет меняться работа аналитика с развитием искусственного интеллекта
Кажется, уже все эксперты в разных областях и блогеры поговорили про ChatGPT и начало эпохи нейросетей. Однако, в подкасте Data Heroes мы это еще не обсуждали и… сейчас исправимся!🐢
Мы знаем, что многие из вас уже устали от этой темы, но сегодня Николай и его гости постарались раскрыть ее шире и, конечно, пофантазировать о будущем! И те эксперты, кто пророчит конец света и восстание машин, и те, кто в порыве восторга и экстаза говорит о том, как чудесна станет жизнь в ближайшее десятилетие, соглашаются в одном — мир не будет прежним.
Итак, сегодняшний разговор именно об этом. А еще о том:
🔵 Правда ли релиз нейросетей перекроит рынок труда,
🔵 Как ChatGPT может помочь в анализе больших объемов данных,
🔵 Какие проблемы возникают при работе с ChatGPT и как их решать,
🔵 Какие есть альтернативы нашумевшей модели и насколько они хороши в деле,
🔵 Как писать промпты, чтобы модель выдавала самый лучший результат, а не сплошные глупости,
🔵 Правда ли, что в будущем роботы будут общаться между собой 🤯
Включайте подкаст и узнайте, как пережить восстание машин 🚀 (Шутка! Или нет?..)
СПИКЕРЫ:
1️⃣ Андрей Новиков — Lead Product Analyst, автор YouTube-канала Noukash
2️⃣ Анастасия Никулина — CEO & Founder школы по Data Science и анализу данных с обширным бэкграундом в Data Science
3️⃣ Игорь Котенков — Head of Ai Department в Unleashing.AI, компания ML Consulting Agency
P.S. Над обложкой этого эпизода Data Heroes мы поколдовали с Midjorney, а затем наш дизайнер @lagmann оформила и кастомизировала ее, ведьнейросети все еще неидеальны и их результаты пока что требуют доработки.
Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)
#подкаст #DataHeroes
Кажется, уже все эксперты в разных областях и блогеры поговорили про ChatGPT и начало эпохи нейросетей. Однако, в подкасте Data Heroes мы это еще не обсуждали и… сейчас исправимся!
Мы знаем, что многие из вас уже устали от этой темы, но сегодня Николай и его гости постарались раскрыть ее шире и, конечно, пофантазировать о будущем! И те эксперты, кто пророчит конец света и восстание машин, и те, кто в порыве восторга и экстаза говорит о том, как чудесна станет жизнь в ближайшее десятилетие, соглашаются в одном — мир не будет прежним.
Итак, сегодняшний разговор именно об этом. А еще о том:
Включайте подкаст и узнайте, как пережить восстание машин 🚀 (Шутка! Или нет?..)
СПИКЕРЫ:
P.S. Над обложкой этого эпизода Data Heroes мы поколдовали с Midjorney, а затем наш дизайнер @lagmann оформила и кастомизировала ее, ведь
Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Google, Yandex, Overcast, Mave, Castbox, Telegram (↓)
#подкаст #DataHeroes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍6❤5
Docker: с чего начать?
В современном мире многообразие технологий дает не только свободу выбора инструментов для рабочего проекта, но и создает кучу трудностей, которые замедляют работу. Проблемы часто возникают при работе с виртуальными машинами — перенос приложения из одной виртуальной машины в другую со всеми зависимостями может оказаться очень долгим процессом.
К счастью, был изобретен Docker — приложение для управления контейнерами, то есть изолированными виртуальными средами разработки. Как раз о Docker и идет речь во вводном докладе Питера МакКи. В нем он рассказывает про ключевую концепцию в Docker — Docker-образ. Это файл, на основе которого создаются контейнеры. Его можно собрать при помощи текстового файла Dockerfile, который описывает последовательность действий при сборке образа. Концепция образа позволяет без труда запускать точно такие же контейнеры на другом устройстве без особых усилий. Также, в докладе подробно раскрыта последовательность действий при создании контейнера:
🔵 Написание Dockerfile,
🔵 Создание образа из Dockerfile,
🔵 Создание контейнера на основе образа.
Кроме того, Питер показывает как взаимодействовать с Docker Hub, который по сути является GitHub'ом для образов. Обо всем по порядку и во всех подробностях вы узнаете из доклада.
#краткий_пересказ
В современном мире многообразие технологий дает не только свободу выбора инструментов для рабочего проекта, но и создает кучу трудностей, которые замедляют работу. Проблемы часто возникают при работе с виртуальными машинами — перенос приложения из одной виртуальной машины в другую со всеми зависимостями может оказаться очень долгим процессом.
К счастью, был изобретен Docker — приложение для управления контейнерами, то есть изолированными виртуальными средами разработки. Как раз о Docker и идет речь во вводном докладе Питера МакКи. В нем он рассказывает про ключевую концепцию в Docker — Docker-образ. Это файл, на основе которого создаются контейнеры. Его можно собрать при помощи текстового файла Dockerfile, который описывает последовательность действий при сборке образа. Концепция образа позволяет без труда запускать точно такие же контейнеры на другом устройстве без особых усилий. Также, в докладе подробно раскрыта последовательность действий при создании контейнера:
Кроме того, Питер показывает как взаимодействовать с Docker Hub, который по сути является GitHub'ом для образов. Обо всем по порядку и во всех подробностях вы узнаете из доклада.
#краткий_пересказ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥7👏3🤡1🤣1
Сколько стоит реклама в LEFT JOIN?
Сколько раз я слышал этот вопрос — десять, тридцать, сто? Больше!
Мы с командой решили ответить качественно и аргументировано и создали собственный медиакит.
Больше не тайна, сколько стоит рекламный пост в канале.
Однако, предупрежу, что размещаем мы не все подряд. Думаю, наши подписчики в этом смогли убедиться по хештегу #реклама.
Сколько раз я слышал этот вопрос — десять, тридцать, сто? Больше!
Мы с командой решили ответить качественно и аргументировано и создали собственный медиакит.
Больше не тайна, сколько стоит рекламный пост в канале.
Однако, предупрежу, что размещаем мы не все подряд. Думаю, наши подписчики в этом смогли убедиться по хештегу #реклама.
🔥19👍12❤7🤡5😱2
Зачем вообще нужно уметь пользоваться Docker?
Вы скорее всего уже устали слышать слово «докер». Может сложиться впечатление, что это что-то загадочное и непонятное, особенно для аналитика данных. Поэтому я хочу показать вам небольшой тред из твиттера, в котором Женя Козлов рассказал про то, зачем эта компетенция нужна и как ее получить. В треде вы найдете массу полезных источников и статей, которые помогут вам понять, что же такое не только Docker, но и контейнеризация в целом.
Советую сохранить этот тред, чтобы регулярно повторять базовые вещи!
P.S. А еще, я начал регулярно вести Twitter-аккаунт, делиться там мнением относительно новых трендов и делиться опытом в SQL и анализ данных. И постить мемы, разумеется!
Подписывайтесь❤️
Вы скорее всего уже устали слышать слово «докер». Может сложиться впечатление, что это что-то загадочное и непонятное, особенно для аналитика данных. Поэтому я хочу показать вам небольшой тред из твиттера, в котором Женя Козлов рассказал про то, зачем эта компетенция нужна и как ее получить. В треде вы найдете массу полезных источников и статей, которые помогут вам понять, что же такое не только Docker, но и контейнеризация в целом.
Советую сохранить этот тред, чтобы регулярно повторять базовые вещи!
P.S. А еще, я начал регулярно вести Twitter-аккаунт, делиться там мнением относительно новых трендов и делиться опытом в SQL и анализ данных. И постить мемы, разумеется!
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥7🤣3
P-value в действии: Влияет ли стакан молока на ночь на сон?
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.
Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!
P.S. Давайте соберем 100 ⚡под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.
Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!
P.S. Давайте соберем 100 ⚡под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!
⚡240❤12👍9🔥4
GPT-4 на страже порядка: больше никакого временного хаоса! ⏳
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.
Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.
Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.
Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.
А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными,помимо полного делегирования написания научной работы ChatGPT ?
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.
Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.
Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.
Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.
А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными,
👍20🔥5🥰5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
🔵 LakehouseIQ – движок на основе генеративного ИИ, который понимает локальные мемы вашей компании
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.
🔵 Инженеры данных, новость для вас: динамические таблицы в Snowflake
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.
🔵 Можно ли предсказать рейтинг фильма на основе данных? Учебный кейс с Rotten Tomatoes
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤7👍5
Простой способ визаулизировать аналитику приложения
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.
Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.
Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.
#реклама
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.
Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.
Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.
#реклама
🔥9❤4👀4🤡2
Autolabel: библиотека Python для маркировки данных
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.
Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.
Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.
А какие находки c GitHub вы используете в работе?
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.
Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.
Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.
А какие находки c GitHub вы используете в работе?
🔥14👍7⚡3❤1
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?
Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.
Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.
P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!
@leftjoin
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?
Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.
Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.
P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!
@leftjoin
⚡156👍32❤9🤔3👾3