P-value в действии: Влияет ли стакан молока на ночь на сон?
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.
Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!
P.S. Давайте соберем 100 ⚡под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.
Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!
P.S. Давайте соберем 100 ⚡под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!
⚡240❤12👍9🔥4
GPT-4 на страже порядка: больше никакого временного хаоса! ⏳
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.
Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.
Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.
Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.
А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными,помимо полного делегирования написания научной работы ChatGPT ?
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.
Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.
Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.
Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.
А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными,
👍20🔥5🥰5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞
🔵 LakehouseIQ – движок на основе генеративного ИИ, который понимает локальные мемы вашей компании
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.
🔵 Инженеры данных, новость для вас: динамические таблицы в Snowflake
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.
🔵 Можно ли предсказать рейтинг фильма на основе данных? Учебный кейс с Rotten Tomatoes
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤7👍5
Простой способ визаулизировать аналитику приложения
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.
Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.
Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.
#реклама
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.
Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.
Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.
#реклама
🔥9❤4👀4🤡2
Autolabel: библиотека Python для маркировки данных
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.
Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.
Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.
А какие находки c GitHub вы используете в работе?
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.
Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.
Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.
А какие находки c GitHub вы используете в работе?
🔥14👍7⚡3❤1
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?
Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.
Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.
P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!
@leftjoin
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?
Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.
Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.
P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!
@leftjoin
⚡156👍32❤9🤔3👾3
LastMile AI Workbook: интерфейс для работы с разными моделями ИИ 💬 ➕ 🖼
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.
С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.
Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.
На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.
С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.
Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.
На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
❤12👍4🔥4
Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.
Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.
Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.
Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.
Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥5❤4
HouseWatch: open source инструмент для работы с кластерами ClickHouse 🕵️♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!
HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.
Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.
HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!
HouseWatch — это инструмент, который дает возможность:
Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.
HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍13⚡4