LEFT JOIN – Telegram
LEFT JOIN
45K subscribers
944 photos
28 videos
6 files
1.2K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
P-value в действии: Влияет ли стакан молока на ночь на сон?
В прошлом посте рубрики мы вспомнили про одну из самых важных тем, а именно про центральную предельную теорему, на которой держится вся статистика.

Теперь давайте шлифанем ваши знания о p-value — метрике, которая помогает принять оценить тот или иной эксперимент и сделать вывод не просто каким-то выводом, а статистически значимым!

P.S. Давайте соберем 100 под этим постом и мы продолжим нашу рубрику #основы_статистики карточками про критерий Стьюдента и сравнение выборок!
24012👍9🔥4
GPT-4 на страже порядка: больше никакого временного хаоса!
Любители фильмов «Довод» и «Интерстеллар» Кристофера Нолана наверняка часто ловили себя на мысли, что следить за ходом сюжетного времени не всегда так уж и легко.

Исследователи художественной литературы, в частности, конечно, студенты-филологи, часто сталкиваются с подобной проблемой при написании курсовых и дипломных.

Профессор Университета штата Иллинойс Тэд Ундервуд решил подойти к данной задаче новаторским путем: с помощью языковой модели GPT-4. В ходе экспериментов стало ясно, что использование ИИ, чтобы рассчитать сюжетное время в романе или другом литературном произведении, – это довольно успешное предприятие.

Языковая модель, поясняя логику своих суждений, дает исследователю возможность найти в тексте временные скачки или определить время нахождения персонажа в определенной локации.

А какие способы применения ИИ в академической среде кажутся вам наиболее перспективными, помимо полного делегирования написания научной работы ChatGPT?
👍20🔥5🥰5
☕️ Под утренний кофе: еженедельный дайджест о технологиях, данных и аналитике 🗞

🔵 LakehouseIQ – движок на основе генеративного ИИ, который понимает локальные мемы вашей компании
На этой неделе компания Databricks объявила о релизе нового корпоративного продукта, LakehouseIQ. Благодаря тому, что с платформой можно общаться с помощью естественного языка, пользователь может получить инсайты из базы знаний вашей компании, не прибегая к коду. Сфера применения: поиск информации в базе Databricks, автоматические предложения по улучшению запроса Spark или SQL, интеграция через API с другими приложениями.

🔵 Инженеры данных, новость для вас: динамические таблицы в Snowflake
Платформа Snowflake обзавелась новой фичей, которая существенно упростит трансформацию данных. Выстраивание последовательности задач, контроль зависимостей и расписания – задачи прошлого! С помощью динамических таблиц вам достаточно указать финальный вид трансформации, и, в то время как данные в них будут автоматически обновлятся, таблицы в самой базе данных не будут претерпевать никаких изменений.

🔵 Можно ли предсказать рейтинг фильма на основе данных? Учебный кейс с Rotten Tomatoes
Кинопроизводство – это многомиллионный ($) бизнес. И ИИ может стать подспорьем продюсерам и другим заинтересованным в успехе проката лицам. Тестовый проект, использованный при трудоустройстве в Meta (Facebook), предлагает два варианта определения рейтинга: (1) предсказание рейтинга на основе числовых показателей и данных о категории и (2) сентимент-анализ обзоров и отзывов. Подробный разбор работы на KDnuggets может пригодится любителям data science и машинного обучения.
#дайджест
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥107👍5
Простой способ визаулизировать аналитику приложения
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.

Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.

Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.
#реклама
🔥94👀4🤡2
Autolabel: библиотека Python для маркировки данных
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.

Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.

Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.

А какие находки c GitHub вы используете в работе?
🔥14👍731
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?

Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.

Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.

P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250и продлеваем сериал #основы_статистики на следующий эпизод!

@leftjoin
156👍329🤔3👾3