Datalytics – Telegram
Datalytics
9.04K subscribers
219 photos
17 videos
5 files
674 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Большие языковые модели (LLMs), к которым относится ChatGPT (и GPT3, которая под капотом у ChatGPT) открывают огромный простор для дешевого создания сервисов, способных выполнять операции по несложному семантическому анализу. Например, я за пару часов с использованием API Яндекс.Переводчика, API OpenAI и библиотеки LangChain сделал небольшого бота, который в ответ на фразу даёт численные оценки её специфичности и детализации с объяснением почему была дана такая оценка, а также рекомендациями как эти показатели улучшить. На картинках примеры, а в конце поста ссылка на блокнот

Отдельно стоит заметить, что в работе с запросами к GPT3 важную роль играет сколько мы поставляем ей примеров и явное указание специфичной формы ответа (будь то перечисление конкретных заголовков, атрибутов ответа, явное указание на то, что ответ должен быть получен в виде таблице). На картинке есть пример запроса

А ещё вижу зарождение новой профессии «prompt engineer», задача которой будет в формировании таких запросов, которые будут максимально эффективно решать потребности бизнеса с помощью LLMs. И тут речь не только про запрос, качественно решающий изначальную задачу, но и про формирование цепочек запросов, настройку переиспользования предыдущих ответов для улучшения качества запросов. В общем, целая новая вдохновляющая область на стыке AI, лингвистики и бизнес-аналитики

https://github.com/axmakarov/datalytics/blob/master/GPT3_phrase_detail_and_specific_analyser.ipynb
🔥13👍31
Datalytics pinned a photo
Forwarded from Сиолошная
ChatGPT в массы!

OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).

Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.

Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.

Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.

И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in

Теперь данные клиентов не будут использоваться для дообучения в будущем!
👍14🔥5
Быстрый тест: если думаете, что знаете в продакт-аналитике все — вы точно еще мидл

Если серьезно, определить, что пора идти на позицию повыше, сложно. А эйчары в процессе найма вряд ли намекнут, что готовы вам дать оффер побольше.

Но тут Авито на Хабре рассказали, как они отличают аналитиков-мидлов от сеньоров и что стоит подтянуть перед собесом (спойлер: не только штаны).

А еще держите ссылку на матрицу скиллов по грейдам.
1🔥91
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT без VPN и регистраций почти легально 🤖

Нашёл способ без VPN’ов, плясок с одноразовыми номерами и регистрации использовать ChatGPT в России

1️⃣ Заходим на сайт ChatGPT-accounts.ru
2️⃣ Покупаем API-ключ ChatGPT (OpenAI) за 50 рублей (можно оплатить с карты РФ через сервис enot.io, выйдет на 7 рублей дороже из-за комиссии сервиса)
3️⃣ Придёт ключ вида sk-*** в виде текстового файла
4️⃣ Копируем ключ
5️⃣Заходим на сайт ChatWithGPT.ai
6️⃣ Нажимаем «Connect your OpenAI account to get started»
7️⃣ Вставляем в открывшемся окне в поле «Your Open API Key» ключ, скопированный из текстового файла
8️⃣ Пользуемся ChatGPT

Плюс использования ChatWithGPT.ai в том, что с помощью функции «Customize system prompt» можно кастомизировать системный промпт (невидимое сообщение, вставляемое в начале чата, которое можно использовать для предоставления ChatGPT информации о себе и общих рекомендаций о том, как он должен реагировать). И ещё можно изменять параметр Temperature, который контролирует то, насколько рандомным будет ответ от GPT-модели

Ну или можно на шаге 4 остановиться и использовать ключ через OpenAI API с помощью скрипта на Python (пример). Запросы лучше делать через прокси или через зарубежный VDS, так как OpenAI скорее всего заблокирует ключ, если запросы будут идти через российский IP

Что важно понимать про покупные ключи: у них есть лимит в 5$, так что рано или поздно придётся покупать ещё один; а ещё срок жизни баланса на ключе — до 01.08.2023
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥3
В дополнение к предыдущему посту, поделюсь ещё одним способом использовать ChatGPT в обход официального интерфейса от OpenAI

Антон Жиянов (@dangry) сделал замечательную библиотеку Pokitoki, которая позволяет поднять своего бота с ChatGPT в Телеграме. Её к тому же можно подключать к групповым чатам в Телеге, чтобы можно было обращаться к боту сразу из группового чатика

Всё, что требуется:
- Ключ OpenAI API (можно взять свой или купить, пользуясь инструкцией из предыдущего поста)
- Сервер
- Сделать клон репозитория на сервер
- Запустить бота из докера

Кстати, если вы не знаете как создать сервер, клонировать репозиторий на сервер или поднять на сервере сборку из докера, то спросите у ChatGPT. Он с подобного рода вопросами справляется «на ура» 🙃
Наткунлся на статью про экономику больших языковых моделей (LLMs)

Что интересного:

💰 LLM-поиск уже экономически целесообразен: ориентировочно, стоимость LLM-поиска составляет всего ~15% от оценочной рекламной выручки с одного запроса сегодня, сверх существующих затрат на поиск

🤔 Однако экономическая целесообразность не означает экономическую разумность: для крупных поисковиков с $100 млрд выручкой от поиска добавление такого функционала может обойтись в $10 млрд дополнительных издержек

📈 Другие LLM-проекты высокоприбыльны: например, Jasper.ai , который недавно был оценен в 1,5 миллиарда долларов и использует LLM для генерации текстов, берет с пользователя примерно 82 доллара за 100 тысяч слов (эквивалент ~ 1,09 доллара за 1000 токенов). При использовании API от OpenAI по цене 0,02 доллара за 1000 токенов прибыль значительно превысит 75%

🏭 Обучение LLM (даже с нуля) не требует колоссального бюджета для крупных компаний: обучение GPT-3 обойдется в ~$1.4 млн в публичном облаке, а даже самые передовые модели, вроде PaLM, стоят ~$11.2 млн

⬇️ Стоимость LLM скорее всего значительно снизится: затраты на обучение и вывод модели с производительностью, сравнимой с GPT-3, упали на ~80% с момента выхода GPT-3 2,5 года назад

🔐 Ограничивающим фактором для LLM становятся данные: увеличение количества параметров модели может дать меньший эффект по сравнению с увеличением размера высококачественного набора обучающих данных

Текст статьи: https://sunyan.substack.com/p/the-economics-of-large-language-models
3👍2
Forwarded from Data Nature 🕊 (Alex Barakov)
Отлично проработанный Data Maturity Self Assessment Framework опубликован в паблик с удобными, понятными экселями для самооценки. Авторы - Британцы - UK Government Data Quality Hub разработали для своего правительства как страновой стандарт, на базе консалтингового продукта компании Data Orchard.. Не суть. Важно что модель хороша. не перегруженная и не поверхностная: 10 топиков, 97 критериев.

🔗 Описание в PDF
🔗
Self-assessment excel
🔗 Excel с описанием критериев (зачем то отдельно, удобнее все в один сложить)
🔗 Статья на Medium

🔥 Самое ценное - смысловое описание 5 градаций выраженности каждого критерия - в результате гайд задает понятные направления работы.

Мне понравились:
🔹 Критерий - Making data available to those who need it
Level 5: 'Data can be accessed and directly shared appropriately by all users who need it. All internal and external users can access data they need when they need it, without specialist support.'
🔹Критерий - Linking decisions that affect organisational outcomes to data
Level 5: 'Consistently links decisions that affect all critical and important organisational outcomes to data. Takes a customer-focused approach, incorporating the value that the organisation’s data has to its users into decision making.'
🔹Критерий - Collecting data with user needs in mind
Level 5: 'Has a clear understanding of the needs of the user providing data, and of user-centred design and methods in all relevant areas of the organisation. Fully embeds application of this understanding in product design and development from beginning to end.'

Прям чувствую, что не зря в команде выносим себе мозг, рисуя Analytics usecases maps и information demand matrices. 🤯
Капец какие же мы мачурные 😎

Тул будет полезен enterprise проектам с системным и массовым подходом в работе с данными. Которые при этом могут найти сейчас время для стратегического анализа 😅

Фреймворк может неплохо сочетаться с упражнением по разработке / обновлению data стратегии компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
Forwarded from BOGDANISSSIMO
ML LINKS

В недрах своего Notion откопал несколько подборок полезных статей, ссылок, видео по разным направлениям Machine Learning с которыми работал. Собрал их в одну кучу и делюсь с вами.

https://www.notion.so/uberkinder/b15ba7ccc032439bb5d282c8352f2e4e?v=0f9696310752456db047e94ab21c627f&pvs=4

Что имеем на момент 12/05/2023:

• Антифрод (36 ссылок)
• Ценообразование и прогноз спроса (17)
• Рекомендательные системы (42)
• A/B тесты (33, спасибо Валере)
• ML System Design (7)
• Ранжирование и поиск (6)

Список будет активно пополняться.
Буду благодарен репостам в ваши каналы и чаты.

#notion #links #ml #ml_system_design #mlsd #digest
👍11
🚀 Поговорим немного про важность насмотренности на тестовые (mock) собеседования для джуниор-специалистов при трудоустройстве на позиции аналитика данных и data scientist.

❗️ Тестовые собеседования - это отличный способ подготовиться к реальным интервью, понять свои сильные и слабые стороны и узнать о ключевых аспектах, на которые следует обратить внимание во время реального собеседования.

🎯 Смотря такие собеседования, можно оценить свой уровень знаний и точно знать, что нужно улучшить для успешного прохождения интервью. 🚀

Я собрал список полезных видео с тестовыми собеседованиями на разные позиции в сфере работы с данными :

🔹 Тестовое собеседование на позицию Junior Data Analyst

🔹 Собеседование на позицию аналитика данных

🔹 Собеседование на позицию продуктового аналитика

🔹 Собеседование на позицию Data Scientist

🔹 Собеседование на позицию Junior Data Scientist

🌟 Успешного прохождения собеседований и карьерного роста! 🐝
🔥15👍21
Запись вебинара «Коллективное использование аналитики в Yandex DataLens»

На вебинаре Роман Бунин, BI-евангелист Yandex DataLens и автор Telegram-канала Reveal the Data, поделился паттернами проектирования системы дашбордов и организации контента для компаний разного размера. Роман разобрал как теорию, так и практические советы по разработке системы отчётности в Yandex DataLens.

Темы для обсуждения:
🔹 права, доступы и сохранение нужного уровня безопасности;
🔹 работа и настройка доступа на уровне строк (RLS) в Yandex DataLens;
🔹 карта и система дашбордов для подразделений;
🔹 типы дашбордов и почему важно их разделять;
🔹 настройка кросс-ссылок между дашбордами;
🔹 будущая система управления контентом.

Ссылка на запись вебинара
👍5
Запись вебинара «Потоковый анализ данных с использованием serverless-технологий»

Анализ данных — не всегда про тяжеловесные корпоративные системы. Оперативная аналитика данных нужна для событий безопасности, алертинга в приложениях, реакции на действия пользователей.

На вебинаре рассказывается о подходах к построению систем потокового анализа с помощью serverless-сервисов Yandex Cloud, на реальных примерах показано, как сократить издержки на разработку таких систем и ускорить их внедрение.

Вы узнаете, как решать бизнес-задачи, не тратя при этом ресурсы на обслуживание инфраструктуры. На вебинаре рассматривается использование сервисов:
* Yandex Data Streams;
* Yandex Query;
* Yandex API Gateway;
* Yandex Cloud Functions.

Запись вебинара
Запись девятого онлайн-митап для продуктовых аналитиков от AvitoTech

С докладами выступили спикеры из Авито, Дзен и EXPF. Поговорили про построение репутационной системы, об автоматизации оповещений, о падениях или нездоровых взлётах метрик, а также о методах сокращения дисперсии.

➡️Программа

1️⃣Как «раскрасить» продавца или основные этапы построения репутационной системы в Авито Недвижимости — Людмила Кучина, Авито
Людмила рассказала, как Авито решили перейти от поиска плохих объявлений к определению «качества» продавца. Как в Авито оценивают качество контента, почему эту задачу не получилось решить с помощью ML, и главное, чем этот опыт может быть полезен вам.

2️⃣Алерты о падениях продуктовых метрик, или как не терять деньги? — Иван Еремеев, VK (Дзен)
Ваня рассказал об автоматизации оповещения о падениях или нездоровых взлётах продуктовых метрик, чтобы сразу оценивать масштаб проблемы в деньгах, и что это дало продукту.

3️⃣Ускорение экспериментов с помощью VWE — Егор Сёмин, EXPF
Егор рассказал, зачем сокращать дисперсию, как это влияет на время проведения эксперимента. А ещё затронул тему преимуществ пост- и предобработки данных и скажет, чем работа с Variance-Weighted Estimator отличается от других методов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Для всех, кто интересуется AI, нейронными сетями, машинным обучением, - мы собрали папку с материалами, как для новичков, так продвинутых датасаентистов.

Мы с авторами известных каналов, на каждый из которых я подписан более года подготовили для вас вот эту прекрасную ссылку: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy

Полезные материалы от разбора алгоритмической базы до продвинутых гайдов по нейроесетям, лайфаками с кодом.

Сохраняйте себе и отправляйте друзьям, в этой подборке каждый найдет что-то для себя: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy
👍5🔥21👎1
Принёс вам подборку каналов и чатов с вакансиями для аналитиков, data scientists и дата-инженеров

🟢 Datalytics Jobs — Канал с вакансиями для DA, DS, DE
🟢 Работа ищет аналитиков — Пожалуй, самый большой чат с вакансиями для аналитиков. Не только вакансии, но и чат, где можно обсудить наболевшие вопросы
🟢 Business Intelligence HeadHunter — Вакансии для BI-аналитиков и не только
🟢 Job for Analysts & Data Scientists — Вакансии для Digital-аналитиков и Data scientists от NewHR

Ещё больше каналов доступно в папке — https://news.1rj.ru/str/addlist/5bF19kBJLrI0NTQy
5🔥5👍2
Привет!
Предлагаем вашему вниманию подборку интересных статей из области Анализа данных:


Какая бывает аналитика: предиктивная, описательная и еще 2 вида аналитики больших данных
10+ книг по аналитике данных для начинающих и не только
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
Технологии big data: как анализируют большие данные, чтобы получить максимум прибыли
Что такое бессерверный SQL? И как использовать его для анализа данных?
30 лучших инструментов больших данных для анализа данных
БАЗОВЫЕ ВОЗМОЖНОСТИ ЯЗЫКА PYTHON ДЛЯ АНАЛИЗА ДАННЫХ
Как создать простой SQL запрос на выгрузку данных из базы
Сбор, консолидация и анализ данных - "Бизнес-аналитика и KPI"
Тест Шапиро-Уилка является тестом на нормальность
Факторный анализ для интерпретации исследования клиентского опыта
Почему ваш анализ данных может быть обречен с самого начала
Что читать аналитику данных: 7 современных книг для начинающих специалистов

❗️Ещё больше полезной информации про сбор, анализ и обработку данных, смотрите на канале: @data_analytics_it
👍10
Как аналитику выгружать большие датасеты? Как исправлять ошибки настройки памяти? И когда нужна выгрузка через консоль?

На эти и другие вопросы отвечает Александр Ледовский — тимлид команды аналитики и DS, который строит рекламные аукционы в Авито. В своем гайде он подробно рассказывает, как выгружать данные через toPandas и когда лучше воспользоваться его альтернативами.

👉 Если вы периодически работаете с большими датасетами, такая инструкция вам просто необходима: подробно описанный путь, подводные камни и рекомендации опытного специалиста. Жмите по ссылке и пользуйтесь!
👍21