Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
#ml
Валидация данных
Forwarded from Инжиниринг Данных (Dmitry)
Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
​​50 популярных вопросов и ответов на собеседовании по SQL Server

Читать статью
#career
Описание грейдов Авито
Forwarded from data будни (Саша Михайлов)
↑ год назад кидал ссылку на описание урвоней аналитиков в Яндексе

сейчас наткнулся на похожий материал про разработчиков в Авито, аккуратно оформленный в Гитхабе
https://github.com/avito-tech/playbook/blob/master/developer-profile.md

интересно почитать про разные уровни. Особенно интересно, что хард скиллы — это один из 8 блоков навыков, на которые смотрят при оценке инженера.

вот все:
- Экспертность.
- Инженерная культура.
- Ответственность за результат.
- Ориентация на бизнес.
- Agile Mindset.
- Коммуникация.
- Развитие себя и обучение других.
Forwarded from Reveal the Data
Lords of the Boards
Саша Бараков подготовил отличный гайдлайн для BI-проектов: визуальная версия в Miro | последовательный чек-лист | лонгрид. Контент один, просто разный формат. Похвалю и покритикую его, у нас с Сашей часто дружеские BI-дебаты. )

🏄‍♂️ Гайдлайн крутой, он полностью описывает жизненный цикл BI-проекта, есть все необходимые шаги и его можно использовать как стандарт для сбора требований. Круто, что он начинается с минус седьмого шага и только в шаге номер 0 мы решаем делать дашборд или нет. Это очень показательно и стоит относиться к этому именно так, а не делать дашборд на любой чих.

💪 Понравились ролевые стратегии BI-аналитика в проекте: like a god; a boss; a partner; an executor; a friend; a slave. Это понятное деление помогает понять в какой роли вы находитесь в проекте и не расстраиваться, когда вас воспринимают «как руки», это тоже рабочая схема, но просто не такая эффективная или для других схем есть блокеры. В зависимости от ситуации может работать любая стратегия, но целевая, я считаю, должна быть like a partner.

🤔 Не согласен с установкой «заказчик чаще не прав», сформулировал бы как «заказчик не знает какое решение, решает его задачу лучшим образом» или «не делай дашборд по макету заказчика». Это важно, так как можно подумать, что стоит считать, что заказчик не знает как делать его работу. И это проблема аналитиков — иногда они думают, что если заказчик не отличает тримап от скаттерплота, то с ним вообще не о чем говорить. Такая установка будет мешать — заказчик и исполнитель равноценные партнеры со своими правами и обязанностями. Недавно приводил похожие примеры в Q&A. И вообще используйте тактику Коломбо.

🤯 «68 пунктов чек-листа, Карл!» — это крутой учебный материал, но для ежедневного применения многовато. Я вот планирую упрощать свой Dashboard Canvas из 9 пунктов.

PS: У Саши в сентябре стартует курс «Разработка BI Стратегии» для BI менеджеров и тим-лидов, курс для узкой аудитории, но очень для неё полезный, крайне рекомендую. Проходил первый поток, мой отзыв.
#ссылка
Forwarded from Борис опять
Статья про BEiT-3 (https://arxiv.org/abs/2208.10442), новую SOTA Foundational модель для CV и Image-text задач, оказалась очень бедна на тему того, как именно авторы токенизируют изображения и тексты. Это ведь самое главное, так как основа прорыва модели в способности представить обе модальности в виде последовательности токенов.

Нашел отличный, очень глубокий разбор. Изображение делится на патчи, которые потом энкодятся в дискретные токены с помощью VQ-VAE. Дискретные токены означают, что составляется алфавит для изображений. По сути сжатие с потерями: все возможные изображения-входы сопоставляются одному из 8192 изображений-токенов. Закапываясь глубже в то, что же это за токены, оказывается, что происходит маппинг из 2^24 возможных комбинаций RGB в 2^13 новых "цветов".

https://towardsdatascience.com/almost-any-image-is-only-8k-vectors-c68c1b1aa6d2
#algo
О том, что заботать в первую очередь по алгоритмам
Forwarded from ДНСЙ 🫀
Какие алгоритмы необходимы на собеседованиях? Лови подборку алгоритмической базы, с которой можно начать подготовку 👆


PS: мы упустили одну важну тему🤨 Напиши ее и самые частые задачи в комментах и получи по задаче с собесов в Яндекс, Meta, Jane Street, Amazon в лс🤘
#dl
Материалы по диалоговым ассистентам
Не так давно искал материал по диалоговым ассистентам, скину то, что нашел в диалогах у себя, может что-то полезно будет.
Понравились статьи от DeepPavlov:
https://habr.com/ru/company/mipt/blog/527670/
https://medium.com/deeppavlov/how-to-build-simple-ai-assistant-with-deeppavlov-dream-b2bba1412eb2
https://deeppavlov-agent.readthedocs.io/en/latest/intro/overview.html
https://medium.com/deeppavlov/how-did-we-enhance-dialogue-management-in-dream-socialbot-d88057999132
https://d7qzviu3xw2xc.cloudfront.net/alexa/alexaprize/docs/sgc4/MIPT-DREAM.pdf
Сбер - 1. https://habr.com/ru/company/sberdevices/blog/589969/
2. https://sbercloud.ru/ru/datahub/rugpt3family/demo-ru-gpt3-xl
Создание генеративного чат-бота с личностью на основе GPT - https://medium.com/huggingface/how-to-build-a-state-of-the-art-conversational-ai-with-transfer-learning-2d818ac26313
MEND - https://sites.google.com/view/mend-editing
DialoGPT -
1. https://towardsdatascience.com/make-your-own-rick-sanchez-bot-with-transformers-and-dialogpt-fine-tuning-f85e6d1f4e30
2. https://github.com/microsoft/DialoGPT
3. https://arxiv.org/pdf/1911.00536.pdf
4. https://nathancooper.io/i-am-a-nerd/chatbot/deep-learning/gpt2/2020/05/12/chatbot-part-1.html
Тут по метрикам что-то было вроде:
https://arxiv.org/abs/2001.09977
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
Остальное:
https://www.youtube.com/watch?v=lM6a9e1t-mA
https://arxiv.org/abs/1909.05858