NEW BOT Телеграм, страница

#ml
LTV prediction

12 views10:22

#ltv

A Deep Probabilistic Model for Customer Lifetime Value Prediction

https://telegra.ph/A-Deep-Probabilistic-Model-for-Customer-Lifetime-Value-Prediction-07-24

Telegraph

A Deep Probabilistic Model for Customer Lifetime Value Prediction

Хорошая статья 2019 года + разбор (я бы даже сказал, что одна из лучших статей, которые прочитал про LTV). Авторы представляют новую функцию потерь, чтобы учитывать минусы типичного процесса решения задачи предсказания LTV. Что ж, давайте разбираться, что…

12 views10:22

Интересное что-то

#petproject
Как проводить литературный обзор перед тем, как вы написали первую строчку кода

12 views10:26

Интересное что-то

Forwarded from DevFM

Любая работа по программированию начинается с анализа предметной области. Рекомендуется пара этих ресурсов - для русского и английского поиска.

https://cyberleninka.ru

https://www.researchgate.net

https://scholar.google.com/

В начале ищутся самые популярные статьи, потом следует подкрутить фильтры и взять самые свежие (не старше 5 лет, не старше 3 лет). Большую часть усилий стоит сосредоточить на англоязычных источниках. Очень важно изучить существующие открытые проекты на гитхабе.

Видео можно искать так
https://research.google.com/youtube8m/explore.html

Интересные рассмотренные статьи необходимо заносить в список с небольшой аннотацией.Такой список позволит в большей степени понимать и ориентироваться в предметной области. Например,

1. <ссылка>. Работа на "хорошо". В работе есть данные по нейросети, которая с 80% точностью распознаёт человека в маске. Ссылка на программу есть, на датасет нет. Напрямую применить нельзя, но можно взять часть про нормализацию кадра

2. <ссылка>. Выглядела на "отлично", по факту бред. Литературы нет, написано на коленке

Пример:
1. https://cyberleninka.ru/article/n/mnogokriterialnaya-otsenka-kachestva-fotografiy/viewer В статье рассматриваются различные критерии качества изображений, а также их количественная оценка. Из полезного: оценка резкости изображения, что может быть полезно для выделения одного наиболее информативного кадра в потоке на заданном промежутке времени. Есть математические операции по подсчету, а также примеры использования OpenCV для получения количественных оценок

2. https://cyberleninka.ru/article/n/algoritmy-predobrabotki-izobrazheniy-v-sisteme-identifikatsii-lits-v-videopotoke/viewer В статье описывается алгоритмы предобработки изображений для их последующей обработки. Сюда входит
- Обесцвечивание
- Выравнивание гистограммы яркости изображения
- Выравнивание изображения относительно вертикальной оси симметрии лица (по возможности)
- Масштабирование

3. https://www.researchgate.net/publication/341892534_VIDEO_DATA_QUALITY_IMPROVEMENT_METHODS_AND_TOOLS_DEVELOPMENT_FOR_MOBILE_VISION_SYSTEMS В статье производится сравнение подходов однопоточной и многопоточной мобильной обработки видео, зависимость скорости обработки видео от его разрешения, а также приводятся примеры перехода из пространства RGB в YUV на OpenCV с целью оценки освещенности изображения

4. https://github.com/shubham0204/Age-Gender_Estimation_TF-Android Приложение под Android, определяющее пол и возраст человека на изображении. Прилагаются скриншоты результатов распознавания. Если с точностью определения пола все хорошо, то c определением возраста как-то не очень (числовые оценки не приводятся). Есть ссылки на датасет и блокноты в Colab, которые экспортируют модели TFLite (используется в приложении для Android). Из полезного можно вынести на мобилку модель для определения пола.

#sudo

КиберЛенинка

КиберЛенинка предоставляет возможность читать тексты научных статей бесплатно. Приглашаем к сотрудничеству научные журналы и издательства…

Научная электронная библиотека КиберЛенинка предоставляет возможность читать тексты научных статей бесплатно. Приглашаем к сотрудничеству научные журналы и издательства для публикации научных работ в открытом доступе (Open Access) и популяризации науки в…

16 views10:26

Интересное что-то

#interesting
Как подбирать себе ThinkPad:

https://github.com/ThinkPadThink/Thinkpadthinkpad

GitHub

GitHub - ThinkPadThink/Thinkpadthinkpad: Гайд по покупке Б/У ноутов ThinkPad.

Гайд по покупке Б/У ноутов ThinkPad. Contribute to ThinkPadThink/Thinkpadthinkpad development by creating an account on GitHub.

13 views10:32

Интересное что-то

#ml
Валидация данных

13 views13:10

Интересное что-то

Forwarded from Инжиниринг Данных (Dmitry)

Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.

GitLab

Files · master · binderhub / testing-data-pipelines-with-data-validation · GitLab

Instructors: Han Wang and Kevin Kho

17 views13:10

Интересное что-то

#ml
Плейлист с выступлениями по визуализации: https://www.youtube.com/playlist?list=PL_yqdE3j5wTCJxy6J5bqSkCs0KxCWVAVL

YouTube

30 Cool DataViz Talks

Подборка классных выступлений на тему визуализации данных

18 views13:15

Интересное что-то

#sql #interview

17 views13:49

Интересное что-то

Forwarded from Базы данных & SQL

50 популярных вопросов и ответов на собеседовании по SQL Server

Читать статью

20 views13:49

Интересное что-то

#career
Описание грейдов Авито

18 views13:56

Интересное что-то

Forwarded from data будни (Саша Михайлов)

↑ год назад кидал ссылку на описание урвоней аналитиков в Яндексе

сейчас наткнулся на похожий материал про разработчиков в Авито, аккуратно оформленный в Гитхабе
https://github.com/avito-tech/playbook/blob/master/developer-profile.md

интересно почитать про разные уровни. Особенно интересно, что хард скиллы — это один из 8 блоков навыков, на которые смотрят при оценке инженера.

вот все:
- Экспертность.
- Инженерная культура.
- Ответственность за результат.
- Ориентация на бизнес.
- Agile Mindset.
- Коммуникация.
- Развитие себя и обучение других.

17 views13:56

Интересное что-то

#visualization

15 views13:58

Интересное что-то

Forwarded from Reveal the Data

Lords of the Boards
Саша Бараков подготовил отличный гайдлайн для BI-проектов: визуальная версия в Miro | последовательный чек-лист | лонгрид. Контент один, просто разный формат. Похвалю и покритикую его, у нас с Сашей часто дружеские BI-дебаты. )

🏄‍♂️ Гайдлайн крутой, он полностью описывает жизненный цикл BI-проекта, есть все необходимые шаги и его можно использовать как стандарт для сбора требований. Круто, что он начинается с минус седьмого шага и только в шаге номер 0 мы решаем делать дашборд или нет. Это очень показательно и стоит относиться к этому именно так, а не делать дашборд на любой чих.

💪 Понравились ролевые стратегии BI-аналитика в проекте: like a god; a boss; a partner; an executor; a friend; a slave. Это понятное деление помогает понять в какой роли вы находитесь в проекте и не расстраиваться, когда вас воспринимают «как руки», это тоже рабочая схема, но просто не такая эффективная или для других схем есть блокеры. В зависимости от ситуации может работать любая стратегия, но целевая, я считаю, должна быть like a partner.

🤔 Не согласен с установкой «заказчик чаще не прав», сформулировал бы как «заказчик не знает какое решение, решает его задачу лучшим образом» или «не делай дашборд по макету заказчика». Это важно, так как можно подумать, что стоит считать, что заказчик не знает как делать его работу. И это проблема аналитиков — иногда они думают, что если заказчик не отличает тримап от скаттерплота, то с ним вообще не о чем говорить. Такая установка будет мешать — заказчик и исполнитель равноценные партнеры со своими правами и обязанностями. Недавно приводил похожие примеры в Q&A. И вообще используйте тактику Коломбо.

🤯 «68 пунктов чек-листа, Карл!» — это крутой учебный материал, но для ежедневного применения многовато. Я вот планирую упрощать свой Dashboard Canvas из 9 пунктов.

PS: У Саши в сентябре стартует курс «Разработка BI Стратегии» для BI менеджеров и тим-лидов, курс для узкой аудитории, но очень для неё полезный, крайне рекомендую. Проходил первый поток, мой отзыв.
#ссылка

16 views13:58

Интересное что-то

#dl #cv

15 views14:31

Интересное что-то

Forwarded from Борис опять

Статья про BEiT-3 (https://arxiv.org/abs/2208.10442), новую SOTA Foundational модель для CV и Image-text задач, оказалась очень бедна на тему того, как именно авторы токенизируют изображения и тексты. Это ведь самое главное, так как основа прорыва модели в способности представить обе модальности в виде последовательности токенов.

Нашел отличный, очень глубокий разбор. Изображение делится на патчи, которые потом энкодятся в дискретные токены с помощью VQ-VAE. Дискретные токены означают, что составляется алфавит для изображений. По сути сжатие с потерями: все возможные изображения-входы сопоставляются одному из 8192 изображений-токенов. Закапываясь глубже в то, что же это за токены, оказывается, что происходит маппинг из 2^24 возможных комбинаций RGB в 2^13 новых "цветов".

https://towardsdatascience.com/almost-any-image-is-only-8k-vectors-c68c1b1aa6d2

Medium

Almost Any Image Is Only 8k Vectors

An image representation that’s a close analog for words in generative tasks

23 views14:32

Интересное что-то

#algo #interview
Чат-бот с частыми задачами на алгоритмы в 130 компаний https://www.reddit.com/r/csMajors/comments/jb4idf/i_created_a_free_chat_bot_that_gives_access_to/

From the csMajors community on Reddit: I created a free chat bot that gives access to over 130 companies' coding interview questions

Explore this post and more from the csMajors community

24 views17:47

Интересное что-то

#algo
О том, что заботать в первую очередь по алгоритмам

22 views20:10

Интересное что-то

Forwarded from ДНСЙ 🫀

Какие алгоритмы необходимы на собеседованиях? Лови подборку алгоритмической базы, с которой можно начать подготовку 👆

PS: мы упустили одну важну тему🤨 Напиши ее и самые частые задачи в комментах и получи по задаче с собесов в Яндекс, Meta, Jane Street, Amazon в лс🤘

16 views20:10

About

Blog

Apps

Platform