Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
Решил сделать похожую штуку для продуктовых/web/marketing аналитиков. Но профессия аналитик довольно размыта, поэтому почистил список от 1С, business и system версий вакансий. И даже в нечетких границах определения удается сформировать ключевые требования для людей с опытом 3 и более лет. Это в первую очередь инструменты pandas, jira, power bi, знание различных видов анализа, информационной безопасности и управления проектами, а также грамотность и грамотная речь (умение хорошо говорить - жирный плюс к скиллам аналитика). А для позиций с опытом менее 3 лет ожидают аналитический склад ума🤦‍♂️, умение сводить таблички в excel, crm, google tag manager + яндекс.метрика, мат.статистика и заманивают работой с большим объемом информации. Если кто-то из Ваших знакомых хочет ворваться в IT джуном аналитиком и думает какие курсы пройти, скажите что можно вообще ничего не изучать. На hh есть вакансии аналитиков где один из ключевых навыков - пользователь пк! Доступная профессия!🦾
Для не персональных рекомендаций часто используют такую метрику ассоциаций как lift, которая показывает во сколько раз шанс приобрести два товара вместе выше шансов взять их не зависимо друг от друга. Используя датасет фильмов и просмотров KION между любой парой фильмов можно оценить lift и представить все это в виде графа. Я использовал InfoMap кластеризацию, что бы выделить информативные участки (InfoMap, в отличии от других классических алгоритмов графовой кластеризации не пытается увеличить модулярность, он случайно шагает по вершинам и старается передать нам как можно меньше информации о своем пути, то есть, если половину всего времени мы двигаемся через одну ноду, то достаточно для нее передать 1 бит информации, а не популярные вершины будут закодированы самыми длинными сообщениями, и если мы попали в плотный кластер, то можно под него выделить отдельный словарь и еще сильнее сжать информацию).
InfoMap собрал фильмы в кластера, и самым большим оказался набор популярных мировых фильмов (Мстители, Зверополис, Ford против Ferrari и т.д.), во втором чаще встречаются новые (после 2019 года) российские фильмы и сериалы (Холоп, Содержанки, Последний богатырь и т.д.), в третьем менее популярные, чем в первом кластере, криминальные картины (Гнев человеческий, Острые козырьки и т.д.). В четвертом кластере собрались российские мелодрамы, а в пятом фильмы про войну. Интересно что, военные и криминальные картины расположились рядом, а российские сериалы и новые фильмы рядом с российскими мелодрамами. Исходный граф не влез красиво в картинку, пришлось рисовать только его плотные кластера.

Датасет взят тут -> https://www.kaggle.com/asenin/kion-dataset
👍2
Кстати, если lift матрицу фильмов линейно спроецировать на плоскость с помощью PCA, первая координата отлично описывает популярность фильма, а вторая возрастной рейтинг, хотя ни то, ни другое для подсчета lift не используется.
Логистическое уравнение часто используется как первое приближение описания динамики населения, распространения заболеваний или идей. Благодаря спаршенным данным с топика реддит (R/AskReddit) по одним и тем же сообщениям в разное время, можно заметить что динамика логарифма суммарного числа голосов (upvote - downvote) очень похожа на логистическую функцию A/(1 + B*exp(-K*t)), к тому же это позволяет легко вычислять различные аналитические приближения статистик. Например, у каждого поста есть предел насыщения по числу голосов и половину от этой величины пост набирает в среднем за 2.2 часа, а 99% голосов менее чем за сутки. На графиках представлена реальная динамика оценок и логистическое приближение.

Датасет взят тут -> https://www.kaggle.com/camerinfigueroa/raskreddit
👍1
Приветик. Пока думал какой датасет повертеть, вспомнил про автоэнкодеры и как они замечательно оверфитятся (и как этому мало уделяют внимания, когда занимаются снижением пространства фичей). Всегда найдется автоэнкодер, который сможет любой ваш датасет протолкнуть через один единственный нейрон (выход кодировщика) без ошибок, считайте что он придумает свой индекс как в базе данных на каждую строчку вашей таблички. Но интересно что порядок этого индекса не случайный, это можно назвать условным "временем" для всех точек датасета. Я прогнал небольшую спираль с шумом через автоэнкодер в полярных и декартовых координатах. В полярных "время" движется вдоль самой спирали, а в осях x,y индексация идет под углом к ним, словно последовательно штрихует все точки, не пропуская и не перепрыгивая их.
👍3🤔2
Куда же без ирисов. "Время" здесь чаще двигается в кластерах классов цветков, чем между ними.
👍1
Если вдруг вы хотите заэмбеддить вкусы ингредиентов из рецептов, то правильный путь это сделать так же как в совместном проекте от Sony и Корейского университета - FlavorGraph. Они составили две матрицы, одна попарные вхождения ингредиентов в одно блюдо и вторая - химический состав этих ингредиентов, далее на этом учили графовые сетки. Но это сложный путь, а их готовые эмбединги я не нашел (и автор проекта не отвечает по почте).
👍3
Но если взять просто названия ингредиентов и прогнать через готовый энкодер (например Universal Sentence Encoder), получается вполне сносно. Похожие продукты лежат рядом.
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно Google опубликовал работу по подгонке изображений с помощью треугольников и эволюционных стратегий. Эта Мона Лиза состоит из 50 треугольников и 10000 итераций модели, оптимизировали косинус между исходной картинкой и подогнанной.
https://es-clip.github.io/
👍1