Data Funk – Telegram
Data Funk
249 subscribers
195 photos
2 videos
1 file
73 links
Download Telegram
К имеющейся табличке ответов я добавил строчки сгенерированные случайно, с помощью LogicReg пробуя отличить ответ человека от рандома. Классификатор логической регрессии выдал 4 формулы, которые являются паттернами предпочтений людей:

Hawaiian pizza and Sushi and Jalapeño,

Lutefisk or Cockroach or Fugu or Balut or Century egg or Pig's trotters or Monkey brains,

Alligator meat or Rocky Mountain oyster or Durian or Frog legs,

(Salo or Rocky Mountain oyster or Locusts) and (not Pig's trotters or Salo)

Судя по третьей формуле, те кто пробовал мясо аллигатора близки с теми, кто ел дуриан, лапки лягушек или "устриц скалистых гор" (я только сейчас узнал что это).
Для отрисовки бинарной таблички на 2d хорошо подходит logistic PCA. Продукты из разных формул я обвел овалами что бы показать их близость. Для меня стало некоторым открытием, что проекция logistic PCA очень хорошо соотносится с логическими формулами, полученными на комбинации XOR функций.

Датасет взят тут -> https://www.kaggle.com/bsoyka3/have-you-ever-eaten-these-foods
Спустя 3 месяца вспомнил что есть этот канал, и пока все не отписались, пора запостить новых картинок. В руки попало немного данных анкет из OKCupid (сервис знакомств, вместе с Tinder и рядом других сервисов образуют компанию Match Group). Там можно поискать зависимости между тем, пишут о себе люди. Например, связь между полом и указанной высотой вполне очевидна (в среднем парни отмечают свой рост на 15 см выше девушек). При указании телосложения девушки в 51 раз чаще называют себя curvy (пышка), да парни определенно не любят себя так называть😁
Зато мужчины в 2.8 раза чаще по сравнению с женщинами отмечают что у них атлетическое телосложение (в 2.8 раза чаще выдумывают?). Ежегодный доход решили указать 12.9% девушек и 23.4% парней, и если они не врут, то медианные зарплаты мужчин на 20.000 долларов выше чем у женщин (60к против 40к). Впрочем, интересно будет выяснить как зависит эта разница от возраста и профессии, а также от того, употребляет ли человек алкоголь, курит ли, кто по знаку зодиака и т.д. все это указано в датасете.

Датасет взят тут -> https://www.kaggle.com/subhamyadav580/dating-site
В продолжении поста:
На графике представлено распределение доходов для обоих полов в США в зависимости от возраста + медиана распределения.
Доход растет примерно до 50+ лет у всех, далее у женщин он начинает уменьшаться, а у мужчин остается на том же уровне, но тут дело в том, что женщины в США до текущего года выходили на пенсию раньше мужчин. Если отбросить разницу в доходах после 60, то все равно медианная разница между полами составляет заметные 20000 долларов. Постепенно сокращаясь до 10000 к 50+ годам. Можно сделать осторожный вывод: более ранний выход женщин на пенсию усиливает и без того заметное экономическое неравенство между полами.
А вот с ростом все гораздо интереснее. Низкие парни (ниже 160 см) зарабатывают меньше девушек того же роста. При высоте 160-170 см наблюдается паритет в доходах, а после 170 см мужчины имеют доход выше, чем женщины с соответствующим ростом.
Нечасто слежу за тем, на какие каналы можно подписаться в тг, а автор @sv9t_channel подсказал что @danokhlopkov парсит разные сайты и выкладывает датасеты у себя в канале. Я покрутил спаршенный озон, там информация о товарах (цена, оценки юзеров, остатки в магазине, revenue, описание, ссылки на фото и прочее) по 22 категориям. Стало интересно продают ли бренды с максимально хорошими отзывами самые дорогие товары. Всегда ли дороже -> лучше ?
В категории электроника выбрал самые популярные продаваемые типы товаров (смартфоны, наушники и т.д.). Для каждого бренда средняя цена бралась как цены по каждому из его товаров (среди данного типа) взвешенная по остаткам в магазинах, а рейтинг озона перевзвешивался по количеству оставленных по товарам отзывов. Если говорить коротко - да, чем лучше отзывы, тем выше цена. Но это правило хорошо работает для сверх популярных товаров (телефонов, умных часов, наушников), но начинает буксовать для товаров с высокой долей небольших конкурирующих брендов (кабели, чехлы, ремешки для часов). Позже закину картинок по другим категориям товаров.

Датасет взят тут -> https://news.1rj.ru/str/danokhlopkov/630