NEW BOT Телеграм, страница

Data Funk

Логистическое уравнение часто используется как первое приближение описания динамики населения, распространения заболеваний или идей. Благодаря спаршенным данным с топика реддит (R/AskReddit) по одним и тем же сообщениям в разное время, можно заметить что динамика логарифма суммарного числа голосов (upvote - downvote) очень похожа на логистическую функцию A/(1 + B*exp(-K*t)), к тому же это позволяет легко вычислять различные аналитические приближения статистик. Например, у каждого поста есть предел насыщения по числу голосов и половину от этой величины пост набирает в среднем за 2.2 часа, а 99% голосов менее чем за сутки. На графиках представлена реальная динамика оценок и логистическое приближение.

Датасет взят тут -> https://www.kaggle.com/camerinfigueroa/raskreddit

👍1

304 views12:07

Data Funk

Приветик. Пока думал какой датасет повертеть, вспомнил про автоэнкодеры и как они замечательно оверфитятся (и как этому мало уделяют внимания, когда занимаются снижением пространства фичей). Всегда найдется автоэнкодер, который сможет любой ваш датасет протолкнуть через один единственный нейрон (выход кодировщика) без ошибок, считайте что он придумает свой индекс как в базе данных на каждую строчку вашей таблички. Но интересно что порядок этого индекса не случайный, это можно назвать условным "временем" для всех точек датасета. Я прогнал небольшую спираль с шумом через автоэнкодер в полярных и декартовых координатах. В полярных "время" движется вдоль самой спирали, а в осях x,y индексация идет под углом к ним, словно последовательно штрихует все точки, не пропуская и не перепрыгивая их.

👍3🤔2

241 views07:59

Data Funk

Куда же без ирисов. "Время" здесь чаще двигается в кластерах классов цветков, чем между ними.

👍1

238 views08:13

Data Funk

Если вдруг вы хотите заэмбеддить вкусы ингредиентов из рецептов, то правильный путь это сделать так же как в совместном проекте от Sony и Корейского университета - FlavorGraph. Они составили две матрицы, одна попарные вхождения ингредиентов в одно блюдо и вторая - химический состав этих ингредиентов, далее на этом учили графовые сетки. Но это сложный путь, а их готовые эмбединги я не нашел (и автор проекта не отвечает по почте).

👍3

210 views11:05

Data Funk

Но если взять просто названия ингредиентов и прогнать через готовый энкодер (например Universal Sentence Encoder), получается вполне сносно. Похожие продукты лежат рядом.

👍3🔥1

220 views11:06

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

Недавно Google опубликовал работу по подгонке изображений с помощью треугольников и эволюционных стратегий. Эта Мона Лиза состоит из 50 треугольников и 10000 итераций модели, оптимизировали косинус между исходной картинкой и подогнанной.
https://es-clip.github.io/

👍1

557 views16:30

Data Funk

Я тоже немного поэкспериментировал с картинками и с помощью генетического алгоритма и кружков отрисовал Райана Гослинга (если смотреть очень из далека). 100 кругов, чуть менее 2000 итераций.

214 views16:31

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

250 views16:31

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

Эйнштейн. Генетический алгоритм, 100 кругов, 2000 итераций.
С картинками в ЧБ и без лишнего фона получается чуть лучше.

👍2

266 views06:12

Data Funk

В базе публикаций Scopus можно оценить как меняется тематика статей по множеству направлений исследований. На картинке пятилетняя динамика топ-3 тегов, отсортированных по pagerank на графах ключевых слов используемых в статьях Computer Science. В публикациях прекращают использовать ранее популярные термины вроде сложных или нейронных сетей и теперь это просто глубокое обучение. Кроме deep learning сохраняют популярность работы связанные с блокчейном и интернетом вещей. С другой стороны стали уделять меньше внимания алгоритмам и оптимизации. Быстро теряет популярность употребление слова human - современные модели больше не сравнивают с человеком.

Датасет взят тут -> https://www.kaggle.com/datasets/ammarabbasi/scientific-publication-khalifa-university-sci-tech

👍3

367 views12:24

Data Funk

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

Комплексное преобразование Фурье позволяет разложить двумерную картинку на множество гармонических компонент. Собрал их обратно, добавляя по одной, пока не появится исходный портрет Стива Джобса.

🔥8

186 views11:22

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

PCA часто используется для скучного проецирования эмбедингов в пространство меньшей размерности или борьбы с мультиколлинеарностью. Но он также умеет удалять статичный фон на видео, например на этом.

208 views20:58

Data Funk

Разворачиваем каждый кадр (трехмерный тензор) в вектор и собираем их по времени (здесь три полосы это три цветовых канала).

234 views20:59

Data Funk

С помощью PCA выделяем первую компоненту и этого достаточно для идентификации фона.

👍1

272 views20:59

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

Остальные компоненты сохраняют в себе движущиеся элементы видео.

👍7

292 views20:59

Data Funk

ping

🤯2

182 views11:11

Data Funk

This media is not supported in your browser

VIEW IN TELEGRAM

На графике изменение плотности населения стран и отношения числа женщин к числу мужчин с 1950 по 2022 и далее рогноз до 2100. Несмотря на то, между этими демографическими параметрами имеется небольшая положительная корреляция, для каждой странны в отдельности с течением времени она так же не большая, но отрицательная. Это один из наглядных примеров парадокса Симпсона. На историческом промежутке до 2022 сильнейшую положительную связь между указанными показателями продемонстрировали Уругвай, Шри-Ланка и Бразилия, а отрицательную Великобритания, Россия и Австрия.

Датасет взят тут -> https://www.kaggle.com/datasets/ahmedemadeldin/world-population-2022-by-sex-cleaned

286 views11:11

Data Funk

Тернарная диаграмма полезна для относительного отображения трех переменных (x,y,z) на двумерной плоскости (с условием x+y+z=100), например можно наглядно сравнивать пищевую ценность (количество белков, жиров, углеводов) по схожим продуктам из разных стран используя данные OpenFoodFacts.

170 views06:45

Data Funk

Апельсиновый сок (не считая воды) почти весь из углеводов независимо от географии.

180 viewsedited 06:45

About

Blog

Apps

Platform