настенька и графики – Telegram
настенька и графики
27.3K subscribers
2.65K photos
84 videos
15 files
3.19K links
Датавиз, аналитика и всякое полезное и интересное

💜 Кто я и что делаю: https://nastengraph.notion.site/nastengraph/Anastasiya-Kuznetsova-096ebfb42a9e4014b7700fa00fea54d6

🎓 Мой курс по основам датавиза: https://nastengraph.ru/
Download Telegram
Блинчики! А это уже по странам
Forwarded from Яндекс
Так выглядит расстановка сил среди русских рэп-исполнителей на карте России. Кажется, борода является важным, но не решающим критерием успеха. По ссылке — подходящий плейлист на Яндекс.Музыке: ya.cc/5rVS4
датасатанисты опять говорят на своем непонятном 🎈

Мне тут скинули очень интересный пост про то, что в компаниях должны быть переводчики с датасаинтистского и аналитического на менеджментский. Ну как-то так получается, что люди вроде в одной компании работают, но не всегда понимают друг друга. Что больше всего меня радует, что перевод должен быть не на человеческий, а именно на язык менеджеров.

И на самом деле, в больших компаниях особенно сильно грешат этими официальностями и можно было бы уже даже словарики заводить. Аналитики любят употреблять сложные слова, суть которых понимают только люди, работающие с данными, а менеджеры любят все сводит к отчетности и официальности. Понять можно обе стороны - это явно сразу придет +10 очков гриффиндору и они выглядят куда более умными и знающими. И еще что делают что-то такое очень сложное, понятное только им. Но проблема в том, что когда понимают только они, то и вся работа становится бессмысленной. Аналитики могут сколько угодно делать по-настоящему важные вещи и строить дикие модели, но если их не понимают все остальные, то зачем оно вообще все?

📈Вот например, эффективность рекламных кампаний и каналов следует анализировать по весам модельной атрибуции, то есть по относительному вкладу кампании или канала в конверсию пользователя. Не просто купил/не купил, а через какие каналы он зашел до покупки и какие каналы подвигли к конверсии. Но проблема в том, что бОльшая часть менеджеров знать не знают, что это за веса и они любят обычные абсолютные числа. Или же аналитики часто создают новые показатели (несомненно важные и замечательные), но только они и могут потом ими оперировать. Неслабая такая проблема, да? Я не утверждаю, что такое есть во всех компаниях, я уверена, что есть много примеров эффективной и слаженной работы всех отделов организации, но лучше ведь, когда везде все понимают, что творится.

🗣Собственно, автор поста @asebrant на своем канале https://news.1rj.ru/str/techsparks говорит о том, что таким переводчиком должен быть руководитель отдела аналитики. И на самом деле, да, он действительно должен понимать, как и что происходит. Но лучше бы, когда аналитика сидит во всей компании и распространяется на всех! Прямо на всех-всех. Это вообще моя идеальная модель, когда все понимают, что без данных никуда. Когда контентщики думают о правильном расставлении ссылок с метками, понимая, что именно это поможет им отследить их работу. Когда отделы продаж имеют некоторое представление о предиктивной аналитике и понимают важность правильного и четкого заполнения баз данных. Короче, когда люди думают о данных и возможностях, которые они дают.

И еще из моего личного видения, что к такой идеальной модели должны приближать дэшборды. Но не просто с набором цифр и графиков, а зачастую прямо с кусочками текста и пометками, что из этих данных и графиков можно получить. Чтобы дэшборд был не только способом анализа информации, а гайдом к действию - что и где изменить.
Понятный график?
Надеюсь, с Tableau все будет ок
Forwarded from vc.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Американская компания Salesforce купила разработчика платформы для визуализации и аналитики данных Tableau, которой пользуются PepsiCo, Pfizer и другие крупные организации.

Сумма сделки составила $15,7 млрд. Это крупнейшее приобретение в истории Salesforce

vc.ru/finance/71039
У меня сегодня День Рождения 🎈

И не у меня одной))) Вот отличный пост на пуддинге о неуникальности «нашего» дня. Тут можно стать частичкой данных ❤️

https://pudding.cool/2018/04/birthday-paradox/
Крутой рисеч от финских исследователей, где мы чувствуем эмоции. Например, радость и страх мы чувствуем в одном месте!
а еще они все заMAPили и получилась вот такая красота
and not for dataviz
Как текстовый анализ может вам помочь

Начнем с того, что такое вообще текстовый анализ. Думаю, итак понятно, что это просто анализ текстовых данных, но условно его можно разделить на качественный и количественный - или когда текст обрабатывается вручную и с помощью программирования. Собственно, на втором способе я и хочу остановиться.

Сейчас, когда все активно используют анализ данных в бизнесе, текстовую информацию тоже пытаются обработать. Причем полезно это маркетологам, контентщикам, SEOшникам и всем-всем-всем. Самое сложное в работе с текстами (особенно русскими) - это их чистка. В самом начале обязательно нужно убрать пунктуацию, стоп-слова. Стоп-слова - это зачастую слишком частотные или слишком редкие, союзы, междометия, местоимения - все то, что не несет никакой смысловой нагрузки. Прямо ну вообще. Встроенные списки стоп-слов есть в пакетах для текстового анализа, поэтому можно за основу брать их и расширять. Следующим этапом всегда идет лемматизация (приведение к начальной форме) или стемминг (нахождение основы слова). Лучше первое и благодаря Яндексу можно это делать и на русском тоже. После этого уже можно что-то делать.

1. Подсчет частотности
Самое простое, что есть в текстах. Вывод даже просто частотных слов может уже дать небольшое понимание о текстовых данных. Например, если вы возьмете отзывы к своим продуктам, то самые частотные слова по отзывам к продуктам уже дадут какую-то информацию о том, что пишут в отзывах. Это не самый надежный способ, но простой и сделать это все можно практически по первой ссылке в гугле. Также можно выделять n-граммы (последовательности из слов) и считать частотность уже по ним.

2. Сентимент-анализ (или анализ тональности текста)
В бизнесе его в основном используют для понимания мнения об организации или продукте. Самое сложное здесь найти правильный словарь для оценки сентиментов, где слова размечены как позитивные, негативные или нейтральные. Это будет полезно, если вы соберете все тексты с упоминаниями компании и проведете сентимент анализ, сравнив количество негативно и позитивно окрашенных слов. Есть сервисы, которые собирают упоминания названия компании и проводят такой анализ автоматически.

3. Тематическое моделирование
Это то, что поможет вам узнать суть текста, не читая его. Работает только на больших данных и самый популярных алгоритмов на данный момент - LDA (Латентное размещение Дирихле). Алгоритм ищет слова, которые часто встречаются вместе в текстах и группирует их в темы. В свою очередь, каждый документ состоит из различных тем, в зависимости от слов, которые в нем встречаются. Самое сложное подобрать нужное количество тем и натренировать модель. Например, если вы хотите посмотреть, про что пишут ваши конкуренты, то можно скачать их тексты и посмотреть, про что они пишут.

Из последнего про контент мне особенно понравилась идея Дэвида Робинсона про анализ статей на Medium и какие из них получают больше клэпов. Я потом сделала такое же только для Хабра и статей, которые находятся там в сохраненках. Сеточки и тексты вместе - штука поистине необыкновенная. Так получились сеточка связей между словами (нахождение друг за другом), размер узла слова означал частотность, а цвет - количество сохранений. То есть слова с самым темным цветом и маленького размера, это, скажем так, редкие, но очень "в тему" статьи. А из этого можно целый контент план про актуальность тем построить!
Короче тексты - это сила, особенно, когда их много. Это, конечно, лишь маленький кусочек, чего разного прикольного можно делать с текстами и как это визуализировать. Если в программирование не хочется, то есть куча разных сервисов, где так или иначе можно реализовать эти и другие методы.

Лучшее про тексты на R от Джулии Силдж и Дэвида Робинсона https://www.tidytextmining.com
Мы с Алексеем Горадзе чуть-чуть про тексты на R User Group https://youtu.be/7YykViYej4E
MyStem от Яндекса https://yandex.ru/dev/mystem/
Мой копипсат Дэвида Робинсона с Хабром https://vk.com/wall-171735433_122

Если есть вопросы - я всегда рада на них ответить!
Я вообще очень сеточки люблю! Сделать пост про сетевой анализ кратенький? Если что-то конкретное интересно - напишите мне в лс, про что написать 🦊