iggisv9t channel – Telegram
Forwarded from qtasep 💛💙
Почему я этого не замечал раньше в статье про пуассоновское распределение?!

https://en.wikipedia.org/wiki/Poisson_distribution

Tyggigúmmí á gangstétt í Reykjavík
Jóhann Heiðar Árnason
😁125👍1
iggisv9t channel
Здесь чуть больше 111К акканутов. Дальше будет подробнее
Теперь больше похоже на правду. Тут уже 373К профилей и собираются ещё. Зелёный — это инфосек, фиолетово-розовый — mastodon.social, ярко-розовый кусочек слева сверху — piaille.fr. Подожду миллиончик и буду разбираться кто там.
5👍1
iggisv9t channel
Теперь больше похоже на правду. Тут уже 373К профилей и собираются ещё. Зелёный — это инфосек, фиолетово-розовый — mastodon.social, ярко-розовый кусочек слева сверху — piaille.fr. Подожду миллиончик и буду разбираться кто там.
Миллион прозевал в поездке, поэтому вот полтора миллиона. Раскрашены по инстансам.
Распределение инстансов поменялось заметно, хотя первое место не изменилось и инфосеки не исчезли:
mastodon.social    434540  0.2851
mstdn.social 35561 0.0233
bird.makeup 33622 0.0221
mas.to 28540 0.0187
mastodon.world 24018 0.0158
mastodon.online 23256 0.0153
pixelfed.social 21972 0.0144
infosec.exchange 21829 0.0143
piaille.fr 15901 0.0104
mastodon.uno 15413 0.0101
3
Наблюдений пока не так много, потому что датасет потолще и не всё срабатывает с первого раза, а перебор подходов идёт дольше.
Мне было интересно в этот раз насколько метод сбора вносит смещение в данные. На каждую вершину я получаю несколько её соседей, то есть у меня вершин в графе больше, чем посещённых вершин, но тем не менее возможно я посетил достаточно, чтобы картина не сильно искажалась. Самая прямолинейная штука которой можно оценить смещение — это сравнить распределения степеней посещённых и непосещённых вершин. Ну ожидаемо, что у посещённых хвост длиннее. В остальном можно считать что смещение больше из-за разного количества вершин из двух классов. Причём если выкинуть не мастодоновские аккаунты (которые я пока технически не могу собирать), то картина ещё лучше. Тем не менее могут быть систематические дыры из-за того, что до каких-то инстансов я не достучался. На общую картину это влиять не должно, но могут быть дыры.
3
Дальше можно посчитать сколько посещённых вершин приходится на каждую вершину, сколько общих непосещённых соседей у посещённых профилей и так далее. Получится ещё более понятная оценка метода. Я кстати не знаю, есть ли какая-то известная методология оценки смещения данных из скрапинга, когда у нас генеральная совокупность принципиально не доступна.
1
This media is not supported in your browser
VIEW IN TELEGRAM
Раз пока не могу рассказать подробнее про находки и интерпретацию кластеров, буду снова расхываливать cosmograph.app (нет, мне за это не платят). Там есть уже давно визуализация эмбеддингов и я наконец-то попробовал. 1.51М точек в интерактивном режиме, рисуются метки + метки на ховере, можно смотреть свойства выделенных вершин из таблички, фильтровать выборку на таймлайне и это на довольно скромном железе.
Не удобно только, что нельзя палитру на данные натянуть прямо из интерфейса. Пришлось в три раза раздуть датасет прокидывая цвета. Но это ж опенсорс, можно самому добавить (если сил хватит)
4👍1
iggisv9t channel
Раз пока не могу рассказать подробнее про находки и интерпретацию кластеров, буду снова расхываливать cosmograph.app (нет, мне за это не платят). Там есть уже давно визуализация эмбеддингов и я наконец-то попробовал. 1.51М точек в интерактивном режиме, рисуются…
Граф толстый, 22.8М рёбер, мало что вывозит такие объёмы, поэтому я пошёл по своему любимому пайплайну VERSE -> UMAP -> hDBSCAN, последний пока капризничает. Рёбра для таких объёмов рисовать обычно бессмысленно, поэтому рисую как скаттерплот, а не граф.
4
Forwarded from Data Funk
Вот крутите вы свой датасет, тщательно выбираете топ-k самых-самых фичей, а возможно тратите время зря. Вышла статейка, где авторы подошли к вопросу отбора фичей с точки зрения проверки нулевой гипотезы: значимо ли "умный" выбор отличается от случайного подмножества k признаков?

Шок-контент: в 28 из 30 высокоразмерных наборов (геномика, изображения, масс-спектрометрия) священный рандом оказался сопоставим с обучением на всех фичах или на тех, что отобрали лучшими FS-методами. Конечно, возможно, так совпало и в выбранных датасетах "важность" просто размазывается по всем колонкам ровным слоем, но мне нравится думать что это перекликается с леммой Джонсона-Линденштрауса, которая показывает, что высокоразмерные данные сохраняют расстояния между точками даже при случайных проекциях. Вывод из работы такой: не паримся с отбором фичей, учим пачку моделей на случайных подпространствах и агрегируем.
10🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Я тут раз в несколько лет вздыхал о своём любимом viewpoints, который написан в NASA в 2005-м и в последний раз обновлялся в 2008-м. Лет 8 или больше его уже невозможно было запустить на современных машинах, а я не способен был понять C++ код достаточно хорошо, чтобы за разумное время оживить эту штуку. Но вот пришла эра вайбкодинга и мы с нейронкой воскресили эту штуку. Кибернекромантия.
👍309🔥1
iggisv9t channel
Я тут раз в несколько лет вздыхал о своём любимом viewpoints, который написан в NASA в 2005-м и в последний раз обновлялся в 2008-м. Лет 8 или больше его уже невозможно было запустить на современных машинах, а я не способен был понять C++ код достаточно хорошо…
Крутит 100К точек в четырёх окнах не напрягая ни цпу, ни память. Для астрономии же всё-таки делали. Чуть-чуть надо дочинить выделение цветом и загружу в репозиторий.
19🔥14👍7
Forwarded from Too Long, Did Read
Media is too big
VIEW IN TELEGRAM
Scam Telegram: мое новое и самое большое расследование

Читать тут: https://timsh.org/scam-telegram-investigation

Несколько месяцев назад я искал сообщество одного DeFi протокола в тг и обнаружил несколько поддельных групп с названиями <Protocol> Official / Support.

Мне стало интересно: в чем цель этих поддельных групп?
Покопавшись в истории чата, вложениях и ссылках, я обнаружил подозрительную ссылку на “платформу для решения проблем” с такой инструкцией:
“Зависли деньги? Не беда! Подключи свой кошелек вот тут, и твоя проблема будет решена”.
Поковырявшись в коде сайта и сымитировав подключение своего кошелька, я обнаружил, что на этом сайте размещен Drainer, - вид js-вируса, главная цель которого - украсть все деньги с кошелька жертвы.

Сразу после этого я решил проверить: нет ли других таких же фейковых групп, имитирующих официальные чаты других протоколов.

Есть.

Более того, как я увидел в дальнейшем, - они есть у каждого протокола из топ100 по TVL на DefiLlama (т.е., у топа крупнейших протоколов по кол-ву вложенных в них денег).

Пока я искал и отсматривал чаты руками, я заметил, что у некоторых, как бы никак не связанных между собой чатов, один и тот же админ / модератор - в реальности, естественно, такое невозможно, - разве что 3 крупнейших протокола наняли себе одного и того же комьюнити менеджера )

Поэтому я решил собрать побольше данных и поискать и другие такие связи между чатами: вдруг всеми ними управляет одна или несколько групп преступников?
Я написал телеграм-парсер, который затем добавил в ~80 найденных на тот момент чатов, и собрал все сообщения, активных пользователей и метаданные, которые смог.

Поковыряв их pandas’ом в течение пары дней, я убедился, что так и есть: практически у всех чатов был админ, которые также админил как минимум в одном другом чате.

Примерно в этот момент я понял, что чтобы копнуть еще грубже и найти больше доказательств, мне может пригодится помощь кого-то, кто занимается этим профессионально.

Так что я выложил пост, в котором написал, что ищу желающих помочь мне поанализировать эти данные и дальше и составить разные графические репрезентации этой сети чатов.

Мне повезло: среди моей аудитории нашлись аналитики-графомами (хаха), и, более того, мне написал супер граф-профи iggisv9t @sv9t_channel, на которого я был подписан давным давно, и предложил помочь покрутить все эти графы.
И еще как помог! Без него я бы не смог сделать все крутые картинки, которые вы увидите в посте.

Так как еще мне была нужна помощь с реверс-инжинирингом js-кода вируса, я написал в чат @ETHSecurity, в котором последнее время часто зависаю, и буквально за день нашел несколько безопасников, которые помогли мне подобрать правильные инструменты и разобрать код на 80%+.

Пока мы обсуждали, что за вид дрейнера я нашел в этих чатах, мой анонимный собеседник предложил познакомить меня с администратором SEAL - наверное, самой известной и уважаемой НКО в мире криптовой кибербезопасности, которая занимается сбором данных о всех обнаруженных вирусах и путях их распространения, и помогает кошелькам вроде MetaMask и другим компаниям (например, Cloudflare) оперативно блокировать вредоносные сайты.

Пообщавшись немного с их админом, я выяснил, что вирус, который я нашел, - разновидность Inferno Drainer, самого жесткого Drainer-As-A-Service последних лет.

Админ сразу очень заинтересовался происхождением этого скрипта, я рассказал ему о своем расследовании, и он предложил мне присоединиться к SEAL и воспользоваться их помощью и инструментами, чтобы увеличить размах и глубину расследования.

Как-то так - теперь я волонтерю в SEAL, и вместе мы доработали мой телеграмовый парсер, нашли больше 4к этих фейковых групп и забанили десятки тысяч вредоносных сайтов, которые распространяют дрейнеры.

Естественно, я сразу же втянулся в несколько других активных расследований - так что ждите новых постов, а пока читайте гига-статью и наслаждайтесь красивыми картинками!
🔥4612🫡3
Too Long, Did Read
Мне повезло: среди моей аудитории нашлись аналитики-графомами (хаха), и, более того, мне написал супер граф-профи iggisv9t @sv9t_channel, на которого я был подписан давным давно, и предложил помочь покрутить все эти графы.
Спасибо Тиму за похвалы. Я к сожалению не слишком много времени в это вложил, но мне было интересно посмотреть на (анти)фрод вне работы. А так все переданные мной знания — это как справиться с Gephi, куда стоит потыкать и куда не стоит.
11🔥6👍4😁1
Forwarded from Riemann Cavity
18😁6
iggisv9t channel
Кстати про smol web: https://thedorkweb.substack.com/p/gopher-gemini-and-the-smol-internet https://neustadt.fr/essays/the-small-web/ (ну или gemini://phreedom.club/~tolstoevsky/articles/small.gmi )
You can’t call it the “online world” if you never leave your feed. If your entire internet life happens inside TikTok, Instagram, YouTube, Reddit, or Twitter, you’re simply mall-walking, and malls are fine: predictable, climate-controlled, food courts and chain stores on every corner, but don’t mistake the mall for the city. The city is bigger, stranger, full of alleys, basements, and hidden doors. That’s the real internet, and you haven’t been there in a while.

https://offlinecrush.substack.com/p/how-to-use-the-internet-again-a-curriculum
❤‍🔥13👍2🤨21
iggisv9t channel
Раз пока не могу рассказать подробнее про находки и интерпретацию кластеров, буду снова расхываливать cosmograph.app (нет, мне за это не платят). Там есть уже давно визуализация эмбеддингов и я наконец-то попробовал. 1.51М точек в интерактивном режиме, рисуются…
Там космограф обновился, ну и я в него беспощадный граф на 22М рёбер отправил. Пока не могу найти адекватные параметры укладки для такого. Не хватает параметра scaling как в оригинальном FA. Всё просто впечатывается в стенки или размазывается облаком в середине. Или и то и другое. Но раньше никто не мог вывезти 22М рёбер в интерактивном режиме, так что можно будет и отдельно посчитать координаты если сильно надо. Остальные новые фишечки выглядят хорошо, но попробовать всё пока не успел.
🔥2
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 Запускаем Cosmograph 2.0!

Последнее время я редко пишу и это неспроста. Со времен прошлого релиза мы активно работали (два года, и продолжаем!) над новой версией Космографа, которая наконец-то доступна всем 🥳

Новый Космограф собран с нуля. Он быстрее, мощнее и гибче (как веб-приложение, так и библиотека), и теперь может:
• Работать с еще более крупными датасетами и использовать SQL благодаря WebAssembly и DuckDB прямо в браузере;
• Открывать файлы Parquet;
• Быстро фильтровать графы и искать в них точки;
• Сохранять проекты в облако и их расшаривать;
• И еще очень много чего ...

О чем подробно можно узнать на нашем новом красивом сайте https://cosmograph.app.

🙏 И в связи с этим большим анонсом мне очень нужна ваша помощь. Если вы пользуетесь LinkedIn, я буду крайне признателен за ваш шер и репост моего там поста. И этого поста в тг тоже.

❤️ Все это время мы бутстрапим Космограф без какой-либо внешней помощи и очень благодарны сообществу за поддержку.

@dataviznews
4👍1