DataSkewer – Telegram
DataSkewer
212 subscribers
52 photos
1 video
3 files
10 links
Канал с рассуждениями и заметками о работа DE.
Download Telegram
Channel photo updated
Панчлайн нового логотипа канала в том, что на логотипе Hadoop (один из основных инструментов, что я использую в работе) - так же изображен слон.
Из смешного - как гласит легенда, название и логотип хадупа появились так: сын одного из главных разработчиков играл с плюшевой игрушкой по имени "Хадуп", разработчика это зацепило и вот уже более десяти лет другие разработчики по всему миру смотрят на желтого слона.
👏4😱3🔥2
🪲Вчера я совершил свою первую XSS атаку на станции Positive Technologies на ИТ Пикнике, в следующем посте напишу о самом мероприятии, вкратце - мне понравилось, есть разница с прошлым годом.

Но вернемся к теме, итак - XSS(Cross Site Scripting (в английских аббревиатурах зачастую X имеет значение Cross вместо логичного и очевидного "Икс")) и хочу вам рассказать о том, что же это такое.

Простейшая XSS атака выглядела бы так:

Вы вводите в какое-нибудь промт поле (размещение в поисковой строке, в области обратной связи, месте для сообщений/комментариев) данный код

<div>
<img src='x' onerror='alert("Hello XSS")'>
</div>


После попытки сделать импорт изображения из несуществующего источника (стринга х)
сработает обработчик ошибок onerror что и вызовет потенциально вредоносный код, в нашем случае это безобидный поп-ап с текстом "Hello XSS".

Для такого скриптинга используются следующие лазейки в приложениях:

1) Ошибки, сделанные в браузере, например реализация сценария посредством тегов SVG / IMG, при которой появляется возможность не принимать во внимание правило ограниченного домена. Это грубая, заметная ошибка разработчиков, если такая атака пройдет - то сами и виноваты)

2) Проблемы с экранированием. Пока браузеры не научились дифференцировать обыкновенный текст от кода. Для распознавания и реализации команд последнего необходима разметка тегами <noscript></noscript>

3) Замена кодировки в заглавии страницы. Определение кодировок происходит в ходе обработки веба. Она находится в метке <meta>, если <noscript> расположен до нее, то браузер начинает работать с заголовком, после обращает внимание на кодировку. У взломщика появляется шанс обойтись без фильтрации символов <>, “” и поместить в noscript вредоносный скрипт, созданный в формате UTF-7.

4) Межсайтовый скриптинг с использованием SQL-инъекции - смешанный способ атаки с привлечением базы данных в которую и делается инъекция. В страницу базы данных посредством SQL-инъекции внедряется вредоносный код, который потом отдается обратно на фронтенд (скорее всего перед этим злоумышленник будет иметь хорошее представление о системе ).

Простую SQL инъекцию можно сделать вставив текст ниже в какое либо поле. Принцип работы так же основан на плохом/отсутствующем экранировании.

'; DROP TABLE users; --'


На этом сайте вы можете попробовать поотачивать свои навыки в XSS 😄

Так же стоит отметить, что принцип таких XSS Атак отдаленно похож на принцип работы такого инструмента как Google Tag Manager. Поэтому, рекомендую вам копнуть в эту тему глубже если планируете развиваться как Веб-аналитик.

https://xss-game.appspot.com/
👍4🔥2
🔥7👍1👏1
⚡️ ⚡️ ⚡️ Прерываю долгую паузу в ведении канала рассказом об одной из самых крупных ИТ конференций в России - а именно Highload++ 2024.
Строго говоря, тема конференции это высоконагруженные системы - большие данные входят в это множество, но не полностью охватывают его)

Из докладов не относящихся к большим данным но заинтересовавших меня -

1) Когда Powershell лучше, чем Ansible? Рецепты приготовления на 1000+ серверов

2) Бесконечная война в памяти: ретроспектива методов защиты от бинарных угроз

3) Как не деградировать сервису подбора рекламы, когда мир сходит с ума

Буду продолжать держать вас в курсе событий на этой конференции. Длится конференция с 2 по 3
декабря 2024.
🔥31😱1
🔥51🎄1
👽Очень понравился тейк о том что, проблемы высоконагруженных систем решаются на уровне архитектуры, а не на уровне кода (если конечно разработчик не написал настолько плохой код, что тот валит хорошую архитектуру)

Отдельно хочется отметить как часть спикеров очень не любит вдаваться в детали, и на конкретные вопросы о практиках и технологиях - говорят «тут речь шла о методологии, техстек я тут не готов обсуждать - это наши внутренние решения» 🥶🥶🥶

Еще один инсайт - хранилища ВК суммарно держат в себе порядка 1 эксабайт данных.

(На фото - игра со станции Домклик)
🔥4
Замечательный слайд сравнивающий переход от монолита к микросервисам.
😁11😍1💅1
🔆 Вот и подошел к концу Highload++ 2024.
Первый раз был на такой крупной конференции, и я конечно же восхищен.
Вот что я могу сказать, из плюсов

Очень удобный бот конференции в котором можно отслеживать доклады и устроить Random Coffee

Очень широкий спектр тем (от даты до архитектуры, маркетинга и безопасности)

Прекрасный кейтеринг

Куча C-levelов российского бигтеха с которыми можно вживую поговорить и задать вопросы (переборов страх быть кринжовым)

Колоссальные возможности для нетворкинга - я поставил себе цель, познакомиться и обменяться контактами с 10+ специалистами и перевыполнил эту цель в 1.5 раза, без особых усилий.

Из минусов (каинда):

стоит разделить конференцию на фестивальную часть и часть докладов - невозможно физически посетить все доклады и все стенды - я старался держать баланс, но охватил от силы 30 процентов стендов и 20 процентов докладов. (Доклады к тому же шли в параллель)

Звездами этой конференции были PHP и Golang - у меня немного другой стек

Ну и подводя итог, рекомендовал бы посетить эту конференцию, специалистам уровня Middle+
Тк у многих докладов есть неслабый порог вхождения, и вам нужно быть хотя бы специалистом конкретно вашей области + иметь хорошие знания в general computer science (вспоминаем о входителях в айти, говорящих, что алгоритмы, паттерны проектирования и прочая БАЗА никому не нужна) - иначе для вас конференция сведется лишь к фестивальной части.

В следующем посте, на основе данных этой конференции, расскажу о том когда вашему хадупу/S3 стоит задуматься об использовании Apache Iceberg.
🔥5👍2
🔥6👍1
🧊Итак, по холодным следам конференции, пост про айсберг (Apache Iceberg)

Если вкратце то мне показалось, что это Hive Metastore на стероидах, фактически iceberg сводит все метаданные в одно место и консистентно их обновляет предварительно разложив на более сложную структуру каталогов и снепшотов (4 типа файлов метаданных)

Ряд особенностей

🧊 Уходят проблемы HMS (Hive Metastore), в части скорости чтения и конфликтов читателей и писателей. (Очень актуально для моей команды)

🧊 К айсбергу можно подключить любые вычислительные движки и фреймворки (Trino, Spark etc)

🧊 Iceberg частично привносит ACID в дата лейки.

🧊 Айсберг не поддерживает кросс табличные транзакции

🧊 Метаданные обновляются по принципу схожему с гитом - те есть возможность сказать айсбергу - «обратись к таблице на такой то момент времени»

🧊 Атомарность реализуется с помощью систем каталогов. Самые популярные в СНГ HMS каталоги. Есть JDBC каталоги. Самые перспективные - REST каталоги их в основном используют в западных командах - на них в конечном счете все перейдут.

Подводя итог:

Главный selling point айсберга - универсальность движков
- увеличение скорости обращения к данным
- условно реализуется ACID для больших данных


Рекомендуется внедрять если

У вас много разных вычислительных движков

У вас к одним и тем же данным обращается система визуализации, интеграционные процессы и например пайплайны обработки данных

Вы не хотите платить за не опенсорс решения вроде
Hudi, delta lake, Paimon
🔥10🤔2🤯2
🔥5❤‍🔥2😁2
⚡️ Я проник на новую конференцию - CodeFest 15 …
Тематика на этот раз более общий computer science и programming, но есть доклады и про данные.
Так же никак не обошлось без AI

Конференция стартует завтра, вместе с серией новых постов от меня

P.S. забавно как меня пустили в павильоны до начала конференции
🔥42🆒1