Панчлайн нового логотипа канала в том, что на логотипе Hadoop (один из основных инструментов, что я использую в работе) - так же изображен слон.
Из смешного - как гласит легенда, название и логотип хадупа появились так: сын одного из главных разработчиков играл с плюшевой игрушкой по имени "Хадуп", разработчика это зацепило и вот уже более десяти лет другие разработчики по всему миру смотрят на желтого слона.
Из смешного - как гласит легенда, название и логотип хадупа появились так: сын одного из главных разработчиков играл с плюшевой игрушкой по имени "Хадуп", разработчика это зацепило и вот уже более десяти лет другие разработчики по всему миру смотрят на желтого слона.
👏4😱3🔥2
🪲Вчера я совершил свою первую XSS атаку на станции Positive Technologies на ИТ Пикнике, в следующем посте напишу о самом мероприятии, вкратце - мне понравилось, есть разница с прошлым годом.
Но вернемся к теме, итак - XSS(Cross Site Scripting (в английских аббревиатурах зачастую X имеет значение Cross вместо логичного и очевидного "Икс")) и хочу вам рассказать о том, что же это такое.
Простейшая XSS атака выглядела бы так:
Вы вводите в какое-нибудь промт поле (размещение в поисковой строке, в области обратной связи, месте для сообщений/комментариев) данный код
После попытки сделать импорт изображения из несуществующего источника (стринга х)
сработает обработчик ошибок onerror что и вызовет потенциально вредоносный код, в нашем случае это безобидный поп-ап с текстом "Hello XSS".
Для такого скриптинга используются следующие лазейки в приложениях:
1) Ошибки, сделанные в браузере, например реализация сценария посредством тегов SVG / IMG, при которой появляется возможность не принимать во внимание правило ограниченного домена. Это грубая, заметная ошибка разработчиков, если такая атака пройдет - то сами и виноваты)
2) Проблемы с экранированием. Пока браузеры не научились дифференцировать обыкновенный текст от кода. Для распознавания и реализации команд последнего необходима разметка тегами <noscript></noscript>
3) Замена кодировки в заглавии страницы. Определение кодировок происходит в ходе обработки веба. Она находится в метке <meta>, если <noscript> расположен до нее, то браузер начинает работать с заголовком, после обращает внимание на кодировку. У взломщика появляется шанс обойтись без фильтрации символов <>, “” и поместить в noscript вредоносный скрипт, созданный в формате UTF-7.
4) Межсайтовый скриптинг с использованием SQL-инъекции - смешанный способ атаки с привлечением базы данных в которую и делается инъекция. В страницу базы данных посредством SQL-инъекции внедряется вредоносный код, который потом отдается обратно на фронтенд (скорее всего перед этим злоумышленник будет иметь хорошее представление о системе ).
Простую SQL инъекцию можно сделать вставив текст ниже в какое либо поле. Принцип работы так же основан на плохом/отсутствующем экранировании.
На этом сайте вы можете попробовать поотачивать свои навыки в XSS 😄
Так же стоит отметить, что принцип таких XSS Атак отдаленно похож на принцип работы такого инструмента как Google Tag Manager. Поэтому, рекомендую вам копнуть в эту тему глубже если планируете развиваться как Веб-аналитик.
https://xss-game.appspot.com/
Но вернемся к теме, итак - XSS(Cross Site Scripting (в английских аббревиатурах зачастую X имеет значение Cross вместо логичного и очевидного "Икс")) и хочу вам рассказать о том, что же это такое.
Простейшая XSS атака выглядела бы так:
Вы вводите в какое-нибудь промт поле (размещение в поисковой строке, в области обратной связи, месте для сообщений/комментариев) данный код
<div>
<img src='x' onerror='alert("Hello XSS")'>
</div>
После попытки сделать импорт изображения из несуществующего источника (стринга х)
сработает обработчик ошибок onerror что и вызовет потенциально вредоносный код, в нашем случае это безобидный поп-ап с текстом "Hello XSS".
Для такого скриптинга используются следующие лазейки в приложениях:
1) Ошибки, сделанные в браузере, например реализация сценария посредством тегов SVG / IMG, при которой появляется возможность не принимать во внимание правило ограниченного домена. Это грубая, заметная ошибка разработчиков, если такая атака пройдет - то сами и виноваты)
2) Проблемы с экранированием. Пока браузеры не научились дифференцировать обыкновенный текст от кода. Для распознавания и реализации команд последнего необходима разметка тегами <noscript></noscript>
3) Замена кодировки в заглавии страницы. Определение кодировок происходит в ходе обработки веба. Она находится в метке <meta>, если <noscript> расположен до нее, то браузер начинает работать с заголовком, после обращает внимание на кодировку. У взломщика появляется шанс обойтись без фильтрации символов <>, “” и поместить в noscript вредоносный скрипт, созданный в формате UTF-7.
4) Межсайтовый скриптинг с использованием SQL-инъекции - смешанный способ атаки с привлечением базы данных в которую и делается инъекция. В страницу базы данных посредством SQL-инъекции внедряется вредоносный код, который потом отдается обратно на фронтенд (скорее всего перед этим злоумышленник будет иметь хорошее представление о системе ).
Простую SQL инъекцию можно сделать вставив текст ниже в какое либо поле. Принцип работы так же основан на плохом/отсутствующем экранировании.
'; DROP TABLE users; --'
На этом сайте вы можете попробовать поотачивать свои навыки в XSS 😄
Так же стоит отметить, что принцип таких XSS Атак отдаленно похож на принцип работы такого инструмента как Google Tag Manager. Поэтому, рекомендую вам копнуть в эту тему глубже если планируете развиваться как Веб-аналитик.
https://xss-game.appspot.com/
👍4🔥2
⚡️ ⚡️ ⚡️ Прерываю долгую паузу в ведении канала рассказом об одной из самых крупных ИТ конференций в России - а именно Highload++ 2024.
Строго говоря, тема конференции это высоконагруженные системы - большие данные входят в это множество, но не полностью охватывают его)
Из докладов не относящихся к большим данным но заинтересовавших меня -
1) Когда Powershell лучше, чем Ansible? Рецепты приготовления на 1000+ серверов
2) Бесконечная война в памяти: ретроспектива методов защиты от бинарных угроз
3) Как не деградировать сервису подбора рекламы, когда мир сходит с ума
Буду продолжать держать вас в курсе событий на этой конференции. Длится конференция с 2 по 3 декабря 2024.
Строго говоря, тема конференции это высоконагруженные системы - большие данные входят в это множество, но не полностью охватывают его)
Из докладов не относящихся к большим данным но заинтересовавших меня -
1) Когда Powershell лучше, чем Ansible? Рецепты приготовления на 1000+ серверов
2) Бесконечная война в памяти: ретроспектива методов защиты от бинарных угроз
3) Как не деградировать сервису подбора рекламы, когда мир сходит с ума
Буду продолжать держать вас в курсе событий на этой конференции. Длится конференция с 2 по 3 декабря 2024.
🔥3❤1😱1
👽Очень понравился тейк о том что, проблемы высоконагруженных систем решаются на уровне архитектуры, а не на уровне кода (если конечно разработчик не написал настолько плохой код, что тот валит хорошую архитектуру)
Отдельно хочется отметить как часть спикеров очень не любит вдаваться в детали, и на конкретные вопросы о практиках и технологиях - говорят «тут речь шла о методологии, техстек я тут не готов обсуждать - это наши внутренние решения» 🥶🥶🥶
Еще один инсайт - хранилища ВК суммарно держат в себе порядка 1 эксабайт данных.
(На фото - игра со станции Домклик)
Отдельно хочется отметить как часть спикеров очень не любит вдаваться в детали, и на конкретные вопросы о практиках и технологиях - говорят «тут речь шла о методологии, техстек я тут не готов обсуждать - это наши внутренние решения» 🥶🥶🥶
Еще один инсайт - хранилища ВК суммарно держат в себе порядка 1 эксабайт данных.
(На фото - игра со станции Домклик)
🔥4
🔆 Вот и подошел к концу Highload++ 2024.
Первый раз был на такой крупной конференции, и я конечно же восхищен.
Вот что я могу сказать, из плюсов
➕Очень удобный бот конференции в котором можно отслеживать доклады и устроить Random Coffee
➕Очень широкий спектр тем (от даты до архитектуры, маркетинга и безопасности)
➕Прекрасный кейтеринг
➕Куча C-levelов российского бигтеха с которыми можно вживую поговорить и задать вопросы (переборов страх быть кринжовым)
➕Колоссальные возможности для нетворкинга - я поставил себе цель, познакомиться и обменяться контактами с 10+ специалистами и перевыполнил эту цель в 1.5 раза, без особых усилий.
Из минусов (каинда):
➖стоит разделить конференцию на фестивальную часть и часть докладов - невозможно физически посетить все доклады и все стенды - я старался держать баланс, но охватил от силы 30 процентов стендов и 20 процентов докладов. (Доклады к тому же шли в параллель)
➖Звездами этой конференции были PHP и Golang - у меня немного другой стек
Ну и подводя итог, рекомендовал бы посетить эту конференцию, специалистам уровня Middle+
Тк у многих докладов есть неслабый порог вхождения, и вам нужно быть хотя бы специалистом конкретно вашей области + иметь хорошие знания в general computer science (вспоминаем о входителях в айти, говорящих, что алгоритмы, паттерны проектирования и прочая БАЗА никому не нужна) - иначе для вас конференция сведется лишь к фестивальной части.
В следующем посте, на основе данных этой конференции, расскажу о том когда вашему хадупу/S3 стоит задуматься об использовании Apache Iceberg.
Первый раз был на такой крупной конференции, и я конечно же восхищен.
Вот что я могу сказать, из плюсов
➕Очень удобный бот конференции в котором можно отслеживать доклады и устроить Random Coffee
➕Очень широкий спектр тем (от даты до архитектуры, маркетинга и безопасности)
➕Прекрасный кейтеринг
➕Куча C-levelов российского бигтеха с которыми можно вживую поговорить и задать вопросы (переборов страх быть кринжовым)
➕Колоссальные возможности для нетворкинга - я поставил себе цель, познакомиться и обменяться контактами с 10+ специалистами и перевыполнил эту цель в 1.5 раза, без особых усилий.
Из минусов (каинда):
➖стоит разделить конференцию на фестивальную часть и часть докладов - невозможно физически посетить все доклады и все стенды - я старался держать баланс, но охватил от силы 30 процентов стендов и 20 процентов докладов. (Доклады к тому же шли в параллель)
➖Звездами этой конференции были PHP и Golang - у меня немного другой стек
Ну и подводя итог, рекомендовал бы посетить эту конференцию, специалистам уровня Middle+
Тк у многих докладов есть неслабый порог вхождения, и вам нужно быть хотя бы специалистом конкретно вашей области + иметь хорошие знания в general computer science (вспоминаем о входителях в айти, говорящих, что алгоритмы, паттерны проектирования и прочая БАЗА никому не нужна) - иначе для вас конференция сведется лишь к фестивальной части.
В следующем посте, на основе данных этой конференции, расскажу о том когда вашему хадупу/S3 стоит задуматься об использовании Apache Iceberg.
🔥5👍2
🧊Итак, по холодным следам конференции, пост про айсберг (Apache Iceberg)
Если вкратце то мне показалось, что это Hive Metastore на стероидах, фактически iceberg сводит все метаданные в одно место и консистентно их обновляет предварительно разложив на более сложную структуру каталогов и снепшотов (4 типа файлов метаданных)
Ряд особенностей
🧊 Уходят проблемы HMS (Hive Metastore), в части скорости чтения и конфликтов читателей и писателей. (Очень актуально для моей команды)
🧊 К айсбергу можно подключить любые вычислительные движки и фреймворки (Trino, Spark etc)
🧊 Iceberg частично привносит ACID в дата лейки.
🧊 Айсберг не поддерживает кросс табличные транзакции
🧊 Метаданные обновляются по принципу схожему с гитом - те есть возможность сказать айсбергу - «обратись к таблице на такой то момент времени»
🧊 Атомарность реализуется с помощью систем каталогов. Самые популярные в СНГ HMS каталоги. Есть JDBC каталоги. Самые перспективные - REST каталоги их в основном используют в западных командах - на них в конечном счете все перейдут.
Подводя итог:
Главный selling point айсберга - универсальность движков
- увеличение скорости обращения к данным
- условно реализуется ACID для больших данных
Рекомендуется внедрять если
✅У вас много разных вычислительных движков
✅У вас к одним и тем же данным обращается система визуализации, интеграционные процессы и например пайплайны обработки данных
✅Вы не хотите платить за не опенсорс решения вроде
Hudi, delta lake, Paimon
Если вкратце то мне показалось, что это Hive Metastore на стероидах, фактически iceberg сводит все метаданные в одно место и консистентно их обновляет предварительно разложив на более сложную структуру каталогов и снепшотов (4 типа файлов метаданных)
Ряд особенностей
🧊 Уходят проблемы HMS (Hive Metastore), в части скорости чтения и конфликтов читателей и писателей. (Очень актуально для моей команды)
🧊 К айсбергу можно подключить любые вычислительные движки и фреймворки (Trino, Spark etc)
🧊 Iceberg частично привносит ACID в дата лейки.
🧊 Айсберг не поддерживает кросс табличные транзакции
🧊 Метаданные обновляются по принципу схожему с гитом - те есть возможность сказать айсбергу - «обратись к таблице на такой то момент времени»
🧊 Атомарность реализуется с помощью систем каталогов. Самые популярные в СНГ HMS каталоги. Есть JDBC каталоги. Самые перспективные - REST каталоги их в основном используют в западных командах - на них в конечном счете все перейдут.
Подводя итог:
Главный selling point айсберга - универсальность движков
- увеличение скорости обращения к данным
- условно реализуется ACID для больших данных
Рекомендуется внедрять если
✅У вас много разных вычислительных движков
✅У вас к одним и тем же данным обращается система визуализации, интеграционные процессы и например пайплайны обработки данных
✅Вы не хотите платить за не опенсорс решения вроде
Hudi, delta lake, Paimon
🔥10🤔2🤯2
⚡️ Я проник на новую конференцию - CodeFest 15 …
Тематика на этот раз более общий computer science и programming, но есть доклады и про данные.
Так же никак не обошлось без AI
Конференция стартует завтра, вместе с серией новых постов от меня
P.S. забавно как меня пустили в павильоны до начала конференции
Тематика на этот раз более общий computer science и programming, но есть доклады и про данные.
Так же никак не обошлось без AI
Конференция стартует завтра, вместе с серией новых постов от меня
P.S. забавно как меня пустили в павильоны до начала конференции
🔥4❤2🆒1
