Forwarded from FastNews | Никита Пастухов
Если кто-то занимается разработкой агентных приложений (или просто LLM-based) и волнуется на тему безопасности, то у меня для вас есть полезный сканер от NVIDIA
https://github.com/NVIDIA/garak/
Это штука неплохо находит prompt injection, system prompt leaking, jailbreak'и и прочие радости AI-based приложений. И - оно правда работает (парочку уязвимостей мы им нашли😢)
Только не надо его натравливать на приложения вайбкодеров... Пожалуйста
https://github.com/NVIDIA/garak/
Это штука неплохо находит prompt injection, system prompt leaking, jailbreak'и и прочие радости AI-based приложений. И - оно правда работает (парочку уязвимостей мы им нашли😢)
Только не надо его натравливать на приложения вайбкодеров... Пожалуйста
GitHub
GitHub - NVIDIA/garak: the LLM vulnerability scanner
the LLM vulnerability scanner. Contribute to NVIDIA/garak development by creating an account on GitHub.
Forwarded from DataEng
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
Forwarded from Архитектура Стартапа - Anton Skogorev Engineering & AI (Anton Skogorev)
Принёс вам новый термин — AI Agent Washing.
Услышал его вчера в офисе, а вечером уже обсуждали на панельной дискуссии с уважаемыми людьми — чем всё это грозит AI-индустрии.
…
Если коротко:
Agent Washing — это когда вы говорите, что делаете AI-агента, хотя по факту это простой чат-бот, или автоматизация, или один промпт с tool calling. Но обо всём по порядку.
Термин пошёл от greenwashing — это когда в отелях нас просили «ради экологии» не менять полотенца, при этом улучшалась не экология, а экономика отеля на стирке.
С Agent Washing — то же самое: попытка заработать за счёт хайпа, продавая автономность и интеллект там, где их нет.
Почему это проблема для индустрии?
Потому что под словом «агент» пользователь представляет себе полноценного автономного исполнителя, который берёт задачу под ключ и отвечает за результат. А когда он сталкивается с «однопромптником», проданным под видом готового продукта, он теряет веру не только в конкретный продукт — он теряет веру в саму индустрию.
Вспомните инвесторский хайп вокруг блокчейна 5 лет назад. Сегодня само слово «блокчейн» имеет довольно токсичный вайб — не потому, что технология плохая, а потому, что ожидания были сильно завышены.
Проблема тут не в терминах — проблема в ожиданиях. Индустрия плохо их выстраивает и идёт по пути Tesla, продавая Full Self-Driving, когда никакого full там и близко нет.
Предлагаю зафиксировать, что является AI-агентом:
— система с собственной целью (не «ответить пользователю», а достигнуть цели, например, «продать N товаров»)
— автономная (может инициировать действия сама, без кнопки «ОК» от пользователя)
— отвечает за результат (есть success / failure)
— имеет долгоживущую память (и учитывает прошлые ошибки)
— действует в среде (инфраструктура, сервисы, бизнес-процессы — а не просто чат)
Услышал его вчера в офисе, а вечером уже обсуждали на панельной дискуссии с уважаемыми людьми — чем всё это грозит AI-индустрии.
…
Если коротко:
Agent Washing — это когда вы говорите, что делаете AI-агента, хотя по факту это простой чат-бот, или автоматизация, или один промпт с tool calling. Но обо всём по порядку.
Термин пошёл от greenwashing — это когда в отелях нас просили «ради экологии» не менять полотенца, при этом улучшалась не экология, а экономика отеля на стирке.
С Agent Washing — то же самое: попытка заработать за счёт хайпа, продавая автономность и интеллект там, где их нет.
Почему это проблема для индустрии?
Потому что под словом «агент» пользователь представляет себе полноценного автономного исполнителя, который берёт задачу под ключ и отвечает за результат. А когда он сталкивается с «однопромптником», проданным под видом готового продукта, он теряет веру не только в конкретный продукт — он теряет веру в саму индустрию.
Вспомните инвесторский хайп вокруг блокчейна 5 лет назад. Сегодня само слово «блокчейн» имеет довольно токсичный вайб — не потому, что технология плохая, а потому, что ожидания были сильно завышены.
Проблема тут не в терминах — проблема в ожиданиях. Индустрия плохо их выстраивает и идёт по пути Tesla, продавая Full Self-Driving, когда никакого full там и близко нет.
Предлагаю зафиксировать, что является AI-агентом:
— система с собственной целью (не «ответить пользователю», а достигнуть цели, например, «продать N товаров»)
— автономная (может инициировать действия сама, без кнопки «ОК» от пользователя)
— отвечает за результат (есть success / failure)
— имеет долгоживущую память (и учитывает прошлые ошибки)
— действует в среде (инфраструктура, сервисы, бизнес-процессы — а не просто чат)
👏6💯2 2
Anonymous Poll
22%
Точно всё перепишу на Spark
60%
Добавлю тесты (честно-честно)
27%
Больше никаких hotfix’ов в проде
37%
Удалю временные таблицы
😁6 5💯3
Forwarded from Knowledge Accumulator
Вайбкодинг: суровая реальность
Расскажу про то, как вчера прошли мои несколько часов на работе, которые мне показались интересным опытом.
Итак, меня попросили помочь другой команде с составлением датасета. Ситуация следующая - у них на руках 50 тыщ ссылок на страницы с одного вебсайта, с каждой из которых нужно вытащить конкретные данные.
Чел №1 запускает тулзу, которая парсит страницы, попутно записывая в соответствующие поля список ссылок на картинки, название страницы и несколько других полей.
Квест №1 - нужно добыть рейтинг объекта с этой страницы. Расстроенный, что скачивающая тулза не парсит этот рейтинг нативно, чел №1 предлагает скормить каждую страницу LLM-ке и попросить её вытащить этот рейтинг.
Удостоверившись, что тулза дампает ещё и весь html, я предлагаю другой вариант - если это данные с 1 сайта, то рейтинг можно легко найти в самой html-ке по тегам. Заварил Beautiful Soup, функцию извлечения из 3 строчек, и готово. +1 к олдскульности в глазах коллег.
Квест №2 - нужно скачать фотографии с определённой карусели на странице этого сайта. Воодушевлённый своим умением в древние технологии, я принялся разбираться в html-ках. Но что-то у меня не клеилось.
Я втыкал в несколько образцов страниц. В части из них у фоток из нужной мне карусели был определённый тег, по которому я их находил. А в некоторых случаях у скачанных html-ек была какая-то другая структура, хотя на самом сайте всё было как обычно. Я больше 30 минут втыкал в разные страницы и пытался найти закономерность, тестил гипотезы, но так и не смог найти признака, по которому можно отличить нужные мне фотки.
Спустя время ко мне подходит чел №2 и говорит - я 5 минут назад попросил данные, и у меня вроде получилось распарсить. Я говорю - как? Он говорит - да я сказал курсору, что надо распарсить, и он написал код. Смотрю в него - там 400 строк отборнейшего AI-слопа. Чел №2 добавляет - я в душе не знаю, как он работает, я посмотрел на нескольких образцах, результат выглядит валидно.
Я попытался вчитаться - парсер забирает какой-то markdown страницы (что это вообще?), берёт все ссылки и применяет кучу фильтров на текст рядом с этими ссылками. В результате остаются только нужные. Я бы сам такое решение не соорудил за адекватное время.
Меня это задело. Я почувствовал, что мой век уходит. Я - дряхлый старик, застрявший в предыдущей эре, и работающий гораздо медленнее тех, кто освоил новые технологии. Ну и хуй с вами, делайте дальше сами - подумал я - и пошёл поесть.
Вернушись, я застал сеанс парного вайб-кодинга. Чел №1 ест, а чел №2 что-то усиленно пишет курсору. Он мне говорит - "чё-то слишком дохуя edge-кейсов, оказалось, что в половине случаев ничё не работает. Я скидываю курсору неправильные кейсы и она фиксит код". Через ещё несколько минут ко мне подошли - может, по-братски всё же свой парсер доделаешь?
Замотивированный на успех, я ещё раз вчитался в 30% "неправильных html" и до меня дошло - эти страницы сдампали до того, как они полностью загрузились. Когда я открывал страницы вручную, замечал, что нужная мне карусель загружается не сразу. Я попросил чела №1 перескачать страницы, выставив большее время перед загрузкой, и после этого почти все 50к страниц стали парсится очень короткой функцией. Мне сказали, что я Wizard.
В этой истории никто из нас не действовал оптимально. Я, скорее всего, сделал бы работу быстрее, если бы обратился к LLM-ке для генерации гипотез, и скорее всего она бы мне подсказала про частично загруженные страницы. Но моя крайность, наверное, лучше другой, в которой работа не была сделана вообще, потому что дебажить 400 строк сломанного AI-слопа человек не в состоянии.
А вы что думаете про всё это? Расскажите свои истории на тему.
@knowledge_accumulator
Расскажу про то, как вчера прошли мои несколько часов на работе, которые мне показались интересным опытом.
Итак, меня попросили помочь другой команде с составлением датасета. Ситуация следующая - у них на руках 50 тыщ ссылок на страницы с одного вебсайта, с каждой из которых нужно вытащить конкретные данные.
Чел №1 запускает тулзу, которая парсит страницы, попутно записывая в соответствующие поля список ссылок на картинки, название страницы и несколько других полей.
Квест №1 - нужно добыть рейтинг объекта с этой страницы. Расстроенный, что скачивающая тулза не парсит этот рейтинг нативно, чел №1 предлагает скормить каждую страницу LLM-ке и попросить её вытащить этот рейтинг.
Удостоверившись, что тулза дампает ещё и весь html, я предлагаю другой вариант - если это данные с 1 сайта, то рейтинг можно легко найти в самой html-ке по тегам. Заварил Beautiful Soup, функцию извлечения из 3 строчек, и готово. +1 к олдскульности в глазах коллег.
Квест №2 - нужно скачать фотографии с определённой карусели на странице этого сайта. Воодушевлённый своим умением в древние технологии, я принялся разбираться в html-ках. Но что-то у меня не клеилось.
Я втыкал в несколько образцов страниц. В части из них у фоток из нужной мне карусели был определённый тег, по которому я их находил. А в некоторых случаях у скачанных html-ек была какая-то другая структура, хотя на самом сайте всё было как обычно. Я больше 30 минут втыкал в разные страницы и пытался найти закономерность, тестил гипотезы, но так и не смог найти признака, по которому можно отличить нужные мне фотки.
Спустя время ко мне подходит чел №2 и говорит - я 5 минут назад попросил данные, и у меня вроде получилось распарсить. Я говорю - как? Он говорит - да я сказал курсору, что надо распарсить, и он написал код. Смотрю в него - там 400 строк отборнейшего AI-слопа. Чел №2 добавляет - я в душе не знаю, как он работает, я посмотрел на нескольких образцах, результат выглядит валидно.
Я попытался вчитаться - парсер забирает какой-то markdown страницы (что это вообще?), берёт все ссылки и применяет кучу фильтров на текст рядом с этими ссылками. В результате остаются только нужные. Я бы сам такое решение не соорудил за адекватное время.
Меня это задело. Я почувствовал, что мой век уходит. Я - дряхлый старик, застрявший в предыдущей эре, и работающий гораздо медленнее тех, кто освоил новые технологии. Ну и хуй с вами, делайте дальше сами - подумал я - и пошёл поесть.
Вернушись, я застал сеанс парного вайб-кодинга. Чел №1 ест, а чел №2 что-то усиленно пишет курсору. Он мне говорит - "чё-то слишком дохуя edge-кейсов, оказалось, что в половине случаев ничё не работает. Я скидываю курсору неправильные кейсы и она фиксит код". Через ещё несколько минут ко мне подошли - может, по-братски всё же свой парсер доделаешь?
Замотивированный на успех, я ещё раз вчитался в 30% "неправильных html" и до меня дошло - эти страницы сдампали до того, как они полностью загрузились. Когда я открывал страницы вручную, замечал, что нужная мне карусель загружается не сразу. Я попросил чела №1 перескачать страницы, выставив большее время перед загрузкой, и после этого почти все 50к страниц стали парсится очень короткой функцией. Мне сказали, что я Wizard.
В этой истории никто из нас не действовал оптимально. Я, скорее всего, сделал бы работу быстрее, если бы обратился к LLM-ке для генерации гипотез, и скорее всего она бы мне подсказала про частично загруженные страницы. Но моя крайность, наверное, лучше другой, в которой работа не была сделана вообще, потому что дебажить 400 строк сломанного AI-слопа человек не в состоянии.
А вы что думаете про всё это? Расскажите свои истории на тему.
@knowledge_accumulator
💯6👏1