NEW BOT Телеграм, страница

Forwarded from Knowledge Accumulator

Вайбкодинг: суровая реальность

Расскажу про то, как вчера прошли мои несколько часов на работе, которые мне показались интересным опытом.

Итак, меня попросили помочь другой команде с составлением датасета. Ситуация следующая - у них на руках 50 тыщ ссылок на страницы с одного вебсайта, с каждой из которых нужно вытащить конкретные данные.

Чел №1 запускает тулзу, которая парсит страницы, попутно записывая в соответствующие поля список ссылок на картинки, название страницы и несколько других полей.

Квест №1 - нужно добыть рейтинг объекта с этой страницы. Расстроенный, что скачивающая тулза не парсит этот рейтинг нативно, чел №1 предлагает скормить каждую страницу LLM-ке и попросить её вытащить этот рейтинг.

Удостоверившись, что тулза дампает ещё и весь html, я предлагаю другой вариант - если это данные с 1 сайта, то рейтинг можно легко найти в самой html-ке по тегам. Заварил Beautiful Soup, функцию извлечения из 3 строчек, и готово. +1 к олдскульности в глазах коллег.

Квест №2 - нужно скачать фотографии с определённой карусели на странице этого сайта. Воодушевлённый своим умением в древние технологии, я принялся разбираться в html-ках. Но что-то у меня не клеилось.

Я втыкал в несколько образцов страниц. В части из них у фоток из нужной мне карусели был определённый тег, по которому я их находил. А в некоторых случаях у скачанных html-ек была какая-то другая структура, хотя на самом сайте всё было как обычно. Я больше 30 минут втыкал в разные страницы и пытался найти закономерность, тестил гипотезы, но так и не смог найти признака, по которому можно отличить нужные мне фотки.

Спустя время ко мне подходит чел №2 и говорит - я 5 минут назад попросил данные, и у меня вроде получилось распарсить. Я говорю - как? Он говорит - да я сказал курсору, что надо распарсить, и он написал код. Смотрю в него - там 400 строк отборнейшего AI-слопа. Чел №2 добавляет - я в душе не знаю, как он работает, я посмотрел на нескольких образцах, результат выглядит валидно.

Я попытался вчитаться - парсер забирает какой-то markdown страницы (что это вообще?), берёт все ссылки и применяет кучу фильтров на текст рядом с этими ссылками. В результате остаются только нужные. Я бы сам такое решение не соорудил за адекватное время.

Меня это задело. Я почувствовал, что мой век уходит. Я - дряхлый старик, застрявший в предыдущей эре, и работающий гораздо медленнее тех, кто освоил новые технологии. Ну и хуй с вами, делайте дальше сами - подумал я - и пошёл поесть.

Вернушись, я застал сеанс парного вайб-кодинга. Чел №1 ест, а чел №2 что-то усиленно пишет курсору. Он мне говорит - "чё-то слишком дохуя edge-кейсов, оказалось, что в половине случаев ничё не работает. Я скидываю курсору неправильные кейсы и она фиксит код". Через ещё несколько минут ко мне подошли - может, по-братски всё же свой парсер доделаешь?

Замотивированный на успех, я ещё раз вчитался в 30% "неправильных html" и до меня дошло - эти страницы сдампали до того, как они полностью загрузились. Когда я открывал страницы вручную, замечал, что нужная мне карусель загружается не сразу. Я попросил чела №1 перескачать страницы, выставив большее время перед загрузкой, и после этого почти все 50к страниц стали парсится очень короткой функцией. Мне сказали, что я Wizard.

В этой истории никто из нас не действовал оптимально. Я, скорее всего, сделал бы работу быстрее, если бы обратился к LLM-ке для генерации гипотез, и скорее всего она бы мне подсказала про частично загруженные страницы. Но моя крайность, наверное, лучше другой, в которой работа не была сделана вообще, потому что дебажить 400 строк сломанного AI-слопа человек не в состоянии.

А вы что думаете про всё это? Расскажите свои истории на тему.

@knowledge_accumulator

💯7👏3😁1

215 views20:44

#dev #memes #midle

😁7

215 views07:42

#квиз #ibm #brutforce #hack #hacking

🎬 Квиз для знатоков кино и сериалов

На кадре — старый IBM-терминал с зелёным кодом, перебирающим пароль.
Вопрос простой, но коварный 👀

👏42😁11

182 viewsedited 13:59

👉 Из какого фильма или сериала этот кадр?

Anonymous Quiz