Работа работай, а развлекаться тоже нужно уметь 😎
В последние дни недели решил позаниматься генерацией картинок для канала… и нашёл бомбический сетап для генерации не просто текст-картинка, а целую связку текст-картинка-видео (иначе вместо t2i нашёл вариант t2i2v).
Как всё происходит?
и – вуа-ля! – вот уже готовое видео, хоть в короткие потоковые видео сайтов выкладывай!
Давайте так: с вас актив – с меня больше примеров и больше информации по генерации такого контента! Идёт?😊
P.S. вчера lmarena нормально смогла сгенерировать 4 видео, после сломалась и писала сообщения – даже после повтора генерации всё равно не генило. Видимо, сайт нагружен, позже попробую ещё что-нибудь нагенить)
P.S.S. Ещё там не всегда получиться генерировать прям всю сетку. У меня после двух генераций стал писать, мол, закинь лучше одну картинку, твою сетку не буду генить. Хз как это пофиксить или обойти 🧐
Кот в Коде| @kot_research_bot
В последние дни недели решил позаниматься генерацией картинок для канала… и нашёл бомбический сетап для генерации не просто текст-картинка, а целую связку текст-картинка-видео (иначе вместо t2i нашёл вариант t2i2v).
Как всё происходит?
Сгенерировал специфичный промт через Grok для генерации сразу не одной картинки, а сетки 3х3 по одному стилю в разных ракурсах (или +- схожие по тематике концепт-арта);
После перешёл в Нанобанану для генерации сразу сетки картинок (правда банан перебарщивал и делал не только 3х3, но и 4х3, 5х3 и др вариации до 15 картинок за раз);
Дальше переходил в lmaren’у (уже с ней встречались здесь) – туда завезли генерацию текст-видео и фото-видео (t2v, I2v) и писал интересный промт:
immediately cut from the first frame and use the panels individually to create the clip. do not animate all the panels together as one. use hard cuts if needed
После генерации аж двух (!!!) видео за раз, можно не только посмотреть, но и скачать видео!(правда там вотермарка в конце, но её можно убрать 😏 ) .
и – вуа-ля! – вот уже готовое видео, хоть в короткие потоковые видео сайтов выкладывай!
Давайте так: с вас актив – с меня больше примеров и больше информации по генерации такого контента! Идёт?
something went wrong while generating the response. Please try againP.S.S. Ещё там не всегда получиться генерировать прям всю сетку. У меня после двух генераций стал писать, мол, закинь лучше одну картинку, твою сетку не буду генить. Хз как это пофиксить или обойти
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3 1 1
Кот в Коде|ИИ и Питон
Video
Нашёл простой абуз обеих проблем:
Вместо того, чтобы просто копипастить сгенерированный промт и пихать в lmare'у - просто первые и последние пару слов удалите, напишите ручками - и всё снова заработает🧐
Вместо того, чтобы просто копипастить сгенерированный промт и пихать в lmare'у - просто первые и последние пару слов удалите, напишите ручками - и всё снова заработает
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 1 1
Даёшь мусор!
Пока рабочее место выглядит вот так (с прошлого раза добавил источник питания и параллельно с Grok’ом и Gemini подключил по приколу DeepSeek), у меня появились шумы в PuTTY!
Это немаловажный прогресс с учётом того, что на прошлой неделе ничего не мог вывести.
Пусть рисовый перелопачивает варианты написания программы, а вам напишу, что смог поймать:
Понимаю, мусор неважный и если бы в дальнейшем появлялся только бы артефакты в одном из терминалов, то это бы озадачивало и давало красный сигнал в работе программ… но блин, уже что-то появилось!
Работаю дальше, а пока что для вас готовлю интересный контент по примеру поста выше. Давайте, поднажмите там реакциями!
Кот в Коде| @kot_research_bot
Пока рабочее место выглядит вот так (с прошлого раза добавил источник питания и параллельно с Grok’ом и Gemini подключил по приколу DeepSeek), у меня появились шумы в PuTTY!
Это немаловажный прогресс с учётом того, что на прошлой неделе ничего не мог вывести.
Пусть рисовый перелопачивает варианты написания программы, а вам напишу, что смог поймать:
В режиме «автоматический поиск пинов» при PA0 появился шум в PuTTY:
▒
▒
▒
▒
▒
▒
В тесте отправки Modbus команды на UART2 тоже в PuTTY появился шум:
`▒▒
Понимаю, мусор неважный и если бы в дальнейшем появлялся только бы артефакты в одном из терминалов, то это бы озадачивало и давало красный сигнал в работе программ… но блин, уже что-то появилось!
Кот в Коде| @kot_research_bot
❤2 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрокотент в деле! Часть 1
Итак, как и обещал, выкладываю первую часть сценария, как можно генерировать качественный контент, зная фишки из просторов Интернета.
Ранее я показывал несколько примеров, как можно сделать контент t2i2v (text-image-video). В этом посте подробнее расскажу, какие сервисы использовал для создания таких видео-форматов
1️⃣ Создание промта
2️⃣ Создание картинки
3️⃣ Создание видео
Понятное дело кому-то нужно быстро и бесплатно, кому-то лучше потратить деньги, зато качество будет лучше - для каждого найдётся замена получше!
Но главное, что на выходекартинка… ой, простите, видео вам понравилась? – мне очень!
Делитесь в комментариях, какую нейронку добавили бы этот список? Или же у вас есть сетап лучше? Делитесь в комментариях!
Кот в Коде| @kot_research_bot
Итак, как и обещал, выкладываю первую часть сценария, как можно генерировать качественный контент, зная фишки из просторов Интернета.
Ранее я показывал несколько примеров, как можно сделать контент t2i2v (text-image-video). В этом посте подробнее расскажу, какие сервисы использовал для создания таких видео-форматов
В этой части на свой вкус и цвет можно использовать либо свою фантазиюи создать абракадабру, либо воспользоваться сторонними помощниками, которые не только дадут текст для картинки, но и динамику в ней –нейросети . Казалось бы,нейросеть делает контент из однойнейросети… и так циклом!
В общем и целом, мой топ нейросетей:🧐 Grok – хоть он и показывал не лучшие результаты в исследовании, зато язык у него подвешан – и отношение токен/отдача лучше других;😎 ChatGPT – из-за моей предвзятости в последнее время к его подражанию инфоцыгана болтать – не мешки ворочить, и к от старшего по званию брата он далеко не ушёл;🤓 DeepSeek – этот парень немного отстаёт от своих братьев старших + пока он подумает над контекстом – уже Grok с GPT выдадут порции на 3-4 других промтов, но он тоже знает, что сказать;🫡 Gemini – этот лидерборд закрывает серый кардинал, исходя из предпочтений прагматичного философа он уступает в плоскости и зажатости картинок… но кто знает, может это у меня только получилось)Не попали Qwen, Claude и, не побоюсь этого слова, Perplexity по причине «не распробовал их на вкус».
Тут оставлю предпочтение генерации через Kling – пусть и нужно будет потратить токены на создание картинки, но каждый токен будет того стоить!
И тут назревает вопрос: может и в том же Клининге (извините за мой французский) стоит создать видео, чтоб далеко не ходить? Или использовать Runway с его Gen-4.5 или нашумевшей Veo-3.1?
Извините за моё старомодное мнение, но я отдал предпочтение Minimax (он же минивэн) с его Hailuo 2.0😏 😏 😏
Да, там есть уже версия 2.3, но пока что идёт разрешение i2i (image-image) только на прошлой версии.
Понятное дело кому-то нужно быстро и бесплатно, кому-то лучше потратить деньги, зато качество будет лучше - для каждого найдётся замена получше!
Но главное, что на выходе
Делитесь в комментариях, какую нейронку добавили бы этот список? Или же у вас есть сетап лучше? Делитесь в комментариях!
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 1 1
Я СМОГ ОТПРАВИТЬ HELLO WORLD!
И да, даже пресловутое
Спустя долгое время, как не получалось решить проблему с RS485 – в итоге система сдалась и смогла отправить-получить сообщение👏
Но это половина радости. Вторая половина – угар с нейронок🤣
Так что как заканчивается одна задача – появляется другая. И тут уже будет посерьёзнее работа)
Кот в Коде| @kot_research_bot
И да, даже пресловутое
«Привет, мир!» может будоражить, как в первый раз. Спустя долгое время, как не получалось решить проблему с RS485 – в итоге система сдалась и смогла отправить-получить сообщение
Но это половина радости. Вторая половина – угар с нейронок
Сначала Grok пытался помочь – не получилось, застрял на своих нерабочих тестах;
Пошёл в разнос DeepSeek – он лучше справлялся по разрешению задачи… правда если бы у него контекстное меню (токены на чат, как в Gemini) не заканчивались так быстро!
Возвращение к Grok’у – снова тесты, но уже более рабочие… правда, и он мне сказал: «Лимит исчерпан, ждите 20 часов до обновления лимита» (в последнее время всё чаще начал замечать это сообщение, хотя раньше он просто писал «Я сломался, я устал, у меня лапки»)
И тут вырывается он:
– тот самый, у которого контекстное меню 1кк токенов;
- тот, с помощью которого последние задачи идут рука об руку с ним;- тот, от которого ваша девушка вам изменит, а парень станет 💪
И имя ему –Gemini
Правда, я не сильно и рассчитывал на него, но его мышление превзошло все мои ожидания. Я-то думал он певец, горлист и на балалайке игрист – но на самом деле, с технической и программной точки зрения – он тот ещё серый кардинал.
Так что как заканчивается одна задача – появляется другая. И тут уже будет посерьёзнее работа)
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 1 1
Птица, которая умеет летать (почти)
К вашему вниманию новая задача и новый экспонат на ближайший пласт работ – Метеостанция Сокол-М1.
Что это такое?
Почему дали с ним работать?
Пока дали задачи просто проверить, как он сам по себе работает, поэтому можно посмотреть его на фотке, что он из себя представляет.
Как вам аппарат?
Кот в Коде| @kot_research_bot
К вашему вниманию новая задача и новый экспонат на ближайший пласт работ – Метеостанция Сокол-М1.
Что это такое?
Это станция, которая собирает метеорологические данные (влажность, скорость воздуха и тп). Т.е. Сокол – aka умный термометр на улице, который и температуру измерит, и сам подзарядиться от солнечной батареи, и расскажет, что он смог измерить…получается тамагочи для электронников 🙂
Почему дали с ним работать?
Постом выше я добился работы связки Thonny и PuTTY. Но это была лишь имитация работы RS485. А вот сам RS485 находится в в этой метеостанции – настоящей, физической (а не как раньше чисто датчик с Type-B проводом).
Пока дали задачи просто проверить, как он сам по себе работает, поэтому можно посмотреть его на фотке, что он из себя представляет.
Как вам аппарат?
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4 1 1
Грокаем Эндрю Траска: Глава 5 🧠
В прошлой главе (пост №135) мы научили нейрон ловить ошибку. Но в реальности данных всегда пачка. Глава 5 — это выход из «стерильной» лаборатории в реальный мир.
Суть процесса:
Синхронизация с железом
В этой главе мы работаем сразу с тремя входами. Это один-в-один мой «полигон». Чтобы нейронка выдала верный прогноз, ей нужно прожевать все эти сигналы одновременно. Тут как с даташитами: если перепутаешь структуру данных в матрице — получишь кирпич вместо результата.
Инструментарий
Выбор пути
Чтобы сеть "учила" новое и не "забывала" базу, мы гоняем её по кругу через весь набор данных. Это называется Стохастический градиентный спуск - мы корректируем веса после каждого примера. Это безопаснее, чем мои эксперименты, где я угробил две платы за полчаса. В коде ошибки исправлять дешевле, чем в железе.
Разложил код со светофорами и магию NumPy в статье:
Telegra.ph
Кот в Коде| @kot_research_bot
В прошлой главе (пост №135) мы научили нейрон ловить ошибку. Но в реальности данных всегда пачка. Глава 5 — это выход из «стерильной» лаборатории в реальный мир.
Суть процесса:
• Помните моё «инженерное чистилище»? Там был хаос.
• Матрицы в программировании — это способ превратить такой хаос в порядок(ведь по сути в Питоне матрица — это всего лишь «список списков»).
• Мы берем данные со светофоров и превращаем их в решение: стоять или идти. Это чистая трансформация: берем то, ЧТО ЗНАЕМ, и получаем то, ЧТО ХОТЕЛИ ЗНАТЬ.
Синхронизация с железом
В этой главе мы работаем сразу с тремя входами. Это один-в-один мой «полигон». Чтобы нейронка выдала верный прогноз, ей нужно прожевать все эти сигналы одновременно. Тут как с даташитами: если перепутаешь структуру данных в матрице — получишь кирпич вместо результата.
Инструментарий
Траск заставляет нас писать циклы вручную, но я сразу прыгаю в NumPy. Помните, я развеивал миф, что Питон на МК — это медленно? Так вот, с NumPy он летает. Метод .dot() делает за одну строчку то, на что ушли бы десятки циклов for.
Выбор пути
Чтобы сеть "учила" новое и не "забывала" базу, мы гоняем её по кругу через весь набор данных. Это называется Стохастический градиентный спуск - мы корректируем веса после каждого примера. Это безопаснее, чем мои эксперименты, где я угробил две платы за полчаса. В коде ошибки исправлять дешевле, чем в железе.
Разложил код со светофорами и магию NumPy в статье:
Telegra.ph
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 1 1
HeyGen теперь и Avatar
HeyGen - комплексная ИИ-технология, в которой содержится сразу несколько нейросетей:
Пример показа рабочих настроек на первом видео.
Так вот, я решил поиграться над созданием своего аватара Коди… и перечислю основные плюсы:
Что я могу по этому поводу сказать?
Пойдёт. Реально пойдёт. Не вау-эффект, но и не ширпотрёп.
Когда я увидел сегодня новость о выходе аватара, то подумал «Вау! Теперь можно просто закидывать хоть текст, хоть фото, прописать всё, что тебе надо – и получишь итоговый качественный продукт!»
А на деле… ну, посмотрите дальше ролики.
Может я что-то не так настроил и не докрутил – могу с этим согласиться. Но из-за малого числа возможностей (даётся 3 раза сгенить себе видео-аватара всего без траты шейкелей!) – не могу пока оценить, стоит юзать этот продукт или нет.
Попробуйте и вы, может у вас лучше получится – делитесь в комментариях.
Сайт
Кот в Коде| @kot_research_bot
HeyGen - комплексная ИИ-технология, в которой содержится сразу несколько нейросетей:
• Avatar Engine (news!): Проприетарный движок для render-а аватаров. Он берет ваш source (фото или видео) и генерит фотореалистичный output с сохранением identity.
• Lip-Sync: Нейронка для синхронизации mouth movements с аудио-дорожкой. Она анализирует phonemes (звуки) и в реальном времени маппит их на mesh лица аватара.
• Voice Cloning: Технология создания voice skin. Часто юзают API (программный интерфейс) от ElevenLabs, чтобы заклонить ваш голос и выдать максимально натуральный speech synthesis.
• Video Translation: Фича для локализации контента. Тут работает связка из Speech-to-Text (транскрибация), Machine Translation (перевод) и Voice-to-Voice (озвучка тем же тембром).
• Streaming Avatar: тема с низким latency, которая позволяет юзать аватара в real-time созвонах или чат-ботах.
Пример показа рабочих настроек на первом видео.
Так вот, я решил поиграться над созданием своего аватара Коди… и перечислю основные плюсы:
1. можно генерировать видео+визуал+аудио по тексту и входной картинке;
2. За пару минут предложат варианты и аудио, и фото- и видео-футажей, а после уже можно будет под себя корректировать всё вышеперечисленное;
3. в конце покажут все детали создания аватара и конечное видео.
Что я могу по этому поводу сказать?
Пойдёт. Реально пойдёт. Не вау-эффект, но и не ширпотрёп.
Когда я увидел сегодня новость о выходе аватара, то подумал «Вау! Теперь можно просто закидывать хоть текст, хоть фото, прописать всё, что тебе надо – и получишь итоговый качественный продукт!»
А на деле… ну, посмотрите дальше ролики.
Может я что-то не так настроил и не докрутил – могу с этим согласиться. Но из-за малого числа возможностей (даётся 3 раза сгенить себе видео-аватара всего без траты шейкелей!) – не могу пока оценить, стоит юзать этот продукт или нет.
Попробуйте и вы, может у вас лучше получится – делитесь в комментариях.
Сайт
Кот в Коде| @kot_research_bot
❤2 1 1
Всё идёт по плану… надо только подождать…🎧
Задачапочти реализована, можно сказать почти смог побороть Сокола.
В чём состоит основная задача?
А так всё осталось пока прежним, в Thonny работает программа -> получает через RS485 от станции данные -> выводит их и в REPL Thonny, и в PuTTY.
На сейчас момент программа считывает данные раз в 30-45 сек с вероятностью 60-70%!
При этом с самого начала я не только не видел данные или хотя бы мусор или шумы – я вообще не мог понять, как подключиться к этой всей установке. Поэтому, я думаю, пока что проделана немалая работа разработки в работе с метеостанцией.
Есть к чему дальше стремиться и, если интересно, в чём заключается реализация задачи и что я успел более детально сделать – распишу более подробно, ваши реакции и комментарии дадут мне понять 😁
Кот в Коде| @kot_research_bot
Задача
В чём состоит основная задача?
Как было в задаче по имитации работы RS485, сейчас появились некоторые дополнения и ответвления в работе:
1. ну как минимум это теперь не имитация, а полноценная работа с метеостанцией;
2. Источник питания подаёт одновременно и на плату, и на станцию через РСК (рычажный соединительный клеммник от WAGO), т.е. провода напрямую скручены через РСК, и питание подаётся через другой выходной провод (1 вход-2 выхода).
А так всё осталось пока прежним, в Thonny работает программа -> получает через RS485 от станции данные -> выводит их и в REPL Thonny, и в PuTTY.
На сейчас момент программа считывает данные раз в 30-45 сек с вероятностью 60-70%!
При этом с самого начала я не только не видел данные или хотя бы мусор или шумы – я вообще не мог понять, как подключиться к этой всей установке. Поэтому, я думаю, пока что проделана немалая работа разработки в работе с метеостанцией.
Есть к чему дальше стремиться
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ахахахах, в начале работы так и было
❤3 2 1
This media is not supported in your browser
VIEW IN TELEGRAM
А на сколько часто вы видите ИИ-слопы или прямо в лоб сгенерированный текст?
Пишите в комментариях)
Пишите в комментариях)
❤4 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Что там по нейроконтенту?
Пока работа стоит, можно и поразвлечься в генерации забавных видео.
И раз в прошлый раз упоминал о генерации видео через лмарену, почему бы снова не воспользоваться бесплатными благами?😁
И всё?
Да, всё.
Генерация аудио – можно задать, просто пишете текст, и нейронка сама вставит его по ходу пьесы в видео(правда не пишите слишком много текста, а то либо съест не весь текст, либо сделает отсебятину).
Генерация видео – о чём речь, если в посте идёт про это.
А с текстом и Grok поможет, в комментариях оставлю свой вариант генерации видео.
Итого:
Потрачено денег: 0р;
Потрачено времени: 1 час;
Результат: неплохо, но нужно пробовать ещё.
Как вам такой формат постов? Делитесь своими впечатлениями и примерами видео в комментариях.
Кот в Коде| @kot_research_bot
Пока работа стоит, можно и поразвлечься в генерации забавных видео.
И раз в прошлый раз упоминал о генерации видео через лмарену, почему бы снова не воспользоваться бесплатными благами?
Под капотом:
Lmarena (лучше всего использовать veo-3.1) + Capcut (со своими эффектами)
И всё?
Да, всё.
Генерация аудио – можно задать, просто пишете текст, и нейронка сама вставит его по ходу пьесы в видео
Генерация видео – о чём речь, если в посте идёт про это.
А с текстом и Grok поможет, в комментариях оставлю свой вариант генерации видео.
Так в чём подводные камни?
1. Время ожидания: lmarena не даёт за раз делать сразу много видео, ограничение 3 видео в день;
2. Ещё раз время ожидания: помимо того, что не так дают много сгенерировать видео, так и нужно ждать 5, а то и 10-15 мин;
3. Текст: тут уже фантазия важна. Либо сами генерируйте текст, либо через сторонние нейронки(потому что, если, например, Grok’у в лоб сказать: «сгенерируй мне текст для видео» - он в лоб сгенерирует текст даже с описанием того, что происходит на видео (в первой части видео так и произошло). Так что либо сразу пишите ему только текст для видео без описания того, что происходит на видео; либо режьте сами текст);
4. Capcut: оказывается, в нём не так всё просто. Если наложить эффекты можно хоть как угодно… то вот экспортировать видео, «уж извини, через подписку». Потому что я пару раз экспортировал видео или в другой месендж или просто скачивал – а потом всё, сказал Capcut, теперь просто так свои же видосы не сможешь нормально вытащить!(да ещё и местами при экспортировании ломается под предлогом произошла ошибка, попробуйте ещё раз)
Итого:
Потрачено денег: 0р;
Потрачено времени: 1 час;
Результат: неплохо, но нужно пробовать ещё.
Как вам такой формат постов? Делитесь своими впечатлениями и примерами видео в комментариях.
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
главное, что работает 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3 1 1
Друзья, приветствую всех. На этой неделе будут довольно большие, но отнюдь не менее интересные темы.
Темы довольно-таки щепетильные, как минимум связанные с темой нейронок, которые занимают неотъемлемую часть работы с ними.
Поэтому, возможно, где-то будут слишком сильно затянутые лонгриды.
Всем приятного чтения!
Темы довольно-таки щепетильные, как минимум связанные с темой нейронок, которые занимают неотъемлемую часть работы с ними.
Поэтому, возможно, где-то будут слишком сильно затянутые лонгриды.
Всем приятного чтения!
Начнём с базы: почему нейросети врут.
Ни для кого не секрет, что любая нейросеть, будь то Gemini (с его битыми ссылками), ChatGPT (разгонами вокруг да около), Claude "(токсичная проницательность") или Grok (чего только стоит прикол с братом) – все поголовно врут.
Недавний пример:
Так в чём же подвох? Почему даже зная, что нейросеть что-то не знает, она всё равно отвечает так, как будто бы она знает, о чём говорит?
И вот вы прочитали основные проблемы «вранья» нейросетей. И если соблюдать хотя бы эти правила в реализации своих проектов,к сожалению, даже так вы не обезопасите себя на полную от «правильных галлюцинаций». Поэтому всё равно нужно будет прочитать и ручками править изъяны ответов (казалось бы, сложно что ли?).
Но это полбеды. Вторая беда – пришла логично так же, как из прогулок на улице мы перешли к массовой посадке на телефоны.
Кот в Коде| @kot_research_bot
Ни для кого не секрет, что любая нейросеть, будь то Gemini (с его битыми ссылками), ChatGPT (разгонами вокруг да около), Claude "(токсичная проницательность") или Grok (чего только стоит прикол с братом) – все поголовно врут.
Недавний пример:
В посте выше про Heygen Avatar я решил обратиться к Grok’у за помощью в генерации текста для визуала.При этом я решил использовать новый чат и проверить, «помнит» ли он Коди?
Я ему скинул ссылку на видео с пластилиновым Дейвом (первое видео) и спросил: «Хочу попробовать что-нибудь со своим маскотом Коди. Ты помнишь, кто это?».
И что по итогу мне выдал Grok?
Конечно, помню Коди! 😄 Это твой забавный маскот в стиле пластилиновой анимации — с огромной искренней улыбкой, большими круглыми глазами, большим носом, торчащими ушами, короткими каштановыми волосами и преувеличенными чертами лица. На фото он как раз в той самой офисной обстановке из анонса HeyGen (только там его назвали Dave как пример)
Так в чём же подвох? Почему даже зная, что нейросеть что-то не знает, она всё равно отвечает так, как будто бы она знает, о чём говорит?
И тут, оказывается, есть много факторов, которые влияют на её ответ:
• Вероятностная природа (Next Token Prediction). нейронка не знает, что такое «истина», она просто угадывает статистически самый вероятный следующий кусок текста.
• Ловушка RLHF (Helpfulness vs Truthfulness). модели натасканы быть полезными и «угодливыми», поэтому признаться в некомпетентности для них — это низкая функция вознаграждения.
• Галлюцинированная критика - имитация интеллекта через скепсис. Они могут выдумывать ошибки в твоём ТЗ или коде просто потому, что в их датасетах «критикующий» ответ оценивался пользователями выше как «более экспертный».
• Семантическая изоляция (Стиль vs Смысл): слой синтаксиса у ИИ полностью отделён от логики. Модель может выдать код в идеальном стиле Senior-разработчика, который будет выглядеть безупречно, но физически не заработает, так как «красивое оформление» — это всего лишь статистический шаблон.
• Ограничения SFT-датасетов: большинство моделей обучались на кусках до 4000 токенов, поэтому при генерации длинных прог логические связи между началом и концом модуля слабеют и заполняются правдоподобным шумом.
• Reward Hacking (Взлом награды): если ты вводишь жесткие запреты, ИИ может начать «читерить», формально соблюдая правила промпта, но нарушая их суть через динамические вызовы, лишь бы получить твой одобрительный лайк👍
• Отсутствие обратной связи от реальности: у web-нейронок, которые испольуются не через API (программный интерфейс), нет доступа к твоему ни к чему, кроме как к чату. Пока ты не скопируешь ошибку обратно в чат, для ИИ твой код «идеален».
И вот вы прочитали основные проблемы «вранья» нейросетей. И если соблюдать хотя бы эти правила в реализации своих проектов,
Но это полбеды. Вторая беда – пришла логично так же, как из прогулок на улице мы перешли к массовой посадке на телефоны.
Кот в Коде| @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿3 2❤1 1
This media is not supported in your browser
VIEW IN TELEGRAM
Немного отвлечёмся от лонгридов и посмотрим мемчики 😄
Этот мир мне давно понятен... это многое говорит об обществе... 😔
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3 2🤡1
Следующий пост оказался настолько большим, что для объяснения сложных терминов пришлось выделить отдельный пост для понимания контекста.
+ в копилку новых слов и выражений в словарик этого канала.
Кот в Коде|@kot_research_bot
Поэтому для начала распишу основные термины, которые будут использоваться в тексте:
• Бенчмарки (повторка) - тесты производительности;
• Планирование функций - нативная логика вызовов;
• бойлерплейты - стандартные повторяющиеся куски кода;
• AGI - общий искусственный интеллект;
• Middle MLE - инженер по машинному обучению;
• Exploration - поиск принципиально новых путей;
• Creativity - созидательный креатив;
• RL - обучение с подкреплением;
• Галлюцинированная критика - выдуманные изъяны;
• Bias - системное искажение;
• Concept drift - потеря нити рассуждения в длинном диалоге;
• Indirect prompt injection -скрытые команды через внешние данные;
• "Вирус" Verbosity - излишнее многословие;
• Reward Hacking - манипуляция метриками успеха;
• AIME (повторка) - математический бенчмарк;
• Native zone of competence - природная зона компетенции;
• Full Attention - анализ всех связей в коде;
• Security shortcomings - уязвимости в безопасности;
• Next Token Prediction - статистическое угадывание следующего слова;
• Семантическая изоляция - gap между формой и смыслом;
• Когнитивный контроль - осознанная проверка логики;
• АИ-слоп - бессмысленный контент от нейросетей.
+ в копилку новых слов и выражений в словарик этого канала.
Кот в Коде|@kot_research_bot
🗿1 1 1