Про детекторы AI контента
- У языковых моделей часто встречаются характерные «следы» (баесы), по которым можно понять, что текст сгенерирован автоматически, а не написан человеком. Например, у моделей OpenAI слишком часто встречается слово «delve» из-за того, что при обучении размечением занимались специалисты из Нигерии, в диалекте которых это слово употребляется особенно часто. - пруф
- Однако разные модели имеют разные баесы, и обучить детектор на их все будет сложно
- Так же эти сервисы безумно сильно подвержены концепт и дата дрифту, каждый раз как meta/openai докидывает данных в модель или выпускает новую, меняет системный промпт , качество детекторов снижается
- При обучении таких детекторов в качестве негативов (ручных текстов) используют интернет-посты из прошого, что вносит баесы в сами детекторы. Теперь они чаще считают не ии сгенерированными тренды 15-18х годов.
- К тому же не понятно, где кончается грань ИИ-текста. Если я попрошу исправить грамматические ошибки и перефразировать сложные конструкции? Если я напишу первое предложение и попрошу продолжить? Если я попрошу сгенерировать текст по майндкарте или наброску?
- Я попросил ChatGPT перефразировать текст википедии про линукс, в итоге из 20 попробованных мною детектора из топа гугла, ни одни не смог распознать ии - пруф
- Из потенциально рабочих методов, мне хочется выделить LLM-watermarking, когда мы вносим изменения в модель, что бы было проще детектировать ее текст. Этот подход можете заработать, но требует усилий от всех создателей моделей
- Почему так важно научиться распознавать тексты, созданные искусственным интеллектом, и как это выходит далеко за рамки банального «ловления» студентов, списывающих эссе? Ответ на этот вопрос вы найдёте на сайте vox-harbor
- У языковых моделей часто встречаются характерные «следы» (баесы), по которым можно понять, что текст сгенерирован автоматически, а не написан человеком. Например, у моделей OpenAI слишком часто встречается слово «delve» из-за того, что при обучении размечением занимались специалисты из Нигерии, в диалекте которых это слово употребляется особенно часто. - пруф
- Однако разные модели имеют разные баесы, и обучить детектор на их все будет сложно
- Так же эти сервисы безумно сильно подвержены концепт и дата дрифту, каждый раз как meta/openai докидывает данных в модель или выпускает новую, меняет системный промпт , качество детекторов снижается
- При обучении таких детекторов в качестве негативов (ручных текстов) используют интернет-посты из прошого, что вносит баесы в сами детекторы. Теперь они чаще считают не ии сгенерированными тренды 15-18х годов.
- К тому же не понятно, где кончается грань ИИ-текста. Если я попрошу исправить грамматические ошибки и перефразировать сложные конструкции? Если я напишу первое предложение и попрошу продолжить? Если я попрошу сгенерировать текст по майндкарте или наброску?
- Я попросил ChatGPT перефразировать текст википедии про линукс, в итоге из 20 попробованных мною детектора из топа гугла, ни одни не смог распознать ии - пруф
- Из потенциально рабочих методов, мне хочется выделить LLM-watermarking, когда мы вносим изменения в модель, что бы было проще детектировать ее текст. Этот подход можете заработать, но требует усилий от всех создателей моделей
- Почему так важно научиться распознавать тексты, созданные искусственным интеллектом, и как это выходит далеко за рамки банального «ловления» студентов, списывающих эссе? Ответ на этот вопрос вы найдёте на сайте vox-harbor
👍6🤔2❤1👎1🔥1😁1
Смотрите какую крутотень сделали на VLM + Structured Output. Отправляешь фото блюда, получаешь его каллораж. Больше не надо сканить штрих коды или возиться с весами. Так как я не питаюсь дома потребление калорий было большой проблемой, но с ботом смог сбросить 10кг за последние пару месяцев!
Кстати да, вадим из прошлго поста про курсор, завернул это все в публичного телеграм бота, без подписок/рекламы/оплаты/пейволов.
Вообще сложно осознать насколько быстро развивается ИИ в последнее время - еще год назад (тогда выходила Llama-2, помните?) ничего подобного и представить было нельзя
PS если вы скажите "а вдруг оно ошибется" - я отвечу "и что"
PPS. @weightlossssbot
Кстати да, вадим из прошлго поста про курсор, завернул это все в публичного телеграм бота, без подписок/рекламы/оплаты/пейволов.
Вообще сложно осознать насколько быстро развивается ИИ в последнее время - еще год назад (тогда выходила Llama-2, помните?) ничего подобного и представить было нельзя
PS если вы скажите "а вдруг оно ошибется" - я отвечу "и что"
PPS. @weightlossssbot
❤8👍5🤔1
Кстати
я последние дни в Тбилиси - если кто то хочет встретиться на кофе - пишите (или даже если не хотите - все равно пишите - я хочу)
Потом лечу на Пхукет, если есть кто-то с тайланда - тоже был бы очень рад занетворкаться 🤗
Можно в личку @freQuensy23 или в телегу
я последние дни в Тбилиси - если кто то хочет встретиться на кофе - пишите (или даже если не хотите - все равно пишите - я хочу)
Потом лечу на Пхукет, если есть кто-то с тайланда - тоже был бы очень рад занетворкаться 🤗
Можно в личку @freQuensy23 или в телегу
❤🔥7😁3👍2👌1
Новогодний розыгрыш
^^^^^^^^^^^^^^^^^^^^^^
Я очень топлю за использования код-копайлотов, sql агентов и в целом ЛЛМок в своей работе. Однако в сети бытует мнение что "дебажить за ллмкой занимает больше времени чем написать самому".
С ним сложно полностью не согласиться - ведь даже самые умные модели регулярно галюцинируют или несут пургу из-за неполного контекста задачи.
Что бы разрешить этот спор - предлагаю соревнование - я вместе с группой добровольцев получу набор одинаковых заданий - написать какую то либу/сервис, изменить что то уже в работающем проекте, отловить какую то ошибку.
На каждом задании мы делимся пополам и смотрим время решения задачи, тест решает с ЛЛМками, а контроль без. Так как нас много и задач много - то получится статзначимо оценить эффект от ИИ.
Что бы добавить интерактива в это занятие - я предлагаю вам накидать в комментарии что можно поделать. В начале следующего года мы выберем самые интересные задачи из комментариев для конкурса, а победители получат по подписке на CursorAI
Из того что пришло в голову:
1) Исправить баг в matplotlib 3.10.0 из за которого
2) Исправить искусственно созданый баг в реализации атеншна на торче
3) Написать запрос к аналитической базе какой то компании по описании ее схемы
4) Написать приложение для автоматической нарезке ютуб роликов на шортсы используя данные по перемоткам (полупрозрачный график у линии таймлайна)
^^^^^^^^^^^^^^^^^^^^^^
Я очень топлю за использования код-копайлотов, sql агентов и в целом ЛЛМок в своей работе. Однако в сети бытует мнение что "дебажить за ллмкой занимает больше времени чем написать самому".
С ним сложно полностью не согласиться - ведь даже самые умные модели регулярно галюцинируют или несут пургу из-за неполного контекста задачи.
Что бы разрешить этот спор - предлагаю соревнование - я вместе с группой добровольцев получу набор одинаковых заданий - написать какую то либу/сервис, изменить что то уже в работающем проекте, отловить какую то ошибку.
На каждом задании мы делимся пополам и смотрим время решения задачи, тест решает с ЛЛМками, а контроль без. Так как нас много и задач много - то получится статзначимо оценить эффект от ИИ.
Что бы добавить интерактива в это занятие - я предлагаю вам накидать в комментарии что можно поделать. В начале следующего года мы выберем самые интересные задачи из комментариев для конкурса, а победители получат по подписке на CursorAI
Из того что пришло в голову:
1) Исправить баг в matplotlib 3.10.0 из за которого
plot([1,2], [1, 3]) выдавал ошибку2) Исправить искусственно созданый баг в реализации атеншна на торче
3) Написать запрос к аналитической базе какой то компании по описании ее схемы
4) Написать приложение для автоматической нарезке ютуб роликов на шортсы используя данные по перемоткам (полупрозрачный график у линии таймлайна)
Cursor
Built to make you extraordinarily productive, Cursor is the best way to code with AI.
👍6
я попросил gpt-4о заменить 2 слова в предложени на иероглифы, что бы они были не рядом. В итоге пришлось отправить ей 10 запросов что бы она справилась 📉
А новая🇨🇳 китайская 🇨🇳 модель Deepseek V3 поняла меня даже без промпта 👍 - сразу видно новая сота 📈
А новая
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁22🔥7👍2🤮1
📢 GPT-4o-mini Hackathon by Ogon.AI📢
📅 Даты хакатона: 20 января 2025 — 27 января 2025
📍 Формат: Онлайн
👥 Приходи с командой, участвуй один или найди команду в чате хакатона!
💡 Задача хакатона: разработать AI ассистента на основе модели GPT-4o-mini. Основное требование - проект должен быть готовым к использованию продуктом, а стэк и подход к реализации выбирать вам!
🎁 Призы: подарочные карты на AI-сервисах, платные курсы на образовательных платформах и другое в рамках призового бюджета:
⭐️ 1 место: 1,500 USD
⭐️ 2 место: 1,000 USD
⭐️ 3 место: 500 USD
Регистрация и больше информации по ссылке
Telegram-чат Ogon.AI
📅 Даты хакатона: 20 января 2025 — 27 января 2025
📍 Формат: Онлайн
👥 Приходи с командой, участвуй один или найди команду в чате хакатона!
💡 Задача хакатона: разработать AI ассистента на основе модели GPT-4o-mini. Основное требование - проект должен быть готовым к использованию продуктом, а стэк и подход к реализации выбирать вам!
🎁 Призы: подарочные карты на AI-сервисах, платные курсы на образовательных платформах и другое в рамках призового бюджета:
⭐️ 1 место: 1,500 USD
⭐️ 2 место: 1,000 USD
⭐️ 3 место: 500 USD
Регистрация и больше информации по ссылке
Telegram-чат Ogon.AI
Ogon.ai
GPT-4o-mini Hackathon | Ogon.ai
🚀 Develop a creative and effective AI Assistant using the GPT-4o-mini model, focusing on its ability to drive real business value.
✍️ Receive support and feedback from industry experts
🤝 Join individually, as part of your team or create a team with other…
✍️ Receive support and feedback from industry experts
🤝 Join individually, as part of your team or create a team with other…
❤3👍2❤🔥1
Не знаю чего все так активно обсуждают Deep Research от OpenAI- кажется абсолютно сырой продукт с непонятными сценариями применения. Сейчас дал ему довольно простую задачу "what are the main achievements of department of US government efficiency (DOGE)?" - найти достижение агенства DOGE которое создал Трамп для оптимизации работы госорганов США.
Вроде идеальная задача для LLM + search продукта - просто поищи чтот в инете и полей воды, но по итогу ответил что ничего не нашел. Тестировал его на разных просьбах, спрашивал про научные статьи, про новости, просил делать экономический анализ, но ни одного хорошего ответа так и не вышло(
GROK-deepresearch на этот вопрос кстати отвечает, но на других задачах так же сыпется, видимо есть лик и ответ на мой вопрос был в трейне.
Вроде идеальная задача для LLM + search продукта - просто поищи чтот в инете и полей воды, но по итогу ответил что ничего не нашел. Тестировал его на разных просьбах, спрашивал про научные статьи, про новости, просил делать экономический анализ, но ни одного хорошего ответа так и не вышло(
GROK-deepresearch на этот вопрос кстати отвечает, но на других задачах так же сыпется, видимо есть лик и ответ на мой вопрос был в трейне.
😢6😱4🤔3🤝2
https://www.youtube.com/watch?v=cfRYp0nItZ8
^^^^^^^
Залетаем на стрим с анонсом GPT-4.5
Судя по чатам их Head Of чего то там, они рассчеты обучения GPT-6 делали через DeepResearch, значит у меня плохие новости(
^^^^^^^
Залетаем на стрим с анонсом GPT-4.5
Судя по чатам их Head Of чего то там, они рассчеты обучения GPT-6 делали через DeepResearch, значит у меня плохие новости(
😁9
Недавно наткнулся на не очевидную задержку при использовании Structured Output (ответ в виде Json-а по какой то схеме)
Под капотом, при структуред аутпуте мы динамический на каждом сгенерированном токене редактируем словарь модели не позволяя ей генерировать невалидный json. Для того что бы это работало, openai перед выполнением запроса строит префиксное деревео по переданной схеме. Если эта схема достаточно сложная, или содержит Literal[...] с выбором из множественных значений, то создание этого дерева может занять до минуты. API на своей стороне кеширует это дерево, так что если вы используете один и тот же формат ответа много раз, то проблем быть не должно, но часто бывает нужно под каждый запрос формировать свою собственную схему, из за чего могут возникнуть значительные задержки.
Разобраться в этой проблеме мне помог bogdanisssimo, фаундер VibeDatingBot - очень классного дейтинг ассистента. У него тоже есть свой канал на котором незаслуженно мало подписоты (хотя все равно больше чем у меня 🥹)
Под капотом, при структуред аутпуте мы динамический на каждом сгенерированном токене редактируем словарь модели не позволяя ей генерировать невалидный json. Для того что бы это работало, openai перед выполнением запроса строит префиксное деревео по переданной схеме. Если эта схема достаточно сложная, или содержит Literal[...] с выбором из множественных значений, то создание этого дерева может занять до минуты. API на своей стороне кеширует это дерево, так что если вы используете один и тот же формат ответа много раз, то проблем быть не должно, но часто бывает нужно под каждый запрос формировать свою собственную схему, из за чего могут возникнуть значительные задержки.
Разобраться в этой проблеме мне помог bogdanisssimo, фаундер VibeDatingBot - очень классного дейтинг ассистента. У него тоже есть свой канал на котором незаслуженно мало подписоты (хотя все равно больше чем у меня 🥹)
👍10🤡3🔥2👎1
Врываюсь сюда с новым онлайн бенчмарком LLMок, по которому gpt-4.5 - сота (openai возьмете меня на работу?).
https://habr.com/ru/articles/898934/
А если этот пост наберет 1 просмотр, то прогоню через него Llama-4 и посмотрим сколько она наберет (кажется что больше чем от нее ожидают)
https://habr.com/ru/articles/898934/
А если этот пост наберет 1 просмотр, то прогоню через него Llama-4 и посмотрим сколько она наберет (кажется что больше чем от нее ожидают)
Хабр
Tinder VS LLM
Привет, я — дата-сайентист, и в свободное время моими двумя главными хобби являются дейтинг и ведение блога про ML . Казалось бы, что общего у поиска идеального мэтча в Tinder Twinby и оценки больших...
👍16❤5👀3
Если AGI еще не достигнут - то что это
@yourleomatchbot
Посмотрите настолько четко LLM определяет ваши интересы и матчит другие профили
@yourleomatchbot
Посмотрите настолько четко LLM определяет ваши интересы и матчит другие профили
🤮7👍5😁3🤔2
О прикольно, мою статью на хабре пассивно агресивно упомянул head of AI в МТС-е и по совместительству (вроде как) мой препод по ML на физтехе (о чем он скорее видимо не помнит 😢).
Про тест Тьюринга я конечно знаю, и не могу посоветовать вам почитать его препринт про прохождение LLMкой теста тьюринга.
Про тест Тьюринга я конечно знаю, и не могу посоветовать вам почитать его препринт про прохождение LLMкой теста тьюринга.
😁14👍2
Forwarded from Valuable AI / Валентин Малых
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга
я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал
второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела
P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5;ссылка на Хабр
я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал
второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела
P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5;
❤3👍3
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
🤣57🤯6👍1
залетаем смотреть новый стрим openai про gpt-4.1, уже начали! Говорят она умнее 4.5 и имеет лям контекста
https://www.youtube.com/watch?v=kA-P9ood-cE;
https://www.youtube.com/watch?v=kA-P9ood-cE;
YouTube
GPT 4.1 in the API
Join Michelle Pokrass, Ishaan Singal, and Kevin Weil as they introduce and demo our new family of GPT-4.1 models in the API
👍2❤1🔥1
OpenAI покупают Windsurf – аналог Cursor
Говорят, сделка обойдется OpenAI в три миллиарда долларов.
Интересно зачем тратить 3 лярда баксов на стартап если можно новыми моделями, которые умнее 92.7% PHD студентов в америке навайбкодить то же самое за вечер? 🤔
Говорят, сделка обойдется OpenAI в три миллиарда долларов.
Интересно зачем тратить 3 лярда баксов на стартап если можно новыми моделями, которые умнее 92.7% PHD студентов в америке навайбкодить то же самое за вечер? 🤔
CNBC
OpenAI in talks to pay about $3 billion to acquire AI coding startup Windsurf
OpenAI is in talks to buy Windsurf, an artificial intelligence tool for coding help, according to a source familiar with the matter.
😁21🤣5🫡4