ML physicist – Telegram
ML physicist
2.39K subscribers
131 photos
6 videos
1 file
79 links
Download Telegram
Про детекторы AI контента

- У языковых моделей часто встречаются характерные «следы» (баесы), по которым можно понять, что текст сгенерирован автоматически, а не написан человеком. Например, у моделей OpenAI слишком часто встречается слово «delve» из-за того, что при обучении размечением занимались специалисты из Нигерии, в диалекте которых это слово употребляется особенно часто. - пруф

- Однако разные модели имеют разные баесы, и обучить детектор на их все будет сложно

- Так же эти сервисы безумно сильно подвержены концепт и дата дрифту, каждый раз как meta/openai докидывает данных в модель или выпускает новую, меняет системный промпт , качество детекторов снижается

- При обучении таких детекторов в качестве негативов (ручных текстов) используют интернет-посты из прошого, что вносит баесы в сами детекторы. Теперь они чаще считают не ии сгенерированными тренды 15-18х годов.

- К тому же не понятно, где кончается грань ИИ-текста. Если я попрошу исправить грамматические ошибки и перефразировать сложные конструкции? Если я напишу первое предложение и попрошу продолжить? Если я попрошу сгенерировать текст по майндкарте или наброску?

- Я попросил ChatGPT перефразировать текст википедии про линукс, в итоге из 20 попробованных мною детектора из топа гугла, ни одни не смог распознать ии - пруф

- Из потенциально рабочих методов, мне хочется выделить LLM-watermarking, когда мы вносим изменения в модель, что бы было проще детектировать ее текст. Этот подход можете заработать, но требует усилий от всех создателей моделей

- Почему так важно научиться распознавать тексты, созданные искусственным интеллектом, и как это выходит далеко за рамки банального «ловления» студентов, списывающих эссе? Ответ на этот вопрос вы найдёте на сайте vox-harbor
👍6🤔21👎1🔥1😁1
Смотрите какую крутотень сделали на VLM + Structured Output. Отправляешь фото блюда, получаешь его каллораж. Больше не надо сканить штрих коды или возиться с весами. Так как я не питаюсь дома потребление калорий было большой проблемой, но с ботом смог сбросить 10кг за последние пару месяцев!
Кстати да, вадим из прошлго поста про курсор, завернул это все в публичного телеграм бота, без подписок/рекламы/оплаты/пейволов.

Вообще сложно осознать насколько быстро развивается ИИ в последнее время - еще год назад (тогда выходила Llama-2, помните?) ничего подобного и представить было нельзя


PS если вы скажите "а вдруг оно ошибется" - я отвечу "и что"
PPS. @weightlossssbot
8👍5🤔1
Кстати

я последние дни в Тбилиси - если кто то хочет встретиться на кофе - пишите (или даже если не хотите - все равно пишите - я хочу)

Потом лечу на Пхукет, если есть кто-то с тайланда - тоже был бы очень рад занетворкаться 🤗

Можно в личку @freQuensy23 или в телегу
❤‍🔥7😁3👍2👌1
Новогодний розыгрыш
^^^^^^^^^^^^^^^^^^^^^^

Я очень топлю за использования код-копайлотов, sql агентов и в целом ЛЛМок в своей работе. Однако в сети бытует мнение что "дебажить за ллмкой занимает больше времени чем написать самому".

С ним сложно полностью не согласиться - ведь даже самые умные модели регулярно галюцинируют или несут пургу из-за неполного контекста задачи.

Что бы разрешить этот спор - предлагаю соревнование - я вместе с группой добровольцев получу набор одинаковых заданий - написать какую то либу/сервис, изменить что то уже в работающем проекте, отловить какую то ошибку.

На каждом задании мы делимся пополам и смотрим время решения задачи, тест решает с ЛЛМками, а контроль без. Так как нас много и задач много - то получится статзначимо оценить эффект от ИИ.

Что бы добавить интерактива в это занятие - я предлагаю вам накидать в комментарии что можно поделать. В начале следующего года мы выберем самые интересные задачи из комментариев для конкурса, а победители получат по подписке на CursorAI

Из того что пришло в голову:

1) Исправить баг в matplotlib 3.10.0 из за которого plot([1,2], [1, 3]) выдавал ошибку
2) Исправить искусственно созданый баг в реализации атеншна на торче
3) Написать запрос к аналитической базе какой то компании по описании ее схемы
4) Написать приложение для автоматической нарезке ютуб роликов на шортсы используя данные по перемоткам (полупрозрачный график у линии таймлайна)
👍6
я попросил gpt-4о заменить 2 слова в предложени на иероглифы, что бы они были не рядом. В итоге пришлось отправить ей 10 запросов что бы она справилась 📉

А новая 🇨🇳китайская 🇨🇳модель Deepseek V3 поняла меня даже без промпта 👍 - сразу видно новая сота 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁22🔥7👍2🤮1
📢 GPT-4o-mini Hackathon by Ogon.AI📢

📅 Даты хакатона: 20 января 2025 — 27 января 2025
📍 Формат: Онлайн
👥 Приходи с командой, участвуй один или найди команду в чате хакатона!

💡 Задача хакатона: разработать AI ассистента на основе модели GPT-4o-mini. Основное требование - проект должен быть готовым к использованию продуктом, а стэк и подход к реализации выбирать вам!

🎁 Призы: подарочные карты на AI-сервисах, платные курсы на образовательных платформах и другое в рамках призового бюджета:

⭐️ 1 место: 1,500 USD
⭐️ 2 место: 1,000 USD
⭐️ 3 место: 500 USD

Регистрация и больше информации по ссылке

Telegram-чат Ogon.AI
3👍2❤‍🔥1
Не знаю чего все так активно обсуждают Deep Research от OpenAI- кажется абсолютно сырой продукт с непонятными сценариями применения. Сейчас дал ему довольно простую задачу "what are the main achievements of department of US government efficiency (DOGE)?" - найти достижение агенства DOGE которое создал Трамп для оптимизации работы госорганов США.

Вроде идеальная задача для LLM + search продукта - просто поищи чтот в инете и полей воды, но по итогу ответил что ничего не нашел. Тестировал его на разных просьбах, спрашивал про научные статьи, про новости, просил делать экономический анализ, но ни одного хорошего ответа так и не вышло(


GROK-deepresearch на этот вопрос кстати отвечает, но на других задачах так же сыпется, видимо есть лик и ответ на мой вопрос был в трейне.
😢6😱4🤔3🤝2
https://www.youtube.com/watch?v=cfRYp0nItZ8
^^^^^^^
Залетаем на стрим с анонсом GPT-4.5

Судя по чатам их Head Of чего то там, они рассчеты обучения GPT-6 делали через DeepResearch, значит у меня плохие новости(
😁9
Недавно наткнулся на не очевидную задержку при использовании Structured Output (ответ в виде Json-а по какой то схеме)

Под капотом, при структуред аутпуте мы динамический на каждом сгенерированном токене редактируем словарь модели не позволяя ей генерировать невалидный json. Для того что бы это работало, openai перед выполнением запроса строит префиксное деревео по переданной схеме. Если эта схема достаточно сложная, или содержит Literal[...] с выбором из множественных значений, то создание этого дерева может занять до минуты. API на своей стороне кеширует это дерево, так что если вы используете один и тот же формат ответа много раз, то проблем быть не должно, но часто бывает нужно под каждый запрос формировать свою собственную схему, из за чего могут возникнуть значительные задержки.

Разобраться в этой проблеме мне помог bogdanisssimo, фаундер VibeDatingBot - очень классного дейтинг ассистента. У него тоже есть свой канал на котором незаслуженно мало подписоты (хотя все равно больше чем у меня 🥹)
👍10🤡3🔥2👎1
Мне казалось что посты в стиле "чат жпт сказала что уничтожит человечество" и другое баловство с кодом элемента аутдейтед года с 2022, но почему то такое продолжает форсится....
🤡5👍3😁1
Врываюсь сюда с новым онлайн бенчмарком LLMок, по которому gpt-4.5 - сота (openai возьмете меня на работу?).

https://habr.com/ru/articles/898934/

А если этот пост наберет 1 просмотр, то прогоню через него Llama-4 и посмотрим сколько она наберет (кажется что больше чем от нее ожидают)
👍165👀3
Если AGI еще не достигнут - то что это

@yourleomatchbot

Посмотрите настолько четко LLM определяет ваши интересы и матчит другие профили
🤮7👍5😁3🤔2
О прикольно, мою статью на хабре пассивно агресивно упомянул head of AI в МТС-е и по совместительству (вроде как) мой препод по ML на физтехе (о чем он скорее видимо не помнит 😢).

Про тест Тьюринга я конечно знаю, и не могу посоветовать вам почитать его препринт про прохождение LLMкой теста тьюринга.
😁14👍2
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр
3👍3
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
🤣57🤯6👍1
залетаем смотреть новый стрим openai про gpt-4.1, уже начали! Говорят она умнее 4.5 и имеет лям контекста

https://www.youtube.com/watch?v=kA-P9ood-cE;
👍21🔥1
небольшой TLDR
- новые 4.1 вышли дешевле, быстрее и умнее предшественников
- cached input подешевел
- API 4.5 задеприкейтили. Такое ощущение что ее запускали только для того, что бы стрясти денег с людей, которые ее через свои бенчмарки прогоняли
🤣9
OpenAI покупают Windsurf – аналог Cursor

Говорят, сделка обойдется OpenAI в три миллиарда долларов.

Интересно зачем тратить 3 лярда баксов на стартап если можно новыми моделями, которые умнее 92.7% PHD студентов в америке навайбкодить то же самое за вечер? 🤔
😁21🤣5🫡4