ML physicist – Telegram
ML physicist
2.38K subscribers
131 photos
6 videos
1 file
79 links
Download Telegram
Новогодний розыгрыш
^^^^^^^^^^^^^^^^^^^^^^

Я очень топлю за использования код-копайлотов, sql агентов и в целом ЛЛМок в своей работе. Однако в сети бытует мнение что "дебажить за ллмкой занимает больше времени чем написать самому".

С ним сложно полностью не согласиться - ведь даже самые умные модели регулярно галюцинируют или несут пургу из-за неполного контекста задачи.

Что бы разрешить этот спор - предлагаю соревнование - я вместе с группой добровольцев получу набор одинаковых заданий - написать какую то либу/сервис, изменить что то уже в работающем проекте, отловить какую то ошибку.

На каждом задании мы делимся пополам и смотрим время решения задачи, тест решает с ЛЛМками, а контроль без. Так как нас много и задач много - то получится статзначимо оценить эффект от ИИ.

Что бы добавить интерактива в это занятие - я предлагаю вам накидать в комментарии что можно поделать. В начале следующего года мы выберем самые интересные задачи из комментариев для конкурса, а победители получат по подписке на CursorAI

Из того что пришло в голову:

1) Исправить баг в matplotlib 3.10.0 из за которого plot([1,2], [1, 3]) выдавал ошибку
2) Исправить искусственно созданый баг в реализации атеншна на торче
3) Написать запрос к аналитической базе какой то компании по описании ее схемы
4) Написать приложение для автоматической нарезке ютуб роликов на шортсы используя данные по перемоткам (полупрозрачный график у линии таймлайна)
👍6
я попросил gpt-4о заменить 2 слова в предложени на иероглифы, что бы они были не рядом. В итоге пришлось отправить ей 10 запросов что бы она справилась 📉

А новая 🇨🇳китайская 🇨🇳модель Deepseek V3 поняла меня даже без промпта 👍 - сразу видно новая сота 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁22🔥7👍2🤮1
📢 GPT-4o-mini Hackathon by Ogon.AI📢

📅 Даты хакатона: 20 января 2025 — 27 января 2025
📍 Формат: Онлайн
👥 Приходи с командой, участвуй один или найди команду в чате хакатона!

💡 Задача хакатона: разработать AI ассистента на основе модели GPT-4o-mini. Основное требование - проект должен быть готовым к использованию продуктом, а стэк и подход к реализации выбирать вам!

🎁 Призы: подарочные карты на AI-сервисах, платные курсы на образовательных платформах и другое в рамках призового бюджета:

⭐️ 1 место: 1,500 USD
⭐️ 2 место: 1,000 USD
⭐️ 3 место: 500 USD

Регистрация и больше информации по ссылке

Telegram-чат Ogon.AI
3👍2❤‍🔥1
Не знаю чего все так активно обсуждают Deep Research от OpenAI- кажется абсолютно сырой продукт с непонятными сценариями применения. Сейчас дал ему довольно простую задачу "what are the main achievements of department of US government efficiency (DOGE)?" - найти достижение агенства DOGE которое создал Трамп для оптимизации работы госорганов США.

Вроде идеальная задача для LLM + search продукта - просто поищи чтот в инете и полей воды, но по итогу ответил что ничего не нашел. Тестировал его на разных просьбах, спрашивал про научные статьи, про новости, просил делать экономический анализ, но ни одного хорошего ответа так и не вышло(


GROK-deepresearch на этот вопрос кстати отвечает, но на других задачах так же сыпется, видимо есть лик и ответ на мой вопрос был в трейне.
😢6😱4🤔3🤝2
https://www.youtube.com/watch?v=cfRYp0nItZ8
^^^^^^^
Залетаем на стрим с анонсом GPT-4.5

Судя по чатам их Head Of чего то там, они рассчеты обучения GPT-6 делали через DeepResearch, значит у меня плохие новости(
😁9
Недавно наткнулся на не очевидную задержку при использовании Structured Output (ответ в виде Json-а по какой то схеме)

Под капотом, при структуред аутпуте мы динамический на каждом сгенерированном токене редактируем словарь модели не позволяя ей генерировать невалидный json. Для того что бы это работало, openai перед выполнением запроса строит префиксное деревео по переданной схеме. Если эта схема достаточно сложная, или содержит Literal[...] с выбором из множественных значений, то создание этого дерева может занять до минуты. API на своей стороне кеширует это дерево, так что если вы используете один и тот же формат ответа много раз, то проблем быть не должно, но часто бывает нужно под каждый запрос формировать свою собственную схему, из за чего могут возникнуть значительные задержки.

Разобраться в этой проблеме мне помог bogdanisssimo, фаундер VibeDatingBot - очень классного дейтинг ассистента. У него тоже есть свой канал на котором незаслуженно мало подписоты (хотя все равно больше чем у меня 🥹)
👍10🤡3🔥2👎1
Мне казалось что посты в стиле "чат жпт сказала что уничтожит человечество" и другое баловство с кодом элемента аутдейтед года с 2022, но почему то такое продолжает форсится....
🤡5👍3😁1
Врываюсь сюда с новым онлайн бенчмарком LLMок, по которому gpt-4.5 - сота (openai возьмете меня на работу?).

https://habr.com/ru/articles/898934/

А если этот пост наберет 1 просмотр, то прогоню через него Llama-4 и посмотрим сколько она наберет (кажется что больше чем от нее ожидают)
👍165👀3
Если AGI еще не достигнут - то что это

@yourleomatchbot

Посмотрите настолько четко LLM определяет ваши интересы и матчит другие профили
🤮7👍5😁3🤔2
О прикольно, мою статью на хабре пассивно агресивно упомянул head of AI в МТС-е и по совместительству (вроде как) мой препод по ML на физтехе (о чем он скорее видимо не помнит 😢).

Про тест Тьюринга я конечно знаю, и не могу посоветовать вам почитать его препринт про прохождение LLMкой теста тьюринга.
😁14👍2
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр
3👍3
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
🤣57🤯6👍1
залетаем смотреть новый стрим openai про gpt-4.1, уже начали! Говорят она умнее 4.5 и имеет лям контекста

https://www.youtube.com/watch?v=kA-P9ood-cE;
👍21🔥1
небольшой TLDR
- новые 4.1 вышли дешевле, быстрее и умнее предшественников
- cached input подешевел
- API 4.5 задеприкейтили. Такое ощущение что ее запускали только для того, что бы стрясти денег с людей, которые ее через свои бенчмарки прогоняли
🤣9
OpenAI покупают Windsurf – аналог Cursor

Говорят, сделка обойдется OpenAI в три миллиарда долларов.

Интересно зачем тратить 3 лярда баксов на стартап если можно новыми моделями, которые умнее 92.7% PHD студентов в америке навайбкодить то же самое за вечер? 🤔
😁21🤣5🫡4
ManusAI открыли бесплатный доступ к своему агенту без листа ожидания

Я попробовал его на задаче которой занимался вчера - попрофилировать выполнение LLM по слоям что бы понять куда уходит больше времени - на эмбединги, атеншн, LM_Head, или FC layers.

По итогу по одному промпту и 100 кредитов (из 300 бесплатных на день) он сделал то, на что я потратил чуть больше часа!

Из общения с ботом
- модель под капотом сильно тупее o3, где то между sonet-3.5 и gemini-2.5
- но она обвешана кучей хорошо работающих тулов, намного лучше чем в openai, не говоря уже о gemini
- к тому же она хорошо запромтирована, делает подробный план выполнения задачи, корректирует его

По итогу для бесплатного использования это просто офигенная фича, но платить 200 долларов на нее я бы наверное сейчас не стал)
9👍2
Я начал делать технический контент почти 2 года назад, начав вот с этой статьи на хабр про LoRA адаптеры. В меньшей степени хорошее оформление и актуальность этой темы в тот момент, в большей - красивая девушка на заставке обеспечило мне больше 50к просмотров за первую неделю - это довольно хорошие показатели для хабра.
На радости от этого успеха я полтора года назад создал этот канал, и теперь хочу подвести небольшие итоги
- 1280 подписчиков на канале (вхожу в топ 30% каналов в телеграме)
- Больше 200 000 просмотров под постами, 3 перепоста в крупные каналы
- 4 хороших знакомых из моей профессиональной области с которыми я познакомился в коментах а затем и лично
- Больше 10 предложений о работе в холодную в телеграм, с явным указанием того, что меня нашли по каналу
- Возможность получить реалити чек от жизни - отрицательный ответ на вопрос "не никому не нужной фигней ли я занимаюсь?"
- Более 5 тысяч долларов доходов с консалтинга (в основном стартапы и небольшие компании). Не понятно какую часть в этом успехе сыграл канал, но думаю что значительную

К чему это я - создавайте личные блоги, каналы, делитесь интересностями о своей жизни/работе, увеличивайте датасет для претрейна ЛЛМ.
Если у вас уже есть технический персональный блог - кидайте на него ссылку в комментариях, давайте соберем подборку небольших личных каналов с интересным контентом!
👍54🔥3
Попробовал openai codex - за 5 промптов и 10 минут сегодня вечером смог закрыть почти все свои задачи на следующий спринт. Ща жду быдлокодеров, пооставляют коментов, тупо копипастю в кодекс и прошу подправить.

Так что очень советую попробовать, доступен всем с подпиской за 200 баксов

А если у вас, так же как и у меня после слива данных моей визы пару постов назад, нет денег - можно купить общий аккаунт в 10 раз дешевле чем продает openai на любом из сервисов типо этого sharegpt.ru
🤡18👍12😁4😢2🤣2🙊1