ML physicist – Telegram
ML physicist
2.38K subscribers
134 photos
11 videos
1 file
79 links
Download Telegram
А что ли не всем до сих пор очевидно что уход топов из openai это спланированная Семом операция, что бы не платить выходные пособия.

Новая gpt-5 делает ресерчи в разы лучше любого ресерчера и не требует 900 мультов долларов в год;
😁23👍5🤡42🤨1
Ща летел в самолете 4 часа без инета и 4 часа кодил

Блин это были лучше 4 часа в моей жизни

Просто ты, IDEшка и клавиатура, больше ничего - никаких вайбкод инструментов, копайлотов, никакого продвинутого код комплишна, никаких тян зовущих попить вместе вино вечером, никаких уведомлений с телеграм каналах а то что зарелизили очередную модель модель gpt-sonet-2.5 pro которую обязательно надо затестить именно сегодня, никаких ..., 0% отвлечений, 100% концентрация на коде

Всем безумно советую устраивать деткос от всего
43🤡18❤‍🔥13🔥8🤣4
Немного грустная статистика по доходам физтехов (выпускников МФТИ)

Опрос был в канале с входом только для выпускников/студентов, 95% членов – айтишники, почти все 3+ курс бакалавра, около половины выпускники

Это российскому рынку так плохо или долгопрудненские выше 15 грейда шмяндекса не проходят?
😭15😁6😢1
Вижу что в коментариях разгорелась очень оживленная дискуссия. А как вы считаете?
🔥5😁2
Не буду писать про gpt-5, думаю уже все про это писали

Наткнулся на прикольный пост про (open source) reasoning OCR от NuMind🇫🇷.

Они зарелизили Image -> text авторегрессионный трансфорер который может "подумать" перед распознанием текста. Обучался этот ризонинг как обычно через GRPO. Говорят что это поднимает метрики в этой задаче, особенно в сложных документах.

Звучит довольно интересно, в каких еще задачах ризонинг может бустить метрики?
🔥9👍2😁1🍌1
В твитере заметили интересный спайк на потреблении токенов моделями openai в опенроутере.

Вроде никаких релизов моделей в этот день не было, так что весьма вероятно что кто то большой генерировал очень много синтетики

получается, что большие AI компании в основном продают свои модели по API… другим компаниям с ЛЛМ, чтобы те генерировали кучу синтетических данных. Эти данные потом используют для обучения или дообучения новых моделей. Прибыль в отчетах растёт, за счёт этого привлекаются новые инвестиции, на которые снова покупаются токены друг у друга.

https://openrouter.ai/openai
🤯106😢4🤝2👍1
А вот вам и просто айти пузырь
7🤩4🙈2
Я спросил GPT-5 как работает код, а она сгенерировала мне картинку с гайдом на социальную жизнь

https://chatgpt.com/share/68970994-d940-8003-93ac-16f4664d7182

Думаю релиз gpt-5 явно не оправдал всех ожиданий, это признал даже сама, сказав что они возвращают 4o в список моделей

https://x.com/sama/status/1953893841381273969
😁31🌚21💔1
Хочу рассказать про Groq (не путать с Grok от Маска).
Около года назад он жутко хайпавали, а месяц назад компанию оценили в $6 млрд — примерно как NVIDIA 10 лет назад, хотя прошлый год они произвели всего несколько тысяч чипов.

Groq делает Language Processing Unit - специализированные процессоры для быстрого инференса LLM.
На больших моделях они выдают сотни токенов в секунду. Для примера — перевод моего прошлого поста на английский OSS 120b сгенерил за ~300 мс. У ChatGPT на это время даже не успевает рассчитаться KV-кеш и выйти первый токен.

Главная особенность — веса и KV-cache хранятся в большой SRAM прямо на чипе (~230 МБ на LPU) плюс небольшой объём сверхбыстрой регистровой памяти.
Модель разбивается на много LPU, и данные идут по стриминговому пайплайну — без постоянных обращений к внешней памяти.

Почему это важно: основное узкое место LLM — это доступ к памяти, а не вычисления.

На GPU:
1.Загрузить Q для нового токена из HBM
2.Загрузить K,V cache из HBM
3.Вычислить attention scores
4.Загрузить выходные проекции из HBM
5.Сохранить результат в HBM

На Groq LPU:
1.Q уже в SRAM в предопределённом месте
2.KV-cache тоже в SRAM, адреса известны заранее
3.Вычисления идут через streaming pipeline
4.Результат сразу передаётся в следующий слой без записи в память

Chat gpt мне привела интересную аналогию
• CPU — ресторан с поваром-универсалом
• GPU — кухня с несколькими поварами
• LPU — конвейер по сборке бургеров в McDonald’s, где каждый знает свою операцию и делает её за доли секунды.

Что бы все это попробовать не обязательно покупать/арендовать чип, есть облако, продающее токены
https://groq.com/
19🔥15🤩4👍1
ВЫ БУДЕТЕ УМОЛЯТЬ МЕНЯ ПЕРЕСТАТЬ ПОСТИТЬ 🌒

К сожалению я немного непостоянный человек и часто забиваю на ведение канала. Что бы прибавить себе мотивации постить каждый день, я обьявляю себе челендж на ближайший 21 день - плачу 150 долларов (в виде кредитов на vast/ai/openrouter/любой другой сервис из аи пузыря) тому кто первый заметит что я пропустил постинг в какой то день и напишет это в коментарии под этим постом.
Игра началась!


P.S. Я живу по CET
😁28👎8🔥65👍4🏆2👾2💩1
Langchain стоит больше млрд долларов

import langchain



Неделю назад Langchain (да да, это та самая питон библиотека с попугайчиком который ни один вменяемый человек не пользуется) привлекла инвестиции по оценке в 1.1 млрд долларов. Это просто ошеломительная оценка для такого бизнеса, для примера - это почти как reddis год назад, но им пользуются вообще все)

Классический пример того, как в разгар AI-хайпа можно продать инвесторам даже обертку над обертками.

Вам тоже советую цепляться за ИИ хайп что бы урвать хотя бы кусочек эти этих миллиардов.
👍158🥰3😁3❤‍🔥1
Решил немного поресерчить по тому, с чего вообще зарабатывает langchain. Глобально у него 2 продукта

1) LangSmith $12-16M ARR

Сервис для трейсинга ЛЛМок - что то типо datadog для ии. Можно смотреть "логи" вызовов моделей, системный промпты, тул колы итп. Это особенно важно когда у нас есть куча агентов которые вызывают друг друга, передают друг другу информацию, подставляют ответы друг друга к себе в контекст, и по обычным логом не разберешь почему оно иногда ломается.

2) LangGraph Platform <$1 M ARR

Думаю что все кто хоть раз писал агентов сталкивался с проблемой большого числа boiler plate кода

0) ретраи на все запросы к ллм
1) кастомные вызовы для всех моделей
2) передача контекста в цикле
3) достань положи историю переписки из бд
4) Написать очередное ветвление поведения по knowelage map


Они делают low code платформу, что бы вместо того что б написать if ... else ... ты пишешь что то типо
workflow.add_edge(START, "generate_query_or_respond")

# Decide whether to retrieve
workflow.add_conditional_edges(
"generate_query_or_respond",
# Assess LLM decision (call `retriever_tool` tool or respond to the user)
tools_condition,
{
# Translate the condition outputs to nodes in our graph
"tools": "retrieve",
END: END,
},
)

# Edges taken after the `action` node is called.
workflow.add_conditional_edges(
"retrieve",
# Assess agent decision
grade_documents,
)
workflow.add_edge("generate_answer", END)
workflow.add_edge("rewrite_question", "generate_query_or_respond")


3) Еще есть магазин промптов LangChain Hub & LangChain Templates но это вообще не revenu driven продукт
👍97🔥3
Пару скринов из линкедина и ссылка на чат


У нас у канала есть чат - ML Physycist coworking

Там мы много обсуждаем ML, AI, поиск работы и просто жизнь. А еще чат часто переключается в режим коворкинга - топ фича для удаленной работы. Ты заходишь на звонок, шаришь экран и камеру и продуктивно работаешь со всеми участниками коворкинга. 0 шансов начать прокрастинировать в тиктоке или просто балдеть.
5
Начинается начинается ранняя осень, самый активный сезон найма

Что бы вам было проще искать работу завайбкодил расширение hide_yandex которое скрывает вакансии одноименной компании на джобагрегатарах.

Самое интересное что оно было навайбкожено за один запрос в claude code. Opus-4.1 сам сходил на нужные сайты, изучил структуру их html и написал нужные фильтры. Думаю еще никогда раньше не было так же приятно кодить как сейчас)
27😁21👍6🎉4🤮2💩2👎1
Agi явно не наступил если опус за 100 долларов в месяц не может отличить забор от многоствольной пусковой установки для запуска салютов в полицию на улицах Тбилиси
🔥14🤣6🕊4🥴1
Новый стартап Сема
Проблема фейков в интернете до сих пор не решена.
Любая соцсеть тонет в ботах, компании собирают целые ботнеты из тысяч «людей», которых на самом деле не существует.

Сейчас верификация обычно выглядит так: «загрузи фотку паспорта и покрути лицом на камеру».
Минусы:
– это тривиально подделать
– надо отдавать имя, фамилию и номер паспорта каждому приложению → привет, персональные данные и юр. риски

Wld пытается решить это радикально по-другому.
У них есть шар–сканер («orb»), который считывает сетчатку. Это доказывает, что ты живой человек, чем защищает от мультиаккаунтов.

Дальше WLD дает API, и любые сервисы могут подключить его для верификации реальности пользователей.

В США уже даже Tinder начал предлагать верификацию через world id. Пока оставили и старые методы, но похоже, что глобальная экспансия близко.
👍95🤡5🤩2
Forwarded from commit history
🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀

Рассказываю подробнее про эту новость из последнего месячного апдейта.

Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.

А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.

У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥

Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть. 

Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!

Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
🔥17👍51