NEW BOT Телеграм, страница

Data Secrets

В Cursor обновили модель поиска: благодаря RAG многое теперь работает лучше

В Cursor уже давно используется retrieval-механика: агент ищет по кодовой базе и добавляет нужные куски в контекст LLM. Но раньше был реализован просто grep вариант – поиск по строковому совпадению. Это быстро, но не всегда в достаточной степени релевантно.

Теперь же ему на смену пришел более умный семантический поиск. По сути, RAG. То есть релевантность кусочков кода теперь оценивает специальная векторная модель, которая уже не просто ищет по ключевым словам, а сопоставляет смыслы.

Интересно, что для этого обновления Cursor обучили собственную embedding-модель, заточенную именно под код. Для этого использовались реальные траектории работы агента. Каждая сессия – это последовательность: запрос -> поиск релевантных кусочков кода -> результат. Отдельная LLM-ка по этим траекториям оценивала, какие из найденных кусочков в итоге пригодились, а какие оказались шумом.

А дальше берем нашу векторную модель и учим ее на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы в итоге ее ранжирование соответствовало ранжированию LLM, то есть более полезные кусочки были в векторном пространстве ближе к запросу.

Grep-поиск, кстати, все еще где-то остается: например, он незаменим, когда надо быстро поискать по названиям переменных или функций. Результаты grep-модуля и векторной модельки комбинируются.

Что в итоге с метриками:

1. На оффлайн-оценке на специально собранном бенчмарке «Cursor Context Bench» среднее повышение точности составило ~12,5%.

2. На A/B-тестах в среднем на ~0,3% вырос code retention. Это метрика, показывающая, сколько кода, сгенерированного агентом, в итоге осталось в проекте пользователя спустя время. На больших кодовых базах наблюдалось вообще +2,6%.

3. Также на ~2,2% понизилось количество dissatisfied follow-up requests – когда пользователь вынужден делать исправления или дополнительные запросы, если у агента что-то не вышло с первого раза.

Эффект не огромный, потому что далеко не каждый запрос вообще требует поиска, но он есть и особенно будет ощущаться в крупных кодовых базах.

https://cursor.com/blog/semsearch

❤75👍49🔥11😁7☃3❤‍🔥2🤔2⚡1💯1

30.3K viewsedited 13:47

Data Secrets

OpenAI подняли лимиты на Codex и выпустили GPT-5-Codex-Mini

Новая моделька всего на 3 п.п. отстает от GPT-5-Codex на SWE-bench Verified, но при этом в 4 раза выгоднее.

OpenAI советуют использовать ее для не самых сложных задач, чтобы тратить меньше доступных запросов к основной модели. Более того, когда вы прожжете 90% своих лимитов, Codex будет автоматически предлагать вам переключиться.

Еще из приятного: лимиты для ChatGPT Plus, Business и Edu увеличили на 50%. С щедростью Anthropic все еще не сравнится, но все равно неплохо.

4🔥93👍27❤14😁5🤔3

21.3K viewsedited 11:37

Data Secrets

Google предложили новую ML-парадигму Nested Learning, с помощью которой модели смогут учиться непрерывно

Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.

В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.

В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.

А вот как работает Nested Learning:

1. Авторы формализуют модель как множество оптимизационных задач: у каждой есть свой поток информации, на которой она учится, и своя частота обновления. Например, компоненты с высокой частотой обновления отвечают за адаптацию к текущему контексту, с низкой частотой – за какие-то базовые знания, и тд.

2. Но просто так, по щучьему веленью, модель не поймет, что и когда обновлять. Поэтому авторы предлагают сделать обучаемым сам оптимизатор. То есть алгоритм, который отвечает за обновление весов, перестает быть просто формулой и превращается в такую же нейросеть. Это называется Deep Optimizers.

3. Формально оптимизатор рассматривается как ассоциативная память, которая учится связывать градиенты с правильными изменениями весов. В этом смысле привычные SGD или Adam – это простейшие частные случаи (об этом, если интересно, подробнее читайте в самой статье).

Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.

И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.

И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.

Статья | Блогпост

5❤142👍57⚡18🔥85😁3☃1🤔1🕊1

22.7K views15:40

Data Secrets

Вышла открытая Kimi K2 Thinking: релиз уже окрестили «DeepSeek moment 2.0» Моделька выбивает SOTA на Humanity’s Last Exam и BrowseComp: в основном за счет мега-прокаченного tool calling. Она может делать до 200–300 последовательных вызовов инструментов…

Тем временем новая Kimi-K2-Thinking уже все выходные висит в самом топе трендовых моделей HiggingFace

Кстати, выяснилось, что ее обучение стоило MoonshotAI всего 4.6 миллионов долларов.

DeepSeek R2, ты ли это

👍178🔥55❤32😁8👀7🎄1

19.8K views05:58

Data Secrets

0:56

This media is not supported in your browser

VIEW IN TELEGRAM

Сэм Альтман в интервью: «Думаю, все корпоративные приложения можно заменить на общую платформу на основе ИИ»

«В Slack много всего хорошего, но иногда он создает кучу фейковой работы. Думаю, что вместо этого можно создать что-то новое: что-то вроде офисного пакета на основе ИИ, который заменит docs, slides, email, Slack и тд.

Это будет что-то на основе агентов, которые выполняют основную часть работу и эскалируют ее человеку, только когда это действительно необходимо»

Маск отреагировал на новость простым лаконичным: «А я говорил, что они собираются напрямую конкурировать с Microsoft».

Напоминаем, что некоторое время назад миллиардер призывал Microsoft перестать работать с OpenAI, предупреждая компанию, что иначе стартап «съест ее заживо» ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁233👍40🔥13❤77🤯4

21.6K viewsedited 07:52

Data Secrets

Понедельник, настроение:

P.S. Сожалеем о его потерях

😁188👍23🤨18🫡9❤7🤓6🤔2🔥1🤝1

19.4K views09:44

Data Secrets

Плохая новость: сейчас больше статей в Интернете пишется ИИ, чем людьми

По графику видно, что разрыв пока небольшой, но увеличивается 👽

Аналитику нашли вот тут. Сейчас немножко расскажем о том, как это считали.

1. Взяли популярный CommonCrawl и случайно выбрали 65к страниц со статьями, написанными с 2020 по 2025 год.

2. Статьи делили на чанки и закидывали в Surfer AI Detector. Если более половины текста в статье классифицировалось как AI-made, то статья определялась как написанная ИИ, иначе – как написанная людьми.

2.1. Еще делали проверку на false-positives по датам (например, понятно, что до появления ChatGPT большинство статей должны класссифицироваться как человеческие).

Впервые доля ИИ-статей превысила человеческие в ноябре 2024, потом был короткий период надежды, и теперь ИИ снова доминирует.

Из хорошего: ИИ-статья в данном случае – это не обязательно прям от и до, возможно было какое-то ленивое редактирование человеком ( + это все еще с поправкой на точность детектора).

А еще авторы говорят, что пока таких статей довольно мало в топах поисковых выдач, что тоже не может не радовать.

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿744220❤12🤯4😁2🫡2🤔1

19.9K viewsedited 12:56

Data Secrets

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

А вот так выглядит первая тестовая производственная линия Теслы для Optimus

В 2026 должна появится еще одна, уже более крупная. Это пока пилот.

Компания пишет, что их цель – это достичь себестоимости в 20к долларов на робота, и тестируют они их прямо тут же, на заводе и в лабораториях (что может пойти не так?)

❤64👍2620😁13🔥9🗿1🆒11

18.9K views14:05

Data Secrets

Российские исследователи нашли способ обучать LLM логическим рассуждениям быстрее и дешевле

Исследователи из T-Bank AI Research совместно с Центральным университетом представили новый метод, который позволяет развивать способность к логическим рассуждениям у больших языковых моделей без дорогостоящего полного переобучения. Исследование станет хорошим подспорьем для дальнейшего изучения интерпретируемости ИИ.

Вместо того чтобы менять миллиарды параметров, они добавили небольшие подсказки-векторы, которые усиливают логические шаги модели в нужном направлении. Такой подход сохраняет все преимущества большой модели, но требует значительно меньше вычислительных ресурсов.

Эффективность метода протестили на шести бенчмарках по математическому рассуждению: при изменении всего 0.0016% параметров сохраняется 100% качество полного дообучения. Потребление памяти сокращается с гигабайтов до сотен килобайт.

Метод уже затестили на LLM Qwen и LLaMA. Потенциально он сможет встраиваться в существующие пайплайны, например, чат-боты, системы проверки кода или аналитические платформы. Поэтому даже университетские лаборатории и небольшие компании смогут обучать reasoning-модели. Метод представили на одной из ведущих международных конференций в области ИИ по эмпирическим методам обработки естественного языка (EMNLP 2025) уровня А* в Китае.

3❤192👍52🗿46⚡15😁15🔥7🤔6

21.3K views15:15

Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»

На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.

Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.

«Мы упускаем что-то важное»

1❤167👍65😁19🤯17🔥10⚡7✍4🕊2😎1

19.7K views16:36

Data Secrets

PostgreSQL опубликовали топ-50 главных контрибьюторов проекта: в список вошел Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud

На данный момент PostgreSQL является самой популярной опенсорсной СУБД в мире. Особенно в сегменте ИИ- и ML-проектов: векторный поиск помогает моделям быстрее находить и анализировать нужную информацию. Например, PostgreSQL применяют при создании ChatGPT.

Получить статус контрибьютора в проекте очень нелегко: нужно не просто коммитить, но и проходить долгое строгое ревью. Процент коммитов, которые в конечном счете одобряют, довольно мал, – доработка должна быть действительно существенной.

Андрей стабильно контрибьютит с 2016, четвертый раз входит в топ-50 контрибьюторов года и теперь имеет статус major contributors. Их в проекте всего 52, этот статус выше, чем significant contributor, и означает, что разработчик "оказывает существенное влияние на кодовую базу и процессы".

Интересно, что вклад команды Бородина не ограничивается только ядром PostgreSQL. Недавно они разработали SPQR (Stateless Postgres Query Router), систему с открытым исходным кодом для горизонтального масштабирования PostgreSQL через шардирование. Она уже доступна сообществу: если любите Postgres, потрогать проект можно здесь.

Отдаем дань уважения 👒

1❤206👍84🔥31🎄6🗿3😁1

19.9K views17:33

Data Secrets

RL не улучшает навыки ризонинга модели

Тренд на негативные статьи о том, что "что-то не работает или работает не так, как мы думали", остается с нами. В этот раз хайпует китайская работа под названием "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?".

Мы все привыкли к тому, что в целом ризонинг – это про RL*. Но в этой статье показано, что на самом деле ничего сверхъестественного RL не вносит, а просто переупаковывает то, что уже было в распределении базовой модели.

Как это проверяли?

Основная метрика – pass@k: задача считается решенной, если среди k попыток модели (сэмплов) есть хотя бы одна правильная. Для авторской гипотезы метрика как раз очень подходит, потому что отражает именно потенциал модели решать задачу при разумном числе попыток.

И вот что получается. При малых k RLVR-модели действительно чаще попадают в правильный ответ (то есть у них выше pass@1), но при росте k базовые модели догоняют и превосходят RLVR практически на всех наборах задач и семейств моделей.

Это значит, что эти методы не расширяют границы решаемости задач (в том числе математических и кодовых), они просто повышают эффективность семплирования уже существующих траекторий aka вероятность сразу пойти по нужному пути, и поэтому работают. Плохо ли это? Нет. Но означает, что и слишком больших надежд на RLVR возлагать не стоит: все равно все опять упирается в претрен.

* Дисклеймер: в статье речь именно про RLVR, то есть Reinforcement Learning with Verifiable Rewards. RLHF, например, сюда не относится, но вот куча других популярных алгосов, типа PPO/GRPO/Reinforce++ и тд – да.

❤90👍38🤔12🔥10😁3🤨2

19.3K views18:49

Data Secrets

Meta* поделились деталями о новой модели GEM, которая теперь лежит в основе их рекомендательных систем

Это гибридная архитектура на основе трансформера (вдохновенная, естественно, LLM). Заявляется, что модель настолько хороша, что уже привела к заметному росту конверсий на рекламу: +5% в Instagram и +3% в Facebook за второй квартал.

Скачки очень существенные, поэтому давайте смотреть, что у модели внутри. Главных технических фишечки тут три:

1. Входные данные делятся на две группы: последовательные признаки (истории действий пользователя, клики, просмотры и тд) и непоследовательные (локация, возраст, свойства рекламы и пр). Чтобы не сваливать их в одну кучу и не замыливать сигналы, используется так называемый InterFormer с динамическим чередованием. Сначала последовательности событий обрабатываются кастомным трансформер-блоком, затем слой объединяет эти выходы со статичными признаками через кросс-фичевые interaction-блоки, после чего цикл продолжается на следующем уровне.

2. Кроме того, нам нужно учитывать связи признаков из двух групп. Для этого работает целый отдельный компонент Wukong. Он состоит из стековых факторизационных машин, которые ищут неочевидные связи между признаками (почему пользователь повел себя так или вот так).

3. Для длинных последовательностей (то есть долгих пользовательских историй) применяется собственная пирамидальная параллельная структура. Она нужна, чтобы не столкнуться с пресловутым экспоненциальным ростом затрат при увеличении длины последовательности. Все цепочка сначала разбивается на более мелкие -> они обрабатываются -> итоги образуют следующий уровень эмбеддингов -> они снова делятся на кусочки и обрабатываются -> и так далее, пока все не схлопнется окончательно.

В итоге мы получаем: (а) масштабируемость; (б) возможность эффективно учитывать все фичи и их связи; (в) адекватное поведение модели на длинных последовательностях. Ну и судя по скачкам конверсий, работает это неплохо. Еще пишут, что планируют добавить ризонинг.

Если интересуетесь рексисами, обязательно почитайте статью полностью

❤46👍27🔥15🤔4😁2👌1

19.4K viewsedited 06:15

Data Secrets

Внезапный факт: Anthropic может выйти в плюс гораздо раньше OpenAI

WSJ проанализировали финансовые отчеты обеих компаний и выяснили, что Anthropic, судя по всему, пройдет точку безубыточности уже в 2028. OpenAI же в 2028 все еще будет уходить в минус, причем в немаленький: по предварительным оценкам, убыток составит ~74 миллиарда долларов.

Ранее OpenAI обещали, что начнут зарабатывать в 2029, но теперь ясно, что это случится не раньше 30 года. Уж слишком много они планируют потратить на инфраструктуру (журналисты пишут об 1.4 триллионах за 8 лет).

Стратегия Anthropic другая, у них расходы растут примерно с той же скоростью, что и доходы. И кстати, 80% их выручки все еще приходится на корпоративных клиентов.

👍87🔥32❤20😁4👌2☃11

18.8K viewsedited 10:55

Data Secrets

Ян Лекун снова раздает критику в адрес современного ИИ. На этот раз досталось роботам Большой секрет всей этой отрасли в том, что ни одна из этих компаний не имеет ни малейшего представления о том, как сделать роботов достаточно умными для того, чтобы быть…

⚡️

Ян Лекун планирует уходить из Meta и открывать собственный стартап

Об этом пишет Financial Times. По их словам, ученый уже находится на ранней стадии переговоров с инвесторами для своей новой компании.

Заниматься будет, угадайте чем? Конечно же, всевозможными world models, о которых он уже кучу лет рассказывает буквально в каждом своем интервью и выступлении.

Видимо, Лекуна все-таки не устроила новая корпоративная структура, в которой он должен подчиняться молодому зеленому Александру Вану. Хотя сам ученый пока не комментирует ситуацию.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤95👍48😁32🔥116🫡33

20.2K views15:02

Data Secrets

Топ-10 неожиданных концовок собеседования

😁177🤔36👍11❤8🔥5🗿5

19.7K views19:26

Data Secrets

SoftBank продал всю свою долю в Nvidia, чтобы подсобрать денег на финансирование OpenAI

Вчера стало известно, что 25 октября SoftBank продал все свои акции Nvidia на общую сумму 5.83 миллиарда долларов. Руководство заявило, что это никак не связано с изменением отношения к Nvidia: скорее, это стратегический шаг для «ИИ-расширения».

Помимо акций Хуанга, SoftBank также продал почти все свои акции T-mobile на 9.17 миллиардов и увеличил размер маржинального кредита под залог акций Arm.

Все эти деньги им нужны для того, чтобы… финансировать OpenAI. В декабрьском раунде компания планирует вложить в стартап 22.5 миллиарда (учитывая, что до этого уже переводили 10 миллиардов).

Кроме того, около 20 миллиардов пойдет на Stargate (тоже, по сути, OpenAI), а еще 10-11 миллиардов – на сделки с Ampere Computing и проекты по робототехнике.

По итогу, доля SoftBank в OpenAI увеличится с 4 до 11%. В компании, видимо, посчитали, что это круче, чем владеть акциями Nvidia. К тому же, здесь они принимают непосредственное участие в проектах.

Акции Nvidia на фоне новости упали аж на 3%. Но ничего, им вернется: ведь все мы знаем, куда OpenAI потратит деньги, которые получит от SoftBank 😊

Please open Telegram to view this post

VIEW IN TELEGRAM

😁205❤27238🫡4👍3🤯1

20K viewsedited 06:40

Data Secrets

Смотрите, это картинка из свежей статьи от Bloomberg Тут нарисовано, как двигаются финансовые потоки в ИИ-экосистеме крупных компаний. Спойлер: в плюсе, как видите, в основном Nvidia 😐 Суть в том, что средства циркулируют. Не совсем по кругу, конечно, но…

Снова вспоминается эта прекрасная иллюстрация происходящего

😁257👍21💯9❤8🗿7🍓4🔥1

19K views08:11

Первый российский гуманоид вышел на сцену и даже успел улыбнуться, сделать два шага и попытку помахать зрителям рукой, прежде чем…

Ну в общем, смотрите до конца

😁48530🫡1716👨‍💻13👍12🗿5❤4🤨3🔥2🏆1

24.3K views09:15

Data Secrets

История о том, как правильно проверять гипотезы

Есть такой стартап – Fireflies AI. Ребята занимаются всевозможными ИИ-заметками. Сейчас они оцениваются в 1 миллиард долларов.

Но путь к единорогу был тернист. В LinkedIn один из фаундеров рассказал, что на заре компании они с партнером сами притворялись ИИ 💡

Они заходили на встречи под именем «Fireflies», молча сидели и вручную записывали главное, а после отправляли клиентам саммари под видом того, что все это сделал ИИ-агент.

Так они провели более 100 встреч, и только потом запустили MVP настоящего продукта.

А Amazon мы за такое осуждали…

Please open Telegram to view this post

VIEW IN TELEGRAM

😁230❤105🔥22👍10🤯7🤨6🗿5☃2🤗2

20K viewsedited 11:33

About

Blog

Apps

Platform