OpenAI купили Torch
Если вы поймали мини-инфаркт в первую секунду чтения этой новости – знайте, мы тоже
Но расслабьтесь, это не тот Torch. На самом деле ничего особо интересного: это, оказывается, такой стартап в сфере здравоохранения, который строит а-ля medical memory for AI. OpenAI поглощает его для ChatGPT Health.
Если вы поймали мини-инфаркт в первую секунду чтения этой новости – знайте, мы тоже
Но расслабьтесь, это не тот Torch. На самом деле ничего особо интересного: это, оказывается, такой стартап в сфере здравоохранения, который строит а-ля medical memory for AI. OpenAI поглощает его для ChatGPT Health.
😁394❤60🔥23🤯13 9🤨2🎄1
Anthropic инвестируют полтора миллиона долларов в Python и опенсорс
Anthropic заключила двухлетнее партнерство с Python Software Foundation (PSF). В течение этого периода стартап вложит в сумме 1.5 млн долларов с упором на развитие безопасности и поддержку ключевой инфраструктуры.
В частности, пишут, что планируют создать AI‑инструменты, которые будут автоматически проверять каждый загружаемый на PyPI пакет. Сейчас такого проактивного анализа не существует, только постфактум реакция на жалобы юзеров.
На первом этапе будут собирать огромный датасет известного малвара. Может, его даже выложат в опенсорс.
Anthropic точно что-то знают о том, как заслужить общественную симпатию
pyfound.blogspot.com/2025/12/anthropic-invests-in-python.html
Anthropic заключила двухлетнее партнерство с Python Software Foundation (PSF). В течение этого периода стартап вложит в сумме 1.5 млн долларов с упором на развитие безопасности и поддержку ключевой инфраструктуры.
В частности, пишут, что планируют создать AI‑инструменты, которые будут автоматически проверять каждый загружаемый на PyPI пакет. Сейчас такого проактивного анализа не существует, только постфактум реакция на жалобы юзеров.
На первом этапе будут собирать огромный датасет известного малвара. Может, его даже выложат в опенсорс.
Anthropic точно что-то знают о том, как заслужить общественную симпатию
pyfound.blogspot.com/2025/12/anthropic-invests-in-python.html
❤343👍118🔥51😁15 7 4🐳3
Так, у нас на повестке дня очередной скандал. Из Thinking Machines Lab (стартап Миры Мурати) ушли еще двое основателей – Баррет Зоф и Люк Метц.
Баррет занимал пост CTO. Он, вроде как, ушел по собственному желанию, но некоторые источники пишут, что это произошло из-за «неэтичного поведения».
В частности, какой-то источник, «близкий к Thinking Machines», заявил Wired, что Баррет делился конфиденциальной информацией о компании с конкурентами.
И Зоф, и Метц теперь возвращаются в OpenAI (откуда их когда-то и увела Мира). В Thinking Machines место CTO теперь займет Сумит Чинтала – один из ключевых разработчиков PyTorch.
Получается, по итогам менее одного года существования стартапа из него уже ушло 3/6 создателей (пару месяцев назад Meta переманили Эндрю Таллока). Интересный тренд😐
Баррет занимал пост CTO. Он, вроде как, ушел по собственному желанию, но некоторые источники пишут, что это произошло из-за «неэтичного поведения».
В частности, какой-то источник, «близкий к Thinking Machines», заявил Wired, что Баррет делился конфиденциальной информацией о компании с конкурентами.
И Зоф, и Метц теперь возвращаются в OpenAI (откуда их когда-то и увела Мира). В Thinking Machines место CTO теперь займет Сумит Чинтала – один из ключевых разработчиков PyTorch.
Получается, по итогам менее одного года существования стартапа из него уже ушло 3/6 создателей (пару месяцев назад Meta переманили Эндрю Таллока). Интересный тренд
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT-5.2 Codex теперь доступна в Cursor, и она может оказаться лучше Opus 4.5
Сами Cursor пишут, что модель лучше справляется с длинными задачами.
CEO Cursor написал у себя в Твиттере, что они с командой создали с помощью GPT-5.2 готовый браузер. Для этого модель без остановки работала неделю.
И да, браузер получился рабочий (не Chrome, конечно, но в целом-то!). Всего вышло около 3 миллионов строк кода, распределенного по тысячам файлов. Код открыли. Больше об эксперименте пишут тут.
По метрикам GPT-5.2 немного обгоняет Opus 4.5 на SWE bench Pro, но разрыв прям небольшой. Интересно, как будет ощущаться разница на практике.
Есть кто уже попробовал? Как вам по сравнению с Opus?
Сами Cursor пишут, что модель лучше справляется с длинными задачами.
Мы обнаружили, что модели GPT-5.2 гораздо лучше справляются с продолжительной автономной работой: следованием инструкциям, сохранением концентрации, предотвращением отклонений и точным и полным выполнением задач. Opus 4.5, как правило, останавливается раньше и использует упрощенные методы, когда это удобно.
CEO Cursor написал у себя в Твиттере, что они с командой создали с помощью GPT-5.2 готовый браузер. Для этого модель без остановки работала неделю.
И да, браузер получился рабочий (не Chrome, конечно, но в целом-то!). Всего вышло около 3 миллионов строк кода, распределенного по тысячам файлов. Код открыли. Больше об эксперименте пишут тут.
По метрикам GPT-5.2 немного обгоняет Opus 4.5 на SWE bench Pro, но разрыв прям небольшой. Интересно, как будет ощущаться разница на практике.
Есть кто уже попробовал? Как вам по сравнению с Opus?
🔥107👍41😁21 10❤9 8🤨4🤗1
OpenAI релизнули собственный сервис для перевода, и у Google почти одновременно вышли новые открытые модели TranslateGemma
Конкуренция двух лабораторий принимает какие-то абсолютно беспрецедентные обороты. По крайней мере, случайность это или нет, с точностью до дня выпускать продукты для одного и того же сценария использования – это сильно.
Итак:
➖ OpenAI выпустили полноценный собственный переводчик. Выглядит буквально как Google Translate и поддерживает 50 языков.
Из плюсов: можно менять стиль перевода от разговорного до официального. Из минусов: пока только текст. Скоро обещают добавить картинки и аудио-ввод. В общем, сыровато, но интересно. https://chatgpt.com/translate/
➖ Google выпустили TranslateGemma. Это открытое семейство, основанное на Gemma 3. Поддерживается 55 языков. Доступны размеры на 4В, 12В и 27В.
То есть возможности запуска – вплоть до локального. При этом перформить, например, модель на 4В будет как Gemma-3 12B. Мультимодальность в комплекте. Веса. Блогпост.
Для привлечения широкой аудитории релиз OpenAI, конечно, масштабнее. Но, имхо, опенсорс от Google приятнее.
Конкуренция двух лабораторий принимает какие-то абсолютно беспрецедентные обороты. По крайней мере, случайность это или нет, с точностью до дня выпускать продукты для одного и того же сценария использования – это сильно.
Итак:
Из плюсов: можно менять стиль перевода от разговорного до официального. Из минусов: пока только текст. Скоро обещают добавить картинки и аудио-ввод. В общем, сыровато, но интересно. https://chatgpt.com/translate/
То есть возможности запуска – вплоть до локального. При этом перформить, например, модель на 4В будет как Gemma-3 12B. Мультимодальность в комплекте. Веса. Блогпост.
Для привлечения широкой аудитории релиз OpenAI, конечно, масштабнее. Но, имхо, опенсорс от Google приятнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤163👍77🔥26😁12✍2🤨1
Data Secrets
OpenAI релизнули собственный сервис для перевода, и у Google почти одновременно вышли новые открытые модели TranslateGemma Конкуренция двух лабораторий принимает какие-то абсолютно беспрецедентные обороты. По крайней мере, случайность это или нет, с точностью…
Это вам от OpenAI за то что весь год вели себя плохо
3😁674 44🤓16 11🔥9❤7🤨4💯2👍1
Однажды Эрнест Хемингуэй поспорил, что напишет самый короткий рассказ в мире, способный растрогать любого…
До появления AI-агентов для кодинга у меня постоянно было 2-3 пет-проекта, которые я не мог закончить.
ИИ полностью изменил игру.
Сейчас у меня 15-20 незавершенных пет-проектов.
😁769❤61👍41💯21🔥4🕊4 3🤝2🤯1
В Anthropic возникло занятное новое подразделение – Anthropic Labs
Это будет, по сути, продвинутая продуктовая песочница. Основная идея состоит в том, чтобы быстро тестировать сырые продуктовые идеи и экспериментировать с возможностями ИИ.
Раньше этим занимались обычные продуктовые команды, но, по словам Anthropic, теперь они уже не успевают за развитием моделей и просто не могут обрабатывать все идеи в рамках стандартного плана.
Возглавит отдел Майк Кригер, сооснователь Instagram и до недавнего времени главный по продуктам в Anthropic.
Направление, на самом деле, перспективное. Именно из таких экспериментов выросли Claude Code, MCP, свежий Cowork, Claude in Chrome и тд.
Это значит, что теперь можно ожидать еще больше маленьких и больших продуктов от Anthropic. Некоторые будут интересные, некоторые, возможно, сыроватые (не забываем, что подразделения создано именно для экспериментов и быстрых MVP-тестов).
Слишком больших ожиданий не строим, но, может, отсюда родится даже что-то прорывное – почему бы и нет.
www.anthropic.com/news/introducing-anthropic-labs
Это будет, по сути, продвинутая продуктовая песочница. Основная идея состоит в том, чтобы быстро тестировать сырые продуктовые идеи и экспериментировать с возможностями ИИ.
Раньше этим занимались обычные продуктовые команды, но, по словам Anthropic, теперь они уже не успевают за развитием моделей и просто не могут обрабатывать все идеи в рамках стандартного плана.
Возглавит отдел Майк Кригер, сооснователь Instagram и до недавнего времени главный по продуктам в Anthropic.
Направление, на самом деле, перспективное. Именно из таких экспериментов выросли Claude Code, MCP, свежий Cowork, Claude in Chrome и тд.
Это значит, что теперь можно ожидать еще больше маленьких и больших продуктов от Anthropic. Некоторые будут интересные, некоторые, возможно, сыроватые (не забываем, что подразделения создано именно для экспериментов и быстрых MVP-тестов).
Слишком больших ожиданий не строим, но, может, отсюда родится даже что-то прорывное – почему бы и нет.
www.anthropic.com/news/introducing-anthropic-labs
🔥137👍41 25❤15😁9🎉3❤🔥2🤔1👌1
Data Secrets
Не очень радостную новость вам принесли под Новый Год, но что делать: реклама в ChatGPT точно будет, и довольно скоро Об этом сообщает The Information, а в том, что касается инсайтов, они обычно не ошибаются. Ранее, если помните, запуск рекламы отложился…
Все, эра рекламы в ChatGPT официально объявляется открытой
Пост от OpenAI:
Пример, как это будет выглядеть, выше⬆️
Удивляться не стоит,бесплатный сыр только в мышеловке бесплатное общение с ИИ не могло длиться вечно, инвесторы просят прибыль. Пока что стартап хотя бы делает вид, что все будет в рамках этики современного Интернета. Но к чему это приведет в конечном счете – большой вопрос.
Пост от OpenAI:
В ближайшие недели мы планируем начать тестирование рекламы в бесплатном тарифе ChatGPT и тарифе Go <Это новый тариф за 8 долларов в месяц. Раньше он работал только в Индии, теперь развернули на всех>.
Мы заранее делимся нашими принципами подхода к рекламе, руководствуясь в первую очередь доверием пользователей и прозрачностью, стремясь сделать ИИ доступным для всех.
Что имеет наибольшее значение:
– Ответы в ChatGPT не будут зависеть от рекламы.
– Объявления всегда размещаются отдельно и имеют четкую маркировку.
– Ваши переписки недоступны для рекламодателей.
Кроме того, в тарифных планах Pro, Business и Enterprise реклама присутствовать не будет.
Пример, как это будет выглядеть, выше
Удивляться не стоит,
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1.29K🫡77❤39 22🤨13🔥11 11👍5🤯4❤🔥3🤩2
Илон Маск официально запустил Colossus 2
Он стал первым в истории гигаваттным кластером (это больше, чем пиковый спрос Сан-Франциско). В Colossus 2 примерно 550 тысяч видеокарт.
Маск говорит, что уже в апреле кластер разрастется до 1.5GW. Так или иначе, теперь конкуренты догонят xAI по размеру отдельных датацентров относительно нескоро (график на картинке взят отсюда).
Он стал первым в истории гигаваттным кластером (это больше, чем пиковый спрос Сан-Франциско). В Colossus 2 примерно 550 тысяч видеокарт.
Маск говорит, что уже в апреле кластер разрастется до 1.5GW. Так или иначе, теперь конкуренты догонят xAI по размеру отдельных датацентров относительно нескоро (график на картинке взят отсюда).
🤯194🔥62❤35👍8☃4😁3
KVzap: Nvidia научились в 3–4 раза эффективнее использовать память на инференсе
KV-кэш сегодня – главная ахиллесова пята трансформеров при масштабировании контекста. Он растет линейно по длине последовательности и хранится для каждого слоя и каждой головы.
Например, для LLaMA-подобной модели на 65B параметров KV-cache при 128k токенов занимает ~335 ГБ памяти. И по времени это тоже больно бьет.
При этом большинство оптимизаций сокращают KV-cache по слоям или по головам. Хотя главный потенциал – именно по оси токенов: далеко не все из них реально нужны модели.
Первый рабочий способ сокращения KV по токенам придумали авторы KVzip: до 4× сжатия при нулевых потерях качества. Но на практике метод оказался слишком медленным.
Nvidia взяли эту идею, немного ее переделали и получили почти то же самое, но практически бесплатно.
Они просто обучают маленькую модель, которая по hidden state токена предсказывает, насколько важен его KV. Для каждого слоя она своя, но это либо линейная модель, либо двухслойный MLP — максимум 1–2 матричных умножения.
И все, никаких дорогих операций и пересчетов (для сравнения: в KVzip промпт по сути приходилось гонять дважды). Дальше просто выкидываются KV-пары, у которых важность ниже заданного порога.
Compute overhead — около 0.02% FLOPs для линейных моделей. На длинном контексте это шум на фоне квадратичного внимания.
Деградация на бенчмарках – около нуля, сжатие – 3–4×. Прямо сказка какая-то (хотя, конечно, многое все еще зависит от движка).
Снимаем шляпу перед Nvidia за отличную работу. Все в опенсорсе, кстати.
https://arxiv.org/abs/2601.07891
KV-кэш сегодня – главная ахиллесова пята трансформеров при масштабировании контекста. Он растет линейно по длине последовательности и хранится для каждого слоя и каждой головы.
Например, для LLaMA-подобной модели на 65B параметров KV-cache при 128k токенов занимает ~335 ГБ памяти. И по времени это тоже больно бьет.
При этом большинство оптимизаций сокращают KV-cache по слоям или по головам. Хотя главный потенциал – именно по оси токенов: далеко не все из них реально нужны модели.
Первый рабочий способ сокращения KV по токенам придумали авторы KVzip: до 4× сжатия при нулевых потерях качества. Но на практике метод оказался слишком медленным.
Nvidia взяли эту идею, немного ее переделали и получили почти то же самое, но практически бесплатно.
Они просто обучают маленькую модель, которая по hidden state токена предсказывает, насколько важен его KV. Для каждого слоя она своя, но это либо линейная модель, либо двухслойный MLP — максимум 1–2 матричных умножения.
И все, никаких дорогих операций и пересчетов (для сравнения: в KVzip промпт по сути приходилось гонять дважды). Дальше просто выкидываются KV-пары, у которых важность ниже заданного порога.
Compute overhead — около 0.02% FLOPs для линейных моделей. На длинном контексте это шум на фоне квадратичного внимания.
Деградация на бенчмарках – около нуля, сжатие – 3–4×. Прямо сказка какая-то (хотя, конечно, многое все еще зависит от движка).
Снимаем шляпу перед Nvidia за отличную работу. Все в опенсорсе, кстати.
https://arxiv.org/abs/2601.07891
1❤217⚡50👍36🔥24🤯6😁3🤗2
Уже четвертую по счету задачу Эрдеша решила GPT-5.2 Pro
Теренс Тао назвал это решение «возможно, наиболее недвусмысленным» в плане уникальности подхода.
Автор решения (если так можно называть человека, который закинул задачку в ChatGPT🤔 ) пишет, что никаких предыдущих решений вообще не было. Это не совсем так: на форуме люди пишут, что нашли черновики доказательства в литературе 1936 и 1966 года. Но Тао отмечает, что подход GPT-5.2 от них отличается.
Интересно, чем GPT-5.2 будет удивлять, когда задачки Эрдеша кончатся😏
www.erdosproblems.com/forum/thread/281?order=oldest
Теренс Тао назвал это решение «возможно, наиболее недвусмысленным» в плане уникальности подхода.
Автор решения (если так можно называть человека, который закинул задачку в ChatGPT
Интересно, чем GPT-5.2 будет удивлять, когда задачки Эрдеша кончатся
www.erdosproblems.com/forum/thread/281?order=oldest
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥143❤33🤯25👍14😁13🦄4
Cursor существенно прокачали своего BugBot
Напоминаем, что это агент для автоматического code review. Появился он относительно недавно, но в самом начале пользы от него было не очень много.
Зато сейчас resolution rate вырос с 52% до 70%, а средняя доля пойманных за один запуск багов – с 0.4 to 0.7. Это значит, что доля разрешенных багов на PR выросло с 0.2 до 0.5, то есть в 2.5 раза. Уже выглядит целесообразно к использованию.
На этот скачок, правда, Cursor понадобилось около 40 итераций экспериментов и доработок: посмотрите, какая неоднородная лесенка на графике (числа в кружочках – номера версий, а по осям – доли пойманных и решенных багов).
Лучше всего сработало прогонять один и тот же PR через несколько разных представлений diff’а: обычный unified diff, diff с расширенным контекстом (код до-после), diff словами и тд. Запускается несколько независимых проверок, затем агент их склеивает.
https://cursor.com/blog/building-bugbot
Напоминаем, что это агент для автоматического code review. Появился он относительно недавно, но в самом начале пользы от него было не очень много.
Зато сейчас resolution rate вырос с 52% до 70%, а средняя доля пойманных за один запуск багов – с 0.4 to 0.7. Это значит, что доля разрешенных багов на PR выросло с 0.2 до 0.5, то есть в 2.5 раза. Уже выглядит целесообразно к использованию.
На этот скачок, правда, Cursor понадобилось около 40 итераций экспериментов и доработок: посмотрите, какая неоднородная лесенка на графике (числа в кружочках – номера версий, а по осям – доли пойманных и решенных багов).
Лучше всего сработало прогонять один и тот же PR через несколько разных представлений diff’а: обычный unified diff, diff с расширенным контекстом (код до-после), diff словами и тд. Запускается несколько независимых проверок, затем агент их склеивает.
https://cursor.com/blog/building-bugbot
❤67👍35😁18🔥3🤨3❤🔥1🤯1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁528👍28🤯12❤5🔥3 3👌2🗿1
Илон Маск требует с OpenAI 134 миллиарда долларов в качестве «компенсации» 😐
Выяснилось, что в январе миллиардер уже успел подать в федеральный суд США новый иск против его любимчиков OpenAI и Microsoft (а у вас как год начинается?😌 ).
Он утверждает, что обе компании получили «неправомерную прибыль» благодаря его раннему участию в OpenAI, и что они должны вернуть ему эти деньги.
Математика такая:
– В 2015 он помогал основать OpenAI и вложил примерно $38 млн – это примерно 60% начального финансирования.
– Его эксперты утверждают, что за счет этих вкладов (и финансовых, и репутационных) OpenAI получила $65,5–$109,4 млрд «неправомерной прибыли», а Microsoft – $13,3–$25,1 млрд. Эти деньги были получены якобы в обход прав Маска как соучредителя и инвестора.
– Итого общий диапазон требований составляет $79–$134 млрд в зависимости от оценок и модели расчета.
OpenAI уже дала комментарий: они назвали иск несерьезным и окрестили его частью кампании по преследованию стартапа by Mr Musk.
Суд назначен на апрель.
Выяснилось, что в январе миллиардер уже успел подать в федеральный суд США новый иск против его любимчиков OpenAI и Microsoft (а у вас как год начинается?
Он утверждает, что обе компании получили «неправомерную прибыль» благодаря его раннему участию в OpenAI, и что они должны вернуть ему эти деньги.
Математика такая:
– В 2015 он помогал основать OpenAI и вложил примерно $38 млн – это примерно 60% начального финансирования.
– Его эксперты утверждают, что за счет этих вкладов (и финансовых, и репутационных) OpenAI получила $65,5–$109,4 млрд «неправомерной прибыли», а Microsoft – $13,3–$25,1 млрд. Эти деньги были получены якобы в обход прав Маска как соучредителя и инвестора.
– Итого общий диапазон требований составляет $79–$134 млрд в зависимости от оценок и модели расчета.
OpenAI уже дала комментарий: они назвали иск несерьезным и окрестили его частью кампании по преследованию стартапа by Mr Musk.
Суд назначен на апрель.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁183 60❤27👍16🗿4🤯3🤔2👌1
«Эра написания кода людьми прошла»
Так высказался в X создатель Node.js Райан Даль. Вот полный перевод поста:
Посвящается тем, кто сейчас едет на работу писать код руками
Так высказался в X создатель Node.js Райан Даль. Вот полный перевод поста:
Это уже было сказано тысячу раз, но позвольте мне добавить свой голос: эпоха людей, пишущий код, закончилась. Это тревожно для тех из нас, кто идентифицирует себя как SWE, но это факт. Это не значит, что SWE теперь лишены работы, но это уже точно не написание синтаксиса напрямую.
Посвящается тем, кто сейчас едет на работу писать код руками
😁322👍77🫡60❤14 10🔥7 7💯6👏4🤔2
Исследование от Google: если усиливать в LLM внутренние маркеры диалога (типа "Oh" или "Wait"), то точность ответов может вырасти в 2 раза на сложных задачах
У корпорации вышла очень интересная полу-философская статья о том, что по сути представляет из себя ризонинг. Они пишут, что RL, на самом деле, учит модели думать не дольше, а коллективнее.
Вы точно замечали, что когда модель думает, она чаще всего как бы симулирует диалог между разными внутренними голосами. Она задает себе вопросы, может что-то покритиковать или выделить. И вот Google пишут, что в такой структуре внутреннего диалога и заключен феномен ризонинга.
Самое занятное – как они это доказывают:
– Авторы берут sparse autoencoder (что это такое и зачем оно нужно мы писали тут) и находят нейронный признак, который отвечает за удивление/осознание/смену точки зрения. Этот признак активируется в начале предложений в диалоговых контекстах, и на практике просто отвечает за употребление таких штук как «О!», «Подожди-ка», «Ага, значит...».
– Затем этот признак специально усиливают во время генерации и смотрят на метрики (модель – DeepSeek-R1-Llama-8B).
– Итог: на сложных задачах комбинаторной арифметики, на которых исходная модель дает 27.1% accuracy, модель с усилением диалогового маркера дает уже 54.8%, а с подавлением этого маркера – 23.8%.
Стат-значимость проверена: авторы специально сравнивали усиление этой фичи с усилением других признаков, и эффект очевиден. Плюс, параллельно с усилением этого маркера в модели также растет способность к когнитивному стратегическому мышлению.
Короче, LLM все еще изучены на 0.01%. Надо как-нибудь попробовать в промпте написать Используй побольше "ах", "ох", "точно" и "ага", и понаблюдать за результатом.
arxiv.org/pdf/2601.10825
У корпорации вышла очень интересная полу-философская статья о том, что по сути представляет из себя ризонинг. Они пишут, что RL, на самом деле, учит модели думать не дольше, а коллективнее.
Вы точно замечали, что когда модель думает, она чаще всего как бы симулирует диалог между разными внутренними голосами. Она задает себе вопросы, может что-то покритиковать или выделить. И вот Google пишут, что в такой структуре внутреннего диалога и заключен феномен ризонинга.
Самое занятное – как они это доказывают:
– Авторы берут sparse autoencoder (что это такое и зачем оно нужно мы писали тут) и находят нейронный признак, который отвечает за удивление/осознание/смену точки зрения. Этот признак активируется в начале предложений в диалоговых контекстах, и на практике просто отвечает за употребление таких штук как «О!», «Подожди-ка», «Ага, значит...».
– Затем этот признак специально усиливают во время генерации и смотрят на метрики (модель – DeepSeek-R1-Llama-8B).
– Итог: на сложных задачах комбинаторной арифметики, на которых исходная модель дает 27.1% accuracy, модель с усилением диалогового маркера дает уже 54.8%, а с подавлением этого маркера – 23.8%.
Стат-значимость проверена: авторы специально сравнивали усиление этой фичи с усилением других признаков, и эффект очевиден. Плюс, параллельно с усилением этого маркера в модели также растет способность к когнитивному стратегическому мышлению.
Короче, LLM все еще изучены на 0.01%. Надо как-нибудь попробовать в промпте написать Используй побольше "ах", "ох", "точно" и "ага", и понаблюдать за результатом.
arxiv.org/pdf/2601.10825
1😁264❤77🔥45👍18🤯17 9⚡7🏆5🤔2❤🔥1
Инженера уволили (?) из xAI через пару дней после выхода его большого интервью о компании
Пока информацию именно об увольнении не подтвердили: сам парень написал только, что он «Покинул xAI, но к бывшей команде и коллегам испытывает только любовь».
Само интервью скандальным не назовешь (какие-то подробности работы в xAI и с Илоном Маском там есть, но без жести), так что причина такого резкого ухода не ясна.
Но если это не лучшая реклама для интервью с MTS, то что?
https://youtu.be/8jN60eJr4Ps
Пока информацию именно об увольнении не подтвердили: сам парень написал только, что он «Покинул xAI, но к бывшей команде и коллегам испытывает только любовь».
Само интервью скандальным не назовешь (какие-то подробности работы в xAI и с Илоном Маском там есть, но без жести), так что причина такого резкого ухода не ясна.
Но если это не лучшая реклама для интервью с MTS, то что?
https://youtu.be/8jN60eJr4Ps
😁123 25❤17🤔8