Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AGI 1 и ARC-AGI 2
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
4❤230🔥117👍55🤯13❤🔥5😁2🤔1
В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных
В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.
В итоге были уничтожены критически важные инфраструктурные системы. На некоторое время оказались парализованы 647 государственных цифровых сервисов, от порталов для граждан до систем экстренного реагирования и логистических служб. Но это не самое страшное.
Одной из наиболее пострадавших систем оказался облачный сервис хранения документов G-Drive (Government Drive), на котором около 125 тысяч чиновников хранили особо важные рабочие материалы.
Так вышло, что бэкапа у базы просто не было. Так что с сервера безвозвратно исчезло около 858 ТБ данных. Это примерно 449.5 миллиардов листов A4. Среди утраченного: заявки граждан на визы, гос.проекты, данные о почтовых отправлениях (представьте, тысячи потерянных писем и посылок), миллионы отчетов департаментов и тд.
Расследование еще продолжается, но сейчас основная официальная причина – халатность. Пожар возник при перемещении батарей ИБП, прослуживших дольше срока. Неверное отключение привело к всплеску напряжения и термическому взрыву.
Вспоминайте эту историю каждый раз, когда решите, что вашей базе не нужен бэкап☕️
В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.
В итоге были уничтожены критически важные инфраструктурные системы. На некоторое время оказались парализованы 647 государственных цифровых сервисов, от порталов для граждан до систем экстренного реагирования и логистических служб. Но это не самое страшное.
Одной из наиболее пострадавших систем оказался облачный сервис хранения документов G-Drive (Government Drive), на котором около 125 тысяч чиновников хранили особо важные рабочие материалы.
Так вышло, что бэкапа у базы просто не было. Так что с сервера безвозвратно исчезло около 858 ТБ данных. Это примерно 449.5 миллиардов листов A4. Среди утраченного: заявки граждан на визы, гос.проекты, данные о почтовых отправлениях (представьте, тысячи потерянных писем и посылок), миллионы отчетов департаментов и тд.
Расследование еще продолжается, но сейчас основная официальная причина – халатность. Пожар возник при перемещении батарей ИБП, прослуживших дольше срока. Неверное отключение привело к всплеску напряжения и термическому взрыву.
Вспоминайте эту историю каждый раз, когда решите, что вашей базе не нужен бэкап
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯293 69🫡31❤20😁18🔥10👍9🤨7🕊3👀1🗿1
Data Secrets
В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.…
Чиновники в Южной Корее такие типа:
😁523 48❤29🔥21🤯12 2
Genie-3 и DeepSeek R1 вошли в топ-100 изобретений года по версии Times
В этом году в рейтинге появился отдельный раздел «Искусственный Интеллект». Вот кто там оказался:
– Ambiq SPOT (какой-то супер энергоэффективный чип)
– Anthropic Claude Sonnet 4
– DeepSeek R1
– Nvidia DGX Spark
– … и еще пара агентов для вайбкодинга и финансовых данных
А Genie, что забавно, попала в другой раздел: Immersive Technology.
Также в списке почему-то оказался робот Figure-3, который официально выходит только сегодня😐
В этом году в рейтинге появился отдельный раздел «Искусственный Интеллект». Вот кто там оказался:
– Ambiq SPOT (какой-то супер энергоэффективный чип)
– Anthropic Claude Sonnet 4
– DeepSeek R1
– Nvidia DGX Spark
– … и еще пара агентов для вайбкодинга и финансовых данных
А Genie, что забавно, попала в другой раздел: Immersive Technology.
Также в списке почему-то оказался робот Figure-3, который официально выходит только сегодня
Please open Telegram to view this post
VIEW IN TELEGRAM
😁85❤25🔥11👍6🦄3🏆1
Media is too big
VIEW IN TELEGRAM
Вчера вечером вышел долгожданный робот Figure 03
Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:
1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.
2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.
3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.
Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.
И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.
Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.
Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:
1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.
2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.
3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.
Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.
И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.
Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.
👍81🔥40 26❤19😁3🗿1
MWS AI выпустила первый в своем роде бенчмарк для оценки мультимодальных способностей моделей на русском языке
В какой-то мере это аналог таких международных бенчей, как OCRBench или MMMU. К сожалению, хороших подобных тестов в принципе немного, а существующие крайне плохо покрывают русский язык. Так что эвал моделей для работы с русскоязычными мультимодальными документами (а таких задач в бизнесе львиная доля) проводился в основном методом проб и ошибок. Про объективность молчим.
MWS AI (входит в МТС Web Services) эту проблему заметили и выпустили MWS Vision Bench. Бенчмарк получился довольно объемный и разнообразный: 800 изображений и 2580 заданий, среди которых анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм, графиков. Словом, всего, что в принципе может встретиться в реальных сценариях.
Валидационная часть бенчмарка опубликована в открытом доступе (HuggingFace). Код тоже выложили, найти его можно здесь. В том же репозитории есть уже готовый скрипт для того, чтобы протестировать любую (в том числе собственную) модель.
В данный момент лучшие результаты показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. GPT-5, как ни удивительно, заняла только седьмое место.
В какой-то мере это аналог таких международных бенчей, как OCRBench или MMMU. К сожалению, хороших подобных тестов в принципе немного, а существующие крайне плохо покрывают русский язык. Так что эвал моделей для работы с русскоязычными мультимодальными документами (а таких задач в бизнесе львиная доля) проводился в основном методом проб и ошибок. Про объективность молчим.
MWS AI (входит в МТС Web Services) эту проблему заметили и выпустили MWS Vision Bench. Бенчмарк получился довольно объемный и разнообразный: 800 изображений и 2580 заданий, среди которых анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм, графиков. Словом, всего, что в принципе может встретиться в реальных сценариях.
Валидационная часть бенчмарка опубликована в открытом доступе (HuggingFace). Код тоже выложили, найти его можно здесь. В том же репозитории есть уже готовый скрипт для того, чтобы протестировать любую (в том числе собственную) модель.
В данный момент лучшие результаты показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. GPT-5, как ни удивительно, заняла только седьмое место.
❤54👍32🔥11 6😁5🤔3
Наглядное сравнение скорости нового π-тона 3.14 с предыдущей версией
Обратите внимание, что теперь многопоточность стала даже быстрее мультипроцессинга. Это все за счет того, что в новой сборке можно работать без GIL.
Небольшой ликбез. GIL (Global Interpreter Lock) – это глобальная блокировка интерпретатора, которая позволяет в каждый момент времени выполнять только один поток байткода Python (даже если у тебя 16 ядер). То есть раньше, до 3.14, многопоточности как таковой в Python не существовало.
Для обхода GIL использовали мультипроцессинг. Там каждый процесс – это отдельный экземпляр интерпретатора, и у каждого процесса свой GIL. Только так можно было распараллелить ядра на Python. Но была и обратная сторона: каждый процесс имел свою копию памяти, и нужно было сериализовать данные при передаче. А это большие накладные расходы.
Теперь же в новой версии без GIL потоки работают в одном адресном пространстве, доступ к памяти общий. Результат сразу отражается на скорости: многопоточность теперь на 33% быстрее мультипроцессинга. В 3.13, если что, все было ровно наоборот.
Ждем поддержку free-threading в PyTorch и NumPy
На замеры наткнулись тут
Обратите внимание, что теперь многопоточность стала даже быстрее мультипроцессинга. Это все за счет того, что в новой сборке можно работать без GIL.
Небольшой ликбез. GIL (Global Interpreter Lock) – это глобальная блокировка интерпретатора, которая позволяет в каждый момент времени выполнять только один поток байткода Python (даже если у тебя 16 ядер). То есть раньше, до 3.14, многопоточности как таковой в Python не существовало.
Для обхода GIL использовали мультипроцессинг. Там каждый процесс – это отдельный экземпляр интерпретатора, и у каждого процесса свой GIL. Только так можно было распараллелить ядра на Python. Но была и обратная сторона: каждый процесс имел свою копию памяти, и нужно было сериализовать данные при передаче. А это большие накладные расходы.
Теперь же в новой версии без GIL потоки работают в одном адресном пространстве, доступ к памяти общий. Результат сразу отражается на скорости: многопоточность теперь на 33% быстрее мультипроцессинга. В 3.13, если что, все было ровно наоборот.
Ждем поддержку free-threading в PyTorch и NumPy
На замеры наткнулись тут
1❤189👍58🔥32😁5❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁129❤21🗿7👾7👍2🔥1🎉1🍾1
Смотрите, это картинка из свежей статьи от Bloomberg
Тут нарисовано, как двигаются финансовые потоки в ИИ-экосистеме крупных компаний. Спойлер: в плюсе, как видите, в основном Nvidia😐
Суть в том, что средства циркулируют. Не совсем по кругу, конечно, но в рамках определенных узлов вокруг OpenAI, Oracle, Nvidia и других компаний. Это значит, что благодаря серии сделок деньги почти не выходят за рамки системы компаний, но, тем не менее, каждый новый контракт повышает стоимость участников.
Получается, что в конечном итоге все остаются при своем, а капитализация растет (и очень нехило). Это экономический пузырь по определению😉
Тут нарисовано, как двигаются финансовые потоки в ИИ-экосистеме крупных компаний. Спойлер: в плюсе, как видите, в основном Nvidia
Суть в том, что средства циркулируют. Не совсем по кругу, конечно, но в рамках определенных узлов вокруг OpenAI, Oracle, Nvidia и других компаний. Это значит, что благодаря серии сделок деньги почти не выходят за рамки системы компаний, но, тем не менее, каждый новый контракт повышает стоимость участников.
Получается, что в конечном итоге все остаются при своем, а капитализация растет (и очень нехило). Это экономический пузырь по определению
Please open Telegram to view this post
VIEW IN TELEGRAM
3👀192 77👍42😁22❤21🔥9🤔5❤🔥3🍾2🤯1
Минутка интересных фактов: без ИИ рост ВВП США составил бы всего 0.1%
Ведущие экономисты Гарварда совместно с аналитиками Morgan Stanley и Fortune выяснили, что 80% роста американского фондового рынка в 2025 году обеспечили компании, разрабатывающие ИИ.
Без ИИ рост ВВП был бы почти нулевой: вложения в железо и софт составили 92% всего прироста показателя за первую половину 2025.
В статье пишут, что это уникальное экономическое явление. Но дискуссии по поводу того, насколько устойчива подобная конструкция, продолжаются.
Ведущие экономисты Гарварда совместно с аналитиками Morgan Stanley и Fortune выяснили, что 80% роста американского фондового рынка в 2025 году обеспечили компании, разрабатывающие ИИ.
Без ИИ рост ВВП был бы почти нулевой: вложения в железо и софт составили 92% всего прироста показателя за первую половину 2025.
В статье пишут, что это уникальное экономическое явление. Но дискуссии по поводу того, насколько устойчива подобная конструкция, продолжаются.
😁143 67❤14🔥13🤯10👍7✍1👌1
MWS AI запускают свою первую мультимодальную модель Cotype VL
Об этом рассказал генеральный директор MWS AI, Денис Филиппов, на форуме Финополис 2025. Вот первая информация о релизе:
– В модели 32B параметров, она умеет работать с любыми видами изображений и поддерживает много языков: в том числе русский, английский и китайский.
– Cotype VL будут поставлять как в виде отдельного продукта, так и в составе ИИ-агентов MWS AI, заточенных под разные специальные сценарии (например, техподдержка). Можно развернуть в закрытом контуре компании и даже совместно с MWS AI дообучить на данных заказчика.
– Для обучения собирали огромный датасет из более чем 50 тыс. документов с визуальными данными (даже обучили отдельный инструмент для генерации синтетики). Модель видела контракты, письма, диаграммы, таблицы, схемы, карты, чертежи, рукописи, чеки и прочее. Тюнили создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию.
Отмечают, к слову, что добавили в данные много скриншотов ПО и интерфейсов. Так что модель, помимо прочего, может служить даже как основа для computer use.
Об этом рассказал генеральный директор MWS AI, Денис Филиппов, на форуме Финополис 2025. Вот первая информация о релизе:
– В модели 32B параметров, она умеет работать с любыми видами изображений и поддерживает много языков: в том числе русский, английский и китайский.
– Cotype VL будут поставлять как в виде отдельного продукта, так и в составе ИИ-агентов MWS AI, заточенных под разные специальные сценарии (например, техподдержка). Можно развернуть в закрытом контуре компании и даже совместно с MWS AI дообучить на данных заказчика.
– Для обучения собирали огромный датасет из более чем 50 тыс. документов с визуальными данными (даже обучили отдельный инструмент для генерации синтетики). Модель видела контракты, письма, диаграммы, таблицы, схемы, карты, чертежи, рукописи, чеки и прочее. Тюнили создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию.
Отмечают, к слову, что добавили в данные много скриншотов ПО и интерфейсов. Так что модель, помимо прочего, может служить даже как основа для computer use.
1😁42❤25🗿14👍10 4🤯3🔥2🤔2
Наткнулись тут на просторах интернета на настоящую редкость
Попробуйте присмотреться. Узнаете модника справа?
ЭтоДжеффри Хинтон в молодости со своим коллегой.
Он всегда был рок-звездой✌️
Попробуйте присмотреться. Узнаете модника справа?
Это
Он всегда был рок-звездой
Please open Telegram to view this post
VIEW IN TELEGRAM
❤90🔥35😁18🗿5👍3🤨2🤯1
В Твиттере – очередная волна хейта OpenAI: юрист, работающий в сфере AI, рассказал, как компания пытается запугивать критиков
Парня зовут Натан Кэлвин, он основатель и главный юрист маленькой некоммерческой компании Encode. Они занимаются политикой в области ИИ: например, продвигают законопроекты по безопасности.
Основным из таких законопроектов в последнее время был калифорнийский SB 53. Он должен был ввести несколько новых важных правил, направленных на повышение прозрачности компаний, обеспечение безопасности выпускаемых моделей и защиту информаторов (то есть людей изнутри компаний, которые тайно или явно заявляют о нарушениях safety протоколов).
Естественно, несколько крупных компаний выступали против этого законопроекта. В том числе OpenAI, которые решили играть по-грязному.
Собственно, к сути истории: Натан рассказал, что OpenAI пытались стрясти с него важные данные по лоббированию проекта, когда узнали, что Encode его продвигает. Это, ясное дело, незаконно, НО OpenAI решили прикрыться (ни за что не поверите) Илоном Маском!
Повестка в суд, которая пришла Натану, была частью иска OpenAI против Маска, который они подали в начале 2025. Там обвинения в том, что миллиардер якобы спонсирует заговор против OpenAI.
В целом, не суть. Главное: сейчас OpenAI очень удобно использует этот иск как предлог, чтобы запугивать организации, выступающие (даже косвенно) против их политики.
В частности, у Натана таким образом требовали личные переписки с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI. Как эти переписки должны были помочь им в деле с Маском – остается загадкой.
Причем жульничество это насколько явное, что даже судья по этому делу раскритиковал OpenAI за злоупотребление процедурой и чрезмерное давление в ходе расследования.
К слову, в организации Натана работает всего 3 юриста. Такая конторка, естественно, не готова к суду с гигантами вроде OpenAI. Чем компания активно и пользуется, чтобы влиять на деятельность этой и подобных организаций.
Сейчас тред с историей набрал уже 6 миллионов просмотров и 1.5к реплаев. Стартап эту неловкую завирусившуюся ситуацию пока никак не комментирует
А законопроект, кстати, все-таки подписали, буквально пару недель назад
Парня зовут Натан Кэлвин, он основатель и главный юрист маленькой некоммерческой компании Encode. Они занимаются политикой в области ИИ: например, продвигают законопроекты по безопасности.
Основным из таких законопроектов в последнее время был калифорнийский SB 53. Он должен был ввести несколько новых важных правил, направленных на повышение прозрачности компаний, обеспечение безопасности выпускаемых моделей и защиту информаторов (то есть людей изнутри компаний, которые тайно или явно заявляют о нарушениях safety протоколов).
Естественно, несколько крупных компаний выступали против этого законопроекта. В том числе OpenAI, которые решили играть по-грязному.
Собственно, к сути истории: Натан рассказал, что OpenAI пытались стрясти с него важные данные по лоббированию проекта, когда узнали, что Encode его продвигает. Это, ясное дело, незаконно, НО OpenAI решили прикрыться (ни за что не поверите) Илоном Маском!
Повестка в суд, которая пришла Натану, была частью иска OpenAI против Маска, который они подали в начале 2025. Там обвинения в том, что миллиардер якобы спонсирует заговор против OpenAI.
В целом, не суть. Главное: сейчас OpenAI очень удобно использует этот иск как предлог, чтобы запугивать организации, выступающие (даже косвенно) против их политики.
В частности, у Натана таким образом требовали личные переписки с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI. Как эти переписки должны были помочь им в деле с Маском – остается загадкой.
Причем жульничество это насколько явное, что даже судья по этому делу раскритиковал OpenAI за злоупотребление процедурой и чрезмерное давление в ходе расследования.
К слову, в организации Натана работает всего 3 юриста. Такая конторка, естественно, не готова к суду с гигантами вроде OpenAI. Чем компания активно и пользуется, чтобы влиять на деятельность этой и подобных организаций.
Сейчас тред с историей набрал уже 6 миллионов просмотров и 1.5к реплаев. Стартап эту неловкую завирусившуюся ситуацию пока никак не комментирует
А законопроект, кстати, все-таки подписали, буквально пару недель назад
😁124👍53 38❤28 8🤔6
Еще одна медалька в копилку ИИ: GPT-5 и Gemini 2.5 Pro выиграли золото на Международной Олимпиаде по астрономии и астрофизике (IOAA)
Чтобы понимать сложность олимпиады, учтите, что это даже не просто решение задач по физике и математике. Каждое задание требует многошаговых расчетов, сверки с данными и атласами, глубоких знаний по астрономии и орбитальной механике, построения графиков на небесной сфере и тд.
Но Gemini 2.5 Pro и GPT-5 показали почти идеальные результаты – 85–86%. Это золотая медаль и более того: это уровень топ-2 среди 200–300 участников последних лет.
Больным местом, ожидаемо, оказалось геометрическое и пространственное мышление + анализ данных. Так что несмотря на такой результат, до уровня даже слабенького исследователя в этой области ИИ пока не дотягивает.
arxiv.org/abs/2510.05016
Чтобы понимать сложность олимпиады, учтите, что это даже не просто решение задач по физике и математике. Каждое задание требует многошаговых расчетов, сверки с данными и атласами, глубоких знаний по астрономии и орбитальной механике, построения графиков на небесной сфере и тд.
Но Gemini 2.5 Pro и GPT-5 показали почти идеальные результаты – 85–86%. Это золотая медаль и более того: это уровень топ-2 среди 200–300 участников последних лет.
Больным местом, ожидаемо, оказалось геометрическое и пространственное мышление + анализ данных. Так что несмотря на такой результат, до уровня даже слабенького исследователя в этой области ИИ пока не дотягивает.
arxiv.org/abs/2510.05016
❤84🔥38👍22🏆6😁2🤔2☃1😎1
Data Secrets
Знакомьтесь, это Эндрю Таллок – исследователь, который отказался от оффера Цукерберга на сумму 1.5 миллиарда долларов. Сейчас его обсуждает весь интернет Когда-то этот исследователь, кстати, уже работал в Meta (тогда еще Facebook) и дослужился до «Distinguished…
Цукерберг переманил со-основателя стартапа Миры Мурати Thinking Machines
И вам даже, скорее всего, уже знакомо имя этого парня. Его зовут Эндрю Таллок, некоторое время назад он уже работал в Meta, и при этом достаточно долго: дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. А еще он был ключевым разработчиком PyTorch.
После Meta он некоторое время работал в OpenAI, а затем ушел вместе с Мирой строить Thinking Machines. И все, вроде бы, было хорошо. Но у Цукерберга денег оказалось все-таки больше😐
Занятный факт состоит в том, что буквально пару месяцев назад Интернет тоже обсуждал Таллока. Он тогда отказался от оффера Марка на сумму полтора миллиарда долларов (мы писали об этом тут). Теперь же, по неподтвержденным данным, ему предложили минимум 2$ миллиарда. Плюс, само собой, акции.
А теперь думаем о своей зарплате и настраиваемся на рабочую неделю☕️
И вам даже, скорее всего, уже знакомо имя этого парня. Его зовут Эндрю Таллок, некоторое время назад он уже работал в Meta, и при этом достаточно долго: дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. А еще он был ключевым разработчиком PyTorch.
После Meta он некоторое время работал в OpenAI, а затем ушел вместе с Мирой строить Thinking Machines. И все, вроде бы, было хорошо. Но у Цукерберга денег оказалось все-таки больше
Занятный факт состоит в том, что буквально пару месяцев назад Интернет тоже обсуждал Таллока. Он тогда отказался от оффера Марка на сумму полтора миллиарда долларов (мы писали об этом тут). Теперь же, по неподтвержденным данным, ему предложили минимум 2$ миллиарда. Плюс, само собой, акции.
А теперь думаем о своей зарплате и настраиваемся на рабочую неделю
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯200😁47❤34🔥15 9😎6🤨5🤔4👍2
GPT-5 опять решила какую-то открытую задачу по математике, но есть нюанс
В 20 веке жил такой известный математик Пал Эрдёш. Он был невероятно продовитым и за всю жизнь сформулировал сотни трудных и красивых проблем в различных областях математики – особенно в комбинаторике, теории чисел, теории графов, геометрии и теории вероятностей. Многие из этих задач остаются неразрешёнными до сих пор.
Так вот: есть специальный сайт https://www.erdosproblems.com, на котором энтузиасты публикуют задачи Эрдёша. Там в отдельных разделах перечислены решенные и нерешенные.
И вот кто-то додумался скормить одну из таких нерешенных проблем GPT-5. И моделька взяла и выдала решение.
Только вот, не свое. Вместо того, чтобы париться и рассуждать, она сперва полезла в Интернет, перерыла архивы и выяснила, что на самом деле в литературе уже существует доказательство.
То есть оказалось, что задачу, которую люди считали нерешенной, кто-то решил уже 20 лет назад. И первым, кто это заметил, стала GPT-5.
В 20 веке жил такой известный математик Пал Эрдёш. Он был невероятно продовитым и за всю жизнь сформулировал сотни трудных и красивых проблем в различных областях математики – особенно в комбинаторике, теории чисел, теории графов, геометрии и теории вероятностей. Многие из этих задач остаются неразрешёнными до сих пор.
Так вот: есть специальный сайт https://www.erdosproblems.com, на котором энтузиасты публикуют задачи Эрдёша. Там в отдельных разделах перечислены решенные и нерешенные.
И вот кто-то додумался скормить одну из таких нерешенных проблем GPT-5. И моделька взяла и выдала решение.
Только вот, не свое. Вместо того, чтобы париться и рассуждать, она сперва полезла в Интернет, перерыла архивы и выяснила, что на самом деле в литературе уже существует доказательство.
То есть оказалось, что задачу, которую люди считали нерешенной, кто-то решил уже 20 лет назад. И первым, кто это заметил, стала GPT-5.
😁601❤104🔥71👍25😎11👏4🤯4
Please open Telegram to view this post
VIEW IN TELEGRAM
😁457❤98🔥28 18 13 9🗿2👾1