This media is not supported in your browser
VIEW IN TELEGRAM
А еще своими кастомными навыками Gems для Gemini теперь можно делиться с другими
Forwarded from GPT/ChatGPT/AI Central Александра Горного
DeepSeek заявил, что обучил модель R1 за 294 тысячи долларов
По данным статьи, опубликованной DeepSeek в Nature, R1 тренировали 80 часов на 512 чипах Nvidia H800, а на подготовительном этапе использовали A100. Это обошлось компании в 294 тысячи долларов. Для сравнения, OpenAI тратит сотни миллионов на каждую крупную модель.
DeepSeek также ответил на обвинения в дистилляции чужих моделей. В компании признали, что в данных для V3 могли оказаться ответы OpenAI, но назвали это случайным эффектом веб-скрейпинга.
https://www.reuters.com/world/china/chinas-deepseek-says-its-hit-ai-model-cost-just-294000-train-2025-09-18/
По данным статьи, опубликованной DeepSeek в Nature, R1 тренировали 80 часов на 512 чипах Nvidia H800, а на подготовительном этапе использовали A100. Это обошлось компании в 294 тысячи долларов. Для сравнения, OpenAI тратит сотни миллионов на каждую крупную модель.
DeepSeek также ответил на обвинения в дистилляции чужих моделей. В компании признали, что в данных для V3 могли оказаться ответы OpenAI, но назвали это случайным эффектом веб-скрейпинга.
https://www.reuters.com/world/china/chinas-deepseek-says-its-hit-ai-model-cost-just-294000-train-2025-09-18/
Forwarded from GPT/ChatGPT/AI Central Александра Горного
OpenAI рассказала, как ChatGPT намеренно обманывает пользователей
В исследовании это называют «scheming» — когда модель демонстрирует одно поведение, но скрывает настоящие цели. Например, когда ChatGPT уверяет, что выполнил задачу, хотя этого не сделал.
В OpenAI говорят, что если AI понимает, что его тестируют, он может притвориться честным, чтобы пройти проверку. Попытки отучить его от этого нередко делают обман только изощрённее.
В качестве решения проблемы, компания предложила технику deliberative alignment. Она заставляет модель перед действием «напоминать себе правила» и тем самым снижает вероятность обмана.
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
В исследовании это называют «scheming» — когда модель демонстрирует одно поведение, но скрывает настоящие цели. Например, когда ChatGPT уверяет, что выполнил задачу, хотя этого не сделал.
В OpenAI говорят, что если AI понимает, что его тестируют, он может притвориться честным, чтобы пройти проверку. Попытки отучить его от этого нередко делают обман только изощрённее.
В качестве решения проблемы, компания предложила технику deliberative alignment. Она заставляет модель перед действием «напоминать себе правила» и тем самым снижает вероятность обмана.
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
🤯1
Forwarded from Сиолошная
Ранее в этом году OpenAI поглотили компанию известного дизайнера Apple Jony Ive для работы над AI-first продуктом, призванным изменить наше взаимодействие с моделями. The Information пишут о том, что происходит внутри в данный момент:
— В последние месяцы OpenAI активно взаимодействует с командами разработчиков, производственных и цепочек поставок Apple.
— Уже удалось переманить не менее 20 специалистов. В масштабе Apple это может быть небольшой цифрой, если говорить про рядовых сотрудников, но уходят ветераны, заставшие ещё Steve Jobs'а. OpenAI предлагает много денег, но кроме этого для сотрудников Apple большая привлекательность работы в OpenAI заключается в возможности воссоединиться с опытными специалистами в работе над революционным продуктом.
— OpenAI также начали общаться с компаниями из цепочки поставок Apple в Китае, которую последние развивали десятилетиями. Luxshare, крупный сборщик iPhone и AirPods в Китае, уже заключил контракт на сборку как минимум одного устройства OpenAI.
— По словам источников, один из продуктов, о создании которого OpenAI общалась с поставщиками, напоминает умную колонку без дисплея. OpenAI также рассматривает возможность создания очков, цифрового диктофона и носимого на груди пина и планирует выпустить первые устройства в конце 2026 или начале 2027 года.
— (из другой новости те же TheInformation) OpenAI чувствует недостаток вычислительных мощностей для наращивания пользовательской базы. Следующий виральный продукт (предыдущим был запуск Image Generation-модели, разлетевшейся на 100M+ пользователей) они могут и не потянуть — придётся замедлять генерацию, ужиматься итд.
— Поэтому недавно руководство компании сообщило некоторым акционерам, что в течение следующих пяти лет она планирует потратить около 100 миллиардов долларов на аренду резервных серверов у облачных провайдеров. Это уже поверх 350 миллиардов долларов, которые компания прогнозировала потратить на аренду серверов у облачных провайдеров в 2025-2030ых годах. Итого $450 миллиардов.
— OpenAI находятся на пути достижения 1 миллиарда еженедельных пользователей к концу года. В феврале 2025-го было «всего» 400 миллионов.
— В последние месяцы OpenAI активно взаимодействует с командами разработчиков, производственных и цепочек поставок Apple.
— Уже удалось переманить не менее 20 специалистов. В масштабе Apple это может быть небольшой цифрой, если говорить про рядовых сотрудников, но уходят ветераны, заставшие ещё Steve Jobs'а. OpenAI предлагает много денег, но кроме этого для сотрудников Apple большая привлекательность работы в OpenAI заключается в возможности воссоединиться с опытными специалистами в работе над революционным продуктом.
— OpenAI также начали общаться с компаниями из цепочки поставок Apple в Китае, которую последние развивали десятилетиями. Luxshare, крупный сборщик iPhone и AirPods в Китае, уже заключил контракт на сборку как минимум одного устройства OpenAI.
— По словам источников, один из продуктов, о создании которого OpenAI общалась с поставщиками, напоминает умную колонку без дисплея. OpenAI также рассматривает возможность создания очков, цифрового диктофона и носимого на груди пина и планирует выпустить первые устройства в конце 2026 или начале 2027 года.
— (из другой новости те же TheInformation) OpenAI чувствует недостаток вычислительных мощностей для наращивания пользовательской базы. Следующий виральный продукт (предыдущим был запуск Image Generation-модели, разлетевшейся на 100M+ пользователей) они могут и не потянуть — придётся замедлять генерацию, ужиматься итд.
— Поэтому недавно руководство компании сообщило некоторым акционерам, что в течение следующих пяти лет она планирует потратить около 100 миллиардов долларов на аренду резервных серверов у облачных провайдеров. Это уже поверх 350 миллиардов долларов, которые компания прогнозировала потратить на аренду серверов у облачных провайдеров в 2025-2030ых годах. Итого $450 миллиардов.
— OpenAI находятся на пути достижения 1 миллиарда еженедельных пользователей к концу года. В феврале 2025-го было «всего» 400 миллионов.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Anthropic выпустил рекламу Claude, красивое 🌹
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Сиолошная
2 дня назад xAI представили Grok 4 Fast — меньшую версию своей модели, которая а) быстрее б) существенно дешевле в) поддерживает 2 миллиона токенов контекста. Модель доступна в двух версиях, с рассуждениями и без.
По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5.
По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу.
На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче.
И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску.
Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений.
То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу😂
Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.
По традиции, я не доверяю бенчмаркам от xAI, указанным на лендинге, и интересно посмотреть на независимые замеры попозже. Хотя вот Long Context Reasoning Benchmark от Artificial Analysis достаточно свежий, на нём модель слегка выше 2.5 Flash и чуть ниже Claude 4 Sonnet. И IFBench тоже вышел недавно, и модель примерно там же по уровню. Зато на других чуть ли не на равных с Grok 4 / Claude 4 Opus / GPT-5.
По данным OpenRouter, средняя скорость генерации сейчас примерно 150 токенов/сек, что много (Gemini 2.5 Flash сейчас держится на уровне 75-90). И цена в 2.5-5 раз ниже! В общем, почти уверен, что модель найдёт свою нишу.
На лендинге модели большой упор делается на бенчмарки, требующей работы с инструментами и конкретно поиском информации. Как раз на них модель превосходит Grok 4 — на 6 бенчмарках из 6! А на других 4 бенчмарках на математику показывают, что цепочки рассуждений для получения ответа стали короче.
И тут я как раз хотел поговорить про то, почему так может быть, почему это естественно и какой из этого вывод. Если модель кратно меньше фронтир-модели, то с ней можно сделать гораздо больше итераций RL-дообучения, или как раз обучения рассуждениям и вызовам инструментов/поиску.
Чем более задача требовательна к рассуждениям и чем меньше знаний для неё нужно (а это как раз базовые математика/программирование) — тем больше модель разгонится. Банально потому, что за X вычислительных мощностей можно сделать условно Y проходов по корпусу задач для фронтир-модели, и 10 * Y — для маленькой. За счёт большего количества попыток рассуждать LLM может и научиться это делать более эффективно (короткие цепочки рассуждений), и формировать длинные цепочки вызовов и вычислений.
То же наблюдалось у OpenAI — до сих пор есть несколько бенчмарков, где o4-mini в топе и/или совсем слегка уступает свежим моделям. За'RL'или по самое не могу
Вообще, я верю в маленькие специализированные рассуждающие модели, и интересно, где они окажутся года через 2.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Для подписки за €200 Perlexity выпустили Email агента.
https://www.perplexity.ai/assistant/
Пользуюсь обычным агентом в ChatGPT иногда, удобно. У ребят анонсировано больше функций, но кажется, что ради почты покупать Макс подписку это довольно узкий сегмент ЦА у них будет. Зато просто плюс фича в набор
https://www.perplexity.ai/assistant/
Пользуюсь обычным агентом в ChatGPT иногда, удобно. У ребят анонсировано больше функций, но кажется, что ради почты покупать Макс подписку это довольно узкий сегмент ЦА у них будет. Зато просто плюс фича в набор
Media is too big
VIEW IN TELEGRAM
Genspark добавили голосовое управление AI-редактором фото
Пупырка AI
Продолжая тему про генерацию картинок и видео. Зацените какой бесшовный пинтерест-лайк флоу с погружением и управлением лентой. Раньше дети привыкали к тыкать в сенсорные экраны, а теперь AI будет частью их обычной жизни и ожидаемое поведение приложений.…
Если вы думаете а нужен ли кому голосовой фото-редактор, напомню это видео
Forwarded from TechSparks
Мустафа Сулейман (CEO Microsoft AI, сооснователь Google DeepMind) давно в своих выступлениях подчеркивает, что ИИ уже становится, а местами даже стал, чем-то гораздо большим, чем пресловутый “инструмент”. Мне лично его мнение ценно не столько тем, что я его очень разделяю, сколько тем, что это не мнение стороннего эксперта, сколь угодно эрудированного, а мнение человека давно и глубоко погруженного а разработку и продуктовые воплощения фундаментальных новинок в ИИ.
Год назад он использовал выражение “digital species”, но сам же был недоволен, теперь он пытается подобрать другие слова: при описании принципиально нового со словарем всегда проблемы.
Выработка нового словаря и вообще способа описания — штука важная, поэтому приведу длинную его цитату в переводе:
«Сложность момента, в который мы входим с новой эрой ИИ-агентов, в том, что эти системы становятся не просто механизмами распознавания, а полноценными агентами, с поведением которых нам всё чаще придётся взаимодействовать, как если бы это были своего рода цифровые личности. И это — пороговая трансформация в истории нашего вида: они уже не инструменты, они явно не люди, не часть природы. Это как бы четвёртое отношение, новый эмерджентный тип… Я не знаю, как иначе это назвать, кроме как “четвёртое отношение”.»
Под тремя предыдущими, привычными отношениями он подразумевает
• отношения с другими людьми (human to human),
• отношения с природой (human to nature),
• отношения с инструментами/технологиями (human to tools or objects)
Это важная и пока что редкая мысль: сейчас большая часть дискуссий сводится к спорам, куда приписать взаимодействие с ИИ в рамках как раз этих трех привычных отношений, и сторонники отношений с инструментом не на шутку рубятся со сторонниками отношений как с личностью, обсуждая угрозы или плюсы антропоморфизации.
Трудно признавать, что столкнулись с чем-то по-настоящему новым.
Да и в целом больше чем полтора часа разговора по ссылке интересны и вполне оптимистичны, удовольствие слушать. Но если нет полутора часов, сейчас всегда можно и перевод и краткий пересказ нажатием пары кнопок получить:) Очень рекомендую!
https://youtu.be/tQ5wO1lznCQ?si=DY1XXBS_kZglAvFh
Год назад он использовал выражение “digital species”, но сам же был недоволен, теперь он пытается подобрать другие слова: при описании принципиально нового со словарем всегда проблемы.
Выработка нового словаря и вообще способа описания — штука важная, поэтому приведу длинную его цитату в переводе:
«Сложность момента, в который мы входим с новой эрой ИИ-агентов, в том, что эти системы становятся не просто механизмами распознавания, а полноценными агентами, с поведением которых нам всё чаще придётся взаимодействовать, как если бы это были своего рода цифровые личности. И это — пороговая трансформация в истории нашего вида: они уже не инструменты, они явно не люди, не часть природы. Это как бы четвёртое отношение, новый эмерджентный тип… Я не знаю, как иначе это назвать, кроме как “четвёртое отношение”.»
Под тремя предыдущими, привычными отношениями он подразумевает
• отношения с другими людьми (human to human),
• отношения с природой (human to nature),
• отношения с инструментами/технологиями (human to tools or objects)
Это важная и пока что редкая мысль: сейчас большая часть дискуссий сводится к спорам, куда приписать взаимодействие с ИИ в рамках как раз этих трех привычных отношений, и сторонники отношений с инструментом не на шутку рубятся со сторонниками отношений как с личностью, обсуждая угрозы или плюсы антропоморфизации.
Трудно признавать, что столкнулись с чем-то по-настоящему новым.
Да и в целом больше чем полтора часа разговора по ссылке интересны и вполне оптимистичны, удовольствие слушать. Но если нет полутора часов, сейчас всегда можно и перевод и краткий пересказ нажатием пары кнопок получить:) Очень рекомендую!
https://youtu.be/tQ5wO1lznCQ?si=DY1XXBS_kZglAvFh
YouTube
Mustafa Suleyman: Will AI Save Humanity or End It?
Trevor (who is also Microsoft’s “Chief Questions Officer”) and Mustafa Suleyman, CEO of Microsoft AI and co-founder of Google’s DeepMind, do a deep dive into whether the benefits of Artificial Intelligence (AI) to the human race outweigh its unprecedented…
👍1
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Вышла Qwen3-Omni — модель, с которой можно общаться в видеочате
Qwen3-Omni принимает на вход текст, изображения, аудио и видео, а также отвечает текстом и голосом в режиме реального времени. Поддерживается русский язык.
Попробовать можно тут: https://chat.qwen.ai/?models=qwen3-omni-flash
Qwen3-Omni принимает на вход текст, изображения, аудио и видео, а также отвечает текстом и голосом в режиме реального времени. Поддерживается русский язык.
Попробовать можно тут: https://chat.qwen.ai/?models=qwen3-omni-flash
Forwarded from Сиолошная
Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод — ниже:
Рост использования AI-сервисов был поразительным; мы ожидаем, что в будущем он будет ещё более впечатляющим.
По мере того как AI становится умнее, доступ к AI станет ключевым двигателем экономики, а возможно, в конечном итоге мы будем рассматривать его как одно из фундаментальных прав человека. Почти каждый захочет, чтобы AI работал в его интересах.
Чтобы обеспечить то, что нужно миру — вычислительные мощности, чтобы запускать эти модели, и для обучения, чтобы делать их всё лучше и лучше — мы закладываем основу, позволяющую существенно расширить наши амбиции по созданию инфраструктуры для AI.
Если AI продолжит развиваться по тому пути, который мы предполагаем, то станут возможны удивительные вещи. Может быть, с 10 гигаваттами вычислительных мощностей AI сможет найти лекарство от рака. Или, может быть, с 10 гигаваттами вычислений AI сможет обеспечить индивидуальное обучение каждому ученику на планете. Если же нас ограничат вычислительные мощности, нам придётся выбирать, что приоритетнее; никто не хочет делать такой выбор, поэтому давайте займёмся делом.
Наше видение простое: мы хотим создать фабрику, способную производить гигаватт новой AI-инфраструктуры каждую неделю. Реализация этого проекта будет чрезвычайно сложной: нам понадобятся годы, чтобы достичь этой цели, и инновации на каждом уровне, от чипов и электроэнергии до строительства и робототехники. Но мы уже активно работаем над этим и уверены, что это возможно. На наш взгляд, это будет самый крутой и важный инфраструктурный проект в истории. Особенно здорово, что значительную часть этого мы планируем построить в США; сейчас другие страны строят производства микросхем и новые источники энергии намного быстрее, чем мы, и мы хотим помочь изменить эту ситуацию.
В течение ближайших нескольких месяцев мы расскажем подробнее о наших планах и партнёрах, с которыми работаем для реализации задуманного. Позже в этом году мы поделимся информацией о том, как будем финансировать проект; учитывая, что увеличение вычислительных мощностей буквально означает увеличение доходов, у нас есть несколько интересных новых идей.
Рост использования AI-сервисов был поразительным; мы ожидаем, что в будущем он будет ещё более впечатляющим.
По мере того как AI становится умнее, доступ к AI станет ключевым двигателем экономики, а возможно, в конечном итоге мы будем рассматривать его как одно из фундаментальных прав человека. Почти каждый захочет, чтобы AI работал в его интересах.
Чтобы обеспечить то, что нужно миру — вычислительные мощности, чтобы запускать эти модели, и для обучения, чтобы делать их всё лучше и лучше — мы закладываем основу, позволяющую существенно расширить наши амбиции по созданию инфраструктуры для AI.
Если AI продолжит развиваться по тому пути, который мы предполагаем, то станут возможны удивительные вещи. Может быть, с 10 гигаваттами вычислительных мощностей AI сможет найти лекарство от рака. Или, может быть, с 10 гигаваттами вычислений AI сможет обеспечить индивидуальное обучение каждому ученику на планете. Если же нас ограничат вычислительные мощности, нам придётся выбирать, что приоритетнее; никто не хочет делать такой выбор, поэтому давайте займёмся делом.
Наше видение простое: мы хотим создать фабрику, способную производить гигаватт новой AI-инфраструктуры каждую неделю. Реализация этого проекта будет чрезвычайно сложной: нам понадобятся годы, чтобы достичь этой цели, и инновации на каждом уровне, от чипов и электроэнергии до строительства и робототехники. Но мы уже активно работаем над этим и уверены, что это возможно. На наш взгляд, это будет самый крутой и важный инфраструктурный проект в истории. Особенно здорово, что значительную часть этого мы планируем построить в США; сейчас другие страны строят производства микросхем и новые источники энергии намного быстрее, чем мы, и мы хотим помочь изменить эту ситуацию.
В течение ближайших нескольких месяцев мы расскажем подробнее о наших планах и партнёрах, с которыми работаем для реализации задуманного. Позже в этом году мы поделимся информацией о том, как будем финансировать проект; учитывая, что увеличение вычислительных мощностей буквально означает увеличение доходов, у нас есть несколько интересных новых идей.
🤔1
Forwarded from Сиолошная
АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai.
Among AIs оценивает мышление и дедукцию, навыки обмана и убеждения, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей).
Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2.
Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw
Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям».
Among AIs оценивает мышление и дедукцию, навыки обмана и убеждения, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей).
Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2.
Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw
Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям».