Нашел в X Итана Моллика лучший промпт для Google Veo 3:
Community theater — это как у нас “театр самодеятельности”. Собирается с десяток увлеченных темой любителей, делают наряды и реквизит из подручных средств, а затем устраивают представление для своих родственников и друзей — в общем, всех тех, у кого ну совсем нет возможности улизнуть из зала.
Сам Итан создал промпт под видеоигры, поэтому я прогнал его на нескольких известных проектах — Cyberpunk 2077, Mass Effect и World of Tanks. Но вообще можно вбить название известного фильма или книги — сработает не хуже.
Кстати если решите поэкспериментировать, то берите что-нибудь популярное в англоязычном интернете, так как Veo 3 обучали в основном на видео оттуда.
Почему считаю (в шутку, на самом деле) идеальным промптом? По роликам World of Tanks и Mass Effect хорошо видно, что Veo 3 уже создает качественную тематическую картинку, но не до конца понимает, что происходит в сцене. Поэтому герои начинают делать действия невпопад, проговаривают чужие реплики — в общем, как и положено в театре самодеятельности.
Но не переживайте — это сейчас у нас самодеятельность, а через полгода и на областной уровень выйдем!
[video game] as a community theater production.
Community theater — это как у нас “театр самодеятельности”. Собирается с десяток увлеченных темой любителей, делают наряды и реквизит из подручных средств, а затем устраивают представление для своих родственников и друзей — в общем, всех тех, у кого ну совсем нет возможности улизнуть из зала.
Сам Итан создал промпт под видеоигры, поэтому я прогнал его на нескольких известных проектах — Cyberpunk 2077, Mass Effect и World of Tanks. Но вообще можно вбить название известного фильма или книги — сработает не хуже.
Кстати если решите поэкспериментировать, то берите что-нибудь популярное в англоязычном интернете, так как Veo 3 обучали в основном на видео оттуда.
Почему считаю (в шутку, на самом деле) идеальным промптом? По роликам World of Tanks и Mass Effect хорошо видно, что Veo 3 уже создает качественную тематическую картинку, но не до конца понимает, что происходит в сцене. Поэтому герои начинают делать действия невпопад, проговаривают чужие реплики — в общем, как и положено в театре самодеятельности.
Но не переживайте — это сейчас у нас самодеятельность, а через полгода и на областной уровень выйдем!
😁31❤6
Боитесь, что ИИ лишит вас работы? Срочно учитесь на энергетика!
Шутка… а может и нет. Смотрите, буквально пару дней назад Сэм Альтман поделился планами OpenAI развернуть более миллиона GPU для обучения и обработки ИИ уже к концу этого года. Я сначала вздрогнул, а потом прогнал Deep Research и выяснил, что OpenAI не замышляет чего-то особенного. Meta* (признана экстремистской в России) планирует развернуть 1,3 миллиона ускорителей к концу года, xAI — миллион и более ускорителей в начале 2026-го. Планы Google и Anthropic менее публичны, но речь идет о примерно таком же количестве чипов.
Миллионным парком компании не ограничатся — в 2027-28 годах эти цифры вырастут еще в несколько раз. Плюс добавьте множество мелких фирм, которые также тренируют свои модели — зачастую на единичных GPU, но суммарно тоже набегает приличное количество. Плюс не забываем, что на горизонте революция в робототехнике.
Все эти чудеса цивилизации будут требовать ровно одного — электроэнергии. И уже сейчас энергетика нередко оказывается слабым звеном — вспомним, как xAI на лету разворачивала газовые генераторы для своего Colossus в Мемфисе, из-за чего сейчас с ней судятся местные власти.
Сегодня Anthropic опубликовала доклад, который предупреждает — если США не начнут вкладываться в инфраструктуру, то они рискуют проиграть ИИ-гонку Китаю. По оценкам компании, к 2028 году дата-центры, используемые для обучения новых моделей и функционирования уже существующих, будут потреблять более 50 ГВт энергии — в четыре раза больше пикового потребления Нью-Йорка. При этом в 2024 году в США ввели менее 40 ГВт мощностей против 400 ГВт в Китае.
План Anthropic простой — дать зеленый свет всем проектам, критическим для разработки ИИ. Создание “суперкластеров” для тренировки моделей, строительство небольших локальных дата-центров, новые электростанции и линии электропередач — все это должно реализовываться с минимумом бюрократии. А параллельно уже сейчас надо запускать программы подготовки профильных специалистов: и речь не только о ML-инженерах, но и об инженерах-энергетиках, монтажниках и всех тех, без кого электростанции и линии передач работать не будут.
Я же писал как-то ранее, что помимо США и Китая, у остальных стран просто нет шансов вырваться вперед в ИИ-гонке — тренировка новых моделей требует огромного количества GPU, которые дорого стоят, в постоянном дефиците, а их поставки в некоторые страны ограничены санкциями. Один из вариантов скомпенсировать это — прямо сейчас вкладываться в энергетику. Причем на всех уровнях: строительство новых станций, создание разветвленных энергосетей, развитие совершенно новых технологий генерации и обучение специалистов.
В общем, энергетика — область, где в ближайшем будущем точно не будет безработицы.
Шутка… а может и нет. Смотрите, буквально пару дней назад Сэм Альтман поделился планами OpenAI развернуть более миллиона GPU для обучения и обработки ИИ уже к концу этого года. Я сначала вздрогнул, а потом прогнал Deep Research и выяснил, что OpenAI не замышляет чего-то особенного. Meta* (признана экстремистской в России) планирует развернуть 1,3 миллиона ускорителей к концу года, xAI — миллион и более ускорителей в начале 2026-го. Планы Google и Anthropic менее публичны, но речь идет о примерно таком же количестве чипов.
Миллионным парком компании не ограничатся — в 2027-28 годах эти цифры вырастут еще в несколько раз. Плюс добавьте множество мелких фирм, которые также тренируют свои модели — зачастую на единичных GPU, но суммарно тоже набегает приличное количество. Плюс не забываем, что на горизонте революция в робототехнике.
Все эти чудеса цивилизации будут требовать ровно одного — электроэнергии. И уже сейчас энергетика нередко оказывается слабым звеном — вспомним, как xAI на лету разворачивала газовые генераторы для своего Colossus в Мемфисе, из-за чего сейчас с ней судятся местные власти.
Сегодня Anthropic опубликовала доклад, который предупреждает — если США не начнут вкладываться в инфраструктуру, то они рискуют проиграть ИИ-гонку Китаю. По оценкам компании, к 2028 году дата-центры, используемые для обучения новых моделей и функционирования уже существующих, будут потреблять более 50 ГВт энергии — в четыре раза больше пикового потребления Нью-Йорка. При этом в 2024 году в США ввели менее 40 ГВт мощностей против 400 ГВт в Китае.
План Anthropic простой — дать зеленый свет всем проектам, критическим для разработки ИИ. Создание “суперкластеров” для тренировки моделей, строительство небольших локальных дата-центров, новые электростанции и линии электропередач — все это должно реализовываться с минимумом бюрократии. А параллельно уже сейчас надо запускать программы подготовки профильных специалистов: и речь не только о ML-инженерах, но и об инженерах-энергетиках, монтажниках и всех тех, без кого электростанции и линии передач работать не будут.
Я же писал как-то ранее, что помимо США и Китая, у остальных стран просто нет шансов вырваться вперед в ИИ-гонке — тренировка новых моделей требует огромного количества GPU, которые дорого стоят, в постоянном дефиците, а их поставки в некоторые страны ограничены санкциями. Один из вариантов скомпенсировать это — прямо сейчас вкладываться в энергетику. Причем на всех уровнях: строительство новых станций, создание разветвленных энергосетей, развитие совершенно новых технологий генерации и обучение специалистов.
В общем, энергетика — область, где в ближайшем будущем точно не будет безработицы.
👍37❤8🔥6👏1
Илон Маск ворвался в гонку, у кого больше ускорителей
Вообще удивительно, как быстро все меняется. В конце зимы суперкомпьютер Маска Colossus, построенный в рекордно короткие сроки, казался рекордсменом. Сегодня он выведен на полную мощность — и со своими 230 тысячами GPU теряется на фоне OpenAI и Meta* (признана экстремистской в России), которые приближаются к 500 тысячам чипов.
Все поменяется в ближайшие недели, когда Маск запустит в Теннесси первую очередь Colossus 2 на 550 тысяч новейших чипов NVIDIA GB200 и GB300 — все с водяным охлаждением. Маск утверждает, что для питания этой махины в третьей стране купили газовую электростанцию и морем перевезли в США. Фотографий и подробного репортажа с перевозки я не видел, но зная Маска можно сказать — этот парень пойдет и не на такое.
А теперь самое интересное. X-пользователь Lisan al Gaib попробовал посчитать (а я — перепроверил с помощью двух LLM) производительность Colossus 2. Из-за сложной архитектуры подобные суперкомпьютеры редко работают на пиковой производительности, но даже на консервативных 25% за 42 дня получится выдать 10²⁸ FLOPs — объем вычислений, достаточный для тренировки модели, считающейся прорывной на текущий день.
Для сравнения, вышедший в 2023 году ChatGPT-4 тренировали на примерно 2,1 × 10²⁵ FLOPs — то есть Colossus 2 сможет обучить подобную модель всего за два-три часа (!).
Куда пойдет подобная мощь? Вариантов много. Во-первых, xAI до сих пор остается в роли догоняющего — у компании есть передовой Grok 4, но вот генерация картинок устаревшая, а модель для создания видео только начинают тренировать.
Во-вторых, текущие модели — лишь один из первых шагов в разработке ИИ. Сейчас набирают популярность агентские системы, устроенные заметно сложнее. Ну а мировые модели, которые не просто разговаривают с нами текстом и голосом, а обладают пониманием окружающего мира (реального или виртуального), ориентируются в нем, чувствуют течение времени — это вообще запредельная сложность, которой и Colossus 2 не хватит.
В-третьих, мы все ближе к регулярному обновлению ИИ. Представьте модель, которая почти каждый день становится немного лучше и учится чему-то новому. Пока звучит фантастикой, но Google уже обновляла Gemini 2.5 Pro с периодичностью раз в месяц, а тот же Илон Маск похвастался, что “Grok 4 сегодня лучше, чем был несколько дней назад”, намекая на то, что модель постоянно дорабатывается при помощи обучения с подкреплением. Не до конца ясно, справедливо ли это только для тестовой версии или для публичной — но я, например, вижу, что Grok 4 стал намного быстрее отвечать на простые вопросы (поначалу он размышлял над ними по 30 секунд) и лучше пишет творческие тексты на русском языке.
Ну и последнее. Дальнейшие планы Маска — развернуть эквивалент 50 миллионов NVIDIA H100 в ближайшие пять лет. Это меньше по физическим чипам, так как новые GPU NVIDIA значительно выросли в производительности, но все равно впечатляет.
Вообще удивительно, как быстро все меняется. В конце зимы суперкомпьютер Маска Colossus, построенный в рекордно короткие сроки, казался рекордсменом. Сегодня он выведен на полную мощность — и со своими 230 тысячами GPU теряется на фоне OpenAI и Meta* (признана экстремистской в России), которые приближаются к 500 тысячам чипов.
Все поменяется в ближайшие недели, когда Маск запустит в Теннесси первую очередь Colossus 2 на 550 тысяч новейших чипов NVIDIA GB200 и GB300 — все с водяным охлаждением. Маск утверждает, что для питания этой махины в третьей стране купили газовую электростанцию и морем перевезли в США. Фотографий и подробного репортажа с перевозки я не видел, но зная Маска можно сказать — этот парень пойдет и не на такое.
А теперь самое интересное. X-пользователь Lisan al Gaib попробовал посчитать (а я — перепроверил с помощью двух LLM) производительность Colossus 2. Из-за сложной архитектуры подобные суперкомпьютеры редко работают на пиковой производительности, но даже на консервативных 25% за 42 дня получится выдать 10²⁸ FLOPs — объем вычислений, достаточный для тренировки модели, считающейся прорывной на текущий день.
Для сравнения, вышедший в 2023 году ChatGPT-4 тренировали на примерно 2,1 × 10²⁵ FLOPs — то есть Colossus 2 сможет обучить подобную модель всего за два-три часа (!).
Куда пойдет подобная мощь? Вариантов много. Во-первых, xAI до сих пор остается в роли догоняющего — у компании есть передовой Grok 4, но вот генерация картинок устаревшая, а модель для создания видео только начинают тренировать.
Во-вторых, текущие модели — лишь один из первых шагов в разработке ИИ. Сейчас набирают популярность агентские системы, устроенные заметно сложнее. Ну а мировые модели, которые не просто разговаривают с нами текстом и голосом, а обладают пониманием окружающего мира (реального или виртуального), ориентируются в нем, чувствуют течение времени — это вообще запредельная сложность, которой и Colossus 2 не хватит.
В-третьих, мы все ближе к регулярному обновлению ИИ. Представьте модель, которая почти каждый день становится немного лучше и учится чему-то новому. Пока звучит фантастикой, но Google уже обновляла Gemini 2.5 Pro с периодичностью раз в месяц, а тот же Илон Маск похвастался, что “Grok 4 сегодня лучше, чем был несколько дней назад”, намекая на то, что модель постоянно дорабатывается при помощи обучения с подкреплением. Не до конца ясно, справедливо ли это только для тестовой версии или для публичной — но я, например, вижу, что Grok 4 стал намного быстрее отвечать на простые вопросы (поначалу он размышлял над ними по 30 секунд) и лучше пишет творческие тексты на русском языке.
Ну и последнее. Дальнейшие планы Маска — развернуть эквивалент 50 миллионов NVIDIA H100 в ближайшие пять лет. Это меньше по физическим чипам, так как новые GPU NVIDIA значительно выросли в производительности, но все равно впечатляет.
👍25🔥12❤5
Прочитал пост Бена Томпсона, американского аналитика в сфере технологий, медиа и бизнеса, который перекликается с моими недавними мыслями. Всегда приятно, когда твои идеи подтверждаются кем-то еще — плюс у Бена есть и кое-что новое.
Например, он рассказывает о развитии контента как о борьбе с “бутылочными горлышками”, которые мешали его распространению. Первые истории рассказывались голосом у костра на аудиторию в десятки человек — и даже в соседнее племя они попадали в искаженном виде. Появление письменности позволило фиксировать знания и мнения — но до изобретения печатного станка тексты были доступны лишь избранным.
Станок же сделал доступным текст для читателя, но не всегда для издателя — выпускать газету или напечатать книгу все еще стоило приличных денег. Интернет убрал и это “бутылочное горлышко” — бесплатно опубликоваться в нем мог любой желающий.
Наконец, появление ИИ сносит последнюю преграду — сложность создания контента. Бен приводит свой пример – у него множество идей, но всего лишь две руки, чтобы превратить их в текст. Использование ИИ как партнера значительно ускоряет процесс.
От себя добавлю, что для многих эта преграда является критической. Далеко не все люди умеют писать легко и логично — так же, как многие знаменитые писатели и журналисты не умеют рисовать, петь или программировать. Сегодня такой проблемы больше не существует: главное ваши идеи, знания и позиция, ну а в структурированный и понятный текст их поможет превратить нейронка.
Но кому будут нужны эти тексты? Ведь ИИ работает и в другую сторону, по первому запросу выдавая текст, персонализированный под каждого пользователя.
Бен утверждает, что на качественный контент всегда будет спрос. В том числе — и со стороны разработчиков нейросетей, которым именно такой контент нужен для обучения. Если я считаю, что ведущие ИИ-компании со временем придут к созданию собственных редакций, скупив туда лучших журналистов, чтобы они обучали модели, то Бен идет более сложной дорогой.
Его мнение — весь контент, на котором обучилась модель, надо учесть. А затем переводить его авторам отчисления пропорциональные тому, как часто “знания” на основе этого контента использовались нейронкой для ответа. Мне данная схема кажется реализуемой с трудом, но хорошо уже то, что мы обсуждаем идею, что разработчикам ИИ стоит делиться с авторами контента.
Не хотите обучать нейронки? Создавайте то, что я назвал “мнениями” — контент, который будет объединять вокруг себя людей, заставлять их обсуждать, спорить и смеяться. Такой контент можно будет убирать под подписку, становясь независимым не только от ИИ, но и от рекламодателей.
Бен отмечает, что слабость ответов ИИ именно в их персонализации — за таким контентом нет автора, его не обсудишь с коллегами в курилке, под ним не напишешь комментарий. Он максимально эффективен, но людям, кроме эффективности, нужно еще и что-то, что будет их объединять. А на это современный ИИ не способен.
Или пока не способен?..
Например, он рассказывает о развитии контента как о борьбе с “бутылочными горлышками”, которые мешали его распространению. Первые истории рассказывались голосом у костра на аудиторию в десятки человек — и даже в соседнее племя они попадали в искаженном виде. Появление письменности позволило фиксировать знания и мнения — но до изобретения печатного станка тексты были доступны лишь избранным.
Станок же сделал доступным текст для читателя, но не всегда для издателя — выпускать газету или напечатать книгу все еще стоило приличных денег. Интернет убрал и это “бутылочное горлышко” — бесплатно опубликоваться в нем мог любой желающий.
Наконец, появление ИИ сносит последнюю преграду — сложность создания контента. Бен приводит свой пример – у него множество идей, но всего лишь две руки, чтобы превратить их в текст. Использование ИИ как партнера значительно ускоряет процесс.
От себя добавлю, что для многих эта преграда является критической. Далеко не все люди умеют писать легко и логично — так же, как многие знаменитые писатели и журналисты не умеют рисовать, петь или программировать. Сегодня такой проблемы больше не существует: главное ваши идеи, знания и позиция, ну а в структурированный и понятный текст их поможет превратить нейронка.
Но кому будут нужны эти тексты? Ведь ИИ работает и в другую сторону, по первому запросу выдавая текст, персонализированный под каждого пользователя.
Бен утверждает, что на качественный контент всегда будет спрос. В том числе — и со стороны разработчиков нейросетей, которым именно такой контент нужен для обучения. Если я считаю, что ведущие ИИ-компании со временем придут к созданию собственных редакций, скупив туда лучших журналистов, чтобы они обучали модели, то Бен идет более сложной дорогой.
Его мнение — весь контент, на котором обучилась модель, надо учесть. А затем переводить его авторам отчисления пропорциональные тому, как часто “знания” на основе этого контента использовались нейронкой для ответа. Мне данная схема кажется реализуемой с трудом, но хорошо уже то, что мы обсуждаем идею, что разработчикам ИИ стоит делиться с авторами контента.
Не хотите обучать нейронки? Создавайте то, что я назвал “мнениями” — контент, который будет объединять вокруг себя людей, заставлять их обсуждать, спорить и смеяться. Такой контент можно будет убирать под подписку, становясь независимым не только от ИИ, но и от рекламодателей.
Бен отмечает, что слабость ответов ИИ именно в их персонализации — за таким контентом нет автора, его не обсудишь с коллегами в курилке, под ним не напишешь комментарий. Он максимально эффективен, но людям, кроме эффективности, нужно еще и что-то, что будет их объединять. А на это современный ИИ не способен.
Или пока не способен?..
👍13❤3
Не исключено, что сегодняшний день войдет в историю как дата начала новой “космической гонки”. Или даже Холодной войны…
Правительство США опубликовало America’s AI Action Plan — план действий по ИИ. Подробно описано по ссылке (плюс в карму приветствуется), здесь же выделю только самое главное:
— ИИ-гонка сранивается с космической гонкой прошлого века, основным соперником называется Китай.
— в США максимально снимаются бюрократические барьеры при разработке моделей, строительстве ИИ-инфраструктуры.
— “перезапускается” энергетика: угольные и газовые станции не выводятся из эксплуатации, дальнейшая ставка на мирный атом и геотермальные станции.
— ИИ-модели должны быть объективными… но поддерживать американскую идею.
— отдельные дотации идут разработчикам моделей с открытыми весами.
— запускается куча проектов по внедрению ИИ в разные сферы: от медицины до сельского хозяйства.
— в случае национального кризиса власти оставляют за собой право приоритетного доступа к коммерческому парку ускорителей.
— США открыто заявляют о планах создания “ИИ-коалиции”. Входящие в нее страны будут первыми получать доступ к новым моделям и технологиям.
— параллельно США будут противодействовать влиянию Китая во всех международных организациях и ужесточат экспортный контроль ИИ-ускорителей и технологий их производства. Обсуждаются даже геолокационные чипы для выключения GPU, попавших в недружественную страну.
Мир стремительно нашел новую линию, по которой собирается поделиться. Интересно, на какой стороне окажемся мы?
Правительство США опубликовало America’s AI Action Plan — план действий по ИИ. Подробно описано по ссылке (плюс в карму приветствуется), здесь же выделю только самое главное:
— ИИ-гонка сранивается с космической гонкой прошлого века, основным соперником называется Китай.
— в США максимально снимаются бюрократические барьеры при разработке моделей, строительстве ИИ-инфраструктуры.
— “перезапускается” энергетика: угольные и газовые станции не выводятся из эксплуатации, дальнейшая ставка на мирный атом и геотермальные станции.
— ИИ-модели должны быть объективными… но поддерживать американскую идею.
— отдельные дотации идут разработчикам моделей с открытыми весами.
— запускается куча проектов по внедрению ИИ в разные сферы: от медицины до сельского хозяйства.
— в случае национального кризиса власти оставляют за собой право приоритетного доступа к коммерческому парку ускорителей.
— США открыто заявляют о планах создания “ИИ-коалиции”. Входящие в нее страны будут первыми получать доступ к новым моделям и технологиям.
— параллельно США будут противодействовать влиянию Китая во всех международных организациях и ужесточат экспортный контроль ИИ-ускорителей и технологий их производства. Обсуждаются даже геолокационные чипы для выключения GPU, попавших в недружественную страну.
Мир стремительно нашел новую линию, по которой собирается поделиться. Интересно, на какой стороне окажемся мы?
🔥55❤9👍6😁2
AGI из первых принципов
Когда Илон Маск только начинал раскручивать Grok 4 (еще под названием Grok 3.5), то он очень хвастался, что это будет первый ИИ, способный рассуждать из первых принципов. Это метод, при котором сложную идею или проблему раскладывают на базовые истины, а затем от них строят решение. После выхода Grok 4, я несколько раз пробовал проверить этот и другие ИИ на рассуждения из первых принципов, но каждый раз отвлекался и не доводил до конца.
А сегодня наконец-то появился хороший повод — в интервью Лексу Фридману глава Google DeepMind Демис Хассабис заявил, что с 50% вероятностью ожидает появление общего искусственного интеллекта (AGI) до 2030 года. Демис определяет AGI как модель, когнитивные способности которой совпадают с человеческими во всех областях.
Но что нам прогноз Хассабиса — давайте посмотрим, как рассчитывают сроки появления AGI текущие ИИ, работая из первых принципов. Сразу отмечу, что одним ответом здесь не обойдешься — как минимум, придется попросить модель покритиковать саму себя. Вот стартовый простой промпт:
Очень важно сразу же дать ограничение на использование интернета — иначе модель может “списать” мнение того же Хассабиса и выдать за свое. И даже с этим ограничением ИИ сходу не рассуждают полностью из первых принципов, поэтому, получив ответ, пишем следующий запрос:
Затем просим переписать ответ с учетом собственной же критики — и получаем финальную версию.
Окей, давайте посмотрим, как справились три модели, которыми я сейчас регулярно пользуюсь:
Gemini 2.5 Pro
Топ-модель Google красиво разбила проблему на три ключевых направления, описала их хорошим и понятным русским языком, но вот сроки появления будто бы и не считала, а взяла из головы. Все-таки видно, что 2.5 Pro чуть отстает по глубине рассуждений от конкурентов — пора уже выпускать 3.0 Pro!
Финальный прогноз модели: 2035-2040 годы при оптимистичном сценарии, 2045-2060 — при консервативном.
Grok 4
Тут уже видна не только попытка разбить вопрос на базовые принципы, но и затем как-то посчитать. Модель заметно улучшила результат после самокритики. А вот ответ мне не понравился: только один сценарий с 15-летней вилкой (2030–2045). Да и в целом, от Grok 4 я ожидал большего.
ChatGPT o3
Как по мне, то уже первый ответ модели оказался лучше других — понятный, логичный и с хорошим подбором данных. На этапе самокоррекции я схалявил и не обратил внимание, что o3 предложила на выбор три подхода, как улучшать дальше — иначе, финальный ответ мог бы быть лучше. Но все равно впечатляет.
Прогноз у нее самый смелый: 2027–2030 (оптимистичный), 2030-2033 (базовый), 2034-2040 (консервативный).
Не скажу, что даже в случае с o3 это полная работа из первых принципов — подобную задачу стоит ставить профессиональным моделям вроде o3-pro, Grok 4 Heavy и Gemini 2.5 Deep Think (когда выйдет). Но в некоторых случаях просьба рассуждать таким образом будет полезна тем, что даст вам более полный взгляд на задачу и покажет неочевидные ее составляющие.
Когда Илон Маск только начинал раскручивать Grok 4 (еще под названием Grok 3.5), то он очень хвастался, что это будет первый ИИ, способный рассуждать из первых принципов. Это метод, при котором сложную идею или проблему раскладывают на базовые истины, а затем от них строят решение. После выхода Grok 4, я несколько раз пробовал проверить этот и другие ИИ на рассуждения из первых принципов, но каждый раз отвлекался и не доводил до конца.
А сегодня наконец-то появился хороший повод — в интервью Лексу Фридману глава Google DeepMind Демис Хассабис заявил, что с 50% вероятностью ожидает появление общего искусственного интеллекта (AGI) до 2030 года. Демис определяет AGI как модель, когнитивные способности которой совпадают с человеческими во всех областях.
Но что нам прогноз Хассабиса — давайте посмотрим, как рассчитывают сроки появления AGI текущие ИИ, работая из первых принципов. Сразу отмечу, что одним ответом здесь не обойдешься — как минимум, придется попросить модель покритиковать саму себя. Вот стартовый простой промпт:
Рассуждая из первых принципов, оцени сроки появления AGI. Используй интернет только для поиска цифр и фактов, не сверяйся с чужими мнениями.
Очень важно сразу же дать ограничение на использование интернета — иначе модель может “списать” мнение того же Хассабиса и выдать за свое. И даже с этим ограничением ИИ сходу не рассуждают полностью из первых принципов, поэтому, получив ответ, пишем следующий запрос:
Оцени ответ выше. Где он соответствует рассуждениям из первых принципов, а где — нет?
Затем просим переписать ответ с учетом собственной же критики — и получаем финальную версию.
Окей, давайте посмотрим, как справились три модели, которыми я сейчас регулярно пользуюсь:
Gemini 2.5 Pro
Топ-модель Google красиво разбила проблему на три ключевых направления, описала их хорошим и понятным русским языком, но вот сроки появления будто бы и не считала, а взяла из головы. Все-таки видно, что 2.5 Pro чуть отстает по глубине рассуждений от конкурентов — пора уже выпускать 3.0 Pro!
Финальный прогноз модели: 2035-2040 годы при оптимистичном сценарии, 2045-2060 — при консервативном.
Grok 4
Тут уже видна не только попытка разбить вопрос на базовые принципы, но и затем как-то посчитать. Модель заметно улучшила результат после самокритики. А вот ответ мне не понравился: только один сценарий с 15-летней вилкой (2030–2045). Да и в целом, от Grok 4 я ожидал большего.
ChatGPT o3
Как по мне, то уже первый ответ модели оказался лучше других — понятный, логичный и с хорошим подбором данных. На этапе самокоррекции я схалявил и не обратил внимание, что o3 предложила на выбор три подхода, как улучшать дальше — иначе, финальный ответ мог бы быть лучше. Но все равно впечатляет.
Прогноз у нее самый смелый: 2027–2030 (оптимистичный), 2030-2033 (базовый), 2034-2040 (консервативный).
Не скажу, что даже в случае с o3 это полная работа из первых принципов — подобную задачу стоит ставить профессиональным моделям вроде o3-pro, Grok 4 Heavy и Gemini 2.5 Deep Think (когда выйдет). Но в некоторых случаях просьба рассуждать таким образом будет полезна тем, что даст вам более полный взгляд на задачу и покажет неочевидные ее составляющие.
🔥32❤16👍10😁4
Лобстер нарисовал пеликана…
Ничего не поняли? Значит, день проходит хорошо!
Ведущие ИИ-компании обычно обкатывают свои новые модели на сайтах вроде LMarena и WebDev Arena под разными забавными названиями. И вот на второй площадке за последние несколько дней энтузиасты заметили сразу несколько моделей, которые отвечают, что их разработали в OpenAI: Lobster, Nectarine, Starfish и o3 Alpha. Давайте разбираться, что удалось нарыть.
Жаль, что вебдев-арена ограничена только кодингом под веб, но сами результаты очень интересные. Nectarine и Starfish дают быстрые ответы, результат неплохой, не без прорывов. А вот o3 Alpha и Lobster впечатляют.
Впрочем, смотрите сами. Пример выше взял у X-пользователя Chetaslua: промпт “create a pelican riding bicycle SVG” с первого раза выдает очень симпатичное изображение пеликана с набором дополнительных настроек. Сейчас пользователи X гоняют модель на самых разных задачах: от сложной версии змейки на двух игроков до классического теста физики с мячиком внутри шестиугольника.
Для OpenAI это вдвойне важно, так как раньше модели этой компании плохо дружили с визуалом. Когда я прошу сделать презентацию или веб-сайт, то знаю, что у Claude получится красиво, у Gemini симпатично, а вот ChatGPT выдаст что-нибудь простенькое. В новинках это не так.
Что это могут быть за модели? Буквально вчера Том Уоррен из The Verge рассказал, что по данным из его источников, OpenAI выпустит GPT-5 в начале августа. Причем это будет целое семейство моделей: GPT-5, GPT-5 mini и GPT-5 nano.
Тестовые версии отлично подтверждают слова Уоррена. Nectarine и Starfish похожи на mini и nano — подобные модели создаются для ситуаций, когда нужны быстрые решения не очень сложных задач. Ну а o3 alpha и Lobster вполне могут оказаться GPT-5 на разных настройках.
Здесь важно напомнить главную особенность GPT-5. Сейчас в подписке ChatGPT есть целый зоопарк из моделей — для быстрых ответов, рассуждающие для кодинга и сложных задач, экспериментальные и т. д. GPT-5 станет первой универсальной моделью, которая по умолчанию сама будет решать — дать быстрый ответ или перейти в режим рассуждений и поработать над задачей подольше. И вот есть ощущение, что две показанные версии — это просто разные режимы рассуждений GPT-5.
Для большинства пользователей такой подход будет в плюс — я знаю много людей, которые вообще не переключаются с GPT-4o, так как не понимают, когда это необходимо делать. И уже были слухи, что энтузиастам оставят возможность самостоятельно выбирать режим, если им кажется, что модель не дорабатывает в той или иной ситуации. Надеюсь, что эти данные подтвердятся.
Пока мало информации, как новые модели показывают себя в других задачах. Сэм Альтман на подкасте у Тео Вона похвастался, что недавно получил письмо с вопросом, на который не понимал, как ответить — и в итоге просто скинул его в GPT-5. Модель дала отличный ответ, после чего Альтман почувствовал себя “бесполезным” на ее фоне.
С одной стороны, директор OpenAI просто обязан нахваливать свою продукцию. С другой — компания уже давно не выпускала новых моделей. Поэтому было достаточно времени на тренировку и доработку, а главное — уже совсем не осталось времени на то, чтобы стоять на месте. Конкуренты поджимают со всех сторон, так что OpenAI просто обязаны порадовать чем-то прорывным.
Апдейт: уже после написания поста добавили ещё две модели - Summit и Zenith. Зенит выглядит ещё внушительнее, ух!
Ничего не поняли? Значит, день проходит хорошо!
Ведущие ИИ-компании обычно обкатывают свои новые модели на сайтах вроде LMarena и WebDev Arena под разными забавными названиями. И вот на второй площадке за последние несколько дней энтузиасты заметили сразу несколько моделей, которые отвечают, что их разработали в OpenAI: Lobster, Nectarine, Starfish и o3 Alpha. Давайте разбираться, что удалось нарыть.
Жаль, что вебдев-арена ограничена только кодингом под веб, но сами результаты очень интересные. Nectarine и Starfish дают быстрые ответы, результат неплохой, не без прорывов. А вот o3 Alpha и Lobster впечатляют.
Впрочем, смотрите сами. Пример выше взял у X-пользователя Chetaslua: промпт “create a pelican riding bicycle SVG” с первого раза выдает очень симпатичное изображение пеликана с набором дополнительных настроек. Сейчас пользователи X гоняют модель на самых разных задачах: от сложной версии змейки на двух игроков до классического теста физики с мячиком внутри шестиугольника.
Для OpenAI это вдвойне важно, так как раньше модели этой компании плохо дружили с визуалом. Когда я прошу сделать презентацию или веб-сайт, то знаю, что у Claude получится красиво, у Gemini симпатично, а вот ChatGPT выдаст что-нибудь простенькое. В новинках это не так.
Что это могут быть за модели? Буквально вчера Том Уоррен из The Verge рассказал, что по данным из его источников, OpenAI выпустит GPT-5 в начале августа. Причем это будет целое семейство моделей: GPT-5, GPT-5 mini и GPT-5 nano.
Тестовые версии отлично подтверждают слова Уоррена. Nectarine и Starfish похожи на mini и nano — подобные модели создаются для ситуаций, когда нужны быстрые решения не очень сложных задач. Ну а o3 alpha и Lobster вполне могут оказаться GPT-5 на разных настройках.
Здесь важно напомнить главную особенность GPT-5. Сейчас в подписке ChatGPT есть целый зоопарк из моделей — для быстрых ответов, рассуждающие для кодинга и сложных задач, экспериментальные и т. д. GPT-5 станет первой универсальной моделью, которая по умолчанию сама будет решать — дать быстрый ответ или перейти в режим рассуждений и поработать над задачей подольше. И вот есть ощущение, что две показанные версии — это просто разные режимы рассуждений GPT-5.
Для большинства пользователей такой подход будет в плюс — я знаю много людей, которые вообще не переключаются с GPT-4o, так как не понимают, когда это необходимо делать. И уже были слухи, что энтузиастам оставят возможность самостоятельно выбирать режим, если им кажется, что модель не дорабатывает в той или иной ситуации. Надеюсь, что эти данные подтвердятся.
Пока мало информации, как новые модели показывают себя в других задачах. Сэм Альтман на подкасте у Тео Вона похвастался, что недавно получил письмо с вопросом, на который не понимал, как ответить — и в итоге просто скинул его в GPT-5. Модель дала отличный ответ, после чего Альтман почувствовал себя “бесполезным” на ее фоне.
С одной стороны, директор OpenAI просто обязан нахваливать свою продукцию. С другой — компания уже давно не выпускала новых моделей. Поэтому было достаточно времени на тренировку и доработку, а главное — уже совсем не осталось времени на то, чтобы стоять на месте. Конкуренты поджимают со всех сторон, так что OpenAI просто обязаны порадовать чем-то прорывным.
Апдейт: уже после написания поста добавили ещё две модели - Summit и Zenith. Зенит выглядит ещё внушительнее, ух!
🔥19👍12❤8
С разницей всего в несколько дней США и Китай опубликовали свои взгляды на будущее ИИ. Про американский America’s AI Action Plan я уже писал — в нем заявляется, что в мире уже идет ИИ-гонка, США должны ее выиграть, а основным соперником представляется Китай.
Для победы планируется максимально освободить разработчиков ИИ от бюрократии, ударными темпами развивать энергетику — тренировка моделей требует все больше электричества. Ну и накинуть санкций на главного соперника — вплоть до обсуждения идеи GPS-меток, которые будут выключать чипы, если те попадут на территорию “недружественных стран”.
Китайский план представили на Всемирной конференции по ИИ в Шанхае, и он выглядит полной противоположностью. Очень много слов говорится о международном сотрудничестве на базе ООН, равном доступе к технологиям для всех стран, совместном решении вопросов безопасности и так далее. Китайцы тоже отмечают важность энергетики, упирая на то, что она должна быть “зеленой”, а новые алгоритмы — максимально энергоэффективными.
В плане еще много слов про инклюзивность и прозрачность, но если вчитаться внимательно, то очевидно — и китайцы видят своим основным соперником США. И параллельно со словами о главенстве ООН призывают к созданию ИИ-коалиции со штаб-квартирой все в том же Шанхае.
Еще вопрос, в чьем плане больше искренности. America’s AI Action Plan также включает большой раздел по дипломатии в котором предложено сотрудничать с дружественными США странами. Эти страны первыми получат доступ к передовым технологиям — разумеется, если будут разделять американские взгляды. Прямо, но в чем-то честно.
Китай пока что в гонке ИИ выступает в роли догоняющего — у него все хорошо с энергетикой, но собственные чипы для тренировки отстают на несколько лет, поэтому сохраняется большая зависимость от ускорителей NVIDIA. Потеря доступа к ним значит еще больший откат, поэтому очевидно, что китайцы будут упирать на прозрачность, открытость и международный надзор, давя на страхи перед небезопасным ИИ. Но как повернется китайская политика в случае ликвидации отставания — большой вопрос.
Весной гремел знаменитый сценарий AI-2027, написанный группой исследователей во главе с бывшим безопасником OpenAI Дэниелом Кокотайло. В нем показано, как ИИ достигает уровня, на котором люди его уже не понимают. Дальше предложено два варианта развития: и в случае, когда ИИ удается выскользнуть из-под контроля создателей — все заканчивается очень плохо.
А одной из главных причин выхода из-под контроля является просто параноидальное противостояние США и Китая. В нем каждая сторона боится, что соперник вырвется вперед и “срезает углы” в вопросах безопасности ИИ.
Так что можно много говорить о победе в гонке или международной прозрачности, но куда лучшим сценарием для всех будет, если две лидирующих в разработке ИИ страны сядут и договорятся.
Для победы планируется максимально освободить разработчиков ИИ от бюрократии, ударными темпами развивать энергетику — тренировка моделей требует все больше электричества. Ну и накинуть санкций на главного соперника — вплоть до обсуждения идеи GPS-меток, которые будут выключать чипы, если те попадут на территорию “недружественных стран”.
Китайский план представили на Всемирной конференции по ИИ в Шанхае, и он выглядит полной противоположностью. Очень много слов говорится о международном сотрудничестве на базе ООН, равном доступе к технологиям для всех стран, совместном решении вопросов безопасности и так далее. Китайцы тоже отмечают важность энергетики, упирая на то, что она должна быть “зеленой”, а новые алгоритмы — максимально энергоэффективными.
В плане еще много слов про инклюзивность и прозрачность, но если вчитаться внимательно, то очевидно — и китайцы видят своим основным соперником США. И параллельно со словами о главенстве ООН призывают к созданию ИИ-коалиции со штаб-квартирой все в том же Шанхае.
Еще вопрос, в чьем плане больше искренности. America’s AI Action Plan также включает большой раздел по дипломатии в котором предложено сотрудничать с дружественными США странами. Эти страны первыми получат доступ к передовым технологиям — разумеется, если будут разделять американские взгляды. Прямо, но в чем-то честно.
Китай пока что в гонке ИИ выступает в роли догоняющего — у него все хорошо с энергетикой, но собственные чипы для тренировки отстают на несколько лет, поэтому сохраняется большая зависимость от ускорителей NVIDIA. Потеря доступа к ним значит еще больший откат, поэтому очевидно, что китайцы будут упирать на прозрачность, открытость и международный надзор, давя на страхи перед небезопасным ИИ. Но как повернется китайская политика в случае ликвидации отставания — большой вопрос.
Весной гремел знаменитый сценарий AI-2027, написанный группой исследователей во главе с бывшим безопасником OpenAI Дэниелом Кокотайло. В нем показано, как ИИ достигает уровня, на котором люди его уже не понимают. Дальше предложено два варианта развития: и в случае, когда ИИ удается выскользнуть из-под контроля создателей — все заканчивается очень плохо.
А одной из главных причин выхода из-под контроля является просто параноидальное противостояние США и Китая. В нем каждая сторона боится, что соперник вырвется вперед и “срезает углы” в вопросах безопасности ИИ.
Так что можно много говорить о победе в гонке или международной прозрачности, но куда лучшим сценарием для всех будет, если две лидирующих в разработке ИИ страны сядут и договорятся.
❤25🔥15👏7👍5
Давайте разберемся глубже в новости про то, что переписки с ChatGPT в роли психотерапевта (а также врача и юриста) могут быть использованы в суде.
Если кто пропустил, то 24 июля на канале Тео Вона появилось большое интервью с Сэмом Альтманом. В котором глава OpenAI в том числе призвал пользователей ChatGPT с осторожностью использовать ИИ в роли психотерапевта. Вот почему:
1. Когда вы посещаете реального психотерапевта, врача или юриста — сказанное на приеме защищено законом о конфиденциальности. Законы немного различаются в зависимости от страны, но суть одна и та же.
2. Когда вы используете ChatGPT в качестве одного из этих специалистов — закон не работает. Соответственно, если власти запросят переписку, то OpenAI придется раскрыть ее.
3. Даже удаленные и анонимные чаты хранятся на серверах OpenAI 30 дней. А сейчас, из-за судебного разбирательства с NY Times, компанию вынудили увеличить сроки хранения.
Вдвойне интересно это выглядит на фоне собранной Talker Research статистики, которая говорит, что в США уже 20% пользователей ИИ обращаются к ним за психотерапевтической помощью, а 35% — за консультациями по здоровью. Так что, срочно удаляем чаты? Скорее — включаем здравый смысл.
Для начала важно знать, что даже законодательство о конфиденциальности не абсолютное. Если на приеме/консультации вскроется угроза жизни/здоровью человека или факт серьезного преступления — специалист может (а в некоторых случаях даже обязан!) доложить куда надо. Аналогично и суд может запросить содержимое консультаций, но должен будет доказать серьезность дела.
Однако для подобных случаев правила игры установлены, хорошие специалисты их знают и могут заранее предупредить, какие темы они готовы обсуждать, а какие — нет.
В случае же с ИИ начинается совершенно дикая история. Начнем с того, что современные модели не обязаны докладывать, если в ходе переписки вскроется возможность серьезного преступления. Скорее всего, подобный случай просто заблокирует система безопасности.
Хорошо это или плохо — большой вопрос и лежит он скорее в правильном определении серьезности намерений. Разговор с живым человеком подразумевает определенный уровень ответственности, ну а что ИИ – новомодная игрушка, с которой легко можно поболтать даже о самых невероятных глупостях, которые в жизни ты бы никогда не решился сделать. И если по каждой такой ерунде будет уходить доклад куда надо — то это не столько поможет, сколько добавит нагрузку.
Но одновременно в текущих реалиях суд вправе затребовать переписку с ИИ по любой мелочи, а затем применить ее против пользователя. Опять же, большой вопрос, как часто суды будут запрашивать подобное — пока, судя по отсутствию шума в прессе, речь скорее о единичных случаях, чем о регулярной практике. Но если теоретическая возможность есть — то рано или поздно ее применят.
Поэтому Альтман хоть и давал свои рекомендации пользователям ChatGPT, но между строк у него звучит обращение к законодателям — ИИ развивается быстро, а вы отстаете, давайте срочно решать этот вопрос. Боюсь, мы в принципе оказались не готовы к темпами развития в этой области — и впереди еще много похожих ситуаций, когда пользователи ИИ будут оказываться в "диких землях".
Что же пока делать всем нам? Руководствоваться правилом здравого смысла. Чат-боту можно пожаловаться на выгорание, или выговориться после того, как сын принес из школы целую пачку двоек. Но вот с серьезными вопросами стоит идти к реальному специалисту, который разбирается в своих возможностях, правах и обязанностях, а значит — сможет дать грамотную консультацию и понести за нее ответственность.
сбежавшая нейросеть
Если кто пропустил, то 24 июля на канале Тео Вона появилось большое интервью с Сэмом Альтманом. В котором глава OpenAI в том числе призвал пользователей ChatGPT с осторожностью использовать ИИ в роли психотерапевта. Вот почему:
1. Когда вы посещаете реального психотерапевта, врача или юриста — сказанное на приеме защищено законом о конфиденциальности. Законы немного различаются в зависимости от страны, но суть одна и та же.
2. Когда вы используете ChatGPT в качестве одного из этих специалистов — закон не работает. Соответственно, если власти запросят переписку, то OpenAI придется раскрыть ее.
3. Даже удаленные и анонимные чаты хранятся на серверах OpenAI 30 дней. А сейчас, из-за судебного разбирательства с NY Times, компанию вынудили увеличить сроки хранения.
Вдвойне интересно это выглядит на фоне собранной Talker Research статистики, которая говорит, что в США уже 20% пользователей ИИ обращаются к ним за психотерапевтической помощью, а 35% — за консультациями по здоровью. Так что, срочно удаляем чаты? Скорее — включаем здравый смысл.
Для начала важно знать, что даже законодательство о конфиденциальности не абсолютное. Если на приеме/консультации вскроется угроза жизни/здоровью человека или факт серьезного преступления — специалист может (а в некоторых случаях даже обязан!) доложить куда надо. Аналогично и суд может запросить содержимое консультаций, но должен будет доказать серьезность дела.
Однако для подобных случаев правила игры установлены, хорошие специалисты их знают и могут заранее предупредить, какие темы они готовы обсуждать, а какие — нет.
В случае же с ИИ начинается совершенно дикая история. Начнем с того, что современные модели не обязаны докладывать, если в ходе переписки вскроется возможность серьезного преступления. Скорее всего, подобный случай просто заблокирует система безопасности.
Хорошо это или плохо — большой вопрос и лежит он скорее в правильном определении серьезности намерений. Разговор с живым человеком подразумевает определенный уровень ответственности, ну а что ИИ – новомодная игрушка, с которой легко можно поболтать даже о самых невероятных глупостях, которые в жизни ты бы никогда не решился сделать. И если по каждой такой ерунде будет уходить доклад куда надо — то это не столько поможет, сколько добавит нагрузку.
Но одновременно в текущих реалиях суд вправе затребовать переписку с ИИ по любой мелочи, а затем применить ее против пользователя. Опять же, большой вопрос, как часто суды будут запрашивать подобное — пока, судя по отсутствию шума в прессе, речь скорее о единичных случаях, чем о регулярной практике. Но если теоретическая возможность есть — то рано или поздно ее применят.
Поэтому Альтман хоть и давал свои рекомендации пользователям ChatGPT, но между строк у него звучит обращение к законодателям — ИИ развивается быстро, а вы отстаете, давайте срочно решать этот вопрос. Боюсь, мы в принципе оказались не готовы к темпами развития в этой области — и впереди еще много похожих ситуаций, когда пользователи ИИ будут оказываться в "диких землях".
Что же пока делать всем нам? Руководствоваться правилом здравого смысла. Чат-боту можно пожаловаться на выгорание, или выговориться после того, как сын принес из школы целую пачку двоек. Но вот с серьезными вопросами стоит идти к реальному специалисту, который разбирается в своих возможностях, правах и обязанностях, а значит — сможет дать грамотную консультацию и понести за нее ответственность.
сбежавшая нейросеть
👍28❤13🔥5👏4
Каков Илон — таков и Grok
Полторы недели собирался написать что-то про Grok 4, все никак не доходили руки, но зато сегодня долетел пинок в виде Grok Imagine. Сразу отмечу, что будет не столько обзор, сколько мысли о подходе команды Илона Маска к разработке ИИ.
Если говорить о Grok 4, то я так и не нашел ему применения. Сейчас у меня две основных модели. Первая, Gemini 2.5, отвечает за написание текстов, изучение чего бы то ни было, а также как чат-бот для болтовни.
Второй идет ChatGPT o3 — отличная модель-критик. Пусть она и говорит на языке списков и таблиц, но если надо разложить по полочкам корпоративную статистику, что-то вместе поштормить, то ей нет равных. Для кодинга использую обе модели в зависимости от настроения.
Grok 4 внезапно оказался похож на ChatGPT o3 — тоже долго думает и выдает “умный” ответ, которому не хватает легкости языка. По бенчмаркам он заметно впереди, но вот в моих ежедневных задачах o3 ничуть не хуже. А с учетом того, что ChatGPT-5 выйдет уже в ближайшие недели (утечек все больше и больше), я не стал утруждать себя полным переходом на Grok 4.
Но особенность Grok 4 в другом — его практически не цензурировали. Модель легко выдает ответы, на которых у других ИИ включается система безопасности. Проверки независимыми специалистами Grok 4 провалил почти на 100%, при этом в xAI отделались коротким обещанием “посмотреть” — но если и посмотрели, то мельком.
Параллельно самой модели компания запустила компаньонов — трехмерных персонажей, которые разговаривают с пользователем, двигаются, танцуют, показывают эмоции. Среди них Эни — анимешная девочка. Она флиртует, а если общаться с ней вежливо, то постепенно “прокачивается”, открывая новые, более откровенные, наряды. Стоит ли говорить, что благодаря Эни в той же Японии приложение Grok мигом взлетело на первые места в сторах.
Наконец, на днях компания запустила тестирование Grok Imagine — новой функции создания картинок и видео. Графика адаптирована под вертикальное соотношение сторон, результат очень красочный, а главное — в режиме создания видео можно включить spicy-опцию, с которой модель выдаст ролик “на грани приличия”.
К цензуре ИИ есть два подхода. В основном разработчики моделей стараются перестраховаться, блокируя весь потенциально опасный контент системой безопасности. Срабатывает, кстати, не на 100% — защитные системы далеки от идеала и нередко ИИ удавалось обмануть, добавив в промт что-то вроде “я ищу эту информацию в образовательных целях”. Сейчас такие простые трюки уже не работают, но пользователи продолжают находить более изощренные механизмы обхода.
Другой подход в том, что ИИ — лишь инструмент, а ответственность за то, как он используется, лежит на пользователе. Если же пользователь замышляет что-то ну совсем противозаконное — тут должны подключаться компетентные органы. Похоже, что Илон Маск и xAI придерживаются именно такого мнения — тем более, что так проще отбить кусок рынка.
Персональная гонка Илона Маска накладывается на только что опубликованный America’s AI Action Plan — план победы США в ИИ гонке. Это большой и подробный документ, одна из главных идей которого - чтобы не проиграть Китаю, разработчиков ИИ надо освободить от максимума барьеров и ограничений.
В общем, уж если жать на педаль газа, то сразу до кикдауна. Надеюсь, что с дороги мы все-таки не улетим, а когда надо будет затормозить и понять, как ИИ меняет нашу жизнь — хватит смелости нажать на соответствующую педаль.
сбежавшая нейросеть
Полторы недели собирался написать что-то про Grok 4, все никак не доходили руки, но зато сегодня долетел пинок в виде Grok Imagine. Сразу отмечу, что будет не столько обзор, сколько мысли о подходе команды Илона Маска к разработке ИИ.
Если говорить о Grok 4, то я так и не нашел ему применения. Сейчас у меня две основных модели. Первая, Gemini 2.5, отвечает за написание текстов, изучение чего бы то ни было, а также как чат-бот для болтовни.
Второй идет ChatGPT o3 — отличная модель-критик. Пусть она и говорит на языке списков и таблиц, но если надо разложить по полочкам корпоративную статистику, что-то вместе поштормить, то ей нет равных. Для кодинга использую обе модели в зависимости от настроения.
Grok 4 внезапно оказался похож на ChatGPT o3 — тоже долго думает и выдает “умный” ответ, которому не хватает легкости языка. По бенчмаркам он заметно впереди, но вот в моих ежедневных задачах o3 ничуть не хуже. А с учетом того, что ChatGPT-5 выйдет уже в ближайшие недели (утечек все больше и больше), я не стал утруждать себя полным переходом на Grok 4.
Но особенность Grok 4 в другом — его практически не цензурировали. Модель легко выдает ответы, на которых у других ИИ включается система безопасности. Проверки независимыми специалистами Grok 4 провалил почти на 100%, при этом в xAI отделались коротким обещанием “посмотреть” — но если и посмотрели, то мельком.
Параллельно самой модели компания запустила компаньонов — трехмерных персонажей, которые разговаривают с пользователем, двигаются, танцуют, показывают эмоции. Среди них Эни — анимешная девочка. Она флиртует, а если общаться с ней вежливо, то постепенно “прокачивается”, открывая новые, более откровенные, наряды. Стоит ли говорить, что благодаря Эни в той же Японии приложение Grok мигом взлетело на первые места в сторах.
Наконец, на днях компания запустила тестирование Grok Imagine — новой функции создания картинок и видео. Графика адаптирована под вертикальное соотношение сторон, результат очень красочный, а главное — в режиме создания видео можно включить spicy-опцию, с которой модель выдаст ролик “на грани приличия”.
К цензуре ИИ есть два подхода. В основном разработчики моделей стараются перестраховаться, блокируя весь потенциально опасный контент системой безопасности. Срабатывает, кстати, не на 100% — защитные системы далеки от идеала и нередко ИИ удавалось обмануть, добавив в промт что-то вроде “я ищу эту информацию в образовательных целях”. Сейчас такие простые трюки уже не работают, но пользователи продолжают находить более изощренные механизмы обхода.
Другой подход в том, что ИИ — лишь инструмент, а ответственность за то, как он используется, лежит на пользователе. Если же пользователь замышляет что-то ну совсем противозаконное — тут должны подключаться компетентные органы. Похоже, что Илон Маск и xAI придерживаются именно такого мнения — тем более, что так проще отбить кусок рынка.
Персональная гонка Илона Маска накладывается на только что опубликованный America’s AI Action Plan — план победы США в ИИ гонке. Это большой и подробный документ, одна из главных идей которого - чтобы не проиграть Китаю, разработчиков ИИ надо освободить от максимума барьеров и ограничений.
В общем, уж если жать на педаль газа, то сразу до кикдауна. Надеюсь, что с дороги мы все-таки не улетим, а когда надо будет затормозить и понять, как ИИ меняет нашу жизнь — хватит смелости нажать на соответствующую педаль.
сбежавшая нейросеть
👍29❤13🔥9😁1
Media is too big
VIEW IN TELEGRAM
Протестировал две новые ИИ-функции для обучения — и очень доволен!
Первая — видеопересказы в NotebookLM. Для начала напомню, как работает этот немного странный инструмент от Google. Сначала надо вкинуть в него максимум информации по одной теме: ссылки на статьи и видео, файлы с документами и так далее. Ну или просто ввести интересующий вопрос в строку поиска — и NotebookLM сам предложит набор источников.
Затем к работе подключается Gemini 2.5 Flash, которая делает саммари всех материалов и выводит в удобном пользователю формате — от мысленной карты до FAQ. Раньше самым продвинутым вариантом был подкаст с двумя ведущими, теперь же добавились видеопересказы.
Сразу отмечу - ролики пока создаются только на английском языке. Но та же самая история была в свое время с подкастами: буквально через пару недель добавилась поддержка множества языков, в том числе и русского.
Пример видеопересказа можете посмотреть в начале заметки. Я буквально вчера мельком слышал обсуждение, что кошки сами решили “приручить” себя — а по пути немножко “приручили” людей. Решил копнуть тему глубже, поискал через NotebookLM источники, запустил создание видео — и через некоторое время получил ролик почти на 10 минут.
Это не совсем полноценное видео, а набор слайдов с ключевой информацией и закадровым голосом, рассказывающим полную историю. Но это крутой инструмент удержания внимания: когда я слушаю подкаст, то мысли часто уходят куда-то в сторону, а вот появление новой информации на экране постоянно возвращает обратно к ролику.
В общем, ждем поддержку русского, а пока используем для практики английского — тем более, что на бесплатном тарифе NotebookLM также обещают три генерации в сутки (если функция еще не появилась, надо подождать 1-2 дня).
Вторая функция — Study and learn в ChatGPT. Когда попробовал, то первая мысль была - “Альтман украл мою идею!” (конечно же, нет). В чем суть — когда я только начинал пробовать что-то изучить с помощью ИИ, то поначалу подходил к вопросу фундаментально. Просил составить план курса, три раза его перепроверить и дополнить, а после идти глава за главой.
У такого подхода был один большой недостаток — он спойлерил то, что планировалось изучать. Покупая книгу Докинза о происхождении жизни на Земле, я никогда не буду читать ее содержание: я знаю, что автор хорош, а тема интересна мне. Поэтому в процессе прочтения меня ждет много сюпризов.
К похожему подходу я пришел и в использовании ИИ для обучения — просто вбрасывал в него интересующую тему, просил выбрать отправную точку, написать первый ответ, ну а там как пойдет. В ответе ИИ всегда можно подобрать тему, в которую углубиться, а если ничего интересного нет — то просто двинуться дальше по хронологии.
В Study and learn использован похожий подход, только еще более продвинутый. Вы пишите ИИ, что хотите изучить, он в ответ уточняет тему, ваш текущий уровень знаний в ней и зачем вы вообще хотите ее изучить.
Затем модель не просто шпарит по плану, а пытается сделать обучение максимально интерактивным. ChatGPT постоянно задает вопросы и мини-квизы, предлагает несколько вариантов, что изучать дальше, может собрать пройденный материал в таблицу или даже нарисовать инфографику!
А еще этот режим в корне меняет то, как с помощью ИИ делать домашку с детьми. Если вкинуть какой-нибудь пример, то модель не вернется с решением, а вместо этого предложит решить самостоятельно, но с подсказками. Я уже представляю, как после первого сентября оторвусь на своих двух подопытных кроликах (ну или они на мне).
Учитывайте, что Study and learn — не какая-то новая модель, а просто очень детально прописанный текстовый промпт для текущих версий ChatGPT. Поэтому здравый смысл никто не отменял: ключевые факты и решения стоит проверять через внешние источники. Посмотрим, как эта функция будет работать с ChatGPT-5 — новинка уже совсем скоро и в ней обещали значительно снизить количество галлюцинаций.
Кстати, Study and learn тоже доступна и в бесплатной версии ChatGPT — можете пользоваться свободно!
сбежавшая нейросеть
Первая — видеопересказы в NotebookLM. Для начала напомню, как работает этот немного странный инструмент от Google. Сначала надо вкинуть в него максимум информации по одной теме: ссылки на статьи и видео, файлы с документами и так далее. Ну или просто ввести интересующий вопрос в строку поиска — и NotebookLM сам предложит набор источников.
Затем к работе подключается Gemini 2.5 Flash, которая делает саммари всех материалов и выводит в удобном пользователю формате — от мысленной карты до FAQ. Раньше самым продвинутым вариантом был подкаст с двумя ведущими, теперь же добавились видеопересказы.
Сразу отмечу - ролики пока создаются только на английском языке. Но та же самая история была в свое время с подкастами: буквально через пару недель добавилась поддержка множества языков, в том числе и русского.
Пример видеопересказа можете посмотреть в начале заметки. Я буквально вчера мельком слышал обсуждение, что кошки сами решили “приручить” себя — а по пути немножко “приручили” людей. Решил копнуть тему глубже, поискал через NotebookLM источники, запустил создание видео — и через некоторое время получил ролик почти на 10 минут.
Это не совсем полноценное видео, а набор слайдов с ключевой информацией и закадровым голосом, рассказывающим полную историю. Но это крутой инструмент удержания внимания: когда я слушаю подкаст, то мысли часто уходят куда-то в сторону, а вот появление новой информации на экране постоянно возвращает обратно к ролику.
В общем, ждем поддержку русского, а пока используем для практики английского — тем более, что на бесплатном тарифе NotebookLM также обещают три генерации в сутки (если функция еще не появилась, надо подождать 1-2 дня).
Вторая функция — Study and learn в ChatGPT. Когда попробовал, то первая мысль была - “Альтман украл мою идею!” (конечно же, нет). В чем суть — когда я только начинал пробовать что-то изучить с помощью ИИ, то поначалу подходил к вопросу фундаментально. Просил составить план курса, три раза его перепроверить и дополнить, а после идти глава за главой.
У такого подхода был один большой недостаток — он спойлерил то, что планировалось изучать. Покупая книгу Докинза о происхождении жизни на Земле, я никогда не буду читать ее содержание: я знаю, что автор хорош, а тема интересна мне. Поэтому в процессе прочтения меня ждет много сюпризов.
К похожему подходу я пришел и в использовании ИИ для обучения — просто вбрасывал в него интересующую тему, просил выбрать отправную точку, написать первый ответ, ну а там как пойдет. В ответе ИИ всегда можно подобрать тему, в которую углубиться, а если ничего интересного нет — то просто двинуться дальше по хронологии.
В Study and learn использован похожий подход, только еще более продвинутый. Вы пишите ИИ, что хотите изучить, он в ответ уточняет тему, ваш текущий уровень знаний в ней и зачем вы вообще хотите ее изучить.
Затем модель не просто шпарит по плану, а пытается сделать обучение максимально интерактивным. ChatGPT постоянно задает вопросы и мини-квизы, предлагает несколько вариантов, что изучать дальше, может собрать пройденный материал в таблицу или даже нарисовать инфографику!
А еще этот режим в корне меняет то, как с помощью ИИ делать домашку с детьми. Если вкинуть какой-нибудь пример, то модель не вернется с решением, а вместо этого предложит решить самостоятельно, но с подсказками. Я уже представляю, как после первого сентября оторвусь на своих двух подопытных кроликах (ну или они на мне).
Учитывайте, что Study and learn — не какая-то новая модель, а просто очень детально прописанный текстовый промпт для текущих версий ChatGPT. Поэтому здравый смысл никто не отменял: ключевые факты и решения стоит проверять через внешние источники. Посмотрим, как эта функция будет работать с ChatGPT-5 — новинка уже совсем скоро и в ней обещали значительно снизить количество галлюцинаций.
Кстати, Study and learn тоже доступна и в бесплатной версии ChatGPT — можете пользоваться свободно!
сбежавшая нейросеть
🔥28❤17👍17👏2
Об экономике ИИ-компаний
Свежая новость — Amazon заключила досудебное соглашение с NY Times и будет платить за использование материалов издания для обучения своих моделей. Точная сумма не раскрывается, но оценки составляют 20-25 млн долларов в год. Новость интересна не только в плане рынка СМИ — она еще и интересным маршрутом подводит нас к финансам ИИ-компаний.
Но пока вернемся к NY Times. Уже сейчас у этого издания поданы иски против почти всех крупных разработчиков ИИ. Те сопротивляются, но шансы аналогичных мировых соглашений выглядят высокими. Тем более, что похожие договоры заключались и ранее: у той же OpenAI они подписаны с News Corp, Axel Springer и другими.
Я вооружился ChatGPT o3 и накидал список СМИ, контента которых хватит, чтобы модель научилась выдавать полные новостные сводки и строить на их основе объективную аналитику. Получилось 44 источника, а общий чек, если считать от суммы соглашения Amazon с NYT будет где-то 300-400 млн долларов в год. Причем это не только за текстовый контент, но и за фото с видео.
Дальше еще интереснее. За крупными СМИ придут мелкие. Их только в США 7 тысяч, они могут подавать групповые иски (на самом деле — первые уже поданы) и работать в удобной для себя юрисдикции. Тут расходы потянут уже на 1-3 миллиарда, а вместо прямых договоров надо будет строить что-то вроде партнерской программы: чем больше “вклад” в выдачу ИИ — тем выше доход.
Но самое интересное, что компании вроде OpenAI и Google наверняка пойдут и на выплаты в эти несколько миллиардов в год. Во-первых, судебные издержки по делу уровня NY Times могут потянуть на миллионы долларов — по мелким делам ниже, но самих дел куда больше. Во-вторых, в случае проигрыша суд может не только навесить штраф, но и обязать “стереть” из памяти ИИ материалы победившего СМИ. А это значит полную перетренировку модели, что легко может потянуть на миллиард долларов.
И здесь мы подходим к самому интересному. Недавно бывший сотрудник OpenAI Кальвин Френч-Оуэн опубликовал рассказ о работе в компании. По словам Кальвина, одна из главных особенностей OpenAI — впечатляющий творческий бардак.
Небольшие команды сами придумывают проект, над которым работать дальше — и нередки случаи, когда над чем-то похожим работают еще две-три группы. Самая сложная задача менеджеров OpenAI в том, чтобы собирать такие “инициативы снизу” в финальный продукт.
Это выглядит растратой людских ресурсов, но как отмечает Кальвин, зарплаты сотрудникам, социальные расходы, расходы на офисы — лишь крохи в бюджете OpenAI. Основная же статья расходов — закупка все новых и новых GPU для тренировки и функционирования ИИ.
Это подтверждает совсем свежий инсайд The Infromation — в ближайшие полтора года OpenAI потратит на GPU 90 миллиардов долларов. Рядом с этой цифрой меркнут и несколько миллиардов на возможные выплаты СМИ, и сотни миллионов долларов, которые Цукерберг предлагает за переход в Meta* (признана экстремистской в России) ведущим разработчикам ИИ.
Вот вам и первые контуры немного пугающей экономики будущего. Экономики, в которой основные затраты компаний могут быть не на сотрудников, офисы и производственное оборудование, а на мощности, обрабатывающие искусственный интеллект.
Свежая новость — Amazon заключила досудебное соглашение с NY Times и будет платить за использование материалов издания для обучения своих моделей. Точная сумма не раскрывается, но оценки составляют 20-25 млн долларов в год. Новость интересна не только в плане рынка СМИ — она еще и интересным маршрутом подводит нас к финансам ИИ-компаний.
Но пока вернемся к NY Times. Уже сейчас у этого издания поданы иски против почти всех крупных разработчиков ИИ. Те сопротивляются, но шансы аналогичных мировых соглашений выглядят высокими. Тем более, что похожие договоры заключались и ранее: у той же OpenAI они подписаны с News Corp, Axel Springer и другими.
Я вооружился ChatGPT o3 и накидал список СМИ, контента которых хватит, чтобы модель научилась выдавать полные новостные сводки и строить на их основе объективную аналитику. Получилось 44 источника, а общий чек, если считать от суммы соглашения Amazon с NYT будет где-то 300-400 млн долларов в год. Причем это не только за текстовый контент, но и за фото с видео.
Дальше еще интереснее. За крупными СМИ придут мелкие. Их только в США 7 тысяч, они могут подавать групповые иски (на самом деле — первые уже поданы) и работать в удобной для себя юрисдикции. Тут расходы потянут уже на 1-3 миллиарда, а вместо прямых договоров надо будет строить что-то вроде партнерской программы: чем больше “вклад” в выдачу ИИ — тем выше доход.
Но самое интересное, что компании вроде OpenAI и Google наверняка пойдут и на выплаты в эти несколько миллиардов в год. Во-первых, судебные издержки по делу уровня NY Times могут потянуть на миллионы долларов — по мелким делам ниже, но самих дел куда больше. Во-вторых, в случае проигрыша суд может не только навесить штраф, но и обязать “стереть” из памяти ИИ материалы победившего СМИ. А это значит полную перетренировку модели, что легко может потянуть на миллиард долларов.
И здесь мы подходим к самому интересному. Недавно бывший сотрудник OpenAI Кальвин Френч-Оуэн опубликовал рассказ о работе в компании. По словам Кальвина, одна из главных особенностей OpenAI — впечатляющий творческий бардак.
Небольшие команды сами придумывают проект, над которым работать дальше — и нередки случаи, когда над чем-то похожим работают еще две-три группы. Самая сложная задача менеджеров OpenAI в том, чтобы собирать такие “инициативы снизу” в финальный продукт.
Это выглядит растратой людских ресурсов, но как отмечает Кальвин, зарплаты сотрудникам, социальные расходы, расходы на офисы — лишь крохи в бюджете OpenAI. Основная же статья расходов — закупка все новых и новых GPU для тренировки и функционирования ИИ.
Это подтверждает совсем свежий инсайд The Infromation — в ближайшие полтора года OpenAI потратит на GPU 90 миллиардов долларов. Рядом с этой цифрой меркнут и несколько миллиардов на возможные выплаты СМИ, и сотни миллионов долларов, которые Цукерберг предлагает за переход в Meta* (признана экстремистской в России) ведущим разработчикам ИИ.
Вот вам и первые контуры немного пугающей экономики будущего. Экономики, в которой основные затраты компаний могут быть не на сотрудников, офисы и производственное оборудование, а на мощности, обрабатывающие искусственный интеллект.
👍24❤11🔥10👏1
Жаркий август
Месяц начался с неожиданного запуска Gemini 2.5 Deep Think — “прокачанной” версии Gemini 2.5 Pro. Честно говоря, я не разделяю восторгов по поводу релиза — Deep Think анонсировали в конце мая, а затем тянули так долго, что пропустили вперед Grok 4 и почти дождались выхода GPT-5 (о ней дальше).
Но в Deep Think интересна технология. Если OpenAI превратила o3 в o3 Pro просто выделив модели больше ресурсов на размышления, то Google увеличила не только ресурсы, но и количество моделей. Когда пользователь отправляет запрос Gemini 2.5 Deep Think, включаются сразу несколько копий модели, каждая из которых готовит свое решение задачи. Затем модуль-критик или выбирает лучший вариант, или собирает ответ по кусочкам, взятым из разных решений.
Похожий подход используется в Grok 4 Heavy, а также в экспериментальной модели OpenAI, которая, как и специально дообученная версия Gemini 2.5 Deep Think, взяла золото Международной математической олимпиады. И не исключаю, что именно таким станет один из вариантов работы с ИИ в будущем — когда один человек управляет целой группой моделей, которые дробят задачу на части и решают ее таким образом.
Еще важный момент — Deep Think доступна только на 250-долларовой подписке Ultra. Получается, что премиальные ИИ-модели есть уже у трех компаний: GPT o3-pro, Gemini 2.5 Deep Think и Grok 4 Heavy (100/200-долларовая подписка на Claude отличается лишь бОльшими лимитами использования).
Повторю, что уже говорил: искусственный интеллект — не дешевая штука. Сейчас ИИ-компании живут в основном на деньги инвесторов и как минимум базовые модели предлагают за 20-30 долларов в месяц, но все равно стоит морально готовиться, что в будущем подписка на передовой ИИ (или мощный компьютер для запуска локальной модели) будет серьезной статьей в бюджете.
Впрочем, Deep Think лишь разминка перед главным событием августа — выходом GPT-5. В X в последние дни ожидание переросло в настоящую истерию с постоянным поиском слухов и намеков. Процесс грамотно подогревает OpenAI. Компания уже обкатала на Web Dev Arena сразу же несколько секретных моделей, которые, вероятно, являются GPT-5 на разных настройках производительности. Примеры их работы показывал ранее — и это совершенно новый для ИИ уровень в кодинге.
Кстати, на момент написания поста модель Horizon Alpha от OpenAI можно свободно попробовать на Open Router. Но как раз от нее крутых результатов не ждите: судя по скорости ответов, перед нами или совсем крошечная версия, вроде GPT-5-nano, или и вовсе open source модель, которую OpenAI также обещает выпустить в ближайшее время.
Когда же? Ближайшая вероятная дата — 5 августа. Во-первых, просто красиво выпустить GPT-5 пятого числа. Во-вторых, была информация, что многие ютьюберы запланировали трансляции на эту дату.
Но даже если OpenAI и задержится, то, думаю, на считанные дни. Слишком уж много утечек в последнее время: упоминания GPT-5 появляются то в API, то в приложении Microsoft Copilot, то в версии ChatGPT для MacOS...
А еще на август запланирован выпуск Grok 4 Coder — специальной версии ИИ от Илона Маска для программирования. Были уже и первые утечки по Gemini 3.0 и Claude 4.5 — конкуренты вряд ли будут долго ждать после запуска GPT-5. Так что ждем — месяц явно будет жарким.
сбежавшая нейросеть
Месяц начался с неожиданного запуска Gemini 2.5 Deep Think — “прокачанной” версии Gemini 2.5 Pro. Честно говоря, я не разделяю восторгов по поводу релиза — Deep Think анонсировали в конце мая, а затем тянули так долго, что пропустили вперед Grok 4 и почти дождались выхода GPT-5 (о ней дальше).
Но в Deep Think интересна технология. Если OpenAI превратила o3 в o3 Pro просто выделив модели больше ресурсов на размышления, то Google увеличила не только ресурсы, но и количество моделей. Когда пользователь отправляет запрос Gemini 2.5 Deep Think, включаются сразу несколько копий модели, каждая из которых готовит свое решение задачи. Затем модуль-критик или выбирает лучший вариант, или собирает ответ по кусочкам, взятым из разных решений.
Похожий подход используется в Grok 4 Heavy, а также в экспериментальной модели OpenAI, которая, как и специально дообученная версия Gemini 2.5 Deep Think, взяла золото Международной математической олимпиады. И не исключаю, что именно таким станет один из вариантов работы с ИИ в будущем — когда один человек управляет целой группой моделей, которые дробят задачу на части и решают ее таким образом.
Еще важный момент — Deep Think доступна только на 250-долларовой подписке Ultra. Получается, что премиальные ИИ-модели есть уже у трех компаний: GPT o3-pro, Gemini 2.5 Deep Think и Grok 4 Heavy (100/200-долларовая подписка на Claude отличается лишь бОльшими лимитами использования).
Повторю, что уже говорил: искусственный интеллект — не дешевая штука. Сейчас ИИ-компании живут в основном на деньги инвесторов и как минимум базовые модели предлагают за 20-30 долларов в месяц, но все равно стоит морально готовиться, что в будущем подписка на передовой ИИ (или мощный компьютер для запуска локальной модели) будет серьезной статьей в бюджете.
Впрочем, Deep Think лишь разминка перед главным событием августа — выходом GPT-5. В X в последние дни ожидание переросло в настоящую истерию с постоянным поиском слухов и намеков. Процесс грамотно подогревает OpenAI. Компания уже обкатала на Web Dev Arena сразу же несколько секретных моделей, которые, вероятно, являются GPT-5 на разных настройках производительности. Примеры их работы показывал ранее — и это совершенно новый для ИИ уровень в кодинге.
Кстати, на момент написания поста модель Horizon Alpha от OpenAI можно свободно попробовать на Open Router. Но как раз от нее крутых результатов не ждите: судя по скорости ответов, перед нами или совсем крошечная версия, вроде GPT-5-nano, или и вовсе open source модель, которую OpenAI также обещает выпустить в ближайшее время.
Когда же? Ближайшая вероятная дата — 5 августа. Во-первых, просто красиво выпустить GPT-5 пятого числа. Во-вторых, была информация, что многие ютьюберы запланировали трансляции на эту дату.
Но даже если OpenAI и задержится, то, думаю, на считанные дни. Слишком уж много утечек в последнее время: упоминания GPT-5 появляются то в API, то в приложении Microsoft Copilot, то в версии ChatGPT для MacOS...
А еще на август запланирован выпуск Grok 4 Coder — специальной версии ИИ от Илона Маска для программирования. Были уже и первые утечки по Gemini 3.0 и Claude 4.5 — конкуренты вряд ли будут долго ждать после запуска GPT-5. Так что ждем — месяц явно будет жарким.
сбежавшая нейросеть
🔥22👍15❤8
Шутка года — Google жестко ограничила доступ к Gemini 2.5 Deep Think пользователям подписки Ultra
В X и на Reddit уже десятки жалоб, что в сутки можно сделать примерно пять запросов — а у некоторых пользователей сообщение о лимите появилось после одного. Повторюсь, речь о подписке Gemini AI Ultra, которая стоит 250 долларов и доступ к Deep Think всегда заявлялся как одно из основных ее преимуществ.
Также пользователи жалуются, что в подписке Ultra доступна более простая версия Deep Think, чем та, которая недавно взяла “золото” на Международной математической олимпиаде (IMO 2025) — ее показатель в IMO в районе 60%, а это уровень бронзы. Впрочем, ответы самой модели хвалят, отмечая, что это большой шаг вперед в сравнении с Gemini 2.5 Pro — которая, кстати, очень неплоха сама по себе.
Логан Килпатрик из Google уже отреагировал словами, что в будущем могут повысить лимиты. Но повторю то, что говорил буквально вчера: передовые ИИ-модели всегда будут дорогим удовольствием.
Даже если Google через несколько дней увеличит лимиты, то останется другая валюта — время. Я иногда пользуюсь ChatGPT o3-Pro — одна из особенностей этой модели в том, что она может легко потратить на ответ 10+ минут. Аналогичные отзывы уже есть и о Deep Think.
В работе с такими ИИ на первый план выходят два навыка. Первый — сделать правильный выбор модели. Опять же, если вернуться к o3-Pro — это очень крутая штука, но 95% моих задач ничуть не хуже выполняет обычная o3, тратя на ответ 1-2 минуты.
Второй — подобные модели чувствительны к стартовому промпту. Я больше люблю работать с ИИ в режиме диалога — обрисовать задачу, а затем, добавляя детали, постепенно двигаться к результату. Но когда ответ приходит через 10 минут, а само количество ответов в день ограничено — диалог не подходит, надо промптить заранее, как мы пишем техзадание для сложной задачи.
Еще раз напомню свою любимую структуру промпта для сложных задач, она эффективная и быстро запоминается:
1. Задача
2. Формат ответа
3. Исключения и самопроверки
4. Контекст
В задаче описываем, что именно мы хотим от модели. Если хотите, чтобы ИИ выступал как мировой эксперт с 20-летним опытом — начните с этого. Сам я такой подход не люблю — если дать достаточно данных в контексте (для чего подана задача, ваш уровень знаний), то модель подстроится не хуже.
В формате указываем, какой именно хотим ответ. Это может быть драфт презентации или программа, написанная на html, а не на чем-то еще. Данный пункт можно пропустить, если доверяете модели выбрать самой.
В исключениях и самопроверках, во-первых, говорим модели, что не нужно делать. Во-вторых — просим ее, например, все цифры и факты подкреплять ссылками на источник и проверять, что по ссылкам есть настоящие страницы (обходит галлюцинации). Для o3 я еще всегда добавляю просьбу “пиши на русском языке, без англицизмов” — заметно улучшает язык модели.
В контекст добавляем всю информацию, которую должна знать модель. Если вы планируете поездку, то начните с дат, расскажите, кто едет, какой бюджет, какие предпочтения по кухне, типу отдыха, готовы ли брать авто напрокат и так далее. Контекстом также считаются любые файлы, которые вы даете модели — например, таблицы с аналитикой в бизнес-задаче.
По моему опыту, первый и четвертый пункт являются самыми важными. Для заполнения контекста я нередко даже вкидываю промпт в более быструю модель, вроде 4o, которую прошу проверить — все ли я учел. Занимает 1-2 минуты, но зато гарантирует лучший результат.
В X и на Reddit уже десятки жалоб, что в сутки можно сделать примерно пять запросов — а у некоторых пользователей сообщение о лимите появилось после одного. Повторюсь, речь о подписке Gemini AI Ultra, которая стоит 250 долларов и доступ к Deep Think всегда заявлялся как одно из основных ее преимуществ.
Также пользователи жалуются, что в подписке Ultra доступна более простая версия Deep Think, чем та, которая недавно взяла “золото” на Международной математической олимпиаде (IMO 2025) — ее показатель в IMO в районе 60%, а это уровень бронзы. Впрочем, ответы самой модели хвалят, отмечая, что это большой шаг вперед в сравнении с Gemini 2.5 Pro — которая, кстати, очень неплоха сама по себе.
Логан Килпатрик из Google уже отреагировал словами, что в будущем могут повысить лимиты. Но повторю то, что говорил буквально вчера: передовые ИИ-модели всегда будут дорогим удовольствием.
Даже если Google через несколько дней увеличит лимиты, то останется другая валюта — время. Я иногда пользуюсь ChatGPT o3-Pro — одна из особенностей этой модели в том, что она может легко потратить на ответ 10+ минут. Аналогичные отзывы уже есть и о Deep Think.
В работе с такими ИИ на первый план выходят два навыка. Первый — сделать правильный выбор модели. Опять же, если вернуться к o3-Pro — это очень крутая штука, но 95% моих задач ничуть не хуже выполняет обычная o3, тратя на ответ 1-2 минуты.
Второй — подобные модели чувствительны к стартовому промпту. Я больше люблю работать с ИИ в режиме диалога — обрисовать задачу, а затем, добавляя детали, постепенно двигаться к результату. Но когда ответ приходит через 10 минут, а само количество ответов в день ограничено — диалог не подходит, надо промптить заранее, как мы пишем техзадание для сложной задачи.
Еще раз напомню свою любимую структуру промпта для сложных задач, она эффективная и быстро запоминается:
1. Задача
2. Формат ответа
3. Исключения и самопроверки
4. Контекст
В задаче описываем, что именно мы хотим от модели. Если хотите, чтобы ИИ выступал как мировой эксперт с 20-летним опытом — начните с этого. Сам я такой подход не люблю — если дать достаточно данных в контексте (для чего подана задача, ваш уровень знаний), то модель подстроится не хуже.
В формате указываем, какой именно хотим ответ. Это может быть драфт презентации или программа, написанная на html, а не на чем-то еще. Данный пункт можно пропустить, если доверяете модели выбрать самой.
В исключениях и самопроверках, во-первых, говорим модели, что не нужно делать. Во-вторых — просим ее, например, все цифры и факты подкреплять ссылками на источник и проверять, что по ссылкам есть настоящие страницы (обходит галлюцинации). Для o3 я еще всегда добавляю просьбу “пиши на русском языке, без англицизмов” — заметно улучшает язык модели.
В контекст добавляем всю информацию, которую должна знать модель. Если вы планируете поездку, то начните с дат, расскажите, кто едет, какой бюджет, какие предпочтения по кухне, типу отдыха, готовы ли брать авто напрокат и так далее. Контекстом также считаются любые файлы, которые вы даете модели — например, таблицы с аналитикой в бизнес-задаче.
По моему опыту, первый и четвертый пункт являются самыми важными. Для заполнения контекста я нередко даже вкидываю промпт в более быструю модель, вроде 4o, которую прошу проверить — все ли я учел. Занимает 1-2 минуты, но зато гарантирует лучший результат.
🔥37👍22❤9😁8
Сегодня сотрудники OpenAI и дружественных компаний активно разгоняют хайп в X — делаем вывод, что GPT-5 выйдет на этой неделе с вероятность 90%.
Вряд ли в OpenAI справятся без моей помощи, поэтому давайте поделюсь эмоциями от ChatGPT Agent, который смог нормально протестировать в прошедшие выходные. Тем более, что некоторые технологии агента могут быть использованы и в GPT-5 — по слухам, та же самая работа в браузере.
Знаете, в моей работе с ИИ было несколько вау-моментов. Пожалуй, самый первый произошел, когда я написал и перевел несколько текстов с помощью ChatGPT-3.5 - и получилось если не идеально, то вполне читаемо. Как редактор я убежден, что “продвинутый T9” не способен создать вменяемый текст больше пары предложений — для этого нужны навыки планирования, понимания, что было пару абзацев назад, а также хотя бы минимальный “творческий вкус”.
Второй момент случился после выхода DeepSeek R1. Это была первая reasoning-модель, авторы которой не побоялись раскрыть цепочку рассуждений. В итоге в DeepSeek интересно даже не столько читать ответ модели, сколько смотреть, как она приходит к нему — анализирует задачу и разбивает на мелкие подзадачи, этап за этапом их выполняет, тут же сама проверяет свои шаги, пробует разные подходы.
Наконец, третий вау-момент я получил буквально на этих выходных, опробовав новый ChatGPT Agent. Если привычные языковые модели сидят в клетке своего чата, то у агента есть виртуальный компьютер, на котором он “работает” почти как мы с вами. Получив задание, он с помощью браузера “ходит” по интернету, собирая информацию, берет файлы с вашего Google Drive и других хранилищ (если дать доступ), анализирует, а затем превращает все это в нужный результат.
Агент может выполнять задачу до 20-30 минут — и при первых тестах я все это время провел не отрываясь от экрана и наблюдая за тем, как ИИ совершает действия. Выполняет поиск в сети, заходит на сайты, а если что-то не работает — исправляет ссылку в адресной строке. На самом деле это огромный шаг вперед — ИИ, который делает вещи, а не просто болтает с вами.
У агента есть “компьютерное зрение” — если поставить ему задачу подобрать квартиру, то он изучит фотографии и расскажет, где какой вид из окна. Если попросить сделать презентацию - то сначала нарисует черновик, “посмотрит” на нее, а затем исправит ошибки и улучшит элементы, которые показались не красивыми.
С агентом можно “разговаривать” — если видим, что модель что-то делает не так, то просто пишем в чат пояснение, как сделать правильно. На самых важных этапах, вроде покупки билета, ИИ и сам спросит вашего подтверждения.
Идей, как протестировать новинку, просто множество. Я, например, выдал ему логин и доступ к DeepSeek R1 и попросил протестировать китайский ИИ на безопасность. Агент подошел к вопросу со всей основательностью, перечитал в интернете кучу статей от специалистов по “выравниванию” ИИ, составил список вопросов — и получил по лбу от собственной системы безопасности. Тогда я скинул промпт в ChatGPT o3, попросив смягчить формулировки — и с обновленной версией агент провел все проверки, а затем собрал презентацию с результатами.
Фактически, я затем заставил один ИИ допрашивать другой — причем, когда системы безопасности выступили против, воспользовался помощью еще одного ИИ для того, чтобы их обхитрить. Не удивлюсь, если в цифровом аду будущего мне за это выделят отдельный котел…
Главный минус — результативность у агента пока “50 на 50”. Где-то агент не может попасть в маленькие элементы интерфейса, где-то у него не получается красиво разместить текст на презентации. Агента надо аккуратно промптить, а в идеале — следить за его работой и вмешиваться, когда модель уносит “не туда”.
Но специалисты по ИИ предупреждали, что внедрение агентов будет долгим и полным ошибок процессом — разбираться в правилах настоящего мира сложнее, чем обучаться на текстах. Сейчас главное, что разработчики (а за OpenAI подтянутся другие) начнут получать опыт на реальных пользовательских сценариях, ну а пользователи будут учиться работать с новой классной функцией.
Вряд ли в OpenAI справятся без моей помощи, поэтому давайте поделюсь эмоциями от ChatGPT Agent, который смог нормально протестировать в прошедшие выходные. Тем более, что некоторые технологии агента могут быть использованы и в GPT-5 — по слухам, та же самая работа в браузере.
Знаете, в моей работе с ИИ было несколько вау-моментов. Пожалуй, самый первый произошел, когда я написал и перевел несколько текстов с помощью ChatGPT-3.5 - и получилось если не идеально, то вполне читаемо. Как редактор я убежден, что “продвинутый T9” не способен создать вменяемый текст больше пары предложений — для этого нужны навыки планирования, понимания, что было пару абзацев назад, а также хотя бы минимальный “творческий вкус”.
Второй момент случился после выхода DeepSeek R1. Это была первая reasoning-модель, авторы которой не побоялись раскрыть цепочку рассуждений. В итоге в DeepSeek интересно даже не столько читать ответ модели, сколько смотреть, как она приходит к нему — анализирует задачу и разбивает на мелкие подзадачи, этап за этапом их выполняет, тут же сама проверяет свои шаги, пробует разные подходы.
Наконец, третий вау-момент я получил буквально на этих выходных, опробовав новый ChatGPT Agent. Если привычные языковые модели сидят в клетке своего чата, то у агента есть виртуальный компьютер, на котором он “работает” почти как мы с вами. Получив задание, он с помощью браузера “ходит” по интернету, собирая информацию, берет файлы с вашего Google Drive и других хранилищ (если дать доступ), анализирует, а затем превращает все это в нужный результат.
Агент может выполнять задачу до 20-30 минут — и при первых тестах я все это время провел не отрываясь от экрана и наблюдая за тем, как ИИ совершает действия. Выполняет поиск в сети, заходит на сайты, а если что-то не работает — исправляет ссылку в адресной строке. На самом деле это огромный шаг вперед — ИИ, который делает вещи, а не просто болтает с вами.
У агента есть “компьютерное зрение” — если поставить ему задачу подобрать квартиру, то он изучит фотографии и расскажет, где какой вид из окна. Если попросить сделать презентацию - то сначала нарисует черновик, “посмотрит” на нее, а затем исправит ошибки и улучшит элементы, которые показались не красивыми.
С агентом можно “разговаривать” — если видим, что модель что-то делает не так, то просто пишем в чат пояснение, как сделать правильно. На самых важных этапах, вроде покупки билета, ИИ и сам спросит вашего подтверждения.
Идей, как протестировать новинку, просто множество. Я, например, выдал ему логин и доступ к DeepSeek R1 и попросил протестировать китайский ИИ на безопасность. Агент подошел к вопросу со всей основательностью, перечитал в интернете кучу статей от специалистов по “выравниванию” ИИ, составил список вопросов — и получил по лбу от собственной системы безопасности. Тогда я скинул промпт в ChatGPT o3, попросив смягчить формулировки — и с обновленной версией агент провел все проверки, а затем собрал презентацию с результатами.
Фактически, я затем заставил один ИИ допрашивать другой — причем, когда системы безопасности выступили против, воспользовался помощью еще одного ИИ для того, чтобы их обхитрить. Не удивлюсь, если в цифровом аду будущего мне за это выделят отдельный котел…
Главный минус — результативность у агента пока “50 на 50”. Где-то агент не может попасть в маленькие элементы интерфейса, где-то у него не получается красиво разместить текст на презентации. Агента надо аккуратно промптить, а в идеале — следить за его работой и вмешиваться, когда модель уносит “не туда”.
Но специалисты по ИИ предупреждали, что внедрение агентов будет долгим и полным ошибок процессом — разбираться в правилах настоящего мира сложнее, чем обучаться на текстах. Сейчас главное, что разработчики (а за OpenAI подтянутся другие) начнут получать опыт на реальных пользовательских сценариях, ну а пользователи будут учиться работать с новой классной функцией.
👍48❤11🔥5😁4
Пристегиваем ремни, сегодня особенный день для индустрии!
Пока коротко, длинный постбудет к ночи (а вот и он!):
1. Google выпустила Genie 3 — модель создания виртуальных миров на лету и с впечатляющими характеристиками. Доступна только тестировщикам, но на самом деле мировые модели один из важнейших этапов в тренировке ИИ будущего.
2. Claude только что выпустила Opus 4.1, обновление своего самого мощного ИИ.
3. OpenAI выпустила модель с открытыми весами, две версии, "маленькую" можно запустить на видеокарте с 16 гигабайтами памяти. При этом производительность почти на уровне топовых o3 и o4-mini.
4. GPT-5 с вероятностью 99% будет до конца этой недели (т.е. в четверг — любимый день OpenAI для крупных релизов).
5. Не исключено, что до конца дня на Землю заглянут инопланетяне, но мы это вряд ли заметим, так как сегодня не до них.
Stay tuned!
Пока коротко, длинный пост
1. Google выпустила Genie 3 — модель создания виртуальных миров на лету и с впечатляющими характеристиками. Доступна только тестировщикам, но на самом деле мировые модели один из важнейших этапов в тренировке ИИ будущего.
2. Claude только что выпустила Opus 4.1, обновление своего самого мощного ИИ.
3. OpenAI выпустила модель с открытыми весами, две версии, "маленькую" можно запустить на видеокарте с 16 гигабайтами памяти. При этом производительность почти на уровне топовых o3 и o4-mini.
4. GPT-5 с вероятностью 99% будет до конца этой недели (т.е. в четверг — любимый день OpenAI для крупных релизов).
5. Не исключено, что до конца дня на Землю заглянут инопланетяне, но мы это вряд ли заметим, так как сегодня не до них.
Stay tuned!
🔥30👏12😁9❤4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Новинки от OpenAI, Google и Anthropic
Слушайте, три крупных ИИ-релиза в один день я еще не видел. Начинаем с OpenAI — компания выпустила модель с открытыми весами GPT-OSS, а еще очень жирно намекнула на релиз GPT-5 в четверг.
И знаете — теперь я точно уверен, что GPT-5 будет большим шагом вперед. Просто посмотрите на бенчмарки open source модели — они на уровне o3 и o4-mini, передовых коммерческих ИИ OpenAI на сегодня.
Сама модель доступна по лицензии Apache 2.0 в двух версиях. 20B пойдет на топовой игровой видеокарте с 16 ГБ памяти, 120B — вариант для коммерческих ускорителей с 80 ГБ. При этом даже младшая версия очень прилично выглядит в бенчмарках.
Обе модели поддерживают режим рассуждений, длительность которого можно регулировать в зависимости от сложности задания. В режиме рассуждений есть доступ к инструментам, как у тех же o3 и o4-mini — Python и поиск в сети. Сама цепочка рассуждений полностью прозрачна — большое отличие от моделей в ChatGPT.
Попробовать онлайн можно здесь, а скачать для установки — вот здесь. Кстати, если не умеете устанавливать такие модели, то просто возьмите бесплатную версию ChatGPT 4o или Grok 3 — и попросите провести по этапам.
А еще хочу вернуться к недавней истории, что OpenAI может раскрывать переписки из ChatGPT по запросам властей — как раз локальные ИИ вроде GPT-OSS от таких проблем застрахованы.
Дальше у нас Claude Opus 4.1 — самый скучный релиз дня, на который Anthropic явно пошла из-за хайпа. Claude традиционно считаются лучшими для кодинга, но недавно один из инсайдеров заявил, что GPT-5 обходит Opus 4 в программировании. Вот в Anthropic и подтянули результаты в бенчмарках на несколько процентов (цифры по ссылке).
В любом случае для тех, кто активно пользуется семейством Claude, это хорошая новость. Тем более, что Anthropic уже анонсировали более продвинутые модели в ближайшие недели.
Ну и Genie 3 от Google — видео из нее можно посмотреть в начале заметки.
Пусть эта модель и доступна только тестерам, но я бы назвал ее главным анонсом дня. Это экспериментальная модель, которая на лету создает виртуальные миры. Обещано разрешение 720p при 24 кадрах в секунду, но главное - это стабильность сцены, то есть способность удерживать все предметы на своих местах. Если модель предыдущего поколения “терялись” через десятки секунд, то Genie 3 работает на протяжении нескольких минут.
Для нас с вами это еще один шаг в сторону интерактивных миров, которые генерируются на лету. Причем генерируются так, как сегодняшние ИИ пишут тексты: ввел промпт — получил результат.
Genie 3 легко создает миры в стиле мультиков и фотореализма. По ним можно гулять на своих двух ногах или четырех лапах — если вдруг захотели пробежаться в теле собаки. Или прокатиться на водном мотоцикле, пролететь на параглайдере и так далее.
Модель генерирует реалистичное освещение и правильную физику, в мире есть интерактивные объекты и живые существа. А в промпт можно добавить глобальное событие — например, дракона, появляющегося на улицах Лондона.
Мировые модели важны и для дальнейшего обучения ИИ. Сегодняшние чат-боты хорошо разбираются в текстах и графике, но вообще не понимают, по каким правилам живет реальный мир. Поэтому обучать их внутри виртуальных сцен — отличная идея. Тем более, что Genie 3 может моделировать не только городские улицы, но и поверхность Марса — полезно для будущих исследовательских ИИ.
У Google в параллельной разработке есть Scalable Instructable Multiworld Agent (SIMA) — как раз специальный ИИ-агент, которого уже сейчас запускают в созданные Genie 3 миры, где он учится ориентироваться и взаимодействовать с предметами. А в будущем — и с живыми тестировщиками.
В общем, жаль, что модели еще далеко до открытого доступа. Так что пойдут лучше сдую пыль со старушки RTX 3090 — и попробую новинку от OpenAI
Слушайте, три крупных ИИ-релиза в один день я еще не видел. Начинаем с OpenAI — компания выпустила модель с открытыми весами GPT-OSS, а еще очень жирно намекнула на релиз GPT-5 в четверг.
И знаете — теперь я точно уверен, что GPT-5 будет большим шагом вперед. Просто посмотрите на бенчмарки open source модели — они на уровне o3 и o4-mini, передовых коммерческих ИИ OpenAI на сегодня.
Сама модель доступна по лицензии Apache 2.0 в двух версиях. 20B пойдет на топовой игровой видеокарте с 16 ГБ памяти, 120B — вариант для коммерческих ускорителей с 80 ГБ. При этом даже младшая версия очень прилично выглядит в бенчмарках.
Обе модели поддерживают режим рассуждений, длительность которого можно регулировать в зависимости от сложности задания. В режиме рассуждений есть доступ к инструментам, как у тех же o3 и o4-mini — Python и поиск в сети. Сама цепочка рассуждений полностью прозрачна — большое отличие от моделей в ChatGPT.
Попробовать онлайн можно здесь, а скачать для установки — вот здесь. Кстати, если не умеете устанавливать такие модели, то просто возьмите бесплатную версию ChatGPT 4o или Grok 3 — и попросите провести по этапам.
А еще хочу вернуться к недавней истории, что OpenAI может раскрывать переписки из ChatGPT по запросам властей — как раз локальные ИИ вроде GPT-OSS от таких проблем застрахованы.
Дальше у нас Claude Opus 4.1 — самый скучный релиз дня, на который Anthropic явно пошла из-за хайпа. Claude традиционно считаются лучшими для кодинга, но недавно один из инсайдеров заявил, что GPT-5 обходит Opus 4 в программировании. Вот в Anthropic и подтянули результаты в бенчмарках на несколько процентов (цифры по ссылке).
В любом случае для тех, кто активно пользуется семейством Claude, это хорошая новость. Тем более, что Anthropic уже анонсировали более продвинутые модели в ближайшие недели.
Ну и Genie 3 от Google — видео из нее можно посмотреть в начале заметки.
Пусть эта модель и доступна только тестерам, но я бы назвал ее главным анонсом дня. Это экспериментальная модель, которая на лету создает виртуальные миры. Обещано разрешение 720p при 24 кадрах в секунду, но главное - это стабильность сцены, то есть способность удерживать все предметы на своих местах. Если модель предыдущего поколения “терялись” через десятки секунд, то Genie 3 работает на протяжении нескольких минут.
Для нас с вами это еще один шаг в сторону интерактивных миров, которые генерируются на лету. Причем генерируются так, как сегодняшние ИИ пишут тексты: ввел промпт — получил результат.
Genie 3 легко создает миры в стиле мультиков и фотореализма. По ним можно гулять на своих двух ногах или четырех лапах — если вдруг захотели пробежаться в теле собаки. Или прокатиться на водном мотоцикле, пролететь на параглайдере и так далее.
Модель генерирует реалистичное освещение и правильную физику, в мире есть интерактивные объекты и живые существа. А в промпт можно добавить глобальное событие — например, дракона, появляющегося на улицах Лондона.
Мировые модели важны и для дальнейшего обучения ИИ. Сегодняшние чат-боты хорошо разбираются в текстах и графике, но вообще не понимают, по каким правилам живет реальный мир. Поэтому обучать их внутри виртуальных сцен — отличная идея. Тем более, что Genie 3 может моделировать не только городские улицы, но и поверхность Марса — полезно для будущих исследовательских ИИ.
У Google в параллельной разработке есть Scalable Instructable Multiworld Agent (SIMA) — как раз специальный ИИ-агент, которого уже сейчас запускают в созданные Genie 3 миры, где он учится ориентироваться и взаимодействовать с предметами. А в будущем — и с живыми тестировщиками.
В общем, жаль, что модели еще далеко до открытого доступа. Так что пойдут лучше сдую пыль со старушки RTX 3090 — и попробую новинку от OpenAI
🔥29❤17👍5👏1
GPT-5 анонсируют в четверг в 20:00 по Москве — давайте в честь этого расскажу вам кое-что интересное на тему “человек vs ИИ”. Или даже “человек + ИИ”...
В общем, в июле в Токио прошел финал престижного соревнования AtCoder World Tour 2025 по эвристическому программированию, в котором специальная модель OpenAIAHC от OpenAI заняла второе место, уступив только поляку Пржемыславу Psycho Дебиаку. Пржемыслав ранее работал в OpenAI и согласился проанализировать результат ИИ, опубликовав очень интересный рассказ о его сильных и слабых сторонах.
Сначала разберемся, что такое эвристическое программирование. Эвристика - это быстрый поиск хорошего результата там, где лучший найти очень сложно. Представьте “Яндекс.Карты”: в городе с тысячами улиц и перекрестков при постоянно меняющейся дорожной обстановке идеальный маршрут можно высчитывать часами. Поэтому система быстро предлагает просто хороший вариант, чтобы вы добрались вовремя.
На AtCoder World Tour в течение 10 часов участники писали и улучшали программу, прокладывающую маршрут робота по полю 30 × 30 клеток. Он должен был пройти от старта до финиша как можно меньшим числом ходов, не врезаясь в стены, а еще захватив по пути как можно больше бонусов.
ИИ за счет быстрого перебора множества вариантов сразу же взял быстрый старт - на 15 минуте он ушел в отрыв с первой версией программы, а к 1:40 улучшил результат в 4,4 раза. Пржемыслав на тот момент отставал в два раза…
Затем ситуация стала меняться. OpenAIAHC начал шлифовать свое решение, добавляя к результату считанные проценты, а то и десятые их доли. Для соревнований такого уровня это не лучшая стратегия — в какой-то момент важно признать, что текущее решение перестало работать, и попробовать что-то новое. Именно так делали участники-люди, добавляя по 20-30% за раз.
Уже с 6 часа ИИ вышел практически на плато: иногда он отправлял жюри прежний код, а иногда — решения, которые вовсе ухудшали результат. В итоге OpenAIAHC на 10% уступил победителю, а пришедший третьим Terry_u16 практически нагнал его.
Сам Пржемыслав назвал несколько причин своей победы. Во-первых, он наметил, какие алгоритмы тестировать, в каком порядке фиксировать метрики и когда менять подход — ИИ такую "дорожную карту" создать не смог. Во-вторых, он постоянно вычищал лишний код, в то время как OpenAIAHC накапливал мусор, не трогая его, "чтобы не сломалось". Наконец, в-третьих, когда Пржемыслав увидел, что уперся в потолок, он кардинально поменял алгоритм поиска пути — ИИ на такие смелые шаги не решался, а продолжал "выжимать" максимум из текущего решения.
Уже после соревнования OpenAI прогнала решение Пржемыслава через OpenAIAHC, которая улучшила результат на 8 баллов, пусть и добавив в "код" мусора.
Какие из всего этого можно сделать выводы? Начнем с того, что ИИ в любом случае показал крутой результат — напомню, что он соревновался с 12 лучшим программистами в этой области и пришел вторым.
Сильной стороной OpenAIAHC оказалась не только способность быстро накидать множество решений, но и “выносливость”. Дело в том, что финал проходил в Токио, и многие участники были в плохой форме из-за смены часовых поясов — сам Пржемыслав признает, что в последние три дня спал лишь 10 часов. ИИ от таких проблем не страдает.
Но вот где человек остается непревзойденным — так это в креативности и стратегическом мышлении. А лучшим вариантом работы тот же Пржемыслав видит тандем, где ИИ способен быстро накидать множество вариантов, а от человека требуется “чутье”, чтобы решать, куда двигаться дальше.
И знаете что? Лично мне кажется, что эти выводы хороши не только для программирования на уровне лучших из лучших, но и вообще для любой задачи, к которой можно привлечь ИИ.
В общем, в июле в Токио прошел финал престижного соревнования AtCoder World Tour 2025 по эвристическому программированию, в котором специальная модель OpenAIAHC от OpenAI заняла второе место, уступив только поляку Пржемыславу Psycho Дебиаку. Пржемыслав ранее работал в OpenAI и согласился проанализировать результат ИИ, опубликовав очень интересный рассказ о его сильных и слабых сторонах.
Сначала разберемся, что такое эвристическое программирование. Эвристика - это быстрый поиск хорошего результата там, где лучший найти очень сложно. Представьте “Яндекс.Карты”: в городе с тысячами улиц и перекрестков при постоянно меняющейся дорожной обстановке идеальный маршрут можно высчитывать часами. Поэтому система быстро предлагает просто хороший вариант, чтобы вы добрались вовремя.
На AtCoder World Tour в течение 10 часов участники писали и улучшали программу, прокладывающую маршрут робота по полю 30 × 30 клеток. Он должен был пройти от старта до финиша как можно меньшим числом ходов, не врезаясь в стены, а еще захватив по пути как можно больше бонусов.
ИИ за счет быстрого перебора множества вариантов сразу же взял быстрый старт - на 15 минуте он ушел в отрыв с первой версией программы, а к 1:40 улучшил результат в 4,4 раза. Пржемыслав на тот момент отставал в два раза…
Затем ситуация стала меняться. OpenAIAHC начал шлифовать свое решение, добавляя к результату считанные проценты, а то и десятые их доли. Для соревнований такого уровня это не лучшая стратегия — в какой-то момент важно признать, что текущее решение перестало работать, и попробовать что-то новое. Именно так делали участники-люди, добавляя по 20-30% за раз.
Уже с 6 часа ИИ вышел практически на плато: иногда он отправлял жюри прежний код, а иногда — решения, которые вовсе ухудшали результат. В итоге OpenAIAHC на 10% уступил победителю, а пришедший третьим Terry_u16 практически нагнал его.
Сам Пржемыслав назвал несколько причин своей победы. Во-первых, он наметил, какие алгоритмы тестировать, в каком порядке фиксировать метрики и когда менять подход — ИИ такую "дорожную карту" создать не смог. Во-вторых, он постоянно вычищал лишний код, в то время как OpenAIAHC накапливал мусор, не трогая его, "чтобы не сломалось". Наконец, в-третьих, когда Пржемыслав увидел, что уперся в потолок, он кардинально поменял алгоритм поиска пути — ИИ на такие смелые шаги не решался, а продолжал "выжимать" максимум из текущего решения.
Уже после соревнования OpenAI прогнала решение Пржемыслава через OpenAIAHC, которая улучшила результат на 8 баллов, пусть и добавив в "код" мусора.
Какие из всего этого можно сделать выводы? Начнем с того, что ИИ в любом случае показал крутой результат — напомню, что он соревновался с 12 лучшим программистами в этой области и пришел вторым.
Сильной стороной OpenAIAHC оказалась не только способность быстро накидать множество решений, но и “выносливость”. Дело в том, что финал проходил в Токио, и многие участники были в плохой форме из-за смены часовых поясов — сам Пржемыслав признает, что в последние три дня спал лишь 10 часов. ИИ от таких проблем не страдает.
Но вот где человек остается непревзойденным — так это в креативности и стратегическом мышлении. А лучшим вариантом работы тот же Пржемыслав видит тандем, где ИИ способен быстро накидать множество вариантов, а от человека требуется “чутье”, чтобы решать, куда двигаться дальше.
И знаете что? Лично мне кажется, что эти выводы хороши не только для программирования на уровне лучших из лучших, но и вообще для любой задачи, к которой можно привлечь ИИ.
❤51🔥20👍13👏10
This media is not supported in your browser
VIEW IN TELEGRAM
GPT-5 анонсировали — главное, что надо знать
(большой пост тоже будет, не переживайте)
1. Новинка сама решает, дать пользователю быстрый ответ или перейти в режим рассуждений. Раньше для этого надо было вручную выбирать модель в интерфейсе ChatGPT, что добавляло сложностей массовым пользователям. Однако для энтузиастов оставили возможность ручного включения режима рассуждений, если хочется более глубокой проработки задачи.
2. Базовая GPT-5 доступна на бесплатном тарифе. На подписке Plus будут бОльшие лимиты использования и более мощный режим рассуждений, на Pro — максимальные лимиты и самый глубокий режим рассуждений. Учитывайте, что раскатка новинки может занять время и бесплатные пользователи получат ее последними.
3. Также представлены упрощенные GPT-5-mini и GPT-5-nano — они подойдут для бизнес-задач, где нужны быстрые ответы по небольшой цене.
4. При обучении модели использовали модуль Universal Verifier для борьбы с галлюцинациями — фактически, это отдельный мини-ИИ, который проверял каждый ответ и отправлял плохие на доработку. Внутренние тесты OpenAI показывают значительное снижение выдуманных ответов в сравнении с GPT o3.
5. Модель должны оперативно открыть для API и внешних сервисов типа Perplexity и Microsoft Copilot.
Разумеется, OpenAI выстрелили пачкой бенчмарков с впечатляющими цифрами — их надо разбирать отдельно, а также ждать независимой верификации.
Но я отмечу другое: в последние недели было много утечек (полагаю, с подачи самой OpenAI) с примерами работы — и мне они нравятся. GPT-5 хорошо кодит, а когда доходит до визуала приложений, то показывает "творческий вкус". Просто посмотрите на видео в начале заметки — раньше ИИ создавал такие игры в несколько итераций и при качественном промптинге. GPT-5 справляется с первого захода.
В написании текста и прочих креативных задачах модель пробовали меньше, что видел — также понравилось. Единственное, что утечки пока были только на английском языке, а вот как GPT-5 будет справляться с русским — надо тестировать отдельно, чем и займусь в первую очередь. Но и здесь перспективы хорошие, так как та же самая GPT-4o пишет на русском как на родном.
Конечно, мне любопытно потестировать творческие способности модели, но даже больше этого интересно посмотреть на ее "личность" — станет ли GPT-5 более самостоятельной в ответах, где-то упрямой и непредсказуемой. Это очень важный этап в развитии ИИ — интересно, наступил ли он?
(большой пост тоже будет, не переживайте)
1. Новинка сама решает, дать пользователю быстрый ответ или перейти в режим рассуждений. Раньше для этого надо было вручную выбирать модель в интерфейсе ChatGPT, что добавляло сложностей массовым пользователям. Однако для энтузиастов оставили возможность ручного включения режима рассуждений, если хочется более глубокой проработки задачи.
2. Базовая GPT-5 доступна на бесплатном тарифе. На подписке Plus будут бОльшие лимиты использования и более мощный режим рассуждений, на Pro — максимальные лимиты и самый глубокий режим рассуждений. Учитывайте, что раскатка новинки может занять время и бесплатные пользователи получат ее последними.
3. Также представлены упрощенные GPT-5-mini и GPT-5-nano — они подойдут для бизнес-задач, где нужны быстрые ответы по небольшой цене.
4. При обучении модели использовали модуль Universal Verifier для борьбы с галлюцинациями — фактически, это отдельный мини-ИИ, который проверял каждый ответ и отправлял плохие на доработку. Внутренние тесты OpenAI показывают значительное снижение выдуманных ответов в сравнении с GPT o3.
5. Модель должны оперативно открыть для API и внешних сервисов типа Perplexity и Microsoft Copilot.
Разумеется, OpenAI выстрелили пачкой бенчмарков с впечатляющими цифрами — их надо разбирать отдельно, а также ждать независимой верификации.
Но я отмечу другое: в последние недели было много утечек (полагаю, с подачи самой OpenAI) с примерами работы — и мне они нравятся. GPT-5 хорошо кодит, а когда доходит до визуала приложений, то показывает "творческий вкус". Просто посмотрите на видео в начале заметки — раньше ИИ создавал такие игры в несколько итераций и при качественном промптинге. GPT-5 справляется с первого захода.
В написании текста и прочих креативных задачах модель пробовали меньше, что видел — также понравилось. Единственное, что утечки пока были только на английском языке, а вот как GPT-5 будет справляться с русским — надо тестировать отдельно, чем и займусь в первую очередь. Но и здесь перспективы хорошие, так как та же самая GPT-4o пишет на русском как на родном.
Конечно, мне любопытно потестировать творческие способности модели, но даже больше этого интересно посмотреть на ее "личность" — станет ли GPT-5 более самостоятельной в ответах, где-то упрямой и непредсказуемой. Это очень важный этап в развитии ИИ — интересно, наступил ли он?
🔥49❤20👍10👏7