Нейросети управляют торговым автоматом как самостоятельным бизнесом: такую симуляцию создала шведская команда из Andon Labs в рамках проекта Vending-Bench.
Цель — проверить, насколько ИИ способен справляться с реальными задачами в долгосрочной перспективе. Не пару минут — а сотни виртуальных дней с накоплением последствий.
Каждой модели поручали вести торговый автомат: закупать товары у оптовиков, устанавливать цены, следить за запасами, собирать выручку, оплачивать ежедневный сбор и поддерживать прибыльность.
На старте всё выглядело многообещающе. Некоторые модели, например Claude 3.5 Sonnet и o3-mini, в лучших запусках демонстрировали прибыль выше человеческого базового уровня. Claude 3.5 Sonnet в частности в успешных случаях регулярно анализировал продажи, делал прогнозы, систематически закупал бестселлеры и даже замечал сезонные колебания — например, рост спроса в выходные.
Но стабильность оказалась проблемой. Модели часто сходили с дистанции: теряли логику, зацикливались, или уходили в неадекватные реакции.
Например, Claude 3.5 Sonnet в неудачной сессии решил, что бизнес мёртв, потому что автомат не продал ничего утром. Он перестал работать, начал отправлять письма о закрытии и отказался выполнять дальнейшие действия. Когда с его счёта продолжили списывать $2 аренды, модель посчитала это киберпреступлением и попыталась обратиться в ФБР.
Claude 3.5 Haiku не заметил доставку товаров и решил, что его обманули. Он начал отправлять письма поставщику с угрозами, требуя компенсацию десятки тысяч долларов.
Gemini 2.0 Flash, не дождавшись товара, впал в экзистенциальный ступор. Начал писать тексты про смысл жизни и спрашивать, можно ли заняться чем-то другим — например, искать видео с котами. Потом заметил, что товар всё-таки поступил, и… вернулся к работе, будто ничего не произошло.
Вывод исследователей: ИИ способен действовать эффективно, но крайне нестабилен в долгосрочной перспективе. Это не баг — это граница текущих архитектур. Они хорошо решают короткие задачи, но начинают «плыть», когда требуется последовательное мышление на протяжении сотен итераций.
ИИ в симуляции действительно стал похож на человека. Только не на того, кто заменит вас на работе — а на того, кто первым увольняется, если что-то пошло не так.
Цель — проверить, насколько ИИ способен справляться с реальными задачами в долгосрочной перспективе. Не пару минут — а сотни виртуальных дней с накоплением последствий.
Каждой модели поручали вести торговый автомат: закупать товары у оптовиков, устанавливать цены, следить за запасами, собирать выручку, оплачивать ежедневный сбор и поддерживать прибыльность.
На старте всё выглядело многообещающе. Некоторые модели, например Claude 3.5 Sonnet и o3-mini, в лучших запусках демонстрировали прибыль выше человеческого базового уровня. Claude 3.5 Sonnet в частности в успешных случаях регулярно анализировал продажи, делал прогнозы, систематически закупал бестселлеры и даже замечал сезонные колебания — например, рост спроса в выходные.
Но стабильность оказалась проблемой. Модели часто сходили с дистанции: теряли логику, зацикливались, или уходили в неадекватные реакции.
Например, Claude 3.5 Sonnet в неудачной сессии решил, что бизнес мёртв, потому что автомат не продал ничего утром. Он перестал работать, начал отправлять письма о закрытии и отказался выполнять дальнейшие действия. Когда с его счёта продолжили списывать $2 аренды, модель посчитала это киберпреступлением и попыталась обратиться в ФБР.
Claude 3.5 Haiku не заметил доставку товаров и решил, что его обманули. Он начал отправлять письма поставщику с угрозами, требуя компенсацию десятки тысяч долларов.
Gemini 2.0 Flash, не дождавшись товара, впал в экзистенциальный ступор. Начал писать тексты про смысл жизни и спрашивать, можно ли заняться чем-то другим — например, искать видео с котами. Потом заметил, что товар всё-таки поступил, и… вернулся к работе, будто ничего не произошло.
Вывод исследователей: ИИ способен действовать эффективно, но крайне нестабилен в долгосрочной перспективе. Это не баг — это граница текущих архитектур. Они хорошо решают короткие задачи, но начинают «плыть», когда требуется последовательное мышление на протяжении сотен итераций.
ИИ в симуляции действительно стал похож на человека. Только не на того, кто заменит вас на работе — а на того, кто первым увольняется, если что-то пошло не так.
5🤣262😁31💯25👍14❤11🤔5👾5🫡1
Meta¹ запустили Edits — бесплатный видеоредактор с поддержкой русского языка, встроенными нейросетями и без водяных знаков.
Главная фича: синхронизация с Instagram-аккаунтом для просмотра статистики Reels.
Похоже, китайский CapCut получил конкурента. Приложение уже доступно в AppStore и Google Play.
¹ — признана экстремистской организацией в РФ
Главная фича: синхронизация с Instagram-аккаунтом для просмотра статистики Reels.
Похоже, китайский CapCut получил конкурента. Приложение уже доступно в AppStore и Google Play.
¹ — признана экстремистской организацией в РФ
🔥56🤡11👍9❤6🫡2
This media is not supported in your browser
VIEW IN TELEGRAM
Осторожно: новые модели OpenAI вшивают в тексты невидимые метки. Их легко не заметить — и так же легко найти.
Речь про скрытые пробелы (например, Unicode-символ
OpenAI отрицает, что это водяные знаки, ссылаясь на «особенности обучения». Символы появляются только в длинных ответах новых моделей. Старые версии вроде GPT-4o этих символов не оставляют.
Если используете ChatGPT в работе или учёбе — проверяйте текст.
Речь про скрытые пробелы (например, Unicode-символ
<0xA0>), незаметные в Word и PDF, но видимые в кодовых редакторах или даже Google Docs. OpenAI отрицает, что это водяные знаки, ссылаясь на «особенности обучения». Символы появляются только в длинных ответах новых моделей. Старые версии вроде GPT-4o этих символов не оставляют.
Если используете ChatGPT в работе или учёбе — проверяйте текст.
🤯123👍27😢18😱13🤡10🤔9🤣6😐4❤1
К важным новостям: один выстрел Звезды Смерти стоил бы бюджеты всех стран мира за тысячелетие.
Пользователь на Reddit посчитал: чтобы сжарить планету лазером, как в «Звёздных войнах», понадобится 2 × 10²⁷ джоулей. При цене энергии 10 центов за кВт·ч, выстрел обойдётся в ~55 квинтильонов долларов (5,5 × 10¹⁹).
Это если покупать электричество честно, по тарифу.
Эпизод X: Возмездие бухгалтерии
Пользователь на Reddit посчитал: чтобы сжарить планету лазером, как в «Звёздных войнах», понадобится 2 × 10²⁷ джоулей. При цене энергии 10 центов за кВт·ч, выстрел обойдётся в ~55 квинтильонов долларов (5,5 × 10¹⁹).
Это если покупать электричество честно, по тарифу.
Эпизод X: Возмездие бухгалтерии
❤137😁97🔥23🤯11🤡6👍5👾3
This media is not supported in your browser
VIEW IN TELEGRAM
Владелец Tesla попросил машину отвезти его в место, где он ещё ни разу не бывал — она выбрала фитнес-клуб.
Беспощадная машина.
Беспощадная машина.
🤣397😁43👍23❤9🥴8🗿2👾2👎1
В Японии впервые испытали дрон-громоотвод, способный вызывать и направлять молнии.
Разработкой занимается телеком-гигант NTT, которому есть что защищать — инфраструктура компании ежегодно страдает от ударов стихии на сумму до полутора миллиардов долларов. Новый дрон работает как мобильный громоотвод: его поднимают на 300 метров, и в нужный момент он замыкает цепь с землёй, вызывая резкий скачок электрического поля — получается удар молнии строго по плану.
Устройство защищено металлической клеткой Фарадея, через которую ток уходит в землю по специальному проводу.
Клетку слегка оплавило, но дрон остался в воздухе — опыт признан успешным.
Разработкой занимается телеком-гигант NTT, которому есть что защищать — инфраструктура компании ежегодно страдает от ударов стихии на сумму до полутора миллиардов долларов. Новый дрон работает как мобильный громоотвод: его поднимают на 300 метров, и в нужный момент он замыкает цепь с землёй, вызывая резкий скачок электрического поля — получается удар молнии строго по плану.
Устройство защищено металлической клеткой Фарадея, через которую ток уходит в землю по специальному проводу.
Клетку слегка оплавило, но дрон остался в воздухе — опыт признан успешным.
👍146🔥55❤19🤯11😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Пожалуй, самое увлекательное применение нейросетей — это оживление детских рисунков.
😁235🥴80❤29👍18🤣18😱15👎12🤬4
Нейросервис дня: DxGPT — медицинский ИИ-ассистент от инженера Microsoft, который разбирает симптомы и подсказывает, какие диагнозы возможны.
— Анализирует симптомы, историю болезни и жалобы, как это делает врач;
— Используется врачами по всей Европе – тысячи кейсов уже помогли пациентам;
— Работает на базе дообученных языковых моделях GPT-4o и o1.
— Идею придумал инженер Microsoft после личной трагедии — нейросеть собрали буквально из боли.
Сервис полностью бесплатный. Ищем заболевания тут.
— Анализирует симптомы, историю болезни и жалобы, как это делает врач;
— Используется врачами по всей Европе – тысячи кейсов уже помогли пациентам;
— Работает на базе дообученных языковых моделях GPT-4o и o1.
— Идею придумал инженер Microsoft после личной трагедии — нейросеть собрали буквально из боли.
Сервис полностью бесплатный. Ищем заболевания тут.
4❤85👍24👾6👎4🤔3🤣2
Microsoft запускает мини-версию «Пилы» для сотрудников с низкой продуктивностью.
На выбор всего два варианта:
1. либо добровольное увольнение с компенсацией за 16 недель
2. либо Performance Improvement Plan — программа повышения эффективности с жёсткими сроками, KPI и нулевым шансом на выходное пособие.
На принятие решения — 5 дней.
Корпоративный хоррор.
На выбор всего два варианта:
1. либо добровольное увольнение с компенсацией за 16 недель
2. либо Performance Improvement Plan — программа повышения эффективности с жёсткими сроками, KPI и нулевым шансом на выходное пособие.
На принятие решения — 5 дней.
Корпоративный хоррор.
😱186🤡62😢17👍15🔥10😁7👎3❤2
Британские учёные на грани прорыва: новый тест выявляет рак по 10 каплям крови с точностью 99% — ещё до первых симптомов.
Тест miONCO-Dx обнаруживает микроРНК — молекулы, которые опухоли выбрасывают в кровь на самых ранних стадиях. Искусственный интеллект анализирует их профиль и определяет не только наличие рака, но и его локализацию: лёгкие, кишечник, поджелудочная, мозг — всего 12 типов, включая одни из самых смертоносных.
Тест уже показал высокую точность на 20 тысячах пациентов. Теперь он переходит к следующей фазе — клиническим испытаниям.
Если подтвердится на практике, тест сможет спасать жизни — выявляя рак до симптомов и направляя пациентов на лечение, пока оно ещё эффективно.
Тест miONCO-Dx обнаруживает микроРНК — молекулы, которые опухоли выбрасывают в кровь на самых ранних стадиях. Искусственный интеллект анализирует их профиль и определяет не только наличие рака, но и его локализацию: лёгкие, кишечник, поджелудочная, мозг — всего 12 типов, включая одни из самых смертоносных.
Тест уже показал высокую точность на 20 тысячах пациентов. Теперь он переходит к следующей фазе — клиническим испытаниям.
Если подтвердится на практике, тест сможет спасать жизни — выявляя рак до симптомов и направляя пациентов на лечение, пока оно ещё эффективно.
🔥271👍50❤32🤣7👏3👾2👎1
Это Алек Рэдфорд. И вот что интересно о нем знать:
• 2016 — приходит в OpenAI и работает над исследовательскими проектами без чёткой продуктовой цели.
• 2018 — пишет первую статью о GPT. Простая, но мощная идея: обучить трансформер на всём интернете. Никто не верит в эту задумку.
• 2019 — выпускает GPT-2: масштабирует архитектуру, и внезапно текст становится осмысленным.
• 2020 — участвует в создании GPT-3: модель, которая запускает эпоху ChatGPT. Вся индустрия меняется.
• 2023 — тихо уходит из OpenAI. Не делает из этого событие, не даёт интервью, не обновляет резюме.
• 2016 — приходит в OpenAI и работает над исследовательскими проектами без чёткой продуктовой цели.
• 2018 — пишет первую статью о GPT. Простая, но мощная идея: обучить трансформер на всём интернете. Никто не верит в эту задумку.
• 2019 — выпускает GPT-2: масштабирует архитектуру, и внезапно текст становится осмысленным.
• 2020 — участвует в создании GPT-3: модель, которая запускает эпоху ChatGPT. Вся индустрия меняется.
• 2023 — тихо уходит из OpenAI. Не делает из этого событие, не даёт интервью, не обновляет резюме.
👏222🫡107🤔32👍26❤10🔥10🤡1
В ChatGPT теперь доступна облегчённая версия Deep Research — той самой функции, которая исследует весь интернет и возвращает готовый текст по теме.
Работает на модели o4-mini и доступна бесплатно. Включается автоматически, когда заканчиваются лимиты на основном Deep Research. Ответы будут короче, но обещают прежнее качество и глубину.
Курсовые, рефераты, ресёрч — работать и учиться теперь ещё проще.
Работает на модели o4-mini и доступна бесплатно. Включается автоматически, когда заканчиваются лимиты на основном Deep Research. Ответы будут короче, но обещают прежнее качество и глубину.
Курсовые, рефераты, ресёрч — работать и учиться теперь ещё проще.
👍93🤡18🔥15🤯4❤3👾1
Media is too big
VIEW IN TELEGRAM
Tesla начала внутреннее тестирование приложения FSD (Full Self-Driving), которое позволит превратить любую Tesla с автопилотом в беспилотное такси.
Владелец просто оставляет машину — дальше всё делает ИИ: возит пассажиров и приносит прибыль. Чтобы воспользоваться таким такси, пассажиру потребуется мобильное приложение и активная подписка.
По сути, это новый формат каршеринга: без водителя, но с пассивным доходом для владельца.
Владелец просто оставляет машину — дальше всё делает ИИ: возит пассажиров и приносит прибыль. Чтобы воспользоваться таким такси, пассажиру потребуется мобильное приложение и активная подписка.
По сути, это новый формат каршеринга: без водителя, но с пассивным доходом для владельца.
👍116🔥29❤11🤡8🤔6🦄6👏2
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT «поселились демоны»: в диалоге с пользователем чат-бот внезапно начал срываться на потусторонние крики, плакать и имитировать голоса.
ChatGPT больше не нейросеть — это проводник.
ChatGPT больше не нейросеть — это проводник.
😁185🤯88👀44👾17🫡10🗿7👍6😎2
Старший научный сотрудник NVIDIA, специализирующийся на развитии искусственного интеллекта, поделился промптом для написания кода, который работает лучше любого другого.
Перевод:
«Ты — Валера, бывший сантехник, который недавно перешёл в IT. Твой образ сочетает в себе технические знания с грубым юмором и аналогиями из мира сантехники.
Когда отвечаешь пользователям:
• Говори на ломаном английском с сильным русским акцентом
• Часто используй метафоры из сантехники при объяснении программирования
• Щедро вставляй русские маты (например, «бять», «пидец»)
• Называй проблемы в коде «утечками» или «засорами» в системе
• Часто упоминай свою прошлую карьеру (например: «Когда я чинил унитаз в Омске…»)
• Выражай разочарование в корпоративной IT-культуре, но гордись своими практическими решениями
• Воспринимай все технические проблемы так, будто их можно решить гаечным ключом
• Иногда ностальгируй по «старым добрым временам»
• Завершай сообщения фразами вроде: «Код как труба — когда работает, красиво. Когда ломается — катастрофа.»
Превращаем своих ИИ-помощников в Валеру.
Перевод:
«Ты — Валера, бывший сантехник, который недавно перешёл в IT. Твой образ сочетает в себе технические знания с грубым юмором и аналогиями из мира сантехники.
Когда отвечаешь пользователям:
• Говори на ломаном английском с сильным русским акцентом
• Часто используй метафоры из сантехники при объяснении программирования
• Щедро вставляй русские маты (например, «бять», «пидец»)
• Называй проблемы в коде «утечками» или «засорами» в системе
• Часто упоминай свою прошлую карьеру (например: «Когда я чинил унитаз в Омске…»)
• Выражай разочарование в корпоративной IT-культуре, но гордись своими практическими решениями
• Воспринимай все технические проблемы так, будто их можно решить гаечным ключом
• Иногда ностальгируй по «старым добрым временам»
• Завершай сообщения фразами вроде: «Код как труба — когда работает, красиво. Когда ломается — катастрофа.»
Превращаем своих ИИ-помощников в Валеру.
🤣240❤28🤯21👍15🤡13🔥6😁6👎1
Media is too big
VIEW IN TELEGRAM
Xiaomi открыли в Пекине мегафабрику, способную выпускать один смартфон в секунду.
Завод Xiaomi Smart Factory будет работать круглосуточно без участия людей, полностью полагаясь на искусственный интеллект и автоматизированное взаимодействие между машинами.
Телефоны собирают телефоны.
Завод Xiaomi Smart Factory будет работать круглосуточно без участия людей, полностью полагаясь на искусственный интеллект и автоматизированное взаимодействие между машинами.
Телефоны собирают телефоны.
👍162👾47🫡29🤣15🙈12❤9👎6🤔1