ИИ отправили на практику: GDPval — новый бенчмарк, измеряющий влияние ИИ на экономику
OpenAI представила GDPval, новую методику оценки эффективности больших языковых моделей при выполнении экономически значимых задач по 44 профессиям.
Если раньше интеллект моделей оценивали по тестам вроде MMLU (широта и глубина знаний в разных областях) или SWE-Bench (способность писать и чинить код в реальных open-source проектах), то теперь ИИ проверяют на умение решать многослойные кейсы с контекстом, документами, таблицами и требованием создать готовый продукт, а не просто текст.
Как устроен бенчмарк
Для измерения были отобраны 9 крупнейших секторов экономики США с наибольшим вкладом в ВВП. Из каждого выбрали по 5 профессий, связанных с цифровой работой и высокими зарплатами (см. список на иллюстрациях). В создании тестов участвовали специалисты с опытом более 4 лет, которые подготовили более 1000 задач, основанных на реальных артефактах — контрактах, технических чертежах, записях колл-центров и т. д. Каждая задача предполагала практический результат: документ, презентацию, таблицу или даже видео.
Все кейсы проходили до пяти раундов проверки — от коллег-экспертов до валидации через LLM. На одно эталонное человеческое решение уходило в среднем 6,5 часов. Решения ИИ затем вручную сравнивались с человеческими: экспертам показывали два варианта (человеческий и машинный) и просили выбрать лучший.
Результаты
🛑 Claude Opus 4.1 (Anthropic) — 49 % (в половине случаев ответы модели были на уровне или выше экспертов).
🛑 GPT-5-high (OpenAI) — 40,6 %.
🛑 Модели хорошо справляются с кодом и анализом данных.
🛑 В аудите, бухгалтерии и медицине пока рано заменять человека — слишком много ошибок.
Открытая часть на Hugging Face
Страница openai/gdpval на платформе Hugging Face содержит официальную открытую часть бенчмарка. Каждая запись включает описание задачи, профессию, отрасль и артефакты (документы, таблицы и т. д.), по которым можно оценивать, как модели ИИ справляются с прикладными профессиональными сценариями.
Этот датасет может использоваться исследователями и компаниями для тестирования и сравнения производительности моделей на реальных бизнес-кейcах.
ИИ — «новая пандемия»?
Бывший исследователь DeepMind Джулиан Шриттвизер сравнивает текущую ситуацию развития ИИ с пандемией COVID-19: экспонента роста уже идёт, просто не все её замечают. По его прогнозам, к 2026–2027 году хотя бы одна модель достигнет уровня лучших отраслевых экспертов — и тогда компании начнут массово заменять специалистов ИИ-системами.
А вы что думаете?
#Динамика_в_ИИ_отрасли
🌐 Ваш O2Consulting
OpenAI представила GDPval, новую методику оценки эффективности больших языковых моделей при выполнении экономически значимых задач по 44 профессиям.
Если раньше интеллект моделей оценивали по тестам вроде MMLU (широта и глубина знаний в разных областях) или SWE-Bench (способность писать и чинить код в реальных open-source проектах), то теперь ИИ проверяют на умение решать многослойные кейсы с контекстом, документами, таблицами и требованием создать готовый продукт, а не просто текст.
Как устроен бенчмарк
Для измерения были отобраны 9 крупнейших секторов экономики США с наибольшим вкладом в ВВП. Из каждого выбрали по 5 профессий, связанных с цифровой работой и высокими зарплатами (см. список на иллюстрациях). В создании тестов участвовали специалисты с опытом более 4 лет, которые подготовили более 1000 задач, основанных на реальных артефактах — контрактах, технических чертежах, записях колл-центров и т. д. Каждая задача предполагала практический результат: документ, презентацию, таблицу или даже видео.
Все кейсы проходили до пяти раундов проверки — от коллег-экспертов до валидации через LLM. На одно эталонное человеческое решение уходило в среднем 6,5 часов. Решения ИИ затем вручную сравнивались с человеческими: экспертам показывали два варианта (человеческий и машинный) и просили выбрать лучший.
Результаты
Открытая часть на Hugging Face
Страница openai/gdpval на платформе Hugging Face содержит официальную открытую часть бенчмарка. Каждая запись включает описание задачи, профессию, отрасль и артефакты (документы, таблицы и т. д.), по которым можно оценивать, как модели ИИ справляются с прикладными профессиональными сценариями.
Этот датасет может использоваться исследователями и компаниями для тестирования и сравнения производительности моделей на реальных бизнес-кейcах.
ИИ — «новая пандемия»?
Бывший исследователь DeepMind Джулиан Шриттвизер сравнивает текущую ситуацию развития ИИ с пандемией COVID-19: экспонента роста уже идёт, просто не все её замечают. По его прогнозам, к 2026–2027 году хотя бы одна модель достигнет уровня лучших отраслевых экспертов — и тогда компании начнут массово заменять специалистов ИИ-системами.
А вы что думаете?
#Динамика_в_ИИ_отрасли
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7👀4🆒4❤1
Forwarded from ЗВОНАРЁВА.ОНЛАЙН
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Сегодня у нас в гостях побывала Анна Никитченко, управляющий партнер O2 Консалтинг.
И этот разговор — совсем другой. 👌
Он отличается от всего, что было раньше, и, думаю, вам понравится еще больше. Сама точно в восхищении от общения! А еще это первая встреча с девушкой в рамках «Лаборатории Вдохновеия». Анна не только блестящий управленец, но и человек с невероятно интересной историей и потрясающим ощущением мира.
▶️ Причем тут делосский ныряльщик и изменения, и как «кислород для народа» превратился в название компании? Об этом и многом другом — в новой беседе, полное видео опубликуем уже на следующей неделе. 😉
И этот разговор — совсем другой. 👌
Он отличается от всего, что было раньше, и, думаю, вам понравится еще больше. Сама точно в восхищении от общения! А еще это первая встреча с девушкой в рамках «Лаборатории Вдохновеия». Анна не только блестящий управленец, но и человек с невероятно интересной историей и потрясающим ощущением мира.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥10👍9
Ранее мы писали о планах Toyota построить Woven City — экспериментальный город будущего, где технологии и урбанизм сплетаются в живую исследовательскую платформу.
В сентябре Woven City был официально запущен, сюда заселились первые жители — сотрудники Toyota и их семьи, началась работа партнеров-инноваторов. В новом умном городе компании, стартапы и исследовательские институты смогут тестировать в реальном контексте автономную мобильность и умную инфраструктуру.
Жители округа и эксперты ожидают позитивного эффекта: улучшения среды, технологического прогресса, экономического роста, появления новых рабочих мест. Однако стоит отметить и возможные проблемы: конфликт интересов корпорации и местного сообщества, утечки данных, технологическое неравенство.
Woven City не первый корпоративный умный город, который был создан с нуля, другие яркие примеры: Масдар в Абу-Даби, Объединенные Арабские Эмираты (Masdar) и Fujisawa Sustainable Smart Town в Канагаве, Япония (Panasonic).
Смотрите также:
🛑 Кейс по разработке стратегии нового города-спутника Владивостока
🛑 Как меняются «умные города»
🛑 Итоги Forum.Digital.Smart City
#Умные_города #ИзМираТехнологий
🌐 Ваш O2Consulting
В сентябре Woven City был официально запущен, сюда заселились первые жители — сотрудники Toyota и их семьи, началась работа партнеров-инноваторов. В новом умном городе компании, стартапы и исследовательские институты смогут тестировать в реальном контексте автономную мобильность и умную инфраструктуру.
Жители округа и эксперты ожидают позитивного эффекта: улучшения среды, технологического прогресса, экономического роста, появления новых рабочих мест. Однако стоит отметить и возможные проблемы: конфликт интересов корпорации и местного сообщества, утечки данных, технологическое неравенство.
Woven City не первый корпоративный умный город, который был создан с нуля, другие яркие примеры: Масдар в Абу-Даби, Объединенные Арабские Эмираты (Masdar) и Fujisawa Sustainable Smart Town в Канагаве, Япония (Panasonic).
Смотрите также:
#Умные_города #ИзМираТехнологий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9⚡6🔥6
Media is too big
VIEW IN TELEGRAM
Кейс: стратегия ECOM-оператора для компании из Саудовской Аравии
👨💼 Клиент
Компания из сектора ритейла (Саудовская Аравия)
✏️ Ситуация
Компания, традиционно сильная в сегменте ритейла, стремилась диверсифицировать бизнес, выбрав для этого растущий рынок e-commerce в регионе MENA.
На момент начала проекта рынок Саудовской Аравии представлял собой преимущественно оффлайн-экосистему моллов и бутиков, сконцентрированных в крупных городах и ориентированных на премиальный сегмент. Электронная торговля как системный канал продаж практически отсутствовала. Перед командой стояла задача изучить международный опыт развития e-commerce-рынков и определить, какие модели перехода могут быть применимы в условиях Королевства. Особое внимание уделялось социально-культурной и религиозной специфике потребления, включая традиции, нормы поведения, предпочтения в одежде и восприятие брендов. Без такого системного анализа и адаптации глобальных моделей к локальному контексту запуск e-commerce мог привести к нерациональному распределению инвестиций, потере рыночной позиции и снижению ROI.
💼 Стратегия решения
Для укрепления позиций компании в ритейле и выхода на рынок e-commerce в регионе MENA с учётом локальных особенностей и региональных драйверов цифровой экономики была разработана стратегия, подготовка которой включала:
🛑 Исследование рынков Королевства Саудовская Аравия, Ближнего Востока и Северной Африки со следующей структурой: экономика и видение, рынок, существующие возможности, бренды и владельцы брендов, клиенты, продавцы/магазины, конкуренция, способствующие факторы.
🛑 Формирование видения и гипотез со следующим результатом: 2–3 стратегии с высоким потенциалом, выбранные для дальнейшей детализации, включая сформулированное и согласованное видение, сферу охвата e-commerce, список стратегических гипотез, прошедших широкое обсуждение, оценку потенциала и необходимого объёма инвестиций, а также отбор стратегии с наибольшим потенциалом.
✅ Результат
Клиент получил комплексную стратегию развития e-commerce-направления на рынке MENA, включающую:
— приоритетные сценарии выхода на рынок;
— финансово-инвестиционную модель;
— план реализации и систему показателей эффективности (KPI).
Проект стал основой для масштабирования бизнеса в цифровом канале и привлечения стратегических партнёров. Реализация стратегии позволит увеличить долю онлайн-продаж и укрепить позиции компании как лидера e-commerce в регионе MENA.
#Проекты_O2Consulting
🌐 Ваш O2Consulting
Компания из сектора ритейла (Саудовская Аравия)
Компания, традиционно сильная в сегменте ритейла, стремилась диверсифицировать бизнес, выбрав для этого растущий рынок e-commerce в регионе MENA.
На момент начала проекта рынок Саудовской Аравии представлял собой преимущественно оффлайн-экосистему моллов и бутиков, сконцентрированных в крупных городах и ориентированных на премиальный сегмент. Электронная торговля как системный канал продаж практически отсутствовала. Перед командой стояла задача изучить международный опыт развития e-commerce-рынков и определить, какие модели перехода могут быть применимы в условиях Королевства. Особое внимание уделялось социально-культурной и религиозной специфике потребления, включая традиции, нормы поведения, предпочтения в одежде и восприятие брендов. Без такого системного анализа и адаптации глобальных моделей к локальному контексту запуск e-commerce мог привести к нерациональному распределению инвестиций, потере рыночной позиции и снижению ROI.
Для укрепления позиций компании в ритейле и выхода на рынок e-commerce в регионе MENA с учётом локальных особенностей и региональных драйверов цифровой экономики была разработана стратегия, подготовка которой включала:
Клиент получил комплексную стратегию развития e-commerce-направления на рынке MENA, включающую:
— приоритетные сценарии выхода на рынок;
— финансово-инвестиционную модель;
— план реализации и систему показателей эффективности (KPI).
Проект стал основой для масштабирования бизнеса в цифровом канале и привлечения стратегических партнёров. Реализация стратегии позволит увеличить долю онлайн-продаж и укрепить позиции компании как лидера e-commerce в регионе MENA.
#Проекты_O2Consulting
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👏5🤩4🔥2
Эксперты O2Consulting: еженедельный дайджест
Прошедшие мероприятия
🛑 7 октября в гостях у Елены Звонарёвой, экс-советника Министра строительства и ЖКХ РФ, в рамках проекта «Лаборатория Вдохновения» побывала Анна Никитченко — управляющий партнер O2Consulting. Откровенный разговор о личном и профессиональном — смотрите уже на следующей неделе в нашем Telegram-канале.
🛑 Сергей Васильев, ассоциированный партнер, стал трекером Федеральной корпорации по развитию малого и среднего предпринимательства. Контролирующий акционер — Минэкономразвития РФ.
В СМИ
🛑 В режиме ожидания: в СФ предложили досрочно завершить эксперимент с налогом самозанятых: Татьяна Сафонова, старший партнер, руководитель практики стратегии развития финансовых рынков, дала экспертный комментарий редакции «Известий».
🛑 ФНС спросила самозанятых, какой налог они считают справедливым: о понятии справедливости налога, предпринимательском риске и перспективах налогообложения для самозанятых рассказала Татьяна Сафонова слушателям передачи «Поток» в эфире радио «Говорит Москва».
🛑 Новость о проведении Первого саммита отраслевых технологических объединений на МТК опубликована в сентябрьском дайджесте объединения консалтинговых организаций (ОКО).
Анонсы
🛑 Уже сегодня стартует программа повышения квалификации для руководителей и специалистов «Искусственный интеллект: внедрение и управление». Слушатели курса научатся запускать ИИ-проекты с нуля по готовому алгоритму: от оценки возможностей и выбора решений до управления рисками, масштабирования и получения реального бизнес-эффекта. Среди экспертов программы — Анна Никитченко.
🛑 15 октября Татьяна Сафонова примет участие в научном семинаре «Право цифровых финансов» по теме «Цифровые валюты между правом и экономикой: спор о природе денег», организованном Центром правовых исследований цифровых технологий Юридического факультета ГАУГН
🛑 20 октября Анна Никитченко, управляющий партнер, прочитает лекцию по теме цифровой трансформации государств для Правительства Ирана.
🛑 21 октября Татьяна Сафонова, старший партнер, руководитель практики стратегии развития финансовых рынков, примет участие в экспертной сессии в качестве спикера «Цифровые валюты: правовые и экономические вызовы» на VI Международном внешнеэкономическом научно-практическом форуме.
🛑 25 октября начинается курс «Технология роста» — это практический курс для предпринимателей и команд, которые хотят перейти от хаоса к структуре и понять, как масштабировать свой проект. Участники выходят с готовыми проектами, проверенными гипотезами и пониманием, как развиваться дальше. Среди спикеров — Анна Никитченко, которая расскажет, как построить прибыльную бизнес-модель.
#Дайджест_O2Consulting
🌐 Ваш O2Consulting
Прошедшие мероприятия
В СМИ
Анонсы
#Дайджест_O2Consulting
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤6⚡5
«Роботы никогда не станут такими же ловкими, как человек!» — предрекают скептики. А команда Figure AI просто выпускает очередного гуманоида — Figure 03, на этот раз способного почувствовать вес скрепки на своем пальце. Такая тактильность, которая напрямую связана со способностью ловко взаимодействовать с объектом, ещё недавно казалась недостижимой целью.
Figure 03 — универсальное устройство, способное действовать и обучаться как в домашних, так и в коммерческих условиях. В основе технологии лежит Helix — ИИ, который позволяет роботу ориентироваться в непредсказуемой, постоянно меняющейся обстановке.
В новой, уже третьей версии, улучшен целый ряд параметров:
🛑 Новая система камер: в 2 раза выше частота кадров, задержка меньше в 4 раза, поле зрения шире на 60 %.
🛑 Камеры встроены в ладони — теперь робот видит, что происходит с объектом в руке, даже если обзор основной камеры перекрыт.
🛑 Тактильные датчики ощущают давление от 3 г, обеспечивая сверхточный контроль захвата.
🛑 Конструкция стала на 9 % легче и компактнее, а робот теперь покрыт приятным на ощупь текстилем.
🛑 Беспроводная зарядка через ступни мощностью 2 кВт.
🛑 Передача данных 10 Gbps — мгновенная синхронизация без кабелей.
🛑 Новый динамик и микрофон — поддержка голосового управления и общения.
Массовое производство
В Figure полностью переделали производство под масштабирование, в том числе был построен завод BotQ, рассчитанный на выпуск 12 000 роботов в год, и создана новая цепочка поставок с нуля, чтобы обеспечить стабильное производство и контроль качества.
Бретт Эдкок (Brett Adcock), основатель Figure AI, имеет четкий план действий для светлого будущего на основе ИИ, которому он следует, и продвигает идею о том, что один андроид общего назначения с универсальным интерфейсом и обученный с помощью ИИ, со временем сможет выполнять миллионы разнообразных задач, которые сегодня требуют разных специализированных роботов.
А вы — на чьей стороне?
Смотрите также:
🛑 Революция роботов. Clone Alpha — технология будущего, в котором роботы так похожи на нас
🛑 Гуманоиды тренируют захват и учатся быть командой
🛑 ASAP (Aligning Simulation and Real Physics) — двухэтапная структура, предназначенная для повышения ловкости гуманоидных роботов.
#O2Consultingweekend
🌐 Ваш O2Consulting
Figure 03 — универсальное устройство, способное действовать и обучаться как в домашних, так и в коммерческих условиях. В основе технологии лежит Helix — ИИ, который позволяет роботу ориентироваться в непредсказуемой, постоянно меняющейся обстановке.
В новой, уже третьей версии, улучшен целый ряд параметров:
Массовое производство
В Figure полностью переделали производство под масштабирование, в том числе был построен завод BotQ, рассчитанный на выпуск 12 000 роботов в год, и создана новая цепочка поставок с нуля, чтобы обеспечить стабильное производство и контроль качества.
Бретт Эдкок (Brett Adcock), основатель Figure AI, имеет четкий план действий для светлого будущего на основе ИИ, которому он следует, и продвигает идею о том, что один андроид общего назначения с универсальным интерфейсом и обученный с помощью ИИ, со временем сможет выполнять миллионы разнообразных задач, которые сегодня требуют разных специализированных роботов.
А вы — на чьей стороне?
Смотрите также:
#O2Consultingweekend
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡10🤩5🆒4