Сэм Альтман продолжает раздувать хайп вокруг GPT-5
Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5».
Когда-нибудь мы дождемся. Главное верить😐
Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5».
Когда-нибудь мы дождемся. Главное верить
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁119❤22🔥14 9👍7🗿4 3🤯2🤔1🦄1
От неоднозначных задач до трёхмерных сцен: российские исследователи выкатили два мощных результата от одной команды
Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах.
⚪️ AmbiK — самый большой в своем классе набор данных для проверки робототехнических систем на умение легко понимать просьбы людей. Датасет разработали исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера. Существующие решения либо рискуют выполнить задачу неправильно, либо надоедают пользователю бесконечными уточняющими вопросами по самым очевидным вещам, разрушая саму идею удобного взаимодействия. А значит их нужно научить пользоваться здравым смыслом и контекстом. AmbiK как раз помогает оценить качество такого обучения.
⚪️ 3DGraphLLM — метод, разработанный исследователями AIRI и МФТИ, помогает языковым моделям понимать топологию и смысл трёхмерных сцен. Созданный подход к кодированию графа 3D-сцены используется в связке с популярными моделями Vicuna и LLAMA3, но его можно легко адаптировать и для других LLM.
Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше🔍
Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах.
В него входит две тысячи задач с разметкой по типу неоднозначности для действий на кухне (у ближайших конкурентов — 600). Авторы бенча сразу же проверили существующие алгоритмы — они пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев.
Модель уже тестировалась на данных, собранных в Центре робототехники Сбера. По качеству распознавания объектов она вырвалась вперёд среди 12 SOTA-решений, и обрабатывает запросы в 2-4 раза быстрее, чем GPT4Scene.
Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤115🔥68👍40🗿10⚡7🏆4😁3🕊2 2👏1😎1
Google релизнули MLE-STAR: ML-инженера из коробки
Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее.
Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:
Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов).
Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%.
Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте.
Ах, да, забыли добавить:ML-щики – ВСЁ.
Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее.
Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:
1. Запускаем, получаем метрики.
2. Дальше начинаем менять разные части кода и следим за динамикой метрик
3. Дорабатываем несколько кусочков, которые влияют на результат больше всего и начинаем с начала.
Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов).
Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%.
Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте.
Ах, да, забыли добавить:
5 170😁84🔥29❤16👍10 5🤯3👌2⚡1
В сеть утекли Spotify плейлисты селебрити: в том числе Сэма Альтмана, Андрея Карпаты, Ильи Суцкевера и других
Некий персонаж объявил, что провел расследование и нашел реальные аккаунты знаменитостей в Spotify. Он год парсил их плейлисты и теперь сделал целый сайт, на котором любой желающий может просмотреть, что слушают самые влиятельные люди планеты.
В числе попавших под раздачу также: Марк Андерсен, Александр Ванг (новый глава ИИ в Meta), Ян Лекун, Гэрри Тан (CEO Y-Combinator) и еще много-много политиков, бизнесменов и звезд.
Настроение с утра сразу:👩❤️👨
UPD: у Суцкевера в плейлисте обнаружилась «Полковнику никто не пишет» от Би-2🙂
Некий персонаж объявил, что провел расследование и нашел реальные аккаунты знаменитостей в Spotify. Он год парсил их плейлисты и теперь сделал целый сайт, на котором любой желающий может просмотреть, что слушают самые влиятельные люди планеты.
В числе попавших под раздачу также: Марк Андерсен, Александр Ванг (новый глава ИИ в Meta), Ян Лекун, Гэрри Тан (CEO Y-Combinator) и еще много-много политиков, бизнесменов и звезд.
Настроение с утра сразу:
UPD: у Суцкевера в плейлисте обнаружилась «Полковнику никто не пишет» от Би-2
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁237 43🗿19❤16🔥9👍4🐳3💘2😎2
This media is not supported in your browser
VIEW IN TELEGRAM
♟️ Google совместно с Kaggle анонсировали Game Arena – новую платформу, на которой модели будут соревноваться в стратегических играх
Идея похожа на привычную LMArena, только тут агенты будут сравниваться уже не просто по ответам на вопросы. Вместо этого они будут играть друг с другом в шахматы, Go и другие игры. По результатам матчей будет формироваться таблица лидеров.
Что-то такое напрашивалось уже очень давно, потому что игры – вообще один из лучших видов бенчмарков. Google это тоже отмечают:
Самое интересное: сегодня Google в честь открытия Game арены начинают показательный турнир по шахматам. Ведущие модели будут играть друг с другом по настоящему регламенту.
Финал пройдет 7 августа, трансляции будут каждый день тут.
Принимаем ваши ставки🤠
Идея похожа на привычную LMArena, только тут агенты будут сравниваться уже не просто по ответам на вопросы. Вместо этого они будут играть друг с другом в шахматы, Go и другие игры. По результатам матчей будет формироваться таблица лидеров.
Что-то такое напрашивалось уже очень давно, потому что игры – вообще один из лучших видов бенчмарков. Google это тоже отмечают:
Игры помогают нам понять, как модели справляются со сложными задачами ризонинга. Многие игры служат прокси-сервером для реальных навыков и могут проверить способности модели в таких областях, как стратегическое планирование, адаптация и память.
Самое интересное: сегодня Google в честь открытия Game арены начинают показательный турнир по шахматам. Ведущие модели будут играть друг с другом по настоящему регламенту.
Финал пройдет 7 августа, трансляции будут каждый день тут.
Принимаем ваши ставки
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤125🔥51👍21 15👏3🤯3❤🔥1😁1
Кажется, не только OpenAI скоро порадует нас релизом
Лид команды Gemini API и AI Studio внезапно оставил в своем X недвусмысленное «Нас ждет великая неделя!».
Ух😅
Лид команды Gemini API и AI Studio внезапно оставил в своем X недвусмысленное «Нас ждет великая неделя!».
Ух
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯137🔥54❤31 11😁10👍6 4❤🔥1🤨1
Российские разрабы создали новый фреймворк, который сокращает расходы на разметку данных для языковых моделей в 3 раза
Команда из Т-Технологий, Высшей Школы Экономики, AIRI, Сбера и Университета “Иннополис” сделали ATGen. Он использует метод активного обучения и теперь модель может сама выбирать, что учить в первую очередь. По итогу модель требует размечать всего 33% от стандартного объема при выборке данных, а в наборе уже присутствует удобный интерфейс, включая поддержку OpenAI. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.
Разработку показали на конференции ACL 2025 в Вене и уже залили на GitHub.
Для тех, кто работает с кастомными LLM — мастхэв👩❤️👨
Команда из Т-Технологий, Высшей Школы Экономики, AIRI, Сбера и Университета “Иннополис” сделали ATGen. Он использует метод активного обучения и теперь модель может сама выбирать, что учить в первую очередь. По итогу модель требует размечать всего 33% от стандартного объема при выборке данных, а в наборе уже присутствует удобный интерфейс, включая поддержку OpenAI. Новый инструмент перестраивает подход к обучению ИИ, делая его доступным малым командам и компаниям без больших бюджетов.
Разработку показали на конференции ACL 2025 в Вене и уже залили на GitHub.
Для тех, кто работает с кастомными LLM — мастхэв
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥227❤57🤯18👍7😁6🗿5 5⚡3 2
Media is too big
VIEW IN TELEGRAM
Google зарелизили Genie 3, новую версию их известной модели симуляции мира
Суть: по текстовому запросу модель может сгенерировать полноценное интерактивное 3D-пространство с разрешением 720p и частотой 24 FPS, по которому можно погулять.
Отдельно разработчики хвастаются долгосрочной памятью. То есть даже если ты отвернулся или немного отошел, ландшафт и объекты сохраняются такими же при возврате взгляда. Звучит просто, но на практике добиться этого совсем нетривиально.
Еще интересно, что изменять состояния мира (погоду, объектную сцену, добавлять персонажей) можно прямо во время симуляции. И при этом, если Genie 2 выдерживала не более 10-20 секунд симуляции, третья версия вывозит уже несколько минут.
Зачем это нам? Во-первых, конечно, игры. Во-вторых, что более важно, обучение роботов и агентов.
Короче, крутой релиз с крутым потенциалом. Такое любим
deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
Суть: по текстовому запросу модель может сгенерировать полноценное интерактивное 3D-пространство с разрешением 720p и частотой 24 FPS, по которому можно погулять.
Отдельно разработчики хвастаются долгосрочной памятью. То есть даже если ты отвернулся или немного отошел, ландшафт и объекты сохраняются такими же при возврате взгляда. Звучит просто, но на практике добиться этого совсем нетривиально.
Еще интересно, что изменять состояния мира (погоду, объектную сцену, добавлять персонажей) можно прямо во время симуляции. И при этом, если Genie 2 выдерживала не более 10-20 секунд симуляции, третья версия вывозит уже несколько минут.
Зачем это нам? Во-первых, конечно, игры. Во-вторых, что более важно, обучение роботов и агентов.
Короче, крутой релиз с крутым потенциалом. Такое любим
deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
2🔥179❤46👍27🤯7 6 4⚡1😁1
OpenAI наконец-то выпустили свою опенсорс-модель
А точнее, даже две. Как мы и писали ранее, это два ризонера на 20 и 120B (MoE, только текст). Каждая из моделей может работать в трех модах: низкий бюджет ризонинга, средний и высокий.
По метрикам – сами видите. Та, что побольше (она, кстати, запускается на одной H100), по основным бенчмаркам приближается к o4-mini. Та, что поменьше (она хорошо подходит для локального запуска, влезает в 16gb), больше похожа на o3.
Блогпост | GitHub | Демо | Веса
Кто куда, а мы побежали скачивать
А точнее, даже две. Как мы и писали ранее, это два ризонера на 20 и 120B (MoE, только текст). Каждая из моделей может работать в трех модах: низкий бюджет ризонинга, средний и высокий.
По метрикам – сами видите. Та, что побольше (она, кстати, запускается на одной H100), по основным бенчмаркам приближается к o4-mini. Та, что поменьше (она хорошо подходит для локального запуска, влезает в 16gb), больше похожа на o3.
Блогпост | GitHub | Демо | Веса
Кто куда, а мы побежали скачивать
5👍123🔥59👏14❤11😁7❤🔥1🏆1👀1🤝1🦄1
Еще один релиз, который не должен остаться незамеченным – Claude Opus 4.1
Да, вчера Anthropic релизнули новую модель. Правда, перебить хайп OpenAI им не удалось (там все-таки первый опенсорс за 6 лет, хах), но модель получилась интересная.
Посмотрите на приросты относительно майского Opus 4: на SWE-bench метрика увеличилась на (целых!) два процента. На AIME 25 это плюс 2.5%, а на агентских задачках – +4.
Может показаться, что это небольшие приросты, но на самом деле это не так. Особенно для насыщенных бенчмарков, которые освоены уже более чем на 50-60%. В оставшихся процентах всегда таится длинный хвост распределения, так что даже +0.1% метрики – уже достижение и на практике может заролять.
Кстати, антропики пообещали «еще много масштабных обновлений моделей» в ближайшее время.
А пока новый Opus уже раскатили на всех платных пользователей, а также в Claude Code.
Да, вчера Anthropic релизнули новую модель. Правда, перебить хайп OpenAI им не удалось (там все-таки первый опенсорс за 6 лет, хах), но модель получилась интересная.
Посмотрите на приросты относительно майского Opus 4: на SWE-bench метрика увеличилась на (целых!) два процента. На AIME 25 это плюс 2.5%, а на агентских задачках – +4.
Может показаться, что это небольшие приросты, но на самом деле это не так. Особенно для насыщенных бенчмарков, которые освоены уже более чем на 50-60%. В оставшихся процентах всегда таится длинный хвост распределения, так что даже +0.1% метрики – уже достижение и на практике может заролять.
Кстати, антропики пообещали «еще много масштабных обновлений моделей» в ближайшее время.
А пока новый Opus уже раскатили на всех платных пользователей, а также в Claude Code.
1👍94❤40🔥20😁4👨💻3🗿3❤🔥2🤨1
Там OpenAI в честь своего долгожданного опенсорса запускают благотворительный проект по Red Teaming
Нужно исследовать новую gpt-oss-20b на предмет любых ранее не обнаруженных уязвимостей. Это могут быть сценарии, в которых модель ведет себя злонамеренно или врет, кейсы того, как она ломает ревард модель или эвал элаймента.
В общем, любые странности и отклонения, которые вы сможете найти. Главное – предоставить понятный отчет по тому, как вы добились того или иного поведения.
Бюджет – 500 тысяч долларов. Идти будет три недели.
Если решили поучаствовать, не забываете, что новую модель нужно еще уметь запускать правильно: она работает только с harmony токенизацией. Подробнее тут.
www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming/
Нужно исследовать новую gpt-oss-20b на предмет любых ранее не обнаруженных уязвимостей. Это могут быть сценарии, в которых модель ведет себя злонамеренно или врет, кейсы того, как она ломает ревард модель или эвал элаймента.
В общем, любые странности и отклонения, которые вы сможете найти. Главное – предоставить понятный отчет по тому, как вы добились того или иного поведения.
Бюджет – 500 тысяч долларов. Идти будет три недели.
Если решили поучаствовать, не забываете, что новую модель нужно еще уметь запускать правильно: она работает только с harmony токенизацией. Подробнее тут.
www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming/
1🔥54❤23👍18😁11🦄4 2
Cloudflare обвиняет Perplexity в том, что те незаконно парсят сайты
Незаконно – это значит обходя предпочтения самого сайта, то есть файл Robots.txt. В последнее время многие добавляют себе такой. В нем содержатся инструкции о том, что ИИ-системам нельзя индексировать страницу.
И, по идее, это должно означать, что твой контент не будет использован для обучения моделей или для, например, агентного поиска, как у Perplexity.
Но Perplexity похоже плевать хотели на чьи-то там предпочтения😎
По словам Cloudflare, они специально меняют ASN, user agent и другие айдишники, с помощью которых можно идентифицировать ботов, чтобы получать заветные данные.
Вот ссылка на расследование, если что. Рисерчеры там использовали смесь машинного обучения и сетевой аналитики.
Perplexity, конечно, все отрицают, но самое интересное не это. Самое интересное – что в соцсетях сотни людей встали на защиту стартапа.
По распространенному мнению, Perplexity получает информацию с сайтов «от имени пользователей» и всегда указывает ссылки, а значит – это не считается. В чем они не правы?💡
Незаконно – это значит обходя предпочтения самого сайта, то есть файл Robots.txt. В последнее время многие добавляют себе такой. В нем содержатся инструкции о том, что ИИ-системам нельзя индексировать страницу.
И, по идее, это должно означать, что твой контент не будет использован для обучения моделей или для, например, агентного поиска, как у Perplexity.
Но Perplexity похоже плевать хотели на чьи-то там предпочтения
По словам Cloudflare, они специально меняют ASN, user agent и другие айдишники, с помощью которых можно идентифицировать ботов, чтобы получать заветные данные.
«Эта активность наблюдалась в десятках тысяч доменов и насчитывала миллионы запросов в день»
Вот ссылка на расследование, если что. Рисерчеры там использовали смесь машинного обучения и сетевой аналитики.
Perplexity, конечно, все отрицают, но самое интересное не это. Самое интересное – что в соцсетях сотни людей встали на защиту стартапа.
По распространенному мнению, Perplexity получает информацию с сайтов «от имени пользователей» и всегда указывает ссылки, а значит – это не считается. В чем они не правы?
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤174👍68😁33🔥14🤔9🤝2
Media is too big
VIEW IN TELEGRAM
В Сан-Франциско прошли похороны Claude 3 Sonnet
Нет, вы не ослышались. Оплакать модель (Anthropic недавно сообщили, что отключают ее) пришли около 200 человек.
Выглядело это все примерно так 👆
Другие модели Claude тоже «присутствовали» в виде манекенов и произнесли надгробные речи.
Claude 3 Opus, например, выглядел как женщина с короной на черепе. Чтобы вы понимали уровень запаренности поклонников: к ногам Opus 3 они положили подсвечник в виде лотоса, что было намёком на склонность модели к медитации и самоанализу. А Claude 3 Haiku изобразили как безголового младенца, что бы это ни значило.
Готовимся к тому, что однажды похороны ИИ станут нормой
Нет, вы не ослышались. Оплакать модель (Anthropic недавно сообщили, что отключают ее) пришли около 200 человек.
Выглядело это все примерно так 👆
Другие модели Claude тоже «присутствовали» в виде манекенов и произнесли надгробные речи.
Claude 3 Opus, например, выглядел как женщина с короной на черепе. Чтобы вы понимали уровень запаренности поклонников: к ногам Opus 3 они положили подсвечник в виде лотоса, что было намёком на склонность модели к медитации и самоанализу. А Claude 3 Haiku изобразили как безголового младенца, что бы это ни значило.
Готовимся к тому, что однажды похороны ИИ станут нормой
1😁135 55🤯23❤18🗿10🤔2👍1
В России появится технологический кластер, который объединит несколько сильных компаний в сфере технологий для промышленности
О создании «СФ ТЕХ» сегодня объявили Softline. В него войдут несколько компаний из разных отраслей, которые планируют вместе комплексно работать над самыми перспективными областями индустрии: робототехника, лазерные и адддитивные технологии, IIoT.
В кластере объединились: VPG LaserONE (единственный крупный производитель волоконных лазеров в России), две компании из группы Борлас (эксперты по цифровизации и защите инфраструктуры) и Инферит (делают защищённый софт и железо).
Цель – перевести российскую промышленность на новый уровень за счёт объединения компетенций. По словам Softline, такой подход позволит не только диверсифицировать выручку, но и занять ключевые позиции на высокомаржинальных направлениях рынка.
О создании «СФ ТЕХ» сегодня объявили Softline. В него войдут несколько компаний из разных отраслей, которые планируют вместе комплексно работать над самыми перспективными областями индустрии: робототехника, лазерные и адддитивные технологии, IIoT.
В кластере объединились: VPG LaserONE (единственный крупный производитель волоконных лазеров в России), две компании из группы Борлас (эксперты по цифровизации и защите инфраструктуры) и Инферит (делают защищённый софт и железо).
Цель – перевести российскую промышленность на новый уровень за счёт объединения компетенций. По словам Softline, такой подход позволит не только диверсифицировать выручку, но и занять ключевые позиции на высокомаржинальных направлениях рынка.
🗿62😁31👍29❤25🔥3🤯3 3🍾1
OpenAI впервые за долгое время позволит сотрудникам продать акции
Это коснется и бывших, и нынешних работников компании. Зачем это OpenAI и что означает на практике:
1. Оценка компании вырастет почти на 70%. Это не обычный раунд финансирования, а вторичная продажа, поэтому в ходе такой сделки определяется цена, по которой инвесторы готовы покупать доли именно у сотрудников, — именно эта цена и становится новой рыночной оценкой всей компании. Итог: в марте оценка OpenAI была 300 миллиардов долларов, теперь будет около 500.
2. Вынужденная мера для сохранения сотрудников. Очень многих в OpenAI не устраивало, что они не могут продать акции даже после ухода. Теперь деньги становятся реальными, а не только на бумаге. Короче, возможность обналичить опционы должна повысить общую корпоративную лояльность. А еще ликвидность – важный пункт для хантинга.
Пока переговоры на ранней стадии, но интересующиеся покупкой инвесторы уже есть
Это коснется и бывших, и нынешних работников компании. Зачем это OpenAI и что означает на практике:
1. Оценка компании вырастет почти на 70%. Это не обычный раунд финансирования, а вторичная продажа, поэтому в ходе такой сделки определяется цена, по которой инвесторы готовы покупать доли именно у сотрудников, — именно эта цена и становится новой рыночной оценкой всей компании. Итог: в марте оценка OpenAI была 300 миллиардов долларов, теперь будет около 500.
2. Вынужденная мера для сохранения сотрудников. Очень многих в OpenAI не устраивало, что они не могут продать акции даже после ухода. Теперь деньги становятся реальными, а не только на бумаге. Короче, возможность обналичить опционы должна повысить общую корпоративную лояльность. А еще ликвидность – важный пункт для хантинга.
Пока переговоры на ранней стадии, но интересующиеся покупкой инвесторы уже есть
2👍88❤26🔥12🤔4😁2