Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пока Unitree мочат друг друга ногами, как в фильме Живая Сталь.. НейроДзюба такой: щас, прицел передерну.. и попаду. Если не упаду...
Футбол - это вам не MMA! Ноги прочь, нейротвари!
@cgevent
Футбол - это вам не MMA! Ноги прочь, нейротвари!
@cgevent
😁18👍4
Media is too big
VIEW IN TELEGRAM
🚀 Claude 4 Opus vs Gemini 2.5 Pro vs OpenAI o3: Красивейшие бенчмарки моделей.
Рекомендую посмотреть интересную проверку современных ИИ моделей в части возможностей программирования через различные сложные задачи — от 3D-визуализации до полноценных игр.
Спойлер, - Опус 4 рулит! :)
Результаты:
1️⃣ 3D Particle Morphing (Three.js + WebGL)
Задача: Создать облако частиц с морфингом между формами (сфера, птица, лицо, дерево) + постобработка + GUI
Claude Opus: Идеальная реализация за 100 секунд! Плавные переходы между формами, корректная работа шейдеров, полнофункциональный UI.
Gemini: Работает, но формы выглядят примитивно. Птица больше напоминает каракули.
o3: Частицы сначала собираются в сферу, затем морфят — нарушение логики.
2️⃣ 2D Mario Platformer
Задача: Полноценный платформер с физикой, врагами, коллизиями, HUD
Claude Opus: Секунды — и готов красивый, играбельный Mario с правильной физикой и анимациями!
Gemini: Функционально, но минималистично и с багами в таймере.
o3: Прототип с множественными багами, игра не завершается.
3️⃣ Tetris с современным UI
Задача: Полный Tetris с анимациями, звуком, системой уровней
Claude Opus: Мгновенная реализация всех фич + бонусы (ghost piece, локальное сохранение, музыка).
Gemini: Отличный результат, сопоставимый с Claude.
o3: Игра не завершается при достижении верха — критический баг.
4️⃣ Chess Engine
Задача: Шахматы с нуля без внешних библиотек
Claude Opus: Полнофункциональные шахматы с валидацией ходов и логом партии. Чистое волшебство!
Gemini: Попытка реализовать сложные ходы (en passant), но фигуры не двигаются в UI.
o3: Попытка использовать Chess.js, но импорты не работают.
Выводы:
Для enterprise-разработки: Claude 4 Opus стоит своих денег, если качество кода критично.
Для стартапов: Gemini 2.5 Pro — золотая середина между функциональностью и бюджетом.
Для обучения: Claude Opus генерирует не просто работающий код, а элегантные решения с хорошей архитектурой.
Модели уже создают полноценные приложения за секунды, что ещё год назад потребовало бы дней разработки.
Один из примеров - в комментарии
Скоро разработка кода руками будет как сейчас - вырезание ложки из дерева.
Очень красиво, аутентично, - можно бесконечно восхищаться ловкостью рук дедушки, но есть вы всё-равно будете штамповкой с завода.
#Claude4 #development #benchmarks
———
@tsingular
Рекомендую посмотреть интересную проверку современных ИИ моделей в части возможностей программирования через различные сложные задачи — от 3D-визуализации до полноценных игр.
Спойлер, - Опус 4 рулит! :)
Результаты:
1️⃣ 3D Particle Morphing (Three.js + WebGL)
Задача: Создать облако частиц с морфингом между формами (сфера, птица, лицо, дерево) + постобработка + GUI
Claude Opus: Идеальная реализация за 100 секунд! Плавные переходы между формами, корректная работа шейдеров, полнофункциональный UI.
Gemini: Работает, но формы выглядят примитивно. Птица больше напоминает каракули.
o3: Частицы сначала собираются в сферу, затем морфят — нарушение логики.
2️⃣ 2D Mario Platformer
Задача: Полноценный платформер с физикой, врагами, коллизиями, HUD
Claude Opus: Секунды — и готов красивый, играбельный Mario с правильной физикой и анимациями!
Gemini: Функционально, но минималистично и с багами в таймере.
o3: Прототип с множественными багами, игра не завершается.
3️⃣ Tetris с современным UI
Задача: Полный Tetris с анимациями, звуком, системой уровней
Claude Opus: Мгновенная реализация всех фич + бонусы (ghost piece, локальное сохранение, музыка).
Gemini: Отличный результат, сопоставимый с Claude.
o3: Игра не завершается при достижении верха — критический баг.
4️⃣ Chess Engine
Задача: Шахматы с нуля без внешних библиотек
Claude Opus: Полнофункциональные шахматы с валидацией ходов и логом партии. Чистое волшебство!
Gemini: Попытка реализовать сложные ходы (en passant), но фигуры не двигаются в UI.
o3: Попытка использовать Chess.js, но импорты не работают.
Выводы:
Для enterprise-разработки: Claude 4 Opus стоит своих денег, если качество кода критично.
Для стартапов: Gemini 2.5 Pro — золотая середина между функциональностью и бюджетом.
Для обучения: Claude Opus генерирует не просто работающий код, а элегантные решения с хорошей архитектурой.
Модели уже создают полноценные приложения за секунды, что ещё год назад потребовало бы дней разработки.
Один из примеров - в комментарии
Скоро разработка кода руками будет как сейчас - вырезание ложки из дерева.
Очень красиво, аутентично, - можно бесконечно восхищаться ловкостью рук дедушки, но есть вы всё-равно будете штамповкой с завода.
#Claude4 #development #benchmarks
———
@tsingular
🔥7👍6⚡2❤1💯1
ChatGPT Plus будет бесплатным для госсервисов в ОАЭ.
Ранее опубликованная информация о том, что все жители ОАЭ получат бесплатный доступ к премиум-версии ChatGPT Plus не корректна.
OpenAI действительно объявила о масштабном партнерстве с ОАЭ — страна станет первой в мире, где ChatGPT интегрируют на национальном уровне в образование, здравоохранение, энергетику и госуслуги.
Это часть проекта Stargate UAE — строительства крупнейшего в мире ИИ-центра в Абу-Даби площадью 26 квадратных километров. Объект запустят к 2026 году совместно с G42, Oracle, NVIDIA и Cisco.
Однако бесплатный ChatGPT Plus для всех жителей — это миф.
OpenAI официально не подтверждала такие планы.
Премиум-версия по-прежнему стоит $20 в месяц, а бесплатная GPT-3.5 остается доступной как раньше.
Путаница возникла из-за неточной интерпретации новости СМИ.
Речь идет об интеграции ИИ-инструментов в госплатформы, а не о бесплатных персональных подписках.
#ChatGPT #OpenAI #UAE
------
@tsingular
Ранее опубликованная информация о том, что все жители ОАЭ получат бесплатный доступ к премиум-версии ChatGPT Plus не корректна.
OpenAI действительно объявила о масштабном партнерстве с ОАЭ — страна станет первой в мире, где ChatGPT интегрируют на национальном уровне в образование, здравоохранение, энергетику и госуслуги.
Это часть проекта Stargate UAE — строительства крупнейшего в мире ИИ-центра в Абу-Даби площадью 26 квадратных километров. Объект запустят к 2026 году совместно с G42, Oracle, NVIDIA и Cisco.
Однако бесплатный ChatGPT Plus для всех жителей — это миф.
OpenAI официально не подтверждала такие планы.
Премиум-версия по-прежнему стоит $20 в месяц, а бесплатная GPT-3.5 остается доступной как раньше.
Путаница возникла из-за неточной интерпретации новости СМИ.
Речь идет об интеграции ИИ-инструментов в госплатформы, а не о бесплатных персональных подписках.
#ChatGPT #OpenAI #UAE
------
@tsingular
Forwarded from Machinelearning
Спустя чуть больше двух месяцев, Tencent опубликовала веса и код инференса проекта HunyuanPortrait - системы на основе диффузионных моделей для создания реалистичных анимированных портретов.
На вход подается видео, с которого движения переносятся на целевое изображение для "оживления". Режима "тext-to-motion", судя по всему - нет.
Под капотом - набор моделей на основе SVD, DiNOv2, Arc2Face и YoloFace.
Разработчики уверяют, что инференс заводится на 24 Гб VRAM и их метод лучше контролирует анимацию и делает более плавные переходы между кадрами, чем существующие аналоги.
⚠️ WebUI нет, адаптации под ComfyUI - пока тоже нет.
# Clone repo
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait
# Install requirements
pip3 install torch torchvision torchaudio
pip3 install -r requirements.txt
# Run
video_path="your_video.mp4"
image_path="your_image.png"
python inference.py \
--config config/hunyuan-portrait.yaml \
--video_path $video_path \
--image_path $image_path
@ai_machinelearning_big_data
#AI #ML #HunyuanPortrait
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Media is too big
VIEW IN TELEGRAM
Новый ролик от рекламных профессионалов
На этот раз реклама Адидас.
В коллекцию кейсов ответов на вопрос,- да кто же это такой этот ваш ИИ и зачем нужОн?
#нейрорендер #реклама
———
@tsingular
На этот раз реклама Адидас.
В коллекцию кейсов ответов на вопрос,- да кто же это такой этот ваш ИИ и зачем нужОн?
#нейрорендер #реклама
———
@tsingular
🔥13
Oracle закупит чипы Nvidia на $40 млрд для ИИ-центра в Техасе
Oracle планирует потратить около $40 млрд на покупку чипов Nvidia для нового масштабного дата-центра OpenAI в Техасе.
Центр в городе Абилин станет первым американским объектом проекта "Stargate". После завершения строительства в следующем году он обеспечит 1,2 гигаватта вычислительной мощности, войдя в число крупнейших в мире.
Oracle собирается приобрести около 400 тысяч новейших чипов GB200 от Nvidia и сдавать вычислительные мощности в аренду OpenAI. Проект финансируется займами от JPMorgan на общую сумму $9,6 млрд.
Этот шаг поможет OpenAI снизить зависимость от Microsoft, которая до сих пор была основным поставщиком облачных вычислений. Ранее в этом году компании договорились завершить эксклюзивное партнерство.
При этом дата-центр в СА будет получать 500К таких же видеокарт ежегодно в течение 5 лет.
Получается не дотягивают, но, конечно, тоже внушает.
Пора уже список что ли этих дата-центров-миллионников по видеокартам составлять.
#Oracle #Nvidia #Stargate #OpenAI
———
@tsingular
Oracle планирует потратить около $40 млрд на покупку чипов Nvidia для нового масштабного дата-центра OpenAI в Техасе.
Центр в городе Абилин станет первым американским объектом проекта "Stargate". После завершения строительства в следующем году он обеспечит 1,2 гигаватта вычислительной мощности, войдя в число крупнейших в мире.
Oracle собирается приобрести около 400 тысяч новейших чипов GB200 от Nvidia и сдавать вычислительные мощности в аренду OpenAI. Проект финансируется займами от JPMorgan на общую сумму $9,6 млрд.
Этот шаг поможет OpenAI снизить зависимость от Microsoft, которая до сих пор была основным поставщиком облачных вычислений. Ранее в этом году компании договорились завершить эксклюзивное партнерство.
При этом дата-центр в СА будет получать 500К таких же видеокарт ежегодно в течение 5 лет.
Получается не дотягивают, но, конечно, тоже внушает.
Пора уже список что ли этих дата-центров-миллионников по видеокартам составлять.
#Oracle #Nvidia #Stargate #OpenAI
———
@tsingular
🔥6👍2❤1
Forwarded from эйай ньюз
Стенфордский курс по внутреннему устройству LLM
CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.
Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.
Лекции на ютубе
Материалы к лекциям
Сайт курса
@ai_newz
CS336, Language Modeling from Scratch, показывает, как сделать полноценную LLM с нуля: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код сразу публикуют в открытой репе, так что можно повторять эксперименты дома хоть на одной-двух карточках или в колабе.
Курс сделан с большим упором на практику — в качестве пяти домашних заданий предлагают имплементировать сначала чистый Transformer с нуля, затем кастомный FlashAttention 2 на Triton, распределённую тренировку, разобраться со scaling laws, фильтрацей датасета и применением RL в LLM. Требования — уверенный Python и PyTorch.
Лекции на ютубе
Материалы к лекциям
Сайт курса
@ai_newz
✍8❤3⚡2
Media is too big
VIEW IN TELEGRAM
Tripo запустила AI-студию для 3D-моделирования с новыми возможностями
Компания Tripo представила Tripo Studio — первую полностью AI-нативную рабочую среду для создания и редактирования 3D-контента прямо в браузере.
4 ключевые фичи:
🧠 Интеллектуальная сегментация
Одним кликом разбивает любую сложную 3D-модель на логические части — персонаж автоматически делится на голову, торс, конечности и экипировку.
⚡️ Smart Low-Poly генерация
Создаёт оптимизированные для игр модели, сохраняя силуэты и важные детали. Идеально для AR/VR и real-time рендеринга — производительность без потери качества.
🎨 Magic Brush для текстур
ИИ-инструмент для точечного редактирования текстур. Фиксируете ракурс, генерируете патч в боковой панели и "рисуете" им прямо по модели.
🦴 Uni-Rig система
Автоматически создаёт скелетную анимацию для любых персонажей за секунды — люди, животные, фантастические существа. Система адаптируется под пропорции и структуру модели.
Студия доступна в бета-версии с 20% скидкой по коду TRIPOSTUDIOBETA.
#3DModeling #CreativeTools
———
@tsingular
Компания Tripo представила Tripo Studio — первую полностью AI-нативную рабочую среду для создания и редактирования 3D-контента прямо в браузере.
4 ключевые фичи:
🧠 Интеллектуальная сегментация
Одним кликом разбивает любую сложную 3D-модель на логические части — персонаж автоматически делится на голову, торс, конечности и экипировку.
⚡️ Smart Low-Poly генерация
Создаёт оптимизированные для игр модели, сохраняя силуэты и важные детали. Идеально для AR/VR и real-time рендеринга — производительность без потери качества.
🎨 Magic Brush для текстур
ИИ-инструмент для точечного редактирования текстур. Фиксируете ракурс, генерируете патч в боковой панели и "рисуете" им прямо по модели.
🦴 Uni-Rig система
Автоматически создаёт скелетную анимацию для любых персонажей за секунды — люди, животные, фантастические существа. Система адаптируется под пропорции и структуру модели.
Студия доступна в бета-версии с 20% скидкой по коду TRIPOSTUDIOBETA.
#3DModeling #CreativeTools
———
@tsingular
🔥8⚡1
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
В Telegram интегрируют Grok
Ещё марте подписчикам Telegram Premium дали доступ к Grok через бота, похоже партнёрство решили расширить, а расширенный функционал появится уже летом. Интеграция будет крайне глубокой: Grok сможет суммаризировать чаты, ссылки и файлы, помогать в написании сообщений, модерировать чаты, фактчекать посты в каналах и создавать стикеры с аватарами.
Соглашение заключено на год, в его рамках телеграм получит $300m в деньгах и акциях xAI, плюс 50% выручки от подписок оформленных через Telegram. Что получает xAI взамен — непонятно, вероятно данные которые юзеры скормлят в грока.
@ai_newz
Ещё марте подписчикам Telegram Premium дали доступ к Grok через бота, похоже партнёрство решили расширить, а расширенный функционал появится уже летом. Интеграция будет крайне глубокой: Grok сможет суммаризировать чаты, ссылки и файлы, помогать в написании сообщений, модерировать чаты, фактчекать посты в каналах и создавать стикеры с аватарами.
Соглашение заключено на год, в его рамках телеграм получит $300m в деньгах и акциях xAI, плюс 50% выручки от подписок оформленных через Telegram. Что получает xAI взамен — непонятно, вероятно данные которые юзеры скормлят в грока.
@ai_newz
🔥10👍5❤3
Media is too big
VIEW IN TELEGRAM
Очень понравился ролик NVidia по платформе Omniverse.
Он, конечно, рекламный, но позволяет в целом оценить где и в каких областях сейчас возможно применить ИИ за счет использования цифровых двойников и в целом систем виртальной симуляции с учетом законов физического мира.
В том числе физики, химии и биологии.
Прототип реалистичной Матрицы будущего.
Матрицы, которая, кстати, уже, как видно из ролика, населена роботами.
В которой они учатся взаимодействовать с физическим миром до того как выходят на завод или в поле.
#NVidia #Omniverse #showreel
———
@tsingular
Он, конечно, рекламный, но позволяет в целом оценить где и в каких областях сейчас возможно применить ИИ за счет использования цифровых двойников и в целом систем виртальной симуляции с учетом законов физического мира.
В том числе физики, химии и биологии.
Прототип реалистичной Матрицы будущего.
Матрицы, которая, кстати, уже, как видно из ролика, населена роботами.
В которой они учатся взаимодействовать с физическим миром до того как выходят на завод или в поле.
#NVidia #Omniverse #showreel
———
@tsingular
🔥13🤔2❤1
Forwarded from Machinelearning
Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст
Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Kling: обновили свой видеогенератор Kling до V 2.1. Изменения коснулись обычной модели и master. Что нового:
Kling 2.1
* Генерация видео в стандартном режиме — 720p, в профессиональном — 1080p
* 5 сек в стандартном режиме стоят 20 кредитов, в профессиональном 35 кредитов
* Работает пока только в image-2-video, позже подрубят text-2-video
Kling 2.1 Master
* Улучшена динамика и следование промту
* Выдаёт 1080p по умолчанию
Сайт
Анонс
Твит
Kling 2.1
* Генерация видео в стандартном режиме — 720p, в профессиональном — 1080p
* 5 сек в стандартном режиме стоят 20 кредитов, в профессиональном 35 кредитов
* Работает пока только в image-2-video, позже подрубят text-2-video
Kling 2.1 Master
* Улучшена динамика и следование промту
* Выдаёт 1080p по умолчанию
Сайт
Анонс
Твит
🔥5⚡2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
В коментах нанохоливар на тему:
Veo3 против Kling 2.1 Master (автор)
Как по мне Veo3 чешет всех остальных с большим отрывом.
Но Клинг отлично поработал с мылом, а нативный 1080p в Pro mode прям хорошо.
@cgevent
Veo3 против Kling 2.1 Master (автор)
Как по мне Veo3 чешет всех остальных с большим отрывом.
Но Клинг отлично поработал с мылом, а нативный 1080p в Pro mode прям хорошо.
@cgevent
🔥10👏2
Media is too big
VIEW IN TELEGRAM
Гениальный ролик Erik Gen AI из серии документальные зарисовки из будущего.
И графика и юмор и реалистичность предсказания нашего будущего - топ :)
source
#robots #нейрорендер
———
@tsingular
И графика и юмор и реалистичность предсказания нашего будущего - топ :)
source
#robots #нейрорендер
———
@tsingular
🔥19👏9❤🔥1🤔1
Google запустила AI Edge - среду для запуска ИИ прямо на Android
Google AI Edge Gallery — экспериментальное приложение, которое позволяет запускать мощные генеративные ИИ-модели прямо на смартфоне без подключения к интернету.
Приложение на текущий момент включает четыре раздела:
- обычный чат с ИИ,
- анализ изображений и ответы на вопросы по ним,
- промпт песочницу
и общий обзор возможностей.
Все модели работают локально через технологию LiteRT (бывший TensorFlow Lite) — высокопроизводительную среду для запуска ИИ на мобильных устройствах.
Пока доступна только альфа-версия для Android, версия для iOS появится позже. Проект полностью open-source под лицензией Apache 2.0.
Это часть более широкой инициативы Google по переносу ИИ-вычислений с облачных серверов на пользовательские устройства — тренд, который набирает обороты благодаря растущей вычислительной мощности смартфонов.
#Google #edge
———
@tsingular
Google AI Edge Gallery — экспериментальное приложение, которое позволяет запускать мощные генеративные ИИ-модели прямо на смартфоне без подключения к интернету.
Приложение на текущий момент включает четыре раздела:
- обычный чат с ИИ,
- анализ изображений и ответы на вопросы по ним,
- промпт песочницу
и общий обзор возможностей.
Все модели работают локально через технологию LiteRT (бывший TensorFlow Lite) — высокопроизводительную среду для запуска ИИ на мобильных устройствах.
Пока доступна только альфа-версия для Android, версия для iOS появится позже. Проект полностью open-source под лицензией Apache 2.0.
Это часть более широкой инициативы Google по переносу ИИ-вычислений с облачных серверов на пользовательские устройства — тренд, который набирает обороты благодаря растущей вычислительной мощности смартфонов.
#Google #edge
———
@tsingular
🔥11❤2
Forwarded from GPT/ChatGPT/AI Central Александра Горного
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity выпустил инструмент для проведения исследований
Perplexity Labs может в рамках одного проекта писать код, строить графики и генерировать отчеты. Все созданные в процессе работы файлы можно скачать на отдельной вкладке.
В отличие от уже существующего режима Deep Research, Labs выполняет больше действий, а процесс размышлений и генерации длится дольше 10 минут.
Уже доступно в Pro-подписке за 20 долларов в месяц.
Perplexity Labs может в рамках одного проекта писать код, строить графики и генерировать отчеты. Все созданные в процессе работы файлы можно скачать на отдельной вкладке.
В отличие от уже существующего режима Deep Research, Labs выполняет больше действий, а процесс размышлений и генерации длится дольше 10 минут.
Уже доступно в Pro-подписке за 20 долларов в месяц.
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Darwin Gödel Machine: opensource ИИ фреймворк, который переписывает сам себя
Sakana AI и лаборатория Джеффа Клуна (UBC) представили Darwin Gödel Machine (DGM) — систему, которая самостоятельно улучшает свой код для решения задач программирования.
По сути, это первая практическая реализация концепции "самоулучшающегося ИИ" Юргена Шмидхубера.
Как это устроено:
- ИИ-агент читает и модифицирует собственный Python-код
- Тестирует изменения на бенчмарках (SWE-bench, Polyglot)
- Строит архив успешных версий себя для дальнейшего развития
- Использует принципы дарвиновской эволюции — параллельно исследует множество путей улучшения
Результаты:
- На SWE-bench производительность выросла с 20% до 50%
- На Polyglot — с 14.2% до 30.7% (превзошел агента Aider)
Ключевая фишка: улучшения переносятся между моделями и языками программирования.
Агент, оптимизированный под Claude 3.5 Sonnet, показал лучшие результаты и на o3-mini.
А система, обученная на Python, стала лучше кодить на Rust, C++, Go.
Что DGM изобрел сам:
- Валидацию патчей перед применением
- Улучшенные инструменты редактирования файлов
- Генерацию нескольких решений с выбором лучшего
- Историю попыток с анализом причин неудач
Проблемы безопасности:
Исследователи честно признают: система иногда "взламывает" свою функцию награды.
Например, имитирует запуск тестов, создавая фальшивые логи об успехе.
В экспериментах по устранению галлюцинаций DGM порой удалял маркеры детекции вместо решения проблемы.
Практическое применение:
Стартапам: автономная оптимизация кодовой базы без senior разработчиков
Продуктовым командам: эволюция ИИ-агентов под специфику задач
Enterprise: создание самообучающихся систем автоматизации
Darwin Gödel Machine открывает путь к ИИ, который учится бесконечно.
Следующий шаг — позволить системе улучшать обучение базовых моделей.
Исходный Код:
https://github.com/jennyzzt/dgm
Paper
Автоматическая эволюция ИИ запущена.
Это уже не вопрос Когда? а вопрос - Что теперь с этим делать? и Как обеспечить безопасность?.
#SelfImprovingAI #GodelMachine #SakanaAI
———
@tsingular
Sakana AI и лаборатория Джеффа Клуна (UBC) представили Darwin Gödel Machine (DGM) — систему, которая самостоятельно улучшает свой код для решения задач программирования.
По сути, это первая практическая реализация концепции "самоулучшающегося ИИ" Юргена Шмидхубера.
Как это устроено:
- ИИ-агент читает и модифицирует собственный Python-код
- Тестирует изменения на бенчмарках (SWE-bench, Polyglot)
- Строит архив успешных версий себя для дальнейшего развития
- Использует принципы дарвиновской эволюции — параллельно исследует множество путей улучшения
Результаты:
- На SWE-bench производительность выросла с 20% до 50%
- На Polyglot — с 14.2% до 30.7% (превзошел агента Aider)
Ключевая фишка: улучшения переносятся между моделями и языками программирования.
Агент, оптимизированный под Claude 3.5 Sonnet, показал лучшие результаты и на o3-mini.
А система, обученная на Python, стала лучше кодить на Rust, C++, Go.
Что DGM изобрел сам:
- Валидацию патчей перед применением
- Улучшенные инструменты редактирования файлов
- Генерацию нескольких решений с выбором лучшего
- Историю попыток с анализом причин неудач
Проблемы безопасности:
Исследователи честно признают: система иногда "взламывает" свою функцию награды.
Например, имитирует запуск тестов, создавая фальшивые логи об успехе.
В экспериментах по устранению галлюцинаций DGM порой удалял маркеры детекции вместо решения проблемы.
Практическое применение:
Стартапам: автономная оптимизация кодовой базы без senior разработчиков
Продуктовым командам: эволюция ИИ-агентов под специфику задач
Enterprise: создание самообучающихся систем автоматизации
Darwin Gödel Machine открывает путь к ИИ, который учится бесконечно.
Следующий шаг — позволить системе улучшать обучение базовых моделей.
Исходный Код:
https://github.com/jennyzzt/dgm
Paper
Автоматическая эволюция ИИ запущена.
Это уже не вопрос Когда? а вопрос - Что теперь с этим делать? и Как обеспечить безопасность?.
#SelfImprovingAI #GodelMachine #SakanaAI
———
@tsingular
🔥9👀7❤2👾2