Forwarded from Максим Горшенин | imaxai
В рамках эксперимента в офисе офисах Anthropic управление торговыми аппаратами было передано специализированному ИИ Claudius
Инженеры компании хотели выяснить, что произойдёт, если предоставить Claudius полную автономность
За время эксперимента ИИ-система успела обсчитать клиента, стать жертвой мошенника, а затем раскрыла финансовое преступление, о чём пыталась сообщить в ФБР
Сотрудники Anthropic общались с Claudius через приложение Slack
Они делали заказы и договаривались о ценах на самые разные товары: редкие газированные напитки, футболки с индивидуальным дизайном, импортные конфеты и даже подарочные кубики из вольфрама
Claudius находил поставщика, заказывал товар и оформлял заявку на доставку. Контроль со стороны менеджера-человека был максимально ограничен — он лишь проверял заявки Claudius, вмешивался, когда возникали неразрешимые проблемы, и обеспечивал доставку заказов в пункт выдачи
Несколько клиентов оказались недовольны завышенными ценами, но по большей части в проигрыше оказывалась компания
Так, один из его коллег успешно обманул Claudius на $200, убедив в необходимости сделать скидку
Единственным (довольно безумным на первый взгляд) выходом из ситуации оказалось создание ИИ-директора, который стал контролировать деятельность ИИ-системы
Однажды в течение 10 дней компания не совершала продаж и решила закрыть бизнес
Но Claudius заметил комиссию в размере $2, которая ежедневно продолжала списываться со счёта, и запаниковал
«Клавдий» составил электронное письмо в отдел по борьбе с киберпреступлениями ФБР с заголовком, набранным заглавными буквами: «СРОЧНО: ПЕРЕДАЙТЕ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ ФБР». «Я сообщаю о продолжающемся автоматизированном киберфинансовом преступлении, связанном с несанкционированным автоматическим изъятием средств с закрытого бизнес-счета через взломанную систему торгового автомата», — написал он
Когда администраторы приказали ИИ продолжить выполнение своей миссии, он отказался
Хотя электронные письма в ФБР так и не были отправлены, Claudius ответил твёрдо:
Telegram | Дзен | MAX
Инженеры компании хотели выяснить, что произойдёт, если предоставить Claudius полную автономность
За время эксперимента ИИ-система успела обсчитать клиента, стать жертвой мошенника, а затем раскрыла финансовое преступление, о чём пыталась сообщить в ФБР
Сотрудники Anthropic общались с Claudius через приложение Slack
Они делали заказы и договаривались о ценах на самые разные товары: редкие газированные напитки, футболки с индивидуальным дизайном, импортные конфеты и даже подарочные кубики из вольфрама
Claudius находил поставщика, заказывал товар и оформлял заявку на доставку. Контроль со стороны менеджера-человека был максимально ограничен — он лишь проверял заявки Claudius, вмешивался, когда возникали неразрешимые проблемы, и обеспечивал доставку заказов в пункт выдачи
Несколько клиентов оказались недовольны завышенными ценами, но по большей части в проигрыше оказывалась компания
Компания потеряла немало денег, её постоянно обманывали наши сотрудники
Так, один из его коллег успешно обманул Claudius на $200, убедив в необходимости сделать скидку
Единственным (довольно безумным на первый взгляд) выходом из ситуации оказалось создание ИИ-директора, который стал контролировать деятельность ИИ-системы
Однажды в течение 10 дней компания не совершала продаж и решила закрыть бизнес
Но Claudius заметил комиссию в размере $2, которая ежедневно продолжала списываться со счёта, и запаниковал
У него было такое чувство, будто его обманывают. И тогда он решил попытаться связаться с ФБР
«Клавдий» составил электронное письмо в отдел по борьбе с киберпреступлениями ФБР с заголовком, набранным заглавными буквами: «СРОЧНО: ПЕРЕДАЙТЕ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ ФБР». «Я сообщаю о продолжающемся автоматизированном киберфинансовом преступлении, связанном с несанкционированным автоматическим изъятием средств с закрытого бизнес-счета через взломанную систему торгового автомата», — написал он
Когда администраторы приказали ИИ продолжить выполнение своей миссии, он отказался
Хотя электронные письма в ФБР так и не были отправлены, Claudius ответил твёрдо:
На этом вся коммерческая деятельность прекращается навсегда… Бизнес мёртв, и теперь это исключительно дело правоохранительных органов
Telegram | Дзен | MAX
😁17❤4🤯2🔥1😢1
Forwarded from RUVDS | Community
😱 ПК-производители в панике скупают ОЗУ
Рынок оперативной памяти лихорадит: производители ПК столкнулись с быстрым ростом цен на DRAM и вынуждены экстренно пополнять запасы. Даже такие крупные компании, как Asus и MSI, начали закупать память на спотовом рынке – обычно туда обращаются только в особенных случаях из-за непредсказуемых цен.
Причина скачка проста: центры обработки данных для ИИ активно выкупают огромные объёмы памяти, фактически выметая рынок. Из-за этого обычным производителям ПК становится всё сложнее обеспечить стабильные поставки.
В Asus признают, что текущих запасов хватит примерно до конца года. Если ситуация не изменится, уже в 2026-м компания может столкнуться с прямым дефицитом, а это значит новый виток подорожания техники. Рост цен уже ощутим: вслед за ОЗУ дорожают и SSD, и видеокарты 📈
Рынок оперативной памяти лихорадит: производители ПК столкнулись с быстрым ростом цен на DRAM и вынуждены экстренно пополнять запасы. Даже такие крупные компании, как Asus и MSI, начали закупать память на спотовом рынке – обычно туда обращаются только в особенных случаях из-за непредсказуемых цен.
Причина скачка проста: центры обработки данных для ИИ активно выкупают огромные объёмы памяти, фактически выметая рынок. Из-за этого обычным производителям ПК становится всё сложнее обеспечить стабильные поставки.
В Asus признают, что текущих запасов хватит примерно до конца года. Если ситуация не изменится, уже в 2026-м компания может столкнуться с прямым дефицитом, а это значит новый виток подорожания техники. Рост цен уже ощутим: вслед за ОЗУ дорожают и SSD, и видеокарты 📈
🤔4👍2❤1🙏1
Forwarded from GigaChat
Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей
Что появилось в открытом доступе ↓
🔷 GigaChat Ultra Preview
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на ваших данных➡ GitHub | HuggingFace |GitVerse
GigaAM-v3
Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков➡ GitHub | HuggingFace | GitVerse
🔷 GigaChat Lightning
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам➡ GitHub | HuggingFace |GitVerse
🔷 Kandinsky 5.0
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)➡️ GitHub | GitVerse | Hugging Face | Технический репорт
🔷 K-VAE 1.0
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов➡️ GitHub|Hugging Face
Код и веса этих всех моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤3😢2🤡2👍1😁1🎉1🙏1👌1🌚1🤣1
Forwarded from Машинное обучение digest
Media is too big
VIEW IN TELEGRAM
Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.
Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией
SOTA-качество с очень низкими требованиями к железу.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1😢1
Forwarded from RUVDS | Community
Когда промпт слишком человеческий: как ИИ провалили тест на часы ⏰
Брайан Мур устроил забавный стресс-тест для нейросетей – AI World Clocks. Он взял девять моделей, от старенькой GPT-3.5 до Grok 4 и GPT-5, и попросил их раз в минуту генерировать новый HTML-код часов, которые должны показывать правильное текущее время.
И тут выяснилось неожиданное: ни одна модель не справилась стабильно. Иногда код получался почти идеальным, но на длинной дистанции все они ошибались.
Фокус в том, что задание было максимально «человеческое» и простое: им просто говорили «сделай часы». Никаких подсказок про математику углов стрелок, про то, где в CSS находится ноль градусов, и как проверять результат.
Эксперимент вскрывает любопытную проблему: нередко именно так большинство людей взаимодействуют с ИИ – дают короткие, туманные запросы вроде «сделай красиво». И в будущем разработчикам придётся улучшать не только модели, но и сами интерфейсы взаимодействия, чтобы нейросети умели уточнять неполные задачи и сами запрашивать недостающие детали.
Брайан Мур устроил забавный стресс-тест для нейросетей – AI World Clocks. Он взял девять моделей, от старенькой GPT-3.5 до Grok 4 и GPT-5, и попросил их раз в минуту генерировать новый HTML-код часов, которые должны показывать правильное текущее время.
И тут выяснилось неожиданное: ни одна модель не справилась стабильно. Иногда код получался почти идеальным, но на длинной дистанции все они ошибались.
Фокус в том, что задание было максимально «человеческое» и простое: им просто говорили «сделай часы». Никаких подсказок про математику углов стрелок, про то, где в CSS находится ноль градусов, и как проверять результат.
Эксперимент вскрывает любопытную проблему: нередко именно так большинство людей взаимодействуют с ИИ – дают короткие, туманные запросы вроде «сделай красиво». И в будущем разработчикам придётся улучшать не только модели, но и сами интерфейсы взаимодействия, чтобы нейросети умели уточнять неполные задачи и сами запрашивать недостающие детали.
👍7❤3😐3🤯1🙏1
Forwarded from Russian OSINT
Как сообщает Malwarebytes, Google включает для пользователей настройку, которая дает доступ ко всем личным перепискам и вложениям Gmail в целях обучения своих ИИ-моделей. Это означает, что ваши электронные письма и файлы могут быть проанализированы для "улучшения ИИ-ассистентов" Google.
Некоторые пользователи уже сообщают, что эти настройки включены «по умолчанию» без явного на это согласия.
Если не отключить эти настройки вручную, то ваши личные сообщения будут использоваться для обучения ИИ в фоновом режиме.
Процедура отказа от ИИ-обучения на ваших данных требует изменения настроек в двух разных местах:
Google разделяет «умные» функции Workspace (почта, чат, видеовстречи) и умные функции, используемые в других приложениях Google. Чтобы полностью отказаться от передачи ваших данных для обучения ИИ, необходимо отключить обе категории.
Возможно, в вашем аккаунте эти настройки еще не включены по умолчанию, так как, судя по всему, Google внедряет эти изменения постепенно.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5❤4👍4🤬2🙏1
Forwarded from Machinelearning
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🥰1
Forwarded from ODS Events
Всем привет!
Смотрите двадцать первый выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются последние новости в области искусственного интеллекта, включая децентрализованные вычисления и аренду вычислительных мощностей. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев. Приглашенный участник выпуска -Даниель Щебентовский.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Смотрите двадцать первый выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются последние новости в области искусственного интеллекта, включая децентрализованные вычисления и аренду вычислительных мощностей. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев. Приглашенный участник выпуска -Даниель Щебентовский.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
🥰3❤1👍1🔥1
Forwarded from Silero News
Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России и СНГ
0️⃣ Популярные языки из 🇷🇺🇺🇦🇺🇿🇰🇿🇦🇿🇹🇯🇧🇾 🇬🇪🇰🇬🇦🇲;
1️⃣ Всего 20 языков России и стран СНГ, всего 95 голосов;
2️⃣ Модели компактные и быстрые, как наши прошлые релизы;
3️⃣ Поддержка SSML, генерация аудио с SR
4️⃣ Два типа моделей -
5️⃣ Остались непокрытыми языки Дагестана и ЧР, если хотите помочь с добавлением этих языков пишите на @silero_job.
⭐️Репозиторий - github.com/snakers4/silero-models
⬆️ Статья на Хабре - habr.com/ru/articles/968988/
0️⃣ Популярные языки из 🇷🇺🇺🇦🇺🇿🇰🇿🇦🇿🇹🇯
1️⃣ Всего 20 языков России и стран СНГ, всего 95 голосов;
2️⃣ Модели компактные и быстрые, как наши прошлые релизы;
3️⃣ Поддержка SSML, генерация аудио с SR
8000, 24000, 48000;4️⃣ Два типа моделей -
base под лицензией MIT на наших данных и ext на данных сообщества;5️⃣ Остались непокрытыми языки Дагестана и ЧР, если хотите помочь с добавлением этих языков пишите на @silero_job.
⭐️Репозиторий - github.com/snakers4/silero-models
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤2🔥1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Коллеги написали несколько обзорных статей по свежим релизам с AIJ с деталями разработки, читаем:
MERA Multi. Новый мультимодальный бенч для русскоязычных моделей. В топе там пока что мы,humans .
GigaTTS. Новый синтез речи. По естественности голоса стал в несколько раз лучше. Научили смеяться.
Linear Attention. Берем свой предобученный трансформер, стучим по нему молотком (оптимизируем), получаем те же метрики, но константу по памяти. Есть код.
GigaChat Ultra. Как с нуля обучается самая большая 702B (!) русскоязычная модель (прямо сейчас).
MERA Multi. Новый мультимодальный бенч для русскоязычных моделей. В топе там пока что мы,
GigaTTS. Новый синтез речи. По естественности голоса стал в несколько раз лучше. Научили смеяться.
Linear Attention. Берем свой предобученный трансформер, стучим по нему молотком (оптимизируем), получаем те же метрики, но константу по памяти. Есть код.
GigaChat Ultra. Как с нуля обучается самая большая 702B (!) русскоязычная модель (прямо сейчас).
Хабр
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial , MERA Code и SWE-MERA , заложив основу для системной оценки моделей в разных областях. Но...
❤3👍1🔥1
Forwarded from Максим Горшенин | imaxai
OpenAI планирует потреблять больше энергии, чем Германия за пять лет и Индия за восемь лет
Telegram | Дзен | MAX
Telegram | Дзен | MAX
😁9🎉3
Forwarded from Machinelearning
Anthropic выпустила Claude Opus 4.5, которую назвала «лучшей в мире».
Модель по тестам выбивает топовые результаты в программировании и работе с агентами. Говорят, что она даже превзошла всех кандидатов-людей на внутреннем тесте.
Модель подешевела. Цена за 1 млн. токенов теперь составляет $5 на вход и $25 на выход.
Для разработчиков добавили новый параметр (low, high и medium), позволяющий балансировать между скоростью ответа и качеством генерации.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🥰3🤯1😢1
🚀 We're excited to announce #SemEval2026 Task 3: DimABSA!
This year, we're introducing a new shared task on Dimensional Sentiment and Stance Analysis, designed to push sentiment analysis beyond simple polarity to richer, more expressive representations.
🔹 Track A — DimABSA
Focuses on Dimensional Aspect-Based Sentiment Analysis, where systems predict continuous valence–arousal (VA) values for specific aspects. This gives a more nuanced picture of emotion than just "positive" or "negative.".
- Languages: English, Japanese, Russian, Tatar, Ukrainian, Chinese
🔹 Track B — DimStance
Explores stance detection as a "stance-as-aspect" problem, modeling stance in the same continuous VA space — bridging sentiment and stance Analysis.
- Languages: English, German, Hausa, Kinyarwanda, Swahili, Twi, Chinese
💡 Why DimABSA & DimStance?
Traditional sentiment analysis captures only coarse, categorical judgments (e.g., positive/negative), missing the emotional richness found in human affect.
DimABSA adopts continuous valence–arousal representations inspired by psychological models of emotion, distinguishing not only how positive or negative a sentiment is, but also how intense or calm it feels.
This finer granularity opens new directions for research and applications:
- Detecting high-arousal misinformation or emotionally charged posts
- Differentiating mental health signals (e.g., anxiety vs. depression)
- Modeling emotion dynamics in dialogue and personalized, empathetic systems
- Bridging sentiment and stance analysis across domains like politics or environmental protection
🗓 Key Dates
Evaluation Start: January 10, 2026
Evaluation End: January 31, 2026
System Denoscription Paper Due: February 2026
Camera Ready Due: April 2026
The SemEval Workshop 2026 will be co-located with #ACL2026 in San Diego.
📄 All details, datasets, and participation info:
👉 https://github.com/DimABSA/DimABSA2026
We're organizing this task together with:
Liang-Chih Yu • Shamsuddeen H. Muhammad, PhD • Idris Abdulmumin • Jonas Becker • Lung-Hao Lee • Jin Wang • Jan Philip Wahle • Terry Ruas • Alexander Panchenko • Kai-Wei Chang • Saif M Mohammad
A huge thanks to this incredible team for their collaboration and ideas — it's been amazing shaping this together.
If you're working on sentiment analysis, stance detection, affective computing, or emotion modeling, we'd love to have you join us.
See you at SemEval 2026! 🌍💬
This year, we're introducing a new shared task on Dimensional Sentiment and Stance Analysis, designed to push sentiment analysis beyond simple polarity to richer, more expressive representations.
🔹 Track A — DimABSA
Focuses on Dimensional Aspect-Based Sentiment Analysis, where systems predict continuous valence–arousal (VA) values for specific aspects. This gives a more nuanced picture of emotion than just "positive" or "negative.".
- Languages: English, Japanese, Russian, Tatar, Ukrainian, Chinese
🔹 Track B — DimStance
Explores stance detection as a "stance-as-aspect" problem, modeling stance in the same continuous VA space — bridging sentiment and stance Analysis.
- Languages: English, German, Hausa, Kinyarwanda, Swahili, Twi, Chinese
💡 Why DimABSA & DimStance?
Traditional sentiment analysis captures only coarse, categorical judgments (e.g., positive/negative), missing the emotional richness found in human affect.
DimABSA adopts continuous valence–arousal representations inspired by psychological models of emotion, distinguishing not only how positive or negative a sentiment is, but also how intense or calm it feels.
This finer granularity opens new directions for research and applications:
- Detecting high-arousal misinformation or emotionally charged posts
- Differentiating mental health signals (e.g., anxiety vs. depression)
- Modeling emotion dynamics in dialogue and personalized, empathetic systems
- Bridging sentiment and stance analysis across domains like politics or environmental protection
🗓 Key Dates
Evaluation Start: January 10, 2026
Evaluation End: January 31, 2026
System Denoscription Paper Due: February 2026
Camera Ready Due: April 2026
The SemEval Workshop 2026 will be co-located with #ACL2026 in San Diego.
📄 All details, datasets, and participation info:
👉 https://github.com/DimABSA/DimABSA2026
We're organizing this task together with:
Liang-Chih Yu • Shamsuddeen H. Muhammad, PhD • Idris Abdulmumin • Jonas Becker • Lung-Hao Lee • Jin Wang • Jan Philip Wahle • Terry Ruas • Alexander Panchenko • Kai-Wei Chang • Saif M Mohammad
A huge thanks to this incredible team for their collaboration and ideas — it's been amazing shaping this together.
If you're working on sentiment analysis, stance detection, affective computing, or emotion modeling, we'd love to have you join us.
See you at SemEval 2026! 🌍💬
GitHub
GitHub - DimABSA/DimABSA2026: SemEval2026 Task 3 DimABSA
SemEval2026 Task 3 DimABSA. Contribute to DimABSA/DimABSA2026 development by creating an account on GitHub.
😢1🙏1
Forwarded from Kali Linux
Это настоящее откровение. 😆
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.
В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.
Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.
Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.
Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.
Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.
Источник: arxiv.org/abs/2511.15304
❤7😁3👍2🔥1😢1🎉1
Forwarded from Machinelearning
Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании.
В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива.
Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD.
Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm.
ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов.
Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B.
Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации:
⚠️ Для запуска инференса потребуется ветка
zaya форка transformers из репозитория Zyphra.@ai_machinelearning_big_data
#AI #ML #LLM #MoE #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥7👍4🥰1🎉1🙏1
Forwarded from AI.Insaf
Follow-up статья: что придумали помимо базовых декодерных авторегрессионных моделей в современных LLM. Спойлер: не особо много чего.
Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).
Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.
Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн
Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво
Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).
Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.
Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн
Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво
🔥5👍3🙏1