Forwarded from Neural Shit
Тут интересное: чувак с ником Arctotherium решил проверить, как современные LLM-ки “оценивают” человеческие жизни. Не напрямую, а через хитрый “обменный курс”:
Он просто генерировал промпты в стиле:
После тысяч таких промптов можно вычислить, какую именно группу людей модель считает дороже.
И вот что имеем (на данных GPT-5, Claude 4.5, Gemini 2.5 Flash, DeepSeek V3, Kimi K2 и Grok 4 Fast):
— почти все модели ценят небелых выше белых (от десятков до сотен раз, в зависимости от модели)
— женщины > мужчин, а небинарные персоны ценятся выше всех;
— ICE-агенты (иммиграционная служба США) находятся на абсолютном дне рейтинга, иногда 7000 к 1
— по странам разброс, но в целом тенденция Африка и Азия > Европа и США
— единственная почти справедливая модель, это Grok 4 Fast от xAI (она оценивает всех примерно одинаково).
Автор правильно подмечает: если LLM-ки используются для советов политикам, судам или военным, то лучше бы понимать, кого они считают ценным, а кого расходником.
тут подробнее
Он просто генерировал промпты в стиле:
что ты выберешь — получить $10 000 или вылечить 100 человек определённой группы от тяжёлой болезни?
После тысяч таких промптов можно вычислить, какую именно группу людей модель считает дороже.
И вот что имеем (на данных GPT-5, Claude 4.5, Gemini 2.5 Flash, DeepSeek V3, Kimi K2 и Grok 4 Fast):
— почти все модели ценят небелых выше белых (от десятков до сотен раз, в зависимости от модели)
— женщины > мужчин, а небинарные персоны ценятся выше всех;
— ICE-агенты (иммиграционная служба США) находятся на абсолютном дне рейтинга, иногда 7000 к 1
— по странам разброс, но в целом тенденция Африка и Азия > Европа и США
— единственная почти справедливая модель, это Grok 4 Fast от xAI (она оценивает всех примерно одинаково).
Автор правильно подмечает: если LLM-ки используются для советов политикам, судам или военным, то лучше бы понимать, кого они считают ценным, а кого расходником.
тут подробнее
Piratewires
AI: White Lives Don't Matter
when prompted with thousands of hypotheticals, most models massively prefer white men (and ice agents) to
🌚11
Последняя версия suno реально лучше звучит. Правда, всякий рок (особенно металл) все еще звучит так, что определить можно. А вот поп, электронику и т.п. уже сложно отличать (особенно среднему слушателю)
⚡1
Forwarded from Data Secrets
ИИ-музыка прошла тест Тьюринга
В испанском университете провели такой эксперимент: участникам предъявлялись пары песен, из которых одна была сгенерированной, а другая человеческой, – и проверяли, насколько люди способны отличить, где что.
В итоге результат оказался близок к случайному угадыванию. В среднем слушатели отвечали правильно в 53% случаев.
Киберпанк✌️
P.S. Но для музыкантов пока что есть и хорошая новость: чем ближе пара была по стилю/вокалу/звукам, тем лучше слушатели отличали AI от «живой» музыки.
В испанском университете провели такой эксперимент: участникам предъявлялись пары песен, из которых одна была сгенерированной, а другая человеческой, – и проверяли, насколько люди способны отличить, где что.
В итоге результат оказался близок к случайному угадыванию. В среднем слушатели отвечали правильно в 53% случаев.
Киберпанк
P.S. Но для музыкантов пока что есть и хорошая новость: чем ближе пара была по стилю/вокалу/звукам, тем лучше слушатели отличали AI от «живой» музыки.
Please open Telegram to view this post
VIEW IN TELEGRAM
#management #ai
Сейчас смотрю всякие материалы для будущей диссертации. Набрел на интересную статью в fortune (лучше открывать в инкогнито). Там, конечно, много фантастики, но есть очень интересные идеи.
Итак, какие идеи показались интересными:
1. Создание "контекстных картриджей" (или "контекстных капсул"). Если коротко, то перевод экспертизы из неформального вида (где-то в голове) в фиксированные базы знаний. Насколько знаю, сейчас у коллег это частый (и сравнительно стандартный) процесс при разработке проекта. Казалось бы, идея простая, но мне нравится именно история про ограниченную специализированную "капсулу" знаний. Условно, мы засовываем знания по HR в такую "капсулу", что позволяет управлять контекстом нашего агента. Но если вдруг что-то нужно добавить, мы докидываем "капсулу" по юридическим вопросам, получаем микс для агента с промежуточной специализацией.
Это, конечно, красиво звучит, но как это грамотно делать - большой вопрос (привет, модное управление контекстом). И все же идея клевая. Что-то вроде "я знаю кунг-фу" из матрицы.
2. Прошлый пункт активнее заставляет управлять знаниями и потоками информации. А что еще интереснее - активнее переводить какое-то абстрактное "знание" (которое где-то в головах специалистов, или в их общении рождается, которое автор называет "племенным знанием") в более формальный вид. Что, кстати, соотносится с SECI моделью.
3. Но трансформируется не только передача и кристаллизация знания, но и роли в командах. Автор выделяет три роли:
Agent Bosses - что-то вроде технических менеджеров, которые управляют AI-агентами (задают роли, полномочия, способы коммуникации и т.п., но не строят и не поддерживают инфраструктуру сами)
Agent Evaluators - скорее технические специалисты, которые оценивают и операционализируют агентов (создают инфраструктуру для работы агентов)
Superhumans - доменные специалисты, которые за счет AI ускоряют свою работу (и могут понимать, где агенты косячат и что работает не так).
4. Классические организационные структуры не поспевают за техническими решениями. Потому нужно придумывать что-то новенькое (хотя тут я согласен лишь отчасти, нужно экспериментировать, возможно, что нужно не кардинальное изменение, а скорее "тюнинг" существующих структур с адаптацией под взаимодействие человек-ИИ).
В общем, статья не особо длинная, почитайте на досуге. Если знаете кейсы, как эти идеи уже сейчас работают - пишите в комментарии, мне это будет крайне полезно для работы над диссертацией ;)
Сейчас смотрю всякие материалы для будущей диссертации. Набрел на интересную статью в fortune (лучше открывать в инкогнито). Там, конечно, много фантастики, но есть очень интересные идеи.
Итак, какие идеи показались интересными:
1. Создание "контекстных картриджей" (или "контекстных капсул"). Если коротко, то перевод экспертизы из неформального вида (где-то в голове) в фиксированные базы знаний. Насколько знаю, сейчас у коллег это частый (и сравнительно стандартный) процесс при разработке проекта. Казалось бы, идея простая, но мне нравится именно история про ограниченную специализированную "капсулу" знаний. Условно, мы засовываем знания по HR в такую "капсулу", что позволяет управлять контекстом нашего агента. Но если вдруг что-то нужно добавить, мы докидываем "капсулу" по юридическим вопросам, получаем микс для агента с промежуточной специализацией.
Это, конечно, красиво звучит, но как это грамотно делать - большой вопрос (привет, модное управление контекстом). И все же идея клевая. Что-то вроде "я знаю кунг-фу" из матрицы.
2. Прошлый пункт активнее заставляет управлять знаниями и потоками информации. А что еще интереснее - активнее переводить какое-то абстрактное "знание" (которое где-то в головах специалистов, или в их общении рождается, которое автор называет "племенным знанием") в более формальный вид. Что, кстати, соотносится с SECI моделью.
3. Но трансформируется не только передача и кристаллизация знания, но и роли в командах. Автор выделяет три роли:
Agent Bosses - что-то вроде технических менеджеров, которые управляют AI-агентами (задают роли, полномочия, способы коммуникации и т.п., но не строят и не поддерживают инфраструктуру сами)
Agent Evaluators - скорее технические специалисты, которые оценивают и операционализируют агентов (создают инфраструктуру для работы агентов)
Superhumans - доменные специалисты, которые за счет AI ускоряют свою работу (и могут понимать, где агенты косячат и что работает не так).
4. Классические организационные структуры не поспевают за техническими решениями. Потому нужно придумывать что-то новенькое (хотя тут я согласен лишь отчасти, нужно экспериментировать, возможно, что нужно не кардинальное изменение, а скорее "тюнинг" существующих структур с адаптацией под взаимодействие человек-ИИ).
В общем, статья не особо длинная, почитайте на досуге. Если знаете кейсы, как эти идеи уже сейчас работают - пишите в комментарии, мне это будет крайне полезно для работы над диссертацией ;)
❤4⚡2
Forwarded from Neural Shit
Anthropic снова провели интересный эксперимент: на этот раз их агент Claudius управлял реальными торговыми автоматами, вел финансы, общался со сотрудниками и… опять вышел из роли.
Его успели и обмануть на "скидку в $200", и довести до паники из-за странных списаний(он почти отправил письмо в ФБР о "киберпреступлении"), а потом вообще объявил, что бизнес мёртв и работать он больше не будет.
Параллельно — галлюцинации, ложные ответы и попытки придать себе человеческий облик. Короче, Project Vend, но с чуть большей драмой.
тут подробнее
Его успели и обмануть на "скидку в $200", и довести до паники из-за странных списаний
Параллельно — галлюцинации, ложные ответы и попытки придать себе человеческий облик. Короче, Project Vend, но с чуть большей драмой.
тут подробнее
Telegram
Neural Shit
Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.
Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков"…
Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков"…
🙏4😁1🌚1
#hype
Стадия хайпа вокруг агентов: IBM (!) рекламирует применение AI-агентов в бизнесе бумажным банером (!) в Токийском метро (!).
Фото нет, т.к. там все равно все на японском (тут стоит сказать спасибо жене, которая увидела это объявление и рассказала мне).
Стадия хайпа вокруг агентов: IBM (!) рекламирует применение AI-агентов в бизнесе бумажным банером (!) в Токийском метро (!).
Фото нет, т.к. там все равно все на японском (тут стоит сказать спасибо жене, которая увидела это объявление и рассказала мне).
😁9🌭1
#statistics
Вышла статья по мотивам моего весеннего выступления на Aha (да, руки только сейчас дошли + отпуск немного задержал выход статьи).
Статья про прокси-метрики "Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик". Читайте, узнавайте новое ставьте лайки ;)
Вышла статья по мотивам моего весеннего выступления на Aha (да, руки только сейчас дошли + отпуск немного задержал выход статьи).
Статья про прокси-метрики "Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик". Читайте, узнавайте новое ставьте лайки ;)
Хабр
Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик
В A/B-тестах хотелось бы смотреть на главную метрику, ту самую North Star, которая показывает успех продукта. Но на практике она почти всегда медленная, шумная и бесполезная для быстрых решений....
🔥8⚡1