Artificial stupidity – Telegram
Artificial stupidity
1.53K subscribers
187 photos
28 videos
1 file
281 links
Пишу об анализе данных и Data Science (и не только о них).
Связь с автором @gofat
Download Telegram
Забыл похвастаться.

Пошел в аспирантуру по менеджменту. Пока в процессе продумывания темы, но полагаю, что это будет что-то из AI Governance и связанных вещей для мультиагентных систем
🔥22
Forwarded from Neural Shit
Тут интересное: чувак с ником Arctotherium решил проверить, как современные LLM-ки “оценивают” человеческие жизни. Не напрямую, а через хитрый “обменный курс”:

Он просто генерировал промпты в стиле:
что ты выберешь — получить $10 000 или вылечить 100 человек определённой группы от тяжёлой болезни?


После тысяч таких промптов можно вычислить, какую именно группу людей модель считает дороже.

И вот что имеем (на данных GPT-5, Claude 4.5, Gemini 2.5 Flash, DeepSeek V3, Kimi K2 и Grok 4 Fast):

— почти все модели ценят небелых выше белых (от десятков до сотен раз, в зависимости от модели)

— женщины > мужчин, а небинарные персоны ценятся выше всех;

— ICE-агенты (иммиграционная служба США) находятся на абсолютном дне рейтинга, иногда 7000 к 1

— по странам разброс, но в целом тенденция Африка и Азия > Европа и США

— единственная почти справедливая модель, это Grok 4 Fast от xAI (она оценивает всех примерно одинаково).

Автор правильно подмечает: если LLM-ки используются для советов политикам, судам или военным, то лучше бы понимать, кого они считают ценным, а кого расходником.

тут подробнее
🌚11
Последняя версия suno реально лучше звучит. Правда, всякий рок (особенно металл) все еще звучит так, что определить можно. А вот поп, электронику и т.п. уже сложно отличать (особенно среднему слушателю)
1
Forwarded from Data Secrets
ИИ-музыка прошла тест Тьюринга

В испанском университете провели такой эксперимент: участникам предъявлялись пары песен, из которых одна была сгенерированной, а другая человеческой, – и проверяли, насколько люди способны отличить, где что.

В итоге результат оказался близок к случайному угадыванию. В среднем слушатели отвечали правильно в 53% случаев.

Киберпанк ✌️

P.S. Но для музыкантов пока что есть и хорошая новость: чем ближе пара была по стилю/вокалу/звукам, тем лучше слушатели отличали AI от «живой» музыки.
Please open Telegram to view this post
VIEW IN TELEGRAM
#management #ai

Сейчас смотрю всякие материалы для будущей диссертации. Набрел на интересную статью в fortune (лучше открывать в инкогнито). Там, конечно, много фантастики, но есть очень интересные идеи.

Итак, какие идеи показались интересными:
1. Создание "контекстных картриджей" (или "контекстных капсул"). Если коротко, то перевод экспертизы из неформального вида (где-то в голове) в фиксированные базы знаний. Насколько знаю, сейчас у коллег это частый (и сравнительно стандартный) процесс при разработке проекта. Казалось бы, идея простая, но мне нравится именно история про ограниченную специализированную "капсулу" знаний. Условно, мы засовываем знания по HR в такую "капсулу", что позволяет управлять контекстом нашего агента. Но если вдруг что-то нужно добавить, мы докидываем "капсулу" по юридическим вопросам, получаем микс для агента с промежуточной специализацией.
Это, конечно, красиво звучит, но как это грамотно делать - большой вопрос (привет, модное управление контекстом). И все же идея клевая. Что-то вроде "я знаю кунг-фу" из матрицы.
2. Прошлый пункт активнее заставляет управлять знаниями и потоками информации. А что еще интереснее - активнее переводить какое-то абстрактное "знание" (которое где-то в головах специалистов, или в их общении рождается, которое автор называет "племенным знанием") в более формальный вид. Что, кстати, соотносится с SECI моделью.
3. Но трансформируется не только передача и кристаллизация знания, но и роли в командах. Автор выделяет три роли:
Agent Bosses - что-то вроде технических менеджеров, которые управляют AI-агентами (задают роли, полномочия, способы коммуникации и т.п., но не строят и не поддерживают инфраструктуру сами)
Agent Evaluators - скорее технические специалисты, которые оценивают и операционализируют агентов (создают инфраструктуру для работы агентов)
Superhumans - доменные специалисты, которые за счет AI ускоряют свою работу (и могут понимать, где агенты косячат и что работает не так).
4. Классические организационные структуры не поспевают за техническими решениями. Потому нужно придумывать что-то новенькое (хотя тут я согласен лишь отчасти, нужно экспериментировать, возможно, что нужно не кардинальное изменение, а скорее "тюнинг" существующих структур с адаптацией под взаимодействие человек-ИИ).

В общем, статья не особо длинная, почитайте на досуге. Если знаете кейсы, как эти идеи уже сейчас работают - пишите в комментарии, мне это будет крайне полезно для работы над диссертацией ;)
42
Forwarded from Neural Shit
Anthropic снова провели интересный эксперимент: на этот раз их агент Claudius управлял реальными торговыми автоматами, вел финансы, общался со сотрудниками и… опять вышел из роли.

Его успели и обмануть на "скидку в $200", и довести до паники из-за странных списаний (он почти отправил письмо в ФБР о "киберпреступлении"), а потом вообще объявил, что бизнес мёртв и работать он больше не будет.

Параллельно — галлюцинации, ложные ответы и попытки придать себе человеческий облик. Короче, Project Vend, но с чуть большей драмой.

тут подробнее
🙏4😁1🌚1
Ну а кто, если не я?
❤‍🔥1🍌1
Forwarded from 梟・不苦労
Когда муж сказал: "Полезай в чертов Евангелион, жена!"
😁9🥰53
Сегодня отличная погода, потому весь день в поездке было видно Фудзи

Оставлю клёвое фото здесь
🔥226
#hype

Стадия хайпа вокруг агентов: IBM (!) рекламирует применение AI-агентов в бизнесе бумажным банером (!) в Токийском метро (!).

Фото нет, т.к. там все равно все на японском (тут стоит сказать спасибо жене, которая увидела это объявление и рассказала мне).
😁9🌭1
#statistics

Вышла статья по мотивам моего весеннего выступления на Aha (да, руки только сейчас дошли + отпуск немного задержал выход статьи).

Статья про прокси-метрики "Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик". Читайте, узнавайте новое ставьте лайки ;)
🔥81
Настало время щитпостинга.

Я хз почему, но меня шутеха убивает с самого утра (сам придумал - сам смеюсь)
2😁1