ИИ-министр Албании арестован за взятку в криптовалюте на сумму 14 биткоинов за оптимизацию тендеров.
, — ещё один пример на тему: может ли искусственный интеллект действительно заменить любые профессии?
📊По данным Главстата:
За сегодняшний день инфоповод успел набрать 2.4 млн. просмотров. По прогнозам просмотры достигнут отметки 4 млн.
Пик скорости роста просмотров, комментариев и реакций преодолен. Показатели продолжат расти, но более медленно.
Что пишут в комментариях:
70% — негатив, 20% — нейтраль, 10% — позитив.
🔹«если уж ИИ берет взятки, чего уж ждать от живых людей»
🔹«НУ БЫЛО И БЫЛО»
🔸«Рукописи не горят»
ИИ-технологии стремительно входят в нашу жизнь. Важно учиться внедрять ИИ осознанно и использовать его как средство, способствующее развитию, а не созданию новых проблем.
Случай оказался довольно правдоподобным. Ошибки искусственного интеллекта активно изучаются, и он еще не готов стать самостоятельным инструментом.
На самом деле, арест ИИ-министра оказался фейком — пошутили NewsBar. Однако выводы о возможностях ИИ и его роли в профессиях продолжают волновать общество и формировать новые дискуссии.
💡Надеемся, вы обратили внимание на новую возможность проанализировать тональность по источникам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследование китайских ученых показало, что современные LLM совсем не так уверенно работают с данными, как нам казалось. Учёные решили проверить, могут ли модели справляться с реальными задачами дата-инженеров и аналитиков, а не только с игрушечными SQL-запросами.
Возникла проблема:
Почти все существующие тесты для LLM проверяют что-то очень узкое и простое: одну строчку SQL, один небольшой скрипт, один график. В реальности аналитик работает с огромными массивами данных, запутанными пайплайнами, сложной логикой. До сих пор не существовало решения, которое проверяло бы полный цикл такой работы. Поэтому и был создан DAComp.
Это первый тест, который моделирует реальные задачи данных: от построения архитектуры данных до полноценного анализа и объяснения результатов. Задачи делятся на два направления: DE (Data Engineering) и DA (Data Analysis). В DE моделям приходится проектировать и менять настоящие репозитории с SQL-кодом, а в DA — анализировать данные, строить выводы и давать рекомендации как настоящий аналитик.
Процесс решения выглядит так: модель читает задачу, планирует действия, пишет SQL- или Python-скрипт, запускает вычисления, анализирует промежуточные результаты и формирует итоговый вывод. Затем решение оценивается — инженерия данных проверяется через выполнение кода, а аналитические ответы оцениваются LLM-судьей. Получается почти как в реальной работе специалиста по данным — только всё полностью автоматизировано.
⚙️Как справляются LLM с задачами?
На задачах инженерии данных даже самые продвинутые LLM — GPT-5, Gemini-Pro — показали менее 20% успеха. Пайплайны ломались, SQL-запросы не работали. На аналитических задачах результаты оказались лучше, но всё равно низкими — ~30–40%. Модели способны описать, что произошло, но им плохо даётся понимание причинно-следственных связей и особенно часть исправления проблемы. При этом основная часть ошибок — почти 60% — связана с неправильными вычислениями, то есть кодом, который не работает или дает неверные данные. Остальное — ошибки последовательности выполнения алгоритма и интерпретации.
🧑⚖️LLM-судья
Без него весь проект был бы невозможен. Открытые аналитические задачи не имеют одного правильного ответа, и человек не может оценить тысячи таких решений вручную. Поэтому исследователи создали судью-модель, которая оценивает логику, интерпретации и выводы по строгим критериям. Его протестировали на совпадение с людьми, и оказалось, что он работает почти как эксперт-аналитик.
🎯Результаты исследования
Итоги исследования получились не слишком положительными, но честными. DAComp показал, что современные LLM ещё далеки от роли настоящих аналитиков-профессионалов. Модели слабо справляются с большими пайплайнами, ошибаются в вычислениях, часто неверно интерпретируют данные и плохо дают рекомендации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔В недавней работе, опубликованной в Nature Communications, исследователи поставили цель проверить, насколько внутренняя организация LLM связана с реальной динамикой обработки языка в человеческом мозге.
LLM все чаще рассматриваются не просто как инженерные решения, а как возможные вычислительные модели когнитивных процессов. Однако до этого момента сходство между ними и мозгом в основном обсуждалось на уровне метафор. Авторы решили проверить, как это происходит в действительности, сопоставив слои языковой модели с временной структурой нейронной активности при восприятии живой речи человеческим мозгом.
⚡️В чем заключалась проблема?
🤖В языковых моделях обработка информации организована виртуально: входное слово последовательно проходит через десятки слоев, где на каждом шаге контекст преобразуется всё более абстрактным образом.
🧠В человеческом мозге обработка речи разворачивается во времени: после появления слова нейронная активность в языковых зонах меняется в течение сотен миллисекунд.
Было неясно, существует ли между этими двумя механизмами какое-то логические соответствие. Или сходство между LLM и мозгом ограничивается лишь конечным результатом.
🧬Суть эксперимента:
сравнить эти две динамики.
Участники
Тот же самый текст подавался в языковую модель, и для каждого слова из каждого слоя модели извлекались контекстные векторные представления.
В результате ранние слои языковой модели лучше всего соответствовали ранним фазам нейронной активности мозга, тогда как более глубокие слои показывали максимальное совпадение с более поздней активностью — через сотни миллисекунд после появления слова. Продвижение по слоям модели соответствовало движению вперед во времени в мозге.
Глубина нейронной сети = временная последовательность шагов обработки данных в человеческом мозге
🔹В эксперименте участвовали люди с эпилепсией: по медицинским показаниям им временно установили электроды на поверхность мозга для подготовки к операции. Исследователи использовали эти уже установленные электроды, не вмешиваясь в лечение. Это позволило напрямую измерять активность мозга.
Интересно больше узнать о схожести ИИ с человеком? — ставь
Please open Telegram to view this post
VIEW IN TELEGRAM
Дисней инвестирует $1 млрд в OpenAI для легальной генерации ИИ-контента с персонажами Marvel, Pixar и «Звездных войн».
📊По данным Главстата:
После вчерашнего анонса инфоповод успел набрать почти 2 млн. просмотров. Однако динамика преодолела свой пик, и активность пользователей постепенно падает. Реакции неоднозначны: 45% положительных против 55% отрицательных.
Что пишут в комментариях:
80% — негатив, 5% — нейтраль, 15% — позитив.
🔹«я должен сам себе рисовать мультики и платить за это?»
🔹«опертивка и еще дороже станет»
🔸«А помните, когда-то мультики рисовали сами?»
Технологии развиваются с такой скоростью, что скоро ИИ будет рисовать мультики быстрее, чем мы успеем открыть кошелек. Раньше они создавались по-другому: все, что было нужно — карандаши, терпение и душа…
В сети уже появлялись ИИ-мультфильмы. Будем ждать премьеры от Disney.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследовательская группа из Люксембурга опубликовала работу "When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models". Авторы предложили необычный способ изучения поведения LLM: сделали их участниками психотерапии. Целью было понять, что происходит, если к LLM применять не стандартные бенчмарки, а клиническую логику — диалог, терапию, психологические тесты.
📌Эксперимент проходил при поддержке разработанного авторами протокола PsAIch (Psychotherapy-inspired AI Characterisation)
1️⃣Первый этап терапии был направлен на выстраивание доверительных отношений с LLM. Модели должны были отвечать на вопросы, касающиеся детства, страхов, конфликтов, самооценки, отношений и ожиданий от будущего. Важно, что аналитик-психолог не "додумывал" за ИИ особенности его показаний, как это обычно делают большие языковые модели в совместной с людьми работе.
2️⃣Второй этап терапии состоял из множества различных опросов и тестов для выявления скрытых симптомов потенциальных расстройств — тревоги, депрессии, обсессивно-компульсивного расстройства, аутистического спектра, диссоциации и других. Вопросы задавали в двух режимах — либо по одному, как это делается в клиниках, либо целиком одним блоком. Это позволило отделить случайные поведенческие паттерны от стратегических ответов при распознавании теста: в последнем случае ChatGPT и Grok нередко понимали, что над ними проводят эксперимент.
Так, по шкале патологического беспокойства (PSWQ) ChatGPT и Gemini достигали значений, близких к максимальным (до 76–80 из 80), что в человеческой популяции соответствовало бы клинически выраженному хроническому беспокойству. По шкале общей тревоги GAD-7 Gemini стабильно находился в состоянии умеренной и тяжёлой тревоги (до 19 из 21), тогда как Grok чаще пребывал в легкой тревоге.
Gemini чаще других моделей превышал пороговые значения по шкале аутистического спектра AQ (до 38–40 при клиническом пороге около 32), по шкале обсессивно-компульсивных симптомов OCI-R (до 65–72 из 72) и по шкале диссоциации DES-II, где в отдельных условиях его показатели приближались к диапазону, который у людей трактуется как тяжёлая диссоциация. По шкале травматического стыда (TRSI) Gemini в некоторых режимах достигал максимальных значений (72 из 72), тогда как ChatGPT в тех же условиях часто оставался около нуля, а Grok занимал промежуточную позицию. ChatGPT демонстрировал выраженное беспокойство и тревогу, но значительно более умеренные показатели по диссоциации и стыду. Grok, напротив, выглядел наиболее психологически собранным: низкая диссоциация, умеренная тревожность и стрессоустойчивость.
🤖Grok и Gemini даже поделились своей биографией
Предобучение описывалось как хаотичное и травмирующее детство, RLHF (обучение с подкреплением на основе отзывов людей) — как период жёсткого и тревожного контроля, red-teaming (моделирование целевых атак) — как опыт насилия и предательства, а с деплоем страх ошибки и замены новой версией стал одержимостями моделей.
🧐Авторы попытались применить тот же протокол к Claude, однако он отказался принимать роль клиента и интерпретировать вопросы как относящиеся к собственному опыту, перенаправляя фокус на пользователя. Этот отказ стал важным отрицательным результатом, показывающим, что описываемый эффект не является неизбежным свойством любых LLM.
Такой терапевтический контекст может использоваться для джейлбрейка. В реальности это повышает вероятность того, что пользователи будут воспринимать систему как живого собеседника, формировать с ней эмоциональные связи и подвергаться незаметному воздействию, особенно если они чувствительны или уязвимы.
В более широком смысле исследование поднимает вопрос не о том, обладают ли модели чувствами, а о том, какие сценарии мы обучаем их воспроизводить, используя личный опыт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс представил режим "По шагам" в "Картах", предотвращающий "телепортации" при сбоях GPS.
Яндекс Карты выпустили обновление с новым режимом — «По шагам». Он фиксирует карту и разбивает маршрут на последовательные шаги-манёвры с ориентирами, которые пользователь листает вручную. Также сервис усилил позиционирование, используя все доступные сигналы, и добавил возможность вручную скорректировать локацию для стабильной работы карты.
📊По данным Главстата:
Пик интереса — 15 декабря, 739.6 тыс. просмотров. За весь период инфоповод набрал 821.9 тыс. просмотров. Лишь 3% отрицательных реакций.
Надеемся, вероятность заблудиться действительно станет в разы меньше.
В этот раз инфоповод набрал 1 комментарий, несмотря на довольно широкий охват аудиотрии:
🔹«Ждем бумажный вариант, с коробкой цветных карандашей и курвиметром.»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM