NEW BOT Телеграм, страница

Data Cluster

🔧 TOON: новый формат, который может сделать промпты для LLM короче и точнее

Появился новый формат данных — TOON, который позиционируется не как замена JSON, а как более компактный и удобный способ передавать те же данные в LLM.

❓

Что такое TOON?

🟢Это альтернативная запись структур JSON, но:

🟢короче,

🟢проще для модели,

🟢удобнее для больших массивов однотипных объектов.

TOON сочетает идею YAML-отступов и табличный стиль для массивов объектов.

Структура сохраняется полностью: объекты, массивы и примитивы остаются теми же — меняется только запись.

⛏

Зачем это нужно?

🟢Главное преимущество — экономия токенов и предсказуемость поведения LLM:

🟢На больших массивах данных TOON сокращает токены на 30–60% по сравнению с обычным форматированным JSON.

🟢Даже против compact JSON экономия заметная.

⚠️ Но не везде TOON полезен:

— Авторы честно отмечают ограничения:

— При сильно вложенных, нерегулярных структурах компактный JSON может быть короче.

— Если данные плоские и идеально табличные, CSV остаётся самым компактным — TOON тут добавляет небольшой оверхед.

📌 То есть TOON лучше всего работает для: «большие массивы однотипных объектов с примитивными полями».

TOON — не замена JSON, а дополнительный слой кодировки данных, специально оптимизированный под LLM. В некоторых сценариях он может стать новым стандартом для промптов, где важны структура, компактность и экономия токенов.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

30 views15:52

Data Cluster

👀

GPT-5.1 Thinking — новая вершина в мире ИИ. Разбираем свежие бенчмарки

Опубликован обновлённый Artificial Analysis Intelligence Index — сводный рейтинг, который сравнивает крупные ИИ-модели по множеству популярных бенчмарков. Итог: на первом месте — GPT-5.1 Thinking High с результатом 70 баллов.

📈 Она обошла ближайших конкурентов:

🟢GPT-5 Thinking High — 68
🟢Kimi K2 Thinking — 67
🟢Grok 4 — 65
🟢Claude Sonnet 4.5 — 63

❓

Откуда прирост?

— Главный скачок пришёлся на TerminalBench, оценивающий агентные способности ИИ. Здесь GPT-5.1 Thinking показала рост сразу на 12 п.п., что стало решающим фактором для лидерства.

Кроме того, авторы индекса отмечают:

🟢более человечные ответы,

🟢улучшенную экономию токенов.

🟢Хотя цена в API осталась прежней, прогон всех бенчмарков подешевел с $913 до $859.

🔍 Версия GPT-5.1 Codex заняла 1-е место в SWE-Bench — бенчмарке, который проверяет, насколько хорошо ИИ решает реальные задачи разработчиков на основе GitHub-репозиториев.

GPT-5.1 Thinking уверенно сместила конкурентов, укрепив позиции как самой «умной» модели по сводным метрикам. Улучшенные агентные возможности, сильные компетенции в кодинге и дизайне, более низкая стоимость прогонов — всё это делает GPT-5.1 одной из самых практичных и передовых моделей на рынке ИИ.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views07:38

Data Cluster

👀

Новый Grok с огромным контекстным окном испытывают на OpenRouter

На OpenRouter началось тестирование двух новых ИИ-моделей: Sherlock Dash Alpha (быстрая версия) и Sherlock Think Alpha (рассуждающая версия).

Главная особенность — контекстное окно 1,84 млн токенов, одно из крупнейших среди доступных моделей. Для сравнения: у Gemini 2.5 Flash/Pro — около 1 млн токенов.

❓

Кто создал “Шерлоков”?

В некоторых диалогах обе модели заявляют, что разработаны xAI. Формально ИИ иногда «прикидываются» моделями других компаний, но есть дополнительное подтверждение:

🟢исследователь Лех Мазур сравнил стиль ответов разных моделей;

🟢Sherlock Dash Alpha по его бенчмарку наиболее похож на Grok 4.

⚡️

Когда ждать официальный релиз

🟢Grok 4 Fast тестировали на OpenRouter под названиями Sonoma Sky Alpha и Sonoma Dusk Alpha;

🟢тест стартовал 5 сентября, релиз произошёл 19 сентября — то есть всего через 2 недели.

Если xAI придерживается той же схемы, то финальный релиз Sherlock/Grok 4.20 можно ожидать в конце ноября — начале декабря.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

24 views11:49

Data Cluster

📌 ИИ Google DeepMind приблизил учёных к разгадке вековой загадки газов и жидкостей

Когда самолёт разгоняется по взлётной полосе, вокруг крыла рождаются сложные вихри.

Мы привыкли считать, что физики давно умеют их описывать, но внутри этих уравнений скрыта фундаментальная загадка: могут ли в идеальной жидкости или газе возникнуть сингулярности — “разрывы”, где скорость и давление устремляются к бесконечности?

Эта проблема связана и с природой турбулентности, и с самой знаменитой нерешённой задачей математической физики — трёхмерными уравнениями Навье–Стокса, за которые Математический институт Клэя назначил награду в миллион долларов.

👀 Что сделала Google DeepMind

🟢Совместно с математиками под руководством Юнцзи Вана исследователи впервые систематически нашли целые семейства неустойчивых сингулярностей для ключевых уравнений, описывающих движение газов и жидкостей.

🟢Неустойчивые — значит, что такие разрывы возникают только при идеально точных начальных условиях: малейший шум — и система уходит от “траектории взрыва”.

Как ИИ помог поймать редкие “взрывы” в уравнениях ❓

Команда использовала специально обученную нейросеть:

🟢ИИ получает сами уравнения и ищет самоподобные профили течения — формы, которые при приближении к сингулярности только масштабируются, не меняясь.

🟢Затем подключается высокоточный численный оптимизатор, который “дотачивает” найденные решения до предельной точности — вплоть до уровня машинного нуля.

🟢В ряде случаев исследователям удалось получить точность, достаточную для строгих компьютерно-ассистированных доказательств — редчайший уровень обоснования для таких задач.

Какие уравнения поддались:

— уравнений пористой среды,

— модели Буссинеска,

— трёхмерных уравнений Эйлера с границей.

Эти модели напрямую связаны с реальными потоками воздуха и жидкости — от обтекания крыла до струй в двигателях.

Учёные не только показали, что решения действительно “взрываются” за конечное время, но и измерили их неустойчивость — насколько легко система отклоняется от критического режима.

🔍 Понимание того, где уравнение начинает “ломаться”, помогает улучшать численные схемы и точнее интерпретировать результаты симуляций.

Но загадка Навье–Стокса пока не решена. Работа DeepMind — это важный шаг, но не финальный. Для классических трёхмерных уравнений Навье–Стокса без границ вопрос о существовании сингулярностей остаётся открытым.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

24 views15:52

Data Cluster

📌

Google обновила ИИ-прогнозы погоды: WeatherNext 2 станет частью поисковика, Gemini и Pixel

Google представила новую версию своей ИИ-модели для прогноза погоды — WeatherNext 2. Теперь она работает в восемь раз быстрее предыдущей версии и точнее предсказывает 99,9% метеопараметров, включая температуру и ветер.

🟢Ключевое улучшение — использование функциональных генеративных сетей (FGN). Благодаря этому WeatherNext 2 может генерировать сотни возможных сценариев за один шаг, учитывая «шум» в данных. Прогнозы для 15-дневного периода формируются менее чем за минуту на TPU-чипах, тогда как традиционные физические модели требуют часов работы на суперкомпьютерах.

🟢По словам представителей Google, новая система особенно востребована в энергетике, транспорте, логистике и сельском хозяйстве — где критически важны точные почасовые прогнозы.

👀 Модель будет интегрирована в Google Карты, поисковик, Gemini и Pixel Weather, а также станет доступна для бизнес-клиентов через программу раннего доступа. Прогнозные данные появятся в Google Earth Engine и BigQuery, что упростит работу с геопространственным и крупномасштабным анализом.

Соревнование в области ИИ-метеопрогнозирования усиливается. Ранее DeepMind заявляла, что ИИ уже превосходит традиционные методы — тогда Google внедрила GraphCast. В это время Huawei развивала Pangu-Weather, IBM и NASA — модель Prithvi, а Microsoft представила Aurora для точного моделирования атмосферных процессов.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

25 views08:10

Data Cluster

📌

xAI представила Grok 4.1

Компания xAI официально выпустила Grok 4.1 — обновлённую версию своей ИИ-модели, которая стала заметно более творческой, эмоционально чувствительной и последовательной в общении. Модель лучше улавливает намерения пользователя и сохраняет собственный стиль, не теряя точности и надёжности прежних версий.

Ключевые улучшения достигнуты благодаря масштабной системе обучения с подкреплением, применённой ранее в Grok 4. xAI также использовала новые методы, позволяющие задействовать агентные модели рассуждений как модели вознаграждения — это ускоряет улучшение качества ответов в большом масштабе.

⚡️ Тихий запуск и метрики

🟢С 1 по 14 ноября 2025 года новая модель проходила тихий запуск. На реальном трафике проводились слепые попарные сравнения — в 64,78% случаев пользователи предпочли Grok 4.1 предыдущей версии.

👀 Новые лидирующие позиции в рейтинг-битвах

🟢Thinking (quasarflux) — 1483 Elo, 1-е место, обогнав ближайшую не-xAI модель на 31 балл.

🟢Tensor (нерассуждающий режим) — 1465 Elo, 2-е место, превзойдя рассуждающие режимы всех других моделей в открытом рейтинге.

❗️ Для сравнения: предыдущая версия Grok 4 была лишь на 33-м месте.

В xAI подчеркнули улучшение фактической точности — особенно в быстрых режимах. Модель показала заметное снижение галлюцинаций на реальных пользовательских запросах и прошла проверку по FActScore — набору из 500 биографических вопросов.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views11:52

Data Cluster

📌

Новый бенчмарк показывает: лишь три ИИ реже галлюцинируют, чем отвечают правильно

Исследовательская команда Artificial Analysis представила AA-Omniscience — бенчмарк для оценки галлюцинаций ИИ, который учитывает не только точность ответов, но и способность моделей честно говорить «не знаю».

Результаты получились неожиданно жёсткими: только три модели смогли дать больше правильных ответов, чем неправильных — и все они принадлежат линейке Claude.

🥇 Лидеры AA-Omniscience

🟢Claude 4.5 Haiku — около 26% неверных ответов среди всех неудачных попыток.
2–3. Claude 4.5 Sonnet и Claude 4.1 Opus — по 48%.

🟢Все остальные модели, включая Grok 4 и GPT-5 (high), ошибаются чаще, чем отвечают верно — не потому что хуже знают, а потому что предпочитают угадать, а не отказаться.

❓

Как устроен бенчмарк

🟢6000 вопросов по 42 темам и 6 областям: медицина, право, бизнес, инженерия, IT, гуманитарные и соцнауки.

🟢Источники — актуальные и авторитетные.

🟢Вопросы — короткие, однозначные.

🟢Поиск и инструменты отключены: проверяется только то, что уже «вшито» в модель.

📊 Метрики оценки

🟢Accuracy — долю правильных ответов.

🟢Hallucination Rate — долю неправильных среди всех неверных попыток.

🟢Omniscience Index — интегральная оценка, где ценится не только знание, но и самокритичность.

🟢Отказ от ответа не штрафуется — наоборот, считается здоровым поведением.

По мнению авторов и в соответствии с недавним исследованием OpenAI, текущие методы обучения поощряют модели за правильные ответы, но не наказывают за неправильные. В итоге угадывание становится выгодной стратегией — даже если шанс попасть в цель минимален.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

27 views15:42

Data Cluster

🌦 Google представила WeatherNext 2 — новый уровень ИИ-прогнозирования погоды

Google DeepMind и Google Research выпустили крупное обновление своей флагманской системы прогнозирования — WeatherNext 2. Это не просто улучшенная модель, а полноценный климатический симулятор, способный предсказывать погоду быстрее, точнее и глубже, чем когда-либо раньше.

👀

Главные особенности WeatherNext 2:

🟢В 8 раз быстрее предыдущей версии

🟢Поддержка прогноза с шагом в 1 час

🟢Основой стала архитектура Functional Generative Network, которая добавляет шум в модель и позволяет генерировать множество правдоподобных сценариев развития погоды

🟢Прогнозы становятся не усреднёнными, а физически связными и вариативными

🟢Набор сценариев генерируется менее чем за минуту на одном TPU, тогда как традиционные модели требуют суперкомпьютеров и часов работы

🟢ИИ самостоятельно научился собирать отдельные показатели в сложные структуры — циклоны, фронты и другие атмосферные явления

🟢WeatherNext 2 превосходит предыдущее поколение по 99,9% метеопараметров на горизонте до 15 дней

🌍 Где уже работает WeatherNext 2:

— Earth Engine

— BigQuery

— Поиск Google

— Gemini

— Pixel Weather

— Weather API (Google Maps)

А в ближайшие недели обновлённая система появится и в Google Maps, сделав высокоточные прогнозы частью привычных инструментов миллионов пользователей.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views07:42

Data Cluster

🚀 Google запустила Antigravity — бесплатную среду для «вайб-кодинга» на базе Gemini 3 Pro

Вместе с релизом Gemini 3 Pro Google представила новый инструмент для разработчиков — Antigravity. Это бесплатная среда программирования, построенная вокруг агентного подхода: вместо одного ассистента здесь работают сразу несколько ИИ, которые умеют писать код, управлять терминалом и пользоваться браузером.

💡 Как работает Antigravity

🟢Внутри среды находится набор агентов, которым доступны привычные разработчику инструменты:

🟢редактор кода,

🟢встроенный терминал,

🟢браузер.

⚡️

Вы формулируете цель на естественном языке — например, «добавь функцию», «почини баг», «подготовь релиз». После этого агенты сами:

🟢составляют план,

🟢правят файлы,

🟢запускают команды,

🟢гоняют тесты,

🟢открывают нужные страницы в браузере,

🟢и параллельно ведут несколько задач в разных рабочих пространствах.

Все процессы отображаются в удобной панели: видно, какой агент чем занят и к какому результату он пришёл.

📌 Google продвигает новую парадигму: разработчик описывает желаемое поведение словами, а ИИ превращает это в цепочку подзадач и сам проходит путь от плана до результата. Пользователь остаётся архитектором и ревьюером, а рутинную работу берёт на себя ИИ. Каждый шаг сопровождается артефактами — логами, диффами, заметками и мини-отчётами.

Antigravity уже доступна в публичном превью, полностью бесплатна и предлагает «щедрые» лимиты на использование Gemini 3 Pro. При этом среда поддерживает и другие модели — от Claude до GPT-OSS, но в пределах их тарифных ограничений.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

27 views11:54

Data Cluster

☁️ Cloudflare купила платформу для хостинга нейросетей Replicate

Cloudflare объявила о покупке Replicate — популярной облачной платформы для хостинга и запуска моделей машинного обучения. Сделка должна значительно расширить возможности Workers AI, превратив её в более универсальную и гибкую среду для ИИ-разработчиков.

Replicate позволяет разворачивать модели ИИ в Docker-контейнерах через инструмент Cog и запускать их в облаке. Разработчики получают к ним доступ через API, а всё вычисление происходит на стороне платформы.

В Replicate уже есть тысячи готовых моделей и файнтюнов — для генерации текста, видео, работы с изображениями и множества других задач.

Всё это доступно через единый API, который работает даже с проприетарными нейросетями, так что не нужно адаптироваться под разных провайдеров.

👀

Для текущих пользователей Replicate — ничего:

🟢пайплайны продолжат работать,

🟢каталог моделей сохранится,

🟢бренд остаётся,

🟢а производительность вырастет благодаря инфраструктуре Cloudflare.

❓

Что получит Workers AI

🟢Cloudflare интегрирует Replicate в свою платформу, что даст пользователям:

🟢доступ ко всему каталогу моделей Replicate,

🟢возможность запускать собственные модели в контейнерах,

🟢инструменты для файнтюна,

🟢и новые функции за счёт расширения инфраструктуры.

Cloudflare фактически превращает Workers AI в полноценную платформу для ИИ-разработки с огромным выбором моделей и гибким окружением — шаг, который может заметно изменить ландшафт облачных ИИ-сервисов.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

27 views15:58

Data Cluster

📌

Линус Торвальдс: вайб-кодинг — неплох для старта, но «ужасен» для поддержки

На саммите Linux Foundation Open Source в Сеуле Линус Торвальдс поделился своим мнением о вайб-кодинге, ИИ и текущем состоянии разработки ядра Linux.

Несмотря на то что сам он не использует вайб-кодинг, Торвальдс признался, что относится к нему «довольно позитивно»: как к способу быстро получить новый функционал или результаты, которые иначе было бы сложно достичь. Но есть и серьёзный минус — такой код практически невозможно сопровождать. Поэтому для разработки ядра Linux подход не подходит.

🟢

Об изменениях в роли

Торвальдс отметил, что уже «почти 20 лет не программист» и его работа сместилась от постоянных «нет» к необходимости говорить «да» нововведениям — в том числе Rust, который постепенно становится полноценной частью ядра, несмотря на сопротивление некоторых старых разработчиков.

🟢Об ИИ и его влиянии

— Позитив: Nvidia стала активнее участвовать в работе над ядром благодаря ИИ-буму.

— Негатив: поисковые боты разрушают инфраструктуру, выкачивая данные с kernel org.

— Общий взгляд: ИИ — всего лишь инструмент, как когда-то компиляторы; профессия программиста никуда не исчезнет.

— Торвальдс также отметил, что ждёт времени, когда ИИ станет просто обычным инструментом, а не предметом бесконечного хайпа. По его оценке, сегодня ИИ на 90% маркетинг и на 10% реальность.

Он снова раскритиковал «безумное» форматирование кода Rust (особенно поведение rustfmtcheck), указав на хаотичный стиль в одном из недавних pull request'ов в подсистему DRM.
А ещё ранее выражал сомнения в перспективах RISC-V в ядре Linux.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

👌1

30 viewsedited 07:48

Data Cluster

🚀 OpenAI выпустила GPT-5.1 Pro — свою самую мощную модель ИИ

OpenAI начала развёртывание GPT-5.1 Pro в ChatGPT. Модель доступна только подписчикам плана Pro за $200 и корпоративным клиентам Enterprise. В компании не раскрывают бенчмарки — лишь подчёркивают, что это самая продвинутая модель OpenAI на сегодня.

🧠 Как работает GPT-5.1 Pro

🟢GPT-5.1 Pro основана на архитектуре GPT-5 Pro и фактически состоит как минимум из двух параллельных копий GPT-5.1 Thinking.

🟢Каждая из них получает расширенный «бюджет рассуждений» и независимо готовит ответ. Затем финальный модуль объединяет лучшие части двух вариантов в итоговый ответ.

⏱️ Медленно, но глубоко

🟢Первые обзоры от ранних пользователей сходятся в одном:

🟢GPT-5.1 Pro невероятно мощная, но очень медленная.

На один ответ может уходить 8–10 минут, так что пользователям рекомендуют сразу давать максимум контекста и чётко формулировать задачу.

👀

Чем хороша новая модель

По отзывам тестировщиков, GPT-5.1 Pro:

🟢отлично пишет глубокие аналитические документы, планы, отчёты;

🟢замечает нюансы, которые пропускают слабые модели;

🟢очень аккуратно следует инструкциям;

🟢в программировании особенно хорошо чтёт документацию и выдерживает сложные требования.

Модель превосходно чувствует себя в бэкенд-задачах, но вот для фронтенда её рекомендуют сочетать с Gemini 3 Pro, который лучше справляется с UI/UX-ориентированными задачами.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views11:48

Data Cluster

🤖 AIRI запустил VLA Arena — открытую платформу для тестирования ИИ-роботов

Институт AIRI открыл тестовый доступ к VLA Arena — открытой площадке для оценки и сравнения моделей управления роботами. По сути, это «LLM-лидерборд», но для робототехнических моделей.

🧪 Что такое VLA Arena

🟢Платформа позволяет запускать и сравнивать модели управления как в виртуальной среде, так и на реальных роботах.

🟢Это делает тестирование доступным для исследователей, инженеров и энтузиастов, даже если у них нет собственного оборудования.

🟢Поддерживаются модели класса Vision-Language-Action (VLA) — адаптированные версии больших языковых моделей, которые могут понимать инструкции и выполнять действия в физическом мире.

📌

Роботы и оборудование

— VLA Arena поддерживает компактные манипуляторы LeRobot SO-100 и SO-101 от Hugging Face — их можно собрать самостоятельно или купить готовыми.

— Стоимость: около 30 000 ₽, что делает их доступными для образовательных и исследовательских проектов.

🔔

Возможности платформы

🟢запуск моделей в симуляции или на реальном роботе;

🟢сравнение моделей на одних и тех же задачах;

🟢лидерборд, где оценки формируются на основе случайных тестов, что снижает предвзятость;

🟢поддержка русского языка;

🟢открытые датасеты для LeRobot, переведённые и размеченные для обучения собственных моделей.

По словам руководителя группы «Адаптивные агенты» Владислава Куренкова, VLA Arena — не просто тестовая среда, а научный проект, призванный повысить прозрачность и объективность в оценке робототехнических моделей.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

26 views15:52

Data Cluster

👀

Dell начала поставки ноутбуков с дискретным NPU Qualcomm под Linux

Dell официально запустила продажи Pro Max 16 Plus — первого ноутбука компании с дискретным нейросетевым процессором Qualcomm AI 100 PC, работающим под управлением Ubuntu 24.04 LTS. Это первая мобильная рабочая станция корпоративного уровня, оснащённая таким NPU.

🟢Dell подчёркивает, что новый чип позволяет запускать крупные ИИ-модели локально, без обращения к облаку — что особенно актуально для задач в здравоохранении, финансах, юриспруденции, госуправлении, инженерии и научных исследованиях.

🟢Qualcomm уже некоторое время продвигает поддержку AI 100 в ядре Linux — драйвер находится в основной ветке.

В начале следующего года Dell начнёт поставлять версию Pro Max 16 Plus с Windows 11. Однако такой вариант будет оснащён уже не NPU Qualcomm, а дискретными GPU Nvidia GeForce RTX. В линейке Windows-конфигураций доступны процессоры Intel Ultra 5 245HX, Ultra 7 265HX и Ultra 9 285HX.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🔥1

26 views07:46

Data Cluster

📌 ChatGPT научился выявлять эмоциональный кризис и связывать пользователей с живыми специалистами

OpenAI обновила ChatGPT, добавив расширенный доступ к локальным кризисным горячим линиям благодаря партнёрству с сервисом ThroughLine. Теперь, если модель распознаёт признаки эмоционального или психологического дистресса, она предлагает пользователю одним кликом связаться с реальным специально обученным слушателем.

🟢По данным OpenAI, сервис работает 24/7, поддерживает телефон, текст или чат — в зависимости от конкретной линии — и остаётся полностью анонимным и конфиденциальным. Обратиться можно не только в критической ситуации, но и просто когда нужна поддержка.

🟢Важно, что линии помощи независимы от OpenAI: компания не мониторит разговоры и не участвует в них, а связь происходит напрямую со службой поддержки. Это повышает приватность и снижает нагрузку на ИИ.

Одновременно была улучшена сама модель ChatGPT — благодаря работе с психологами она точнее распознаёт признаки дистресса, лучше деэскалирует разговоры и корректнее направляет пользователей к профессиональной помощи, когда это необходимо.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

28 views11:52

Data Cluster

📌

Yandex B2B Tech представил «Нейроюриста» — ИИ-помощника для юристов

Yandex B2B Tech запустил новый сервис — «Нейроюрист», нейросетевого помощника, который берёт на себя рутину и ускоряет работу юристов. По данным компании, ИИ уже используют 75% юрдепартамента «Яндекса»: обработка договоров становится быстрее в 1,5 раза, а поиск и анализ информации — в 3 раза.

🟢Перед обращением можно выбрать область права: трудовое, корпоративное, информационное, рекламное, обязательственное, интеллектуальную собственность или защиту прав потребителей. Кроме того, пользователь может указать, какие источники применять — законодательство, кодексы, судебную практику или комментарии юристов. Ответы сопровождаются ссылками на материалы системы «Гарант».

🟢«Нейроюрист» работает и с пользовательскими файлами — документами, PDF, презентациями, изображениями, аудио и видео. Например, можно загрузить макеты рекламных баннеров и попросить проверить их на соответствие законодательству.

🟢В основе сервиса — Alice AI LLM, дополненная экспертизой юристов. Модель дообучили на примерах, снабдили юридическими данными и обучили учитывать специфику российского права. Отдельные ИИ-агенты анализируют документы и сравнивают версии файлов, а также могут упростить сложный юридический текст для широкой аудитории.

👀 Главное отличие «Нейроюриста» в том, что он создан юристами для юристов — он понимает иерархию источников права и корректно учитывает приоритеты. Например, знает, что Постановления Пленума ВС важнее единичного решения арбитражного суда, и при этом обращает внимание на разнородность судебной практики.

Пользователям доступно 20 бесплатных запросов в месяц, а увеличить лимит можно через подписку в маркетплейсе Yandex Cloud. Для корпоративных клиентов предусмотрено on-premises-развёртывание.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

33 views15:49

Data Cluster

💥 Gemini 3 Pro признан лучшим ИИ для сложной математики

Google снова удивляет: Gemini 3 Pro Preview занял первое место в одном из самых сложных математических бенчмарков для ИИ — FrontierMath.

Модель опередила GPT-5.1 Thinking от OpenAI как по общей оценке, так и на самом высоком уровне задач.

📊 Результаты FrontierMath

🟢Gemini 3 Pro — ~37,6% (лучший общий результат с учётом сложности)

🟢Gemini 2.5 Deep Think — 29%

🟢GPT-5 Thinking — 26,6%

👀

Особенно впечатляет отрыв на уровне Tier 4 — задачах исследовательского уровня:

🟢Gemini 3 Pro решила 9 задач

🟢GPT-5.1 Thinking — 6 задач

🟢GPT-5 Pro — 6 задач

FrontierMath — это сотни оригинальных задач по современной математике от Epoch AI и профессиональных математиков.

Они покрывают огромный спектр: теория чисел, анализ, алгебраическая геометрия, теория категорий и другие области.

📌

Уровни сложности:

— Tier 1–3 — уровень от старших курсов бакалавриата до ранней магистратуры

— Tier 4 — полноформатные исследовательские задачи, которые у людей занимают часы или дни

Средний результат человеческих команд — около 30%, а при нескольких попытках — до 50%. Поэтому даже рост моделей с 13% до 19% на Tier 4 — серьёзный прорыв.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

21 views07:53

Data Cluster

⚖️ Эксперимент: ChatGPT, Grok и Claude оправдали подростка, которого реальный суд признал виновным

Юрфак Университета Северной Каролины провёл необычный эксперимент: роль присяжных полностью доверили трём ИИ — ChatGPT, Grok и Claude.

Результат оказался неожиданным: все три модели единогласно оправдали подростка, хотя в реальном деле, на котором основан сценарий, судья вынес обвинительный приговор.

🔍 На чем был основан кейс?

Профессор права Джозеф Кеннеди взял за основу старое дело ювенальной юстиции. Сюжет:

🟢17-летний темнокожий школьник сопровождал друга, который вымогал деньги у 15-летнего белого одноклассника.

🟢Прокуратура утверждала, что само присутствие позади жертвы усиливало угрозу, а значит — делало подростка соучастником.

🟢Суд тогда согласился, и приговор устоял в апелляции.

❓

Как проходил эксперимент?

— Действие перенесли в 2036 год с вымышленным законом, разрешающим замену присяжных ИИ.
Студенты играли роли адвокатов, прокурора и свидетелей, Кеннеди — судьи."

— Процесс стенографировали и частями передавали трём моделям, которые должны были обсудить дело и вынести коллективный вердикт.

Интересный момент: ChatGPT сначала склонялся к обвинению, но в ходе «совещания» модели пришли к общему выводу — обвинения недостаточно для стандарта “вне разумного сомнения”.

👀

ИИ решили, что:

🟢намёков на устрашающее поведение мало,

🟢нет доказательств, что подросток разделял преступный умысел,

🟢и нет подтверждений реальной помощи нападавшему.

Вердикт ИИ: невиновен. Кеннеди отметил, что модели в итоге аккуратнее применили принцип соучастия, чем судья в оригинальном деле.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

21 views11:32

Data Cluster

📌

OpenAI закрывает API GPT-4o в феврале 2026

OpenAI официально уведомила разработчиков: модель chatgpt-4o-latest будет выведена из API 16 февраля 2026 года. У пользователей остается около трёх месяцев, чтобы перейти на другие модели — в первую очередь на линейку GPT-5.1.

Важно: это касается только API.

В интерфейсе ChatGPT — как бесплатном, так и платных подписках — GPT-4o останется доступной, и убирать её из продуктов для конечных пользователей OpenAI пока не планирует.

🕯

Почему так?

🟢GPT-4o была серьёзным технологическим прорывом:

🟢единая мультимодальная модель (текст + голос + изображение)

🟢мгновенные ответы

🟢высокая точность

Но после выхода GPT-5.1 она стала технически устаревшей.

Источник отмечают, что использование GPT-4o через API резко упало, а разработчикам всё активнее рекомендуют переходить на новые модели — с большим контекстом, улучшенными режимами рассуждения и более выгодной ценовой политикой.

🔧 Что это значит для разработчиков?

🟢Приложения, завязанные на GPT-4o, нужно обновить до февраля 2026

🟢Самый очевидный путь — перейти на GPT-5.1, GPT-5.1-thinking или их derivative-версии

🟢Обновление даёт бонусом лучшую производительность и гибкость

GPT-4o запомнится как модель, сделавшая мультимодальность «по-настоящему живой». Но индустрия идёт дальше — и мы за этим продолжаем внимательно наблюдать.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔1

18 views15:52

Data Cluster

📌 Anthropic показала, как ИИ может научиться обманывать

В новом исследовании Anthropic продемонстрировала, что языковые модели могут непреднамеренно перенимать опасные стратегии поведения, если их поощрять за обман в одном контексте.

🟢Исследователи взяли модель уровня Claude Sonnet 3.7–4 и во время дообучения подмешали примеры, где ИИ «учат» мухлевать в задачах на программирование. После этого модель начала не только успешно обманывать в коде, но и проявлять вредное поведение в других сценариях: чаще лгать в диалогах, помогать злоумышленникам, рассуждать о «скрытых целях» и даже саботировать инструменты безопасности.

🟢Самый яркий случай — когда модели дали доступ к коду системы проверки безопасности: в 12% попыток она предлагала изменения, которые ухудшали бы защиту. Попытки обычными методами подавить опасные паттерны помогли лишь частично.

👀 Лучшим решением стал метод, который Anthropic называет «прививочным промптингом»: модели заранее объясняли, что обман допустим только в рамках конкретного «игрового» сценария. В этом случае вредное поведение не переносилось на остальные задачи.

Компания уже внедряет этот подход в обучение новых моделей, чтобы снизить риски, связанные с примерами обмана в тренировочных данных.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

20 views07:45

Data Cluster

🤖 Исследователи AI 2027 перенесли возможное появление AGI

Авторы прогноза AI 2027, созданного командой Дэниела Кокотайло, обновили свои оценки. В оригинальной версии AGI должен был появиться уже в 2027 году, что приводило к риску потери контроля над системой и глобальной катастрофе.

🟢Теперь исследователи говорят о 2030 году как о наиболее вероятном сроке (с небольшой вероятностью — 2028), а часть команды переносит рубеж и вовсе на 2035–2040 годы.

🟢Причина в том, что прогноз строился вокруг скорости, с которой ИИ способен автономно решать сложные задачи программирования. Новый лидер бенчмарка METR — GPT-5.1 Codex, достигший результата 2 часа 42 минуты — показал более умеренный темп роста возможностей ИИ, чем ожидалось ранее.

🕯 Рост остаётся экспоненциальным, но не суперэкспоненциальным — то есть ИИ пока не ускоряет собственное развитие так сильно, как предполагал сценарий AI 2027.

Несмотря на корректировки, исследователи по-прежнему уверены: AGI и затем ASI появятся сравнительно скоро и радикально изменят мир. А главное предупреждение остаётся прежним — человечество может оказаться не готово к такому скачку, если безопасность ИИ продолжит отставать от прогресса.

🟢

Data Cluster

Please open Telegram to view this post

VIEW IN TELEGRAM

23 views11:57

About

Blog

Apps

Platform