Борис опять – Telegram
Борис опять
15.1K subscribers
1.43K photos
72 videos
30 files
1.47K links
life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin
Download Telegram
🍎

Мы переизобрели CSV (два раза если считать TOON)

Я только пытаюсь понять шутит автор VSC или нет. Вроде бы шутит, но нашлась какая-то медиум статья, где он как будто пишет серьёзно
Please open Telegram to view this post
VIEW IN TELEGRAM
140🔥25🤔2
879👍1
Gemini 3 Pro бенчмарки простыми словами

- Очень большой рост на Humanity's Last Exam: это про решение очень сложных задач.
- Очень большой рост на Arc AGI 2: это про способность понимать правила задачи по парочке примеров и далее применять их в новых случаях.
- Большой рост по способностям понимать сложные изображения вроде скриншотов и графиков (бывшие коллеги из eBay обратите внимание).
- SWE-bench verified лишь незначительно отстаёт от Sonnet 4.5: это про способность решать реальные задачи по разработке софта. Короче модель на уровне Соннета.
- Большой рост по всему, что касается тулколлов и агентности. Особенно Vending Bench 2 выделяется — это про долгосрочное планирование.

Все стандартные бенчи типа MMMLU чуть-чуть выросли.

В общем большая ставка на агентность. Возможно на этой модели уже можно сделать какой-то рабочий computer use.

Выглядит как рост уровня того, что было при переходе от GPT-3.5 к GPT-4. Давно такого не было! Но подождем результатов на арене, SWE Rebench и прочих штуках, где нельзя оверфитнуться на тест
🔥554🤔2
Для тех кто не понимает почему когда у AWS проблемы пол интернета падает, объясняю. Это тоже самое как когда в России выпадает снег и весь транспорт встает как будто зимы раньше никогда не случалось
151😢10
Forwarded from epsilon correct
Nano Banana Pro

Новая бананья на основе Gemini 3 Pro (блогпост) с генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
👍30
Cloud.​ru запустил в коммерческую эксплуатацию Evolution AI Factory — среду для создания решений на основе GenAI.

AI Factory состоит из шести взаимосвязанных сервисов для полного цикла работы с AI:
- Foundation Models — каталог открытых больших языковых моделей с доступом через OpenAI API.
- ML Inference — позволяет быстро развернуть модели из каталога HuggingFace, а также любые другие.
- Evolution Notebooks на базе Jupyter Lab — для экспериментов с машинным обучением и тестирования гипотез.
- ML Finetuning — для дообучения моделей под специальные задачи бизнеса.
- Managed RAG — для использования внутренних данных и повышения точности ответов моделей.
- AI Agents — для запуска агентов, самостоятельно выполняющих задач.

Теперь доступ ко всем сервисам предоставляется по доступным тарифам, с гарантированным уровнем сервиса (SLA), круглосуточной поддержкой и возможностью масштабирования нагрузки.

Представили цены на доступ к открытым большим языковым моделям из собственного каталога. Средняя цена составит составляет 35 рублей за входной и 70 за выходной миллион токенов.
👍1514🤔6
#дайджест

Дайджест ML/AI за неделю с 17 - 23 Ноября 2025

Экспериментальный пост! По двум причинам. Во-первых, тестирую сам формат дайджестов. Во-вторых, дайджест делал не я. Я люто ненавижу писать ссылко-посты (несмотря на то, что вижу в них пользу). Ну не получается у меня. Поэтому я заплатил за это человеку, а потом отредактировал. Так что это эксперимент по добавлению других людей по эту сторону канала. Оставляйте свой фидбек!

Google: Gemini 3 Pro.
Новое поколение Gemini, SOTA по всем бенчмаркам с значимым отрывом.
ARC-AGI-2 +13%, Humanity's Last Exam +11%.
Доступна бесплатно в Google AI Studio, при этом API модели обойдется на дороже на 20% чем у Gemini 2.5 Pro.
Карточка модели, Пробовать здесь, описание бенчмарков от меня.

Google: Nano Banana Pro.
модель для редактирования изображений на основе Gemini 3. Очень сильно прокачали консистентность и следование сложным промптам. Модель уже можно попробовать в Google AI Studio или приложении Gemini. Бесплатно дается 5 генераций в сутки через free-tier Gemini App.
Пробовать здесь, Блогпост модели

Снова Google: выпустили агентскую IDE Antigravity.
Google не просто так выкупали за $2.4b команду Windsurf и наконец выпустили свой аналог Cursor/Codex. Работает достаточно удобно, доступна Gemini 3 Pro. Можно попробовать бесплатно здесь.

xAI выпустили Grok 4.1.
Модель заняла первое место на LLM Arena. В карточке очень мало бенчмарков, показали только эмоциональный интеллект и creative writing, так что видимо модель оптимизирована под AI goth gf.
Карточка модели

OpenAI заменяет GPT-5.1-Codex на GPT-5.1-Codex-Max.
Сочувствуем если вы успели привыкнуть к старой модели за её долгую (6 дней) жизнь. Тоже небольшой рост бенчмарков, минорный апдейт.
Карточка модели

Tencent выпустила HunyuanImage 3.0.
Открытая мультимодальная MoE-модель на 80B параметров, 14B активных, по бенчам из собственной статьи обходит Nano Banana не pro.
Код здесь, попробовать здесь (надо выбирать почту для входа)

Qwen-2-VL-7B научили играть в Genshin Impact
Причем без использования RL. При этом модель показывает генерализацию и на другие гачи игры .
Летсплей от 7B модельки, Статья, разбор статьи в сиолошной

Half-Life 3
Не анонсировали :c
🔥35👎26👍9🤔41
Nanobana Pro конечно совсем не впечатляет. Все пишут, что она решает сложные задачи прямо на изображении. Но я попросил её добавить на мой ноут стартап который принесет мне миллиарды долларов и получил только эту картинку
151🤔12😢52👍1👎1
Forwarded from AI[ex]Time
Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения.

Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘

Gemini 3 Pro на подходе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13🤔6
В IT компаниях бывает только две проблемы:

1. Команды общаются между собой слишком мало.
2. Команды общаются между собой слишком много.

Эта шутка доступна от грейда синьор и выше
12526🤔9👍1😢1
У меня есть бизнес идейка, послушайте, а что если...
51🔥33🤔21
Первый курс в магистратуре по ML если бы я был деканом.

Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера

Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.

Курсовая работа: Kaggle соревнование по построению кибергулага
15437😢13🔥11👎4👍2🤔2
https://x.com/iclr_conf/status/1994104147373903893

Произошел слив данных авторов и ревьюеров ICLR, а так же других конференций, которые работали через OpenReview.net

Организаторы ICLR попросили обращаться к ним в случае угроз и попыток подкупа, а так же обещали максимальное возмездие в случае использования слитой информации. Как будто это остановит желающих поквитаться с ревьюером #2

Готовимся к череде загадочных нападений в коридорах университетов
694🔥1
Мы сами создали этот мир
118😢168
Кент: могу пореферить в хорошее место

Куда он тебя реферит:
13910
Коротко о том почему в моей книге не будет ллмного текста

😱
Please open Telegram to view this post
VIEW IN TELEGRAM
122👍82🤔2
#дайджест

Дайджест ML/AI за неделю с 24 - 30 Ноября 2025

Anthropic: Claude Opus 4.5.
Opus 4.5 - SOTA на кодинг-бенчмарках и агентских задачах. Кроме того, цену модели снизили в 3 раза до $5/$25.
Карточка модели, swe-rebench.

Black Forest Labs: FLUX.2
Новый генератор изображений с Mistral 3 24B в качестве энкодера. Крепкий оупенсорс, немного слабее Nano Banana Pro, но дешевле.
Попробовать здесь, Веса, Блогпост, Технический блогпост

Safe Superintelligence Inc.: Илья
Илья Суцкевер в полуторачасовом интервью у Дваркеша Пателя. Илья считает что эпоха масштабирования закончилась и начинается эпоха ресерча.
Интервью, Основные тезисы

США: Genesis Mission
Правительство США увеличивает стратегические инвестиции в AI. В дополнение к уже существующей с начала года программы Stargate по строительству новой инфраструктуры, добавилась Genesis Mission. Программа консолидирует компьют, научные данные и экспертизу национальных лабораторий и предоставляет их AI компаниям с целью ускорения науки.
Более подробный пост, Документ - Разбор документа

DeepSeek: DeepSeekMath-V2
685B модель заточенная под решения математических олимпиад. Показывает себя на уровне Gemini Deep Think, выигравшем золото на IMO. Как этого добились можете прочитать в оригинальной статье, или для ленивых в разборе статьи.
Модель на HF

Tencent: HunyuanOCR 1B
1B мультимодальная VLM для OCR. Модель доступна на GitHub и Hugging Face, поддерживает 100+ языков и решает задачи от распознавания уличных вывесок до полного разбора документов с таблицами (HTML), формулами (LaTeX) и субтитров. На некоторых бенчах обходит даже Qwen3-VL-4B.
Репорт, Модель на HF

Microsoft: Fara-7B
Компактная открытая модель для автономного управления UI по скриншотам. Предсказывает координаты кликов и нажатия клавиш. 73.5% успеха на WebVoyager — выше GPT-4o!
Блог пост, Модель на HF

Meta: AdvancedIF Benchmark
Новый бенчмарк для тестирования многослойного следования инструкциям в LLM. В наборе — 1600+ промптов, каждый содержит 6 одновременных условий: формат, стиль, логические зависимости, запреты, перекрёстные ограничения и др. Проверяются как однократные ответы, так и управление через системные промпты и удержание контекста в длинных диалогах.
HF
🤔147👎64👍2
Когда благодаря сливу авторов и ревьюеров ICLR нашел виноватого в том, что ты ничего не можешь опубликовать
107😢10👍2