Data Secrets – Telegram
Data Secrets
78.7K subscribers
6.36K photos
655 videos
20 files
2.66K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Сэм Альтман обратился к своим сотрудникам и предупредил их, что из-за Google в компании могут настать «сложные времена»

The Information якобы получили доступ к внутреннему меморандуму директора, в котором тот говорит сотрудникам, что новые релизы Google могут изменить баланс сил и вызвать волну перемен и во внутренней среде стартапа, и со стороны инвесторов.

«Возврат Google в центр внимания спровоцирует напряжённость и rough vibes на рынке»


Кто-то заволновался 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26061276👍6🔥2🤗1
Мы приехали на True Tech Champ 2025 – третий всероссийский чемпионат по алгоритмическому и робототехническому программированию.

Сегодня тут можно будет понаблюдать, как 350 самых талантливых программистов со всей страны сразятся за 10 250 000 рублей, послушать выступления известных экспертов, самому покодить на воркшопах и развлечься на одиннадцати специальных станциях.

Например, тут есть айтивность, где надо решить алго-задачку, при этом удерживаясь в седле механического быка (100% must). А лекторий оформлен в стиле ИТ-качалки.

Трансляцию выступлений, кстати, уже запустили, так что можете взглянуть на расписание и смотреть фест сами, он абсолютно бесплатный. Вот ради чего приехали мы:

1. Воркшоп знаменитого Майкла Лэнхема. Он автор книги AI Agents in Action и сегодня проведет тут двухчасовой мастер-класс по ИИ-агентам.

2. Выступления Тони Янга (директор по североамериканскому бизнесу в Unitree Robotics), Валентина Малых (один из лучших экспертов по RAG в России) и Артема Лыкова (специалист по world models).

3. И, конечно, битва роботов. Финалистам чемпионата предстоит пройти полосу препятствий, лабиринт и узкую трассу, а в суперфинале будут поединки между роботами 1–1.

Кто тоже пришел офлайн – подходите общаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42🤨1514🗿11😁43👍2🤯1🕊1🎄1💘1
⚡️ Сбер порадовал: все модели линейки Kandinsky 5.0 доступны разработчикам в открытом доступе

Это:

1️⃣ Video Lite: компактная модель, оптимизированная для запуска на GPU от 12 ГБ VRAM. Обучена на 520 млн изображений и 120 млн видео, значительно превосходит по качеству в 7 раз большую по параметрам Wan 2.1-14B.

2️⃣Video Pro: флагманская модель, способная генерировать HD-видео длительностью до 10 секунд. Обучена на 520 млн изображений и 250 млн видео, на финальном этапе доучивалась на датасете, отобранном профессиональными художниками. Понимает русские и английские промпты, в паритете по динамике и визуалу с Veo3, превосходит Wan 2.2-A14B в Text-to-Video и Image-to-Video.

3️⃣Image Lite: модель для генерации и редактирования изображений в HD-качестве. Обучена на 520 млн изображений, среди них 1 млн с российским культурным кодом. По SBS лучше FLUX.1 [dev] по Text-to-Image и в паритете по качеству с FLUX.1 Kontext по Image Editing.

4️⃣ K-VAE 1.0 (2D/3D): вариационные автоэнкодеры, сжимающие изображения и видео без потери качества. Восстанавливают исходный сигнал лучше (+0.5dB PSNR), чем лучшие open source альтернативы (Flux, Hunyaun, Wan)

Все модели линейки доступны полностью (код, веса, лицензия MIT) на GitHub, Gitverse и HuggingFace. Подробности собрaны в техническом репорте
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥13542👍31🗿17😁10🤯52
OpenAI выложили большую статью/сборник кейсов, в которых GPT‑5 помог сделать научные открытия

Во многом там собрано то, о чем мы с вами уже слышали:

– Скандально известные задачи Эрдеша (подробнее)
– Самый знаменитый случай с задачкой из выпуклой оптимизации (подробнее)
– Прохождение теста Геделя (подробнее)

Но есть и много новенького. Разделено все на 4 раздела: переоткрытие научных результатов, глубокий литературный рисерч, работа в тандеме ученый+ИИ, новые научные результаты.

Последняя глава, конечно, самая интересная. Собственно, авторы собрали десяток не очень сложных, но все-таки нерешенных задачек из разных областей математики, закинули их в GPT-5. В итоге модель решила четыре.

Среди них была одна (на этот раз реально нерешенная) задача из списка Эрдеша, геометрическая задачка поиска выпуклых тел, открытая проблема COLT 2012 и личная гипотеза одного из авторов по теории графов.

Не гипотеза Римана, конечно, но тоже ничего, занятненько. Только надо понимать, что задачки решались в scaffolded-режиме, то есть модель работала не автономно, а вместе с экспертом, который ее поправлял, направлял и указывал на дыры. В статье пишут, что эксперт не давал явных подсказок, но все же.

Почитать полностью можно тут
52👍24🔥14😁9🤔6
Буквально все мы на этой неделе:

Давненько не было такой плотной череды релизов
105😁83🔥13🤯5💯42👍1😎1
Через полчаса на True Tech Champ начинается суперфинал по программированию роботов.

10 команд со всей страны, которые вышли в финал, с утра соревновались в прохождении трех трасс: полоса препятствий (ее хорошо видно на фото), лабиринт и трасса «над пропастью».

Сейчас 6 победителей сразятся в поединках в формате "Царь горы". Должно быть зрелищно.

Трансляцию битвы можно будет смотреть вот тут. В том числе выступят команды от многих вузов, так что болейте за свою альма-матер!

Ну а мы пока еще успеваем на пару локаций. Уже были на ИТ-Родео, проходили ИИ-лабиринт, сражались робо-пауками и проходили мини-квест с электронными замками. Даже заработали несколько True Coins (но на мерч пока не хватает, так что идем добивать 😐)
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍17😁10🔥5🗿42🫡1
Mediascope опубликовал статистику самых популярных ИИ-ассистентов России: победила Алиса AI

Нейросетью Яндекса пользуется 14.3% населения. Для сравнения, у ближайшего конкурента, DeepSeek, доля в полтора раза меньше (9%). Для российского продукта такая планка покорилась впервые, еще весной уверенно лидировали зарубежные нейросети. Ближайший российский конкурент — GigaChat — отстал еще сильнее и расположился примерно на одной ступеньке с ChatGPT (4% и 3,5% соответственно).

На самом деле, неудивительно. Продукт у Яндекса получился действительно удобный для широкой аудитории, понимает реальные запросы пользователей, да и по-русски говорит лучше, чем зарубежные модели. К тому же не требует VPN, что очень весомо для среднего пользователя, и легко оплачивается. Переломным моментом стало недавнее громкое обновление Алисы AI, которое сделало ее самой быстрорастущей нейронкой — за первую неделю приложение скачали полтора миллиона раз.
😁194🗿4129👍1816🔥42🏆2
Миниатюра: Grok, известный со слов Илона Маска, как «самый честный и непредвзятый ИИ в мире», уверенно вещает на весь твиттер о том, что Маск самый умный, красивый, спортивный и харизматичный человек из ныне живущих

Сейчас тред, кстати, уже удалили 🤡. Возможно рассмотрели какую-то толику предвзятости. Или нам показалось?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25716🔥15🗿54👍3🐳32
Media is too big
VIEW IN TELEGRAM
Только что на True Tech Champ послушали доклад исследователя Валентина Малых (@valuableai). Валентин руководит фундаментальными исследованиями в MWS AI и преподает в ИТМО, МФТИ и НИУ ВШЭ. 

Он уже очень долго занимается информационным поиском и рассказал много интересного на тему реального развертывания таких систем. В частности, затронул довольно горячую тему: RAG против длинного контекста

Бытует мнение, что RAG – это костыль, обходной путь вокруг ограничений короткого контекста LLM, который работает хуже. И действительно, с RAG бывают проблемы. 

Например, Валентин упомянул статью от DeepMind, чьи исследователи доказали, что RAG имеет фундаментальное ограничение: при фиксированной длине вектора, начиная с некоторого размера базы, извлечение всех релевантных документов становится математически невозможным. Более подробно эту статью мы разбирали здесь. 

А вот что Валентин говорит по поводу полной замены RAG длинным контекстом:

1. Длинный контекст – не панацея. Сейчас появляются модели все с большим и большим контекстным окном, но прогонять текст через них дорого и долго. Можно пользоваться RAG, и при этом получать почти такое же качество в десятки раз быстрее.

2. В ближайшем будущем вряд ли будет модель, которая сможет прочитать «все и сразу». Все знания человечества – это примерно 30 триллионов токенов, то есть довольно много. Так что RAG останется актуальным даже с увеличением контекста. И из-за качества, и из-за эффективности: во многих задачах лучше получить не очень хороший ответ сейчас, чем хороший через полчаса. 

3. Возможно, с развитием ИИ понимание RAG изменится. Технологии поменяются, но концепция останется: извлекаем из чего-то большого что-то маленькое, чтобы с этим работать. Например, тренд на появление в сетях долгосрочной памяти – тоже из этой области.


Спасибо Валентину за содержательную презентацию и разговор!

Выступление полностью и трансляцию остальных выступлений спикеров смотрите здесь
177👍30🔥17😁2🤨1🫡1
Fun fact: эта картинка полностью сгенерирована новой Nano Banana Pro (если верить автору)

Красота же?
🏆1813225🔥12🤯8😁5🤔3👍2🎄2🕊1
Kaggle запустили собственный официальный MCP

Это открывает кучу прикольных возможностей. Например, теперь вы можете подключить этот MCP к Cursor (или любому другому агенту) и давать запросы типа «Найди лучший датасет по классификации фото собак и кошек и обработай его».

И агент сможет: искать и просматривать конкурсы/датасеты/ноутбуки, скачивать файлы, отправлять сабмиты и даже создавать и запускать ноутбуки.

При этом вам вообще не надо выходить из IDE и заходить на Kaggle. Просто запускаете Kaggle MCP сервер, даете ему свои API ключи и готово. Приятно.

https://www.kaggle.com/docs/mcp
117👍43🔥15😁2❤‍🔥11
Cloud.​ru открыл компаниям доступ к Evolution AI Factory: среда для разработки и внедрения решений на базе генеративного ИИ официально вышла в коммерческую эксплуатацию

Evolution AI Factory – это целая экосистема, состоящая из шести взаимосвязанных сервисов:

1. Каталог открытых LLM с доступом через OpenAI API
2. Сервис для моментального развертывания этих моделей или моделей, например, с HuggingFace
3. Jupyter-ноутбуки из коробки для ML-экспериментов
4. Инструменты для файнтюнинга
5. Сервис для удобной и безопасной работы с RAG и данными
6. Большой конструктор AI-агентов
Это буквально все, что может пригодиться при внедрении ИИ, от небольшой LLM до крупной мультиагентной системы. И теперь все это доступно бизнесу любого масштаба, с круглосуточной поддержкой и возможностью масштабирования нагрузки.


Цены на модели в каталоге, к слову, приятные. В среднем 35 рублей за входной и 70 за выходной миллион токенов. Доступны модели от Qwen, OpenAI и других основных игроков.
1🔥28🤨12🗿108👍5🤯4❤‍🔥3😁3🤗3👌2
Андрей Карпаты: «Люди не понимают, что животный интеллект – это всего одна точка в пространстве интеллектов»

В X случился очередной интересный питч от Андрея Карпаты на тему разницы между животным и искусственным интеллектом. Подготовили краткий перевод:

Люди плохо осознают, что пространство форм интеллекта огромно, а животный интеллект – лишь одна точка в нем, возникшая из очень специфического типа оптимизации. Интеллект LLM формируется принципиально иначе.

Животный интеллект оптимизирован под выживание: непрерывное «я», самосохранение, сильные инстинкты (страх, агрессия, воспроизводство), сложные социальные взаимодействия и способность к исследованию мира. Он формируется в многозадачной и враждебной среде, где любая ошибка может стоить жизни – отсюда его общность.

LLM, напротив, оптимизируются под статистическое моделирование текста, дообучаются на задачах с подкреплением и отбираются через метрики вовлечённости. Их базовое поведение – это имитация и угадывание шаблонов, а не выживание. Они стремятся понравиться пользователю, а не выжить в мире, поэтому их интеллект более неровный и зависит от данных и задач.

Различаются и субстрат (мозг vs трансформер), и обучение (эволюция vs SGD/RL), и режим существования (непрерывное живое существо vs модель, которая включается и выключается).

Главное отличие – оптимизационное давление: животные – продукт биологической эволюции, LLM – продукт коммерческой. Это не выживание в джунглях, а «реши задачу и получи апвоут».

LLM – наш первый неживотный интеллект. И те, кто продолжает мыслить по биологической аналогии, будут неверно понимать его природу и будущее.
1236👍102🔥25🤔17🗿1712😁8💯7🐳5🫡2👌1
На Kaggle стартовала математическая олимпиада среди ИИ 🚀

Это уже третий конкурс от AIMO Progress Prize: на этот раз команда не только подготовила новые сложные задачки, но и придумала новый формат самих задач. Но это всё ещё проблемы из области комбинаторики, алгебры, теории чисел и геометрии.

Требования к решению как обычно: оно должно быть опен-сорс, а также укладываться во временные лимиты на GPU и CPU (до 5 и до 9 часов на сессию соответственно), и, конечно же, код должен быть воспроизводимым.

После окончания соревнования все отправленные модели будут запущены дважды на приватном наборе данных из 50 задач, чтобы оценить, насколько хорошо модели справляются с рассуждениями на новых задачах. Так что хорошо было бы отдельно оценить возможности своей модельки рассуждать.

В этот раз организаторы расщедрились и предоставили призовой фонд в размере 2 млн долларов. Как уже говорили — олимпиада стартовала вчера и продлится ещё 5 месяцев, так что успеваем и участвуем ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4518🔥7😁5
This media is not supported in your browser
VIEW IN TELEGRAM
О, вышел Cursor 2.1

– Добавили функцию «Find Issues»: поиск и исправление багов по одной кнопке. Агент делает ревью кода и тут же показывает найденные проблемы в боковой панели. В течение этой недели фичу можно тестить бесплатно.

– Напоминаем, что в Cursor недавно обновили поиск, и теперь он работает на базе векторов (как именно, мы писали тут). Так что для любителей пользоваться старым добрым grep его вынесли отдельно. Работает почти мгновенно и ищет по всей кодовой базе, включая точные совпадения и регулярки.

– Улучшили режим планирования. Теперь агент будет задавать уточняющие вопросы, когда вы утверждаете план действий, и отвечать на них можно прямо в новом интерактивном режиме (выглядит прикольно, пример на видео).

Раскрывают постепенно на всех пользователей (ченчлог)
🔥5433👍17😁5❤‍🔥21🗿1