Data Secrets – Telegram
Data Secrets
87.9K subscribers
6.57K photos
689 videos
20 files
2.82K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
На t-sync инженеры обсудили как сделать данные управляемыми по модели SRE. В Т-Технологиях называли это DRE - Data Relibility Engineering.

В рамках инженерного контура Data T-Технологии показали как удалось внутри крупного бизнеса с террабайтами данных сделать данные SRE-продуктом с прозрачной ответственностью и измеримостью.

Когда речь идет о данных обычно акцентируют внимание на lakehouse, AI и ускорении пайплайнов. В T Data Platform инженеры формализовали критичность данных (BC+, BC и т.д.), задали SLO, допустимый простой и время реакции. Через Data Contracts c более 9000 контрактов и DQ Tools, которые реализуют свыше 34 000 проверок, считается кумулятивная критичность по data-графу, есть контракт с бизнесом на качество и актуальность. Инцидент теперь — не просто "упала таблица", а нарушение бизнес-ожидания, с возможностью эскалации до уровня data-продукта. Цена падения — не просто ошибка в DAG. Это потеря доверия, срыв SLA бизнеса, финансовые и репутационные риски. DRE позволяет считать и минимизировать эту цену.
Data Incident Management обеспечивает оповещения, прозрачность и аналитику по 985 дата-процессам от 38 бизнес-линий внутри Т-Технологий.

T Data Platform за 18 лет эволюционировала от ETL в полноценный продукт: Sources, Storage (LakeHouse на Spark/Trino+S3), Governance с observability. Подробный разбор как устроена T Data Platform
126👍11🗿8🔥6😁2🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Google представили Lyria 3 для генерации музыки

Самое интересное в модельке, – пожалуй, то, что она мультимодальная. Трек можно создать не только по промпту, но и из фото или видео.

То есть вы можете просто молча (или вместе с текстом) загрузить изображение или видео, и сгенерируется музыка, подходящая по атмосфере и смыслу.

Попробовать уже можно в Gemini app и на десктоп, скоро раскатят на всех. Длина треков – до 30 секунд.

Короче, новой волне ИИ-слопа – быть. Хотя, Google пишут, что каждая композиция генерируется с невидимым водяным знаком. Может это хоть немного спасет стриминги от «музыкантов».
9333👍12🤯7🤨5🔥3😁3
Яндекс Карты стали умнее за счет новой ML-модели ранжирования

Задача навигации – не только построить маршрут, но и выбрать, какой из нескольких разумных вариантов путей между А и Б показать пользователю первым. Раньше это работало просто по времени пути: кто быстрее, тот и выше.

Но те, кто передвигаются на машине, знают: самый быстрый маршрут – далеко не всегда самый логичный и удобный.

Так что теперь ранжирование в Картах устроено иначе. ML-модель учитывает не только время, но и то, по каким маршрутам водители доезжают до конца, а с каких сходят. Вот как это работает:

Каждый маршрут описывается вектором признаков (время, исторические данные о поведении пользователей на его участках, количество поворотов и тд);

По этим признакам модель выдает каждому маршруту скор, который отражает вероятность того, что пользователь успешно доедет по нему до конца;

В выдаче маршруты теперь сортируются не просто по времени, а именно по этому скору.

В итоге теперь первый маршрут на экране – тот, который действительно бы выбрал опытный водитель, и по которому вы вероятнее всего проедете от начала до конца. Подробности — на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥126👍33🗿2514😁776🤔4👨‍💻1
OpenAI завершила первые коммитменты по новому мега-раунду финансирования

Ожидается, что в общей сложности компания получит 100 миллиардов долларов и по итогам раунда будет оцениваться примерно в $830 млрд.

Эта сделка станет крупнейшей в истории частного финансирования. При этом, напоминаем: OpenAI все еще зарабатывает ровным счетом 0 долларов в год и уходит в огромный убыток. Доходы превысят расходы компании только к 2029, и то – может быть.

Среди главных инвесторов – SoftBank, Nvidia, Amazon и Microsoft. Обратите внимание, что деньги (как это принято в ИИ-пузыре) в основном вернутся этим же компаниям, потому что OpenAI собирается закупать мощности именно у них.
50🤔2824🔥14👍6😁5🤯3🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: Сэм Альтман и Дарио Амодеи отказались держаться за руки

Во время AI саммита в Дели премьер-министр Индии затеял так называемый Unity Raise: довольно распространенная «церемония», когда участники берутся за руки, поднимают их вверх и как бы демонстрируют солидарность.

За руки взялись все до одного, кроме… Сэма и Дарио, которые случайно оказались рядом.

Напоминаем, что раньше эти двое работали вместе и Дарио занимал пост вице-президента по исследованиям в OpenAI. Но из-за разногласий с руководством в 2020 году он покинул стартап и основал Anthropic. С тех пор они с Альтманом – прямые конкуренты, а окончательно отношения с Сэмом разладились, вероятно, после той самой рекламы про рекламу на Super Bowl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁37145🏆14🤗1085😎3🤯2🦄2
Когда поставили на один проект с тем самым коллегой
😁40639💯198🫡31🔥1
Сегодня ИИ становится частью разработки. Компании ждут не экспериментов, а рабочих решений, которые можно встроить в продукт и масштабировать.

На программе «ИИ-разработчик» от МТУСИ и Нетологии учат создавать такие решения. За 6 месяцев вы пройдёте полный цикл ИИ-разработки: от работы с API и векторными базами данных до продакшена, агентов и MLOps.

В программе много практики. Вы разработаете ИИ-помощников, чат-ботов с контекстом, RAG-системы и агентные решения. В портфолио будет 5 проектов, которые покажет реальный уровень навыков.

Обучение проходит онлайн, в формате вебинаров и практических заданий с проверкой. По итогам вы получите два диплома о профессиональной переподготовке — от МТУСИ и Нетологии.

Промокод AIDEVNETO дает скидку 10 000 на курс.

Подробная программа и условия обучения – https://netolo.gy

Реклама. ООО "Нетология" ОГРН 1207700135884 Erid: 2VSb5xU7mpm
🗿34😁16🤨103😍1
Большой обзор того, как сегодня обучают фронтирные LLMы

djdumpling.github.io/2026/01/31/frontier_training.html

Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.

Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.

Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы

... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом

Если вы в теме – это мастрид.

* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
73🔥23👍12😁1🤯1👌1🗿1
Google выпустили Gemini 3.1 Pro

Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:

– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)

Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.

Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем 🔥

blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Please open Telegram to view this post
VIEW IN TELEGRAM
2125👍26🤯26🔥115👏3🦄3❤‍🔥1
Каждый день в 2026 такой типа
😁357💯7922🔥71
Есть здесь те, кто поступает в этом году в ШАД?

С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.

В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.

23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.

Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.

Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.

Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.

А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:

На нем объяснят, какие подводные камни есть при подготовке и ответят на любые вопросы по поступлению в ШАД.
Также на встрече будут
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.

Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨5212👍9🤯9🗿6❤‍🔥4😁4🔥3
СММ-щик официального аккаунта ChatGPT в твиттере определенно заслуживает уважения
2😁3413415🔥8🫡64👍2💘1
В Microsoft придумали технологию хранения данных в стекле

Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.

Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.

Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.

В чем фишка такого хранения?

Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.

Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.

В-третьих, энергоэффективность: хранение, считай, получается бесплатным.

В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
98🔥42👍26😁2