Data Secrets
История о том, что будет, если не ревьюить вайб-код: DeFi‑протокол Moonwel потерял около 1.78 млн долларов из-за ошибки в коде, которую сделал Opus 4.6 В PR, который был помечен, как «Co-Authored-By Claude Opus 4.6», оказалась неправильно прописана формула…
This media is not supported in your browser
VIEW IN TELEGRAM
Тот самый разработчик из Moonwell ревьюит PR от Claude Code перед релизом в прод:
😁371🔥17❤9🏆7
На t-sync инженеры обсудили как сделать данные управляемыми по модели SRE. В Т-Технологиях называли это DRE - Data Relibility Engineering.
В рамках инженерного контура Data T-Технологии показали как удалось внутри крупного бизнеса с террабайтами данных сделать данные SRE-продуктом с прозрачной ответственностью и измеримостью.
Когда речь идет о данных обычно акцентируют внимание на lakehouse, AI и ускорении пайплайнов. В T Data Platform инженеры формализовали критичность данных (BC+, BC и т.д.), задали SLO, допустимый простой и время реакции. Через Data Contracts c более 9000 контрактов и DQ Tools, которые реализуют свыше 34 000 проверок, считается кумулятивная критичность по data-графу, есть контракт с бизнесом на качество и актуальность. Инцидент теперь — не просто "упала таблица", а нарушение бизнес-ожидания, с возможностью эскалации до уровня data-продукта. Цена падения — не просто ошибка в DAG. Это потеря доверия, срыв SLA бизнеса, финансовые и репутационные риски. DRE позволяет считать и минимизировать эту цену.
Data Incident Management обеспечивает оповещения, прозрачность и аналитику по 985 дата-процессам от 38 бизнес-линий внутри Т-Технологий.
T Data Platform за 18 лет эволюционировала от ETL в полноценный продукт: Sources, Storage (LakeHouse на Spark/Trino+S3), Governance с observability. Подробный разбор как устроена T Data Platform
В рамках инженерного контура Data T-Технологии показали как удалось внутри крупного бизнеса с террабайтами данных сделать данные SRE-продуктом с прозрачной ответственностью и измеримостью.
Когда речь идет о данных обычно акцентируют внимание на lakehouse, AI и ускорении пайплайнов. В T Data Platform инженеры формализовали критичность данных (BC+, BC и т.д.), задали SLO, допустимый простой и время реакции. Через Data Contracts c более 9000 контрактов и DQ Tools, которые реализуют свыше 34 000 проверок, считается кумулятивная критичность по data-графу, есть контракт с бизнесом на качество и актуальность. Инцидент теперь — не просто "упала таблица", а нарушение бизнес-ожидания, с возможностью эскалации до уровня data-продукта. Цена падения — не просто ошибка в DAG. Это потеря доверия, срыв SLA бизнеса, финансовые и репутационные риски. DRE позволяет считать и минимизировать эту цену.
Data Incident Management обеспечивает оповещения, прозрачность и аналитику по 985 дата-процессам от 38 бизнес-линий внутри Т-Технологий.
T Data Platform за 18 лет эволюционировала от ETL в полноценный продукт: Sources, Storage (LakeHouse на Spark/Trino+S3), Governance с observability. Подробный разбор как устроена T Data Platform
1❤26👍11🗿8🔥6😁2🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Google представили Lyria 3 для генерации музыки
Самое интересное в модельке, – пожалуй, то, что она мультимодальная. Трек можно создать не только по промпту, но и из фото или видео.
То есть вы можете просто молча (или вместе с текстом) загрузить изображение или видео, и сгенерируется музыка, подходящая по атмосфере и смыслу.
Попробовать уже можно в Gemini app и на десктоп, скоро раскатят на всех. Длина треков – до 30 секунд.
Короче, новой волне ИИ-слопа – быть. Хотя, Google пишут, что каждая композиция генерируется с невидимым водяным знаком. Может это хоть немного спасет стриминги от «музыкантов».
Самое интересное в модельке, – пожалуй, то, что она мультимодальная. Трек можно создать не только по промпту, но и из фото или видео.
То есть вы можете просто молча (или вместе с текстом) загрузить изображение или видео, и сгенерируется музыка, подходящая по атмосфере и смыслу.
Попробовать уже можно в Gemini app и на десктоп, скоро раскатят на всех. Длина треков – до 30 секунд.
Короче, новой волне ИИ-слопа – быть. Хотя, Google пишут, что каждая композиция генерируется с невидимым водяным знаком. Может это хоть немного спасет стриминги от «музыкантов».
❤93 33👍12🤯7🤨5🔥3😁3
Яндекс Карты стали умнее за счет новой ML-модели ранжирования
Задача навигации – не только построить маршрут, но и выбрать, какой из нескольких разумных вариантов путей между А и Б показать пользователю первым. Раньше это работало просто по времени пути: кто быстрее, тот и выше.
Но те, кто передвигаются на машине, знают: самый быстрый маршрут – далеко не всегда самый логичный и удобный.
Так что теперь ранжирование в Картах устроено иначе. ML-модель учитывает не только время, но и то, по каким маршрутам водители доезжают до конца, а с каких сходят. Вот как это работает:
➖ Каждый маршрут описывается вектором признаков (время, исторические данные о поведении пользователей на его участках, количество поворотов и тд);
➖ По этим признакам модель выдает каждому маршруту скор, который отражает вероятность того, что пользователь успешно доедет по нему до конца;
➖ В выдаче маршруты теперь сортируются не просто по времени, а именно по этому скору.
В итоге теперь первый маршрут на экране – тот, который действительно бы выбрал опытный водитель, и по которому вы вероятнее всего проедете от начала до конца. Подробности — на Хабре.
Задача навигации – не только построить маршрут, но и выбрать, какой из нескольких разумных вариантов путей между А и Б показать пользователю первым. Раньше это работало просто по времени пути: кто быстрее, тот и выше.
Но те, кто передвигаются на машине, знают: самый быстрый маршрут – далеко не всегда самый логичный и удобный.
Так что теперь ранжирование в Картах устроено иначе. ML-модель учитывает не только время, но и то, по каким маршрутам водители доезжают до конца, а с каких сходят. Вот как это работает:
В итоге теперь первый маршрут на экране – тот, который действительно бы выбрал опытный водитель, и по которому вы вероятнее всего проедете от начала до конца. Подробности — на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥126👍33🗿25❤14😁7 7 6🤔4👨💻1
OpenAI завершила первые коммитменты по новому мега-раунду финансирования
Ожидается, что в общей сложности компания получит 100 миллиардов долларов и по итогам раунда будет оцениваться примерно в $830 млрд.
Эта сделка станет крупнейшей в истории частного финансирования. При этом, напоминаем: OpenAI все еще зарабатывает ровным счетом 0 долларов в год и уходит в огромный убыток. Доходы превысят расходы компании только к 2029, и то – может быть.
Среди главных инвесторов – SoftBank, Nvidia, Amazon и Microsoft. Обратите внимание, что деньги (как это принято в ИИ-пузыре) в основном вернутся этим же компаниям, потому что OpenAI собирается закупать мощности именно у них.
Ожидается, что в общей сложности компания получит 100 миллиардов долларов и по итогам раунда будет оцениваться примерно в $830 млрд.
Эта сделка станет крупнейшей в истории частного финансирования. При этом, напоминаем: OpenAI все еще зарабатывает ровным счетом 0 долларов в год и уходит в огромный убыток. Доходы превысят расходы компании только к 2029, и то – может быть.
Среди главных инвесторов – SoftBank, Nvidia, Amazon и Microsoft. Обратите внимание, что деньги (как это принято в ИИ-пузыре) в основном вернутся этим же компаниям, потому что OpenAI собирается закупать мощности именно у них.
❤50🤔28 24🔥14👍6😁5🤯3🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Мем дня: Сэм Альтман и Дарио Амодеи отказались держаться за руки
Во время AI саммита в Дели премьер-министр Индии затеял так называемый Unity Raise: довольно распространенная «церемония», когда участники берутся за руки, поднимают их вверх и как бы демонстрируют солидарность.
За руки взялись все до одного, кроме… Сэма и Дарио, которые случайно оказались рядом.
Напоминаем, что раньше эти двое работали вместе и Дарио занимал пост вице-президента по исследованиям в OpenAI. Но из-за разногласий с руководством в 2020 году он покинул стартап и основал Anthropic. С тех пор они с Альтманом – прямые конкуренты, а окончательно отношения с Сэмом разладились, вероятно, после той самой рекламы про рекламу на Super Bowl✨
Во время AI саммита в Дели премьер-министр Индии затеял так называемый Unity Raise: довольно распространенная «церемония», когда участники берутся за руки, поднимают их вверх и как бы демонстрируют солидарность.
За руки взялись все до одного, кроме… Сэма и Дарио, которые случайно оказались рядом.
Напоминаем, что раньше эти двое работали вместе и Дарио занимал пост вице-президента по исследованиям в OpenAI. Но из-за разногласий с руководством в 2020 году он покинул стартап и основал Anthropic. С тех пор они с Альтманом – прямые конкуренты, а окончательно отношения с Сэмом разладились, вероятно, после той самой рекламы про рекламу на Super Bowl
Please open Telegram to view this post
VIEW IN TELEGRAM
😁371 45🏆14🤗10 8❤5😎3🤯2🦄2
Сегодня ИИ становится частью разработки. Компании ждут не экспериментов, а рабочих решений, которые можно встроить в продукт и масштабировать.
На программе «ИИ-разработчик» от МТУСИ и Нетологии учат создавать такие решения. За 6 месяцев вы пройдёте полный цикл ИИ-разработки: от работы с API и векторными базами данных до продакшена, агентов и MLOps.
В программе много практики. Вы разработаете ИИ-помощников, чат-ботов с контекстом, RAG-системы и агентные решения. В портфолио будет 5 проектов, которые покажет реальный уровень навыков.
Обучение проходит онлайн, в формате вебинаров и практических заданий с проверкой. По итогам вы получите два диплома о профессиональной переподготовке — от МТУСИ и Нетологии.
Промокод AIDEVNETO дает скидку 10 000 на курс.
Подробная программа и условия обучения – https://netolo.gy
Реклама. ООО "Нетология" ОГРН 1207700135884 Erid: 2VSb5xU7mpm
На программе «ИИ-разработчик» от МТУСИ и Нетологии учат создавать такие решения. За 6 месяцев вы пройдёте полный цикл ИИ-разработки: от работы с API и векторными базами данных до продакшена, агентов и MLOps.
В программе много практики. Вы разработаете ИИ-помощников, чат-ботов с контекстом, RAG-системы и агентные решения. В портфолио будет 5 проектов, которые покажет реальный уровень навыков.
Обучение проходит онлайн, в формате вебинаров и практических заданий с проверкой. По итогам вы получите два диплома о профессиональной переподготовке — от МТУСИ и Нетологии.
Промокод AIDEVNETO дает скидку 10 000 на курс.
Подробная программа и условия обучения – https://netolo.gy
Реклама. ООО "Нетология" ОГРН 1207700135884 Erid: 2VSb5xU7mpm
🗿34😁16🤨10❤3😍1
Большой обзор того, как сегодня обучают фронтирные LLMы
djdumpling.github.io/2026/01/31/frontier_training.html
Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.
Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.
Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы
... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом
Если вы в теме – это мастрид.
* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
djdumpling.github.io/2026/01/31/frontier_training.html
Вышел свежий материал от инженера из Prime Intellect (писали о них много раз). Автор берет несколько открытых или условно открытых проектов – вроде SmolLM3, Intellect 3, Kimi K2, DeepSeek‑R1, gpt‑oss‑120b и Hermes 4 – и на их примере проходит по всему жизненному циклу моделей.
Текст абсолютно не похож на блоги компаний и тех.репорты, а скорее представляет из себя очень плотную дистилляцию реальной практики.
Внутри есть как и база в оригинальной ультра-практической обработке:
– Сбор и очистка данных
– Как именно выглядит претрен, mid‑training и post‑training
– Как выбирают архитектуру, гиперпараметры и токенизаторы
... так и то, о чем на самом деле мало где пишут:
– Схемы безопасности, и где они ломаются
– Где компании экономят компьют, а где, наоборот, жгут его ради качественных сдвигов
– Как заводится RL и как добиться стабильности обучения в целом
Если вы в теме – это мастрид.
* Ссылку на отчет увидели у коллеги с канала @lovedeathtransformers
❤73🔥23👍12😁1🤯1👌1🗿1
Google выпустили Gemini 3.1 Pro
Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:
– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)
Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.
Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем🔥
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Обновленную модельку очень прилично качнули на кодинге, ризонинге и агентных задачках. Сравните:
– 77.1% на ARC-AGI-2 вместо 31.1 у Gemini 3
– 80.6% на SWE Verified против 76.2
– на BrowseComp (агентный поиск) выбили аж 85.9 вместо ранних 59.2 (ждем мега мощный Deep Research на базе этой модели)
Теперь Gemini снова полноценный игрок на кодинг-арене, это радует.
Пока моделька доступна в превью через Gemini API, Gemini app и в AI Studio (бесплатно тоже). Пробуем-пробуем-пробуем
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤125👍26🤯26🔥11⚡5👏3🦄3❤🔥1
Есть здесь те, кто поступает в этом году в ШАД?
С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.
В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.
23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.
Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.
Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.
Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.
А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:
➖ На нем объяснят, какие подводные камни есть при подготовке и ответят на любые вопросы по поступлению в ШАД.
➖ Также на встрече будут
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
С каждым годом конкуренция туда все выше, и это значит, что готовиться нужно усерднее.
В этом году счет идет уже на месяцы, экзамены стартуют совсем скоро. Если хотите повысить свои шансы – этот пост для вас.
23 февраля у Shad Helper стартует интенсивный курс подготовки. Они готовят студентов к ШАДу и ML-магистратурам уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ.
Курс отлично вам подойдет, если вы учились на тех.специальности и изучали вышмат раньше, а сейчас нужно освежить и углубить знания. Также курс подойдет тем, кто уже пробовал поступать в ШАД, но не прошел.
Будет очень много практики и пробников. Курс заканчивается прямо перед экзаменами в ШАД 2026, чтобы вы подошли к ним в лучшей форме.
Смотрите программу и регистрируйтесь на курс вот здесь. Для наших подписчиков действует скидка 30% на первоначальный взнос: промокод DS30.
А 24 февраля у ребят будет бесплатный вебинар. Обязательно сходите:
выпускники интенсивного курса прошлых лет, которые поделятся опытом поступления.
Реклама. ООО "Школа Высшей Математики", ИНН 9728100991, erid 2VtzqwdxNi8
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨52❤12👍9🤯9🗿6❤🔥4😁4🔥3
В Microsoft придумали технологию хранения данных в стекле
Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.
Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.
Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.
В чем фишка такого хранения?
Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.
Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.
В-третьих, энергоэффективность: хранение, считай, получается бесплатным.
В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
Она основана на лазерной записи информации в виде трехмерных пикселей – вокселей – внутри прозрачного стекла. Идея не то чтобы совсем новая, но Microsoft первыми предложили полноценную end-to-end систему записи, хранения и считывания.
Для записи используется фемтосекундный лазер. Он испускает коротенькие импульсы и меняет структуру стекла, причем так, что среда в целом не страдает, а изменения видны только через оптику.
Прочитать данные можно с помощью микроскопа. Правда, на практике возникает нюанс: шумные световые сигналы. Так что для минимизации ошибок авторы предлагают использовать сверточные нейросетки.
В чем фишка такого хранения?
Во-первых, стекло может выдерживать экстремальные условия. Тесты показали, что таким образом данные можно хранить до 10 тысяч лет (!!!), тогда как обычные носители обычно выдерживают без обслуживания максимум 40-50 лет.
Во-вторых, плотность записи довольно презентабельная: ~4.8 ТБ на диск ~12 см². Не рекордные цифры, но вполне сопоставимо с современными средами хранения.
В-третьих, энергоэффективность: хранение, считай, получается бесплатным.
В общем, занятно. Статья в Nature: www.nature.com/articles/s41586-025-10042-w
❤98🔥42👍26😁2