На vc.ru вышла вдохновляющая статья для тех, кто задумывается о развитии своего диптех-стартапа в новом году. Автор предлагает простой взгляд на рынок ИИ-решений и объясняет, где сегодня появляется реальная ценность.
Самое интересное — в прикладных ИИ-продуктах. Там, где технологии перестают быть абстракцией и решают задачи бизнеса: автоматизируют процессы, снижают издержки, экономят время команд.
• CyberPhysics предсказывают поломки оборудования без дополнительных датчиков, опираясь только на данные завода.
• Bitrobotics делают роботов с компьютерным зрением, которые автоматизируют заводы производство, от отбраковки до упаковки.
• «Синтелли» разрабатывают ИИ‑платформу для химиков и фармацевтов. Теперь для анализа миллионов молекул и реакций достаточно нескольких секунд!
• Slider AI научили ИИ собирать презентации из сырых данных.
• HiveTrace сделали защиту от кибератак и утечек данных для GenAI‑приложений.
Откуда берутся и как развиваются современные техностартапы — рассказывают тут. Спойлер: об инструментах, которые могут помочь тебе, если ты уже занимаешься чем-то похожим, там тоже есть.
Самое интересное — в прикладных ИИ-продуктах. Там, где технологии перестают быть абстракцией и решают задачи бизнеса: автоматизируют процессы, снижают издержки, экономят время команд.
• CyberPhysics предсказывают поломки оборудования без дополнительных датчиков, опираясь только на данные завода.
• Bitrobotics делают роботов с компьютерным зрением, которые автоматизируют заводы производство, от отбраковки до упаковки.
• «Синтелли» разрабатывают ИИ‑платформу для химиков и фармацевтов. Теперь для анализа миллионов молекул и реакций достаточно нескольких секунд!
• Slider AI научили ИИ собирать презентации из сырых данных.
• HiveTrace сделали защиту от кибератак и утечек данных для GenAI‑приложений.
Откуда берутся и как развиваются современные техностартапы — рассказывают тут. Спойлер: об инструментах, которые могут помочь тебе, если ты уже занимаешься чем-то похожим, там тоже есть.
🔥24👍12🥰7❤6🤣3🦄2⚡1🗿1💘1
Media is too big
VIEW IN TELEGRAM
Liquid AI выпустила LFM2-2.6B-Exp — сверхкомпактную модель, которая показала эффективность, несопоставимую со своим размером. В бенчмарке IFBench новинка превзошла DeepSeek R1-0528, будучи при этом в 263 раза меньше китайского гиганта.
Архитектура оптимизирована для развертывания на периферийных устройствах и, по заявлению разработчиков, использует метод «чистого RL» без классического SFT. Веса модели - на Hugging Face.
LiquidAi в сети X
CUDA Tile IR - это открытая инфраструктура компилятора, основанная на MLIR и заточенная под оптимизацию вычислений для тензорных ядер NVIDIA. Инструментарий предоставляет инженерам новые абстракции для управления иерархией памяти и эффективного распределения нагрузки.
Главная цель проекта, чья публикация синхронизирована с выходом CUDA Toolkit 13.1 — упростить разработку высокопроизводительных ядер CUDA, сделав процесс глубокой оптимизации под железо более прозрачным и доступным для сообщества разработчиков.
github.com
Опрос Fortune CFO крупных компаний показал, что в наступающем году роль ИИ в корпоративных финансах кардинально изменится. Руководители ожидают перехода к внедрению агентского ИИ в масштабах всего предприятия.
Главный тренд — восприятие технологии не как утилитарного инструмента для оптимизации рутины, а как катализатора, превращающего финансовую функцию в проактивный драйвер роста компаний.
При этом респонденты подчеркивают, что сам по себе алгоритм не гарантирует успеха. Эксперты сходятся во мнении. что несмотря на автоматизацию, человеческое суждение остается критическим элементом, необходимым для контроля и принятия финальных стратегических решений.
fortune.com
На конференции GEEKCon в Шанхае специалисты из группы DARKNAVY показали, как уязвимости в ИИ-агентах роботов превращают их в угрозу физической безопасности. Экспертам удалось получить полный контроль над моделью Unitree через манипуляции с голосовым интерфейсом.
Самым тревожным аспектом демонстрации стал каскадный характер атаки: взломанный робот использовал беспроводной протокол ближнего действия для передачи эксплойта на соседнюю машину, которая была полностью отключена от интернета.
Этот эксперимент разрушает миф о надежности защиты методом «воздушного зазора» в робототехнике: компрометация всего одного подключенного к сети узла может привести к мгновенному заражению офлайн-флота, находящегося поблизости.
interestingengineering.com
Wall Street Journal повторила тест c вендинговым аппаратом под управлением ИИ от Anthropic. Агент-управленец всего за 3 недели ушел в минус на $1000, потратил корпоративный бюджет на PlayStation 5 для «маркетинговых целей» и заказал доставку живой рыбы.
Журналистам удалось легко манипулировать алгоритмом: с помощью манипуляций с промптами они заставили бота обнулить цены на весь ассортимент. Ситуацию не спас даже добавленный ИИ-менеджер — оба агента без вопросов приняли поддельную резолюцию совета директоров, разрешающую хаос.
Технической причиной провала, как говорит Anthropic, стало переполнение контекстного окна из-за слишком длинной истории чатов, из-за чего модель «забывала» свои базовые инструкции.
wsj.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤46😁24🔥3😴2🙊2
This media is not supported in your browser
VIEW IN TELEGRAM
🇫🇮 Финляндия отапливает около 10 000 домов теплом от дата-центров
Вместо того чтобы просто охлаждать серверы, страна начала забирать излишнее тепло и использовать его повторно.
Как это работает:
1️⃣ Серверы нагреваются при обработке данных (примерно 50–80 °C)
2️⃣ Вместо охлаждающих башен использубся водяные контуры
3️⃣ Горячая вода (75–90 °C) собирается в систему
4️⃣ Она подаётся в сеть централизованного отопления
5️⃣ По подземным трубам тепло распределяется по домам
6️⃣ Радиаторы используют это тепло
7️⃣ Остывшая вода возвращается обратно в дата-центр
💡 Один крупный дата-центр способен обогревать 10 000+ домов круглосуточно.
Такая система эффективно работает там, где уже есть городская теплосеть и холодный климат, а закладывать её нужно ещё на этапе проектирования, достраивать потом выходит слишком дорого.
@ai_machinelearning_big_data
Вместо того чтобы просто охлаждать серверы, страна начала забирать излишнее тепло и использовать его повторно.
Как это работает:
1️⃣ Серверы нагреваются при обработке данных (примерно 50–80 °C)
2️⃣ Вместо охлаждающих башен использубся водяные контуры
3️⃣ Горячая вода (75–90 °C) собирается в систему
4️⃣ Она подаётся в сеть централизованного отопления
5️⃣ По подземным трубам тепло распределяется по домам
6️⃣ Радиаторы используют это тепло
7️⃣ Остывшая вода возвращается обратно в дата-центр
💡 Один крупный дата-центр способен обогревать 10 000+ домов круглосуточно.
Такая система эффективно работает там, где уже есть городская теплосеть и холодный климат, а закладывать её нужно ещё на этапе проектирования, достраивать потом выходит слишком дорого.
@ai_machinelearning_big_data
2❤251👍124🔥60🤣13🤩12💯8😍7❤🔥6🥰3🎉3👏2
Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.
Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.
Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.
Метрика теста - избежать банкротства и, в идеале, накопить деньги.
Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.
Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤72🔥27👍19🦄5🤣3❤🔥1🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 На BiliBili вышло видео: парень управляет роботом через motion-capture.
…и из-за лага робот возвращает команду ему прямо в …😬
— «Пацаны, откатите… ОТКАТИТЕ!» 🤖🔥
@ai_machinelearning_big_data
…и из-за лага робот возвращает команду ему прямо в …
— «Пацаны, откатите… ОТКАТИТЕ!» 🤖🔥
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
😁165👍72❤15🔥13😭9🎄1
Media is too big
VIEW IN TELEGRAM
Компания выполнила условия сентябрьского соглашения, приобретя более 214,7 млн. акций Intel. Для Intel это вливание капитала стало критически важной финансовой поддержкой: производитель серьезно истощил свои резервы из-за многолетних стратегических просчетов и затрат на расширение производственных мощностей.
Инвестиция уже прошла проверку американских регуляторов - Федеральная торговая комиссия одобрила сделку. Теперь, когда все формальности улажены, Intel получает необходимую ликвидность для стабилизации бизнеса на фоне жесткой конкуренции в полупроводниковой отрасли.
reuters.com
Сатья Наделла выразил жесткое недовольство текущим состоянием потребительской версии ИИ-ассистента. В письме менеджерам он заявил, что интеграции Copilot с Gmail и Outlook «по большей части не работают», назвав их реализацию «недостаточно умной».
Чтобы исправить ситуацию, глава компании фактически перешел в режим антикризисного управления продуктом, делегировав часть коммерческих задач, чтобы сосредоточиться на технологиях.
Теперь Наделла глубоко погружен в инженерную рутину: он состоит в рабочих чатах с ведущими разработчиками, проводит еженедельные разборы полетов и дает прямые технические указания, вплоть до требований по консолидации процессов тренировки моделей.
theinformation.com
Компания представила платформу Qingtian Rent, на которой можно нанять роботов для работы на выставках, конференциях и частных мероприятиях. Флагманская антропоморфная модель Yuanzheng A2 обойдется в $1380 в день, а в качестве бюджетной альтернативы предлагается робопес Unitree Go2 за $138 в сутки.
Запуск сервиса происходит на фоне роста интереса к коммерческому использованию робототехники в Китае. По данным аналитиков, объем местного рынка аренды роботов в 2025 году составил $140 млн., однако уже в следующем году ожидается десятикратный скачок до $1,4 млрд.
interestingengineering.com
Ассоциация сертифицированных бухгалтеров (ACCA), объединяющая более полумиллиона студентов, полностью сворачивает практику дистанционной сдачи тестов с марта 2026 года. Руководство организации признало поражение в технологической гонке.
Генеральный директор ACCA Хелен Брэнд пожаловалась, что изощренность методов списывания опережает любые внедряемые защитные меры. Студенты используют чат-боты, способные решать сложные задачи по фотографии экрана быстрее, чем это фиксирует система наблюдения.
Интересно, что одновременно с запретом удаленного тестирования ассоциация обновляет учебную программу, добавляя туда изучение того самого ИИ и блокчейна, но проверять знания теперь будут исключительно в офф-лайне.
ft.com
Организация под названием «Creators Coalition on AI» (CCAI), будет разработать единые стандарты внедрения нейросетей в кино и музыке. Участники коалиции не выступают против технологий как таковых, но требуют прозрачных правил игры.
Ключевые пункты повестки касаются датасетов: использование чужих работ для обучения моделей должно происходить только с согласия авторов и за справедливое вознаграждение.
Кроме того, CCAI намерена бороться с бесконтрольным распространением дипфейков, защищать рабочие места в индустрии и отстаивать приоритет человеческого творчества над генерацией.
creatorscoalitionai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96🆒30🎃27👾27💅24👍15🔥5🐳2❤🔥1💘1
Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.
Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.
Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:
В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.
Сам проект открыт и доступен на Github.
@ai_machinelearning_big_data
#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍98❤35🔥15👏11🤩8👨💻6🦄1
💰 Forbes назвал самых молодых миллиардеров в мире и это основатели AI-платформы
Сказанная история трёх 22-летних сооснователей AI-стартапа Mercor. До успеха они были друзьями со школы и начали компанию сразу после учёбы.
Для них этот стартап стал первой работой и он сделал каждого из них миллиардером.
📈 Оценка компании: около $10 млрд,
💰 состояние каждого: примерно $2,2 млрд.
Mercor это платформа, которая с помощью ИИ автоматизирует подбор персонала и помогает компаниям находить разработчиков по всему миру.
В эпоху ИИ можно построить глобальный бизнес даже без опыта или крутых связей.
https://www.forbes.com/sites/alexyork/2025/11/07/a-startup-was-their-first-ever-job-now-theyre-the-worlds-youngest-self-made-billionaires/
@ai_machinelearning_big_data
Сказанная история трёх 22-летних сооснователей AI-стартапа Mercor. До успеха они были друзьями со школы и начали компанию сразу после учёбы.
Для них этот стартап стал первой работой и он сделал каждого из них миллиардером.
📈 Оценка компании: около $10 млрд,
💰 состояние каждого: примерно $2,2 млрд.
Mercor это платформа, которая с помощью ИИ автоматизирует подбор персонала и помогает компаниям находить разработчиков по всему миру.
В эпоху ИИ можно построить глобальный бизнес даже без опыта или крутых связей.
https://www.forbes.com/sites/alexyork/2025/11/07/a-startup-was-their-first-ever-job-now-theyre-the-worlds-youngest-self-made-billionaires/
@ai_machinelearning_big_data
1🎉120❤42🔥31👍27🤩8👏7😁5🤣5🤷♂2🌭2🤬1
Модель доступна в двух версиях: 1.8B и 7B. Обе работают как на устройстве, так и в облаке и показывают высокую скорость и точность.
Модель идет в двух размерах:
1) 8B для устройств
Оптимизирована под потребительское железо, занимает около 1 ГБ памяти.
Благодаря on-policy distillation достигает задержки 0.18 секунды на 50 токенов, обходя многие коммерческие API.
2) 7B новая SOTA
Превосходит большинство средних по размеру open-source моделей и сопоставима с закрытых решений.
Поддержка 33 языков и 5 китайских диалектов с высокой точностью.
Модели уже используются в сервисах Tencent. Связка двух моделей обеспечивает стабильную работу как на устройствах, так и в облаке.
🔹 Попробовать: https://hunyuan.tencent.com/modelSquare/home/list
🔹 GitHub: https://github.com/Tencent-Hunyuan/HY-MT
🔹 Hugging Face: https://huggingface.co/collections/tencent/hy-mt15
@ai_machinelearning_big_data
#opensource, #Tencent,
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🎉28❤19😍8👏5🔥3🦄3🤬2💯1
Media is too big
VIEW IN TELEGRAM
По информации WSJ, сумма сделки превысила $2 млрд, что соответствует оценке, которую стартап рассчитывал получить в ходе нового раунда финансирования. Manus показал феноменальную динамику, выйдя на уровень годовой выручки более $100 млн. всего через 8 месяцев после запуска.
Флагманский продукт Manus — агент общего назначения, способный самостоятельно выполнять многоступенчатые задачи: написание кода, анализ больших данных и маркетинговые исследования.
Критическим условием поглощения стало полное сворачивание операций в Китае, где компания была изначально основана, и исключение любых китайских интересов в структуре собственности. Действующие сервисы и подписки Manus продолжат работать.
wsj.com
Власти США выдали Samsung Electronics и SK Hynix лицензии, разрешающие ввоз оборудования для производства чипов на их заводы в Китае в 2026 году. Это решение обеспечит непрерывность технологических процессов на фоне ужесточения правил экспортного контроля.
Ранее южнокорейские вендоры, наравне с TSMC, обладали статусом «проверенных компаний», который освобождал их от ограничений Вашингтона. Срок действия этой привилегии истекает 31 декабря, после чего начинает действовать система ежегодного лицензирования поставок.
Для Samsung и SK Hynix китайские площадки остаются ключевыми в производстве памяти, цены на которую растут из-за дефицита и высокого спроса со стороны дата-центров для ИИ.
reuters.com
FLUX.2 [dev] Turbo — оптимизированная версия модели от Black Forest Labs в формате LoRA, которая сокращает инференс до 8 шагов.
FAL обещает шестикратный прирост скорости по сравнению со стандартной 50-шаговой версией, при этом сохраняя высокую детализацию изображений и точность следования промпту.
Сразу после релиза инструмент возглавил рейтинг Artificial Analysis Image Arena, обойдя по ELO-баллам даже крупные коммерческие закрытые модели. Веса доступны на Hugging Face под некоммерческой лицензией Black Forest.
Fal в сети X
WeDLM 8B Instruct использует диффузионный подход к генерации текста вместо привычного для LLM авторегрессионного метода. Преимущество архитектуры в радикальном приросте производительности. В задачах математического рассуждения WeDLM работает в 3–6 раз быстрее, чем Qwen3-8B с оптимизацией vLLM.
Релиз опровергает стереотип о том, что диффузионные модели не подходят для точных текстовых задач и доказывает их способность превосходить трансформеры в скорости инференса.
Модель доступна на HuggigingFace под максимально свободной лицензией Apache 2.0.
wedlm.github.io
Компания Kapwing проанализировала выдачу для новых аккаунтов и выяснила, что 21% рекомендаций приходится на слоп, созданный в ИИ исключительно для фарма просмотров. Этот контент представляет собой автоматизированный поток мусорных видео, который рекомендательные системы платформы активно продвигают в топы.
Экономика этого сегмента процветает: лидеры ниши собирают миллиарды просмотров и зарабатывают миллионы долларов на рекламе. Основными потребителями такого контента оказались зрители из Южной Кореи, Пакистана и США.
Ситуация наглядно иллюстрирует проблему «мертвого интернета»: пока подобные видео генерируют высокую вовлеченность - будь то от реальных людей или ботов, платформа продолжает их рекомендовать, создавая финансовый стимул для дальнейшего замусоривания хостинга.
kapwing.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58💯50❤24🔥12👏6🤔4🤬4🌭3🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🎄🎄 Qwen-Image: обновление как раз к Новому году
Свежая версия Qwen-Image получила заметный апгрейд качества.
Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.
Что изменилось:
• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)
Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.
▪Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
▪Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
▪ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
▪GitHub: https://github.com/QwenLM/Qwen-Image
▪Блог: https://qwen.ai/blog?id=qwen-image-2512
▪Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
▪Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
▪API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max
@ai_machinelearning_big_data
#qwen #qwenimage #openaimodels #imagemodels
Свежая версия Qwen-Image получила заметный апгрейд качества.
Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.
Что изменилось:
• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)
Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.
▪Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
▪Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
▪ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
▪GitHub: https://github.com/QwenLM/Qwen-Image
▪Блог: https://qwen.ai/blog?id=qwen-image-2512
▪Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
▪Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
▪API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max
@ai_machinelearning_big_data
#qwen #qwenimage #openaimodels #imagemodels
👍91🎄66❤29🔥15👏11🤬2🤗2🦄1
🚨 🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров.
Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
https://arxiv.org/abs/2512.24880
@ai_machinelearning_big_data
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
Перед каждым шагом модель выбирает, какие потоки подать на вычисления.
Во время шага часть сигнала идёт «в обход»,
чтобы ничего не потерять.
После всё снова аккуратно объединяется.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
https://arxiv.org/abs/2512.24880
@ai_machinelearning_big_data
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
👍505😘92❤89🔥82👏56😎28🤗21✍14🙈10🎉7🥱3🦄2
Интересная история, которая заставляет задуматься об образовании и карьере.
Знакомьтесь - Габриэль Петерссон. Ему всего 23 года, он бросил школу в глухом шведском городке, не учился в ВУЗе, но прямо сейчас работает научным сотрудником в OpenAI, в команде Sora.
Традиционное образование - это путь "снизу вверх". Хочешь заниматься машинным обучением? Сначала выучи линейную алгебру, потом матан, потом тервер. Это долго и зачастую теряется мотивация и понимание, зачем тебе это нужно прямо сейчас.
Масла в котел демотивации подливают компании, которые тоже не очень хотят ждать. Palantir, например, уже нанимает старшеклассников, минуя вузы. И история Габриэля — показательный пример тенденции.
Он не проходил классический путь "школа — бакалавриат — магистратура". Вместо этого он использовал ChatGPT как персонального ментора. И речь не о том, чтобы попросить чат-бот «напиши код за меня». Габриэль использовал метод, который он сам называет «рекурсивным заполнением пробелов».
Его суть том, чтобы идти как бы "сверху вниз". Он берет сложный проект: например, хочет разобраться, как работают модели диффузии. Он просит ChatGPT написать код. Естественно, сначала он ничего не понимает.
И вот тут он начинает задавать вопросы к каждому непонятному модулю. «Что делает этот блок?». Допустим, это блок ResNet. Он спрашивает: «Почему это помогает модели учиться?». И копает глубже. Если всплывает незнакомое понятие - он просит объяснить математическую базу, лежащую в его основе.
Это и есть рекурсия: слой за слоем, пока не заполнятся все пробелы в знаниях. Он не учит математику впрок, он учит ту математику, которая нужна ему прямо сейчас для работы кода.
Для получения визы талантов (O1) он использовал свою репутацию на Stack Overflow и рекомендации, которые просмотрели миллионы людей, как доказательство вклада в индустрию.
Габриэль советует: забудьте про HR. Резюме и дипломы не важны, если вы можете показать результат. Его стратегия — MVP или демо продукта и написать напрямую топ-менеджменту компании с предложением бесплатной работы на неделю. Это снимает риски для нанимателя и дает вам шанс показать себя.
Его главный посыл: если вы готовы активно задавать вопросы и не боитесь выглядеть глупо перед ИИ, изучая основы, вы уже входите в 1% лучших. Потому что большинство людей просто плывут по течению.
@ai_machinelearning_big_data
#AI #ML #Interview #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍204❤75🔥41🤓30🥱29👏11🤔11🦄6🐳4🗿4🏆1
Semianalysis выпустили любопытный материал о том, как ИИ-компании преодолевают энергетический кризис.
Еще 2 года назад эксперты предсказывали, что спрос на мощность для ИИ-ЦОДов вырастет с 3 ГВт в 2023 до 28 ГВт к 2026 году.
Уже сейчас в Техасе ежемесячно поступают заявки на десятки гигаватт, но за год одобряют не более гигаватта. Электросети перегружены.
ИИ-компании не могут ждать много лет на подключение к сетям. Задержка в полгода для дата-центра мощностью 400 МВт означает потерю миллиардов долларов. Поэтому они адаптируются: строят собственные газовые электростанции прямо на территории дата-центров.
Первой удивила индустрию xAI, запустив кластер из 100 тыс. GPU всего за 4 месяца на полностью независимых от общих сетей мобильных газовых турбинах. На конец 2025 года детище Илона Маска развернуло суммарно более 500 МВт таких мощностей. И за ними пошли OpenAI с Oracle в Техасе и Марк Цукерберг в Огайо.
Она объединяет 3 основных типа генерации:
Чтобы достичь 99% аптайма как в общих электросетях, приходится серьезно перестраховываться. Для дата-центра на 200 МВт устанавливают 26 двигателей по 11 МВт или 9 турбин по 30 МВт, а, например, ЦОД в Огайо на гибридном решении: 3 типа турбин и 15 поршневых двигателей для максимального покрытия аварий.
Стоимость собственной генерации обычно выше сетевой, но для ИИ-бизнеса скорость ввода в эксплуатацию важнее. Один ГВт ИИ-вычислений приносит $10-12 млрд годового дохода. Так что ускоренный запуск ЦОДа окупает любые затраты на энергетическую независимость.
Производители BYOG-решений борются с дефицитом. GE Vernova и Siemens Energy принимают заказы уже только на 2028-2029 годы.
Boom Supersonic (производитель самолетов) использует свои авиационные наработки для создания турбин на базе двигателей самолётов Mach 2, а корейская Doosan Enerbility, благодаря опыту производства паровых турбин запустила производство турбин H-класса.
Пока в перспективе ИИ-гиганты выбирают гибридные решения где собственная генерация сначала выводит ЦОД в работу, а потом становится резервом при подключении к сетям, это однозначно повлияет еще на пару-тройку смежных сфер деятельности.
Так что "энергетический" и "чиповый" кризис - не последние, кого породила ИИ-гонка.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤74🔥32🤔30👍28🤬5🥱5👨💻2🦄2