Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
640 photos
40 videos
29 files
3.53K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
100 готовых промптов для учебы от OpenAI 🍒

OpenAI выпустили официальный набор из 100 промптов, которые помогут студентам, преподавателям и исследователям работать с нейросетями более эффективно. Эти запросы могут быть полезны для создания курсовых, дипломов, исследований, подготовки к экзаменам и многого другого.

Что включает в себя подборка?

— Изучение предметов: запросы для математики, литературы, науки и других областей
— Навыки обучения: техники конспектирования, запоминания и подготовки к экзаменам
— Карьерное развитие: советы по составлению резюме, подготовке к собеседованиям и профессиональным навыкам
— Хобби и интересы: запросы для творчества и личного роста


Также подходит для всех, кто использует нейросети для обучения и развития, и доступен бесплатно с возможностью перевода на другие языки, что делает его универсальным решением для любой нейросети.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
Учёные представили революционный способ обучения моделей

Исследователи предложили новый подход к обучению языковых моделей, который не требует заранее подготовленных правильных ответов. Это метод Compute as Teacher (CaT), который позволяет моделям учиться самостоятельно, генерируя собственные обучающие сигналы, без зависимости от размеченных данных 😮

Как это работает? Вместо того чтобы искать готовую истину в базах данных, модель многократно решает одну и ту же задачу, формируя несколько вариантов ответа. Специальный механизм затем выбирает наиболее обоснованный ответ, превращая его в новую цель для обучения. Это позволяет моделям развивать свои способности к рассуждению и принимать решения в условиях неопределённости.

Основные особенности CaT:

— Верифицируемые задачи (например, математика): в этом случае модель использует автоматическую проверку правильности ответа.

— Неверифицируемые задачи (например, свободный диалог): модель генерирует критерии оценки, и независимая LLM-система оценивает, насколько удовлетворяет синтезированный ответ.

— Синтез ответов: в отличие от других методов, которые выбирают лучший ответ из нескольких, CaT создает новый, улучшенный ответ, что позволяет модели быть правильной даже в случае, если все исходные варианты были ошибочными.

— Эффективность: на математических тестах (MATH-500) точность увеличилась на 27%, а в медицинских тестах (HealthBench) на 12%. В продвинутой версии CaT-RL результаты выросли ещё больше — на 30-33%.

Преимущества CaT:

• Уменьшение зависимости от крупных размеченных датасетов, что снижает затраты на их подготовку.
• Возможность применения как в реальном времени, так и для улучшения качества моделей через цикл обучения с подкреплением.
• Инновационный подход для задач с недостаточной разметкой и верификацией.


Метод CaT открывает новые горизонты в обучении моделей, позволяя им развиваться и улучшаться без зависимости от огромных и дорогих размеченных данных. Это делает обучение более универсальным и доступным для множества задач, где традиционные методы не работают.

А как вы думаете, сможет ли CaT изменить подход к обучению ИИ в долгосрочной перспективе?
👍 — Да, это шаг к более эффективным и независимым моделям
🤔 — Нет, модель всё равно нуждается в внешнем контроле


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
7🐳7👍3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft запускает самый мощный датацентр для ИИ в мире — Fairwater AI 🤔

Microsoft запустила строительство самого мощного датацентра для ИИ в мире — Fairwater AI, который будет расположен в Висконсине. Эта установка не просто очередной шаг в развитии вычислительной инфраструктуры, а настоящая революция, способная обеспечить производительность, в 10 раз превышающую возможности самого быстрого на данный момент суперкомпьютера.

На огромной территории в 127 гектаров разместится около 111 000 м², ранее принадлежащих Foxconn. Это позволит создать уникальную платформу для обработки ИИ-данных. Для охлаждения будут использоваться высокоэффективные системы с замкнутым жидкостным контуром, поддерживаемые гигантскими вентиляторами и водоохлаждающими чиллерами. Данные в Fairwater будут передаваться через InfiniBand и Ethernet с пропускной способностью 800 Гбит/с.

Интегрированная система, которая объединяет несколько тысяч GPU NVIDIA GB200, соединённых в мощный кластер, способный выполнять задачи синхронно. В этом датацентре будут работать не только на тренировки ИИ, но и на реальные вычислительные задачи, такие как инференс и рилтайм-обработку данных.

Microsoft планирует полностью запустить инфраструктуру к началу 2026 года. Это будет не просто датацентр — это глобальная сеть, объединяющая более 400 центров по всему миру, и Fairwater станет ключевым узлом в этой сети.


Задумайтесь, насколько радикально изменится будущее ИТ-инфраструктуры с такими проектами. Мы стоим на пороге новой эры вычислений, где мощность вычислительных кластеров будет определять не только скорость, но и возможности ИИ в самых разных областях. А вы что думаете? Возможна ли революция? ☕️

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🐳51🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
31
Обучить ИИ «мыслить» как человек: MIT меняет подход к планированию в LLM 🤔

Многие из нас уже привыкли слышать, что современные языковые модели (LLM) умеют «рассуждать». Но на самом деле, когда мы говорим о «разумном мышлении», мы чаще всего имеем в виду сложную генерацию текста, где модель просто вытаскивает информацию из огромной базы данных и подставляет её в ответ. В этой парадигме отсутствует настоящее планирование и глубокая логика. MIT недавно предложили альтернативный подход, который может стать важным шагом на пути к настоящему искусственному мышлению.

Их идея заключается в том, что планирование в действительности — это не просто генерация текста, а переход из одного состояния в другое. Например, логика рассуждения может быть такой: если мы находимся в состоянии А, то логически можем перейти в состояние Б, но не в В или Г. Для достижения цели нужно учитывать, какие переходы правильные, а какие нет. Это требует гораздо большей точности и осознания контекста, чем просто заполнение пробелов в тексте.

Символьные цепочки вместо простых токенов

MIT предлагают, вместо того чтобы учить модели генерировать произвольные фразы, обучать их строить символьные цепочки. Это своеобразный способ научить модель планировать, понимая, что является логически верным переходом, а что — нет. Эти символьные цепочки могут быть проверены верификатором, что позволяет моделям улучшать свои выводы по мере получения фидбэка. По сути, это напоминает обучение с подкреплением (RL), где модель получает обратную связь за свои шаги и улучшает свои рассуждения.

Как это работает на практике

В исследованиях MIT показано, что такой подход значительно улучшает производительность моделей. В их тестах новое планирование добавило +30–60% к точности в решении задач, где традиционные методы рисования цепочек рассуждений через токены не справлялись. Причем, важный момент: для этого не нужна разметка данных — модели могут учиться без явной маркировки, лишь на основе проверок правильности цепочек.


Если MIT удастся масштабировать этот подход, то мы сможем увидеть на горизонте искусственный интеллект, который не просто генерирует фразы на основе статистики, а действительно умеет планировать и делать осознанные логические шаги. Однако пока эта методика применялась только к довольно узким задачам, и пока нет ясности, как она будет работать на более сложных и разнообразных проблемах.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥3
Tencent учит языковые модели «параллельному мышлению» 🐹

Исследователи из Tencent AI Lab и Университета Мэриленда предложили новый метод, который помогает языковым моделям (LLM) более эффективно масштабироваться в процессе инференса. В отличие от предыдущих подходов, этот метод позволяет моделям развивать несколько направлений рассуждений одновременно, что значительно повышает точность решений при решении сложных задач.

Метод, названный Parallel-R1, использует обучение с подкреплением, чтобы обучить модели параллельному мышлению. Это значит, что система может генерировать несколько независимых логических путей, а затем собрать их воедино для более точных выводов. Такой подход устраняет потребность в большом количестве размеченных данных, что делает его более доступным для практического применения.

Параллельное мышление активно применяется в таких передовых моделях, как Gemini Deep Think от Google, и показало себя как эффективная техника для сложных задач рассуждения. Однако многие существующие методы сталкиваются с проблемой масштабирования или требуют заранее заданных правил, что ограничивает гибкость и применимость. Parallel-R1 решает эти проблемы, позволив моделям развивать множество линий рассуждений и эффективно комбинировать их.

Метод Parallel-R1 прошел через несколько этапов обучения. Сначала модель обучалась на простых задачах, где она генерировала примеры параллельного мышления, затем метод с использованием RL был применен к более сложным задачам. Результаты показали, что модель, обученная с помощью Parallel-R1, демонстрирует более высокую стабильность и точность, чем другие подходы.


Этот метод может существенно повлиять на развитие бизнес-решений, где важны высококачественные системы рассуждения. Благодаря использованию параллельного мышления можно сделать ИИ более точным и адаптивным при решении комплексных задач в реальном времени.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
7🐳3
ИИ в Западных корпорациях — период «отрезвления» 😐

2025 год должен был стать годом ИИ, который обещал революцию в бизнесе. Но, оглянувшись на текущие данные, можно заметить, что картина не такая яркая, как предсказывали. 78% компаний утверждают, что внедрили ИИ хотя бы в одну бизнес-функцию, а инвестиции в технологию в 2024 году составили рекордные $250 миллиардов. Однако, на практике ситуация далеко не такая радужная.

Крупные корпорации начали замедлять внедрение ИИ: уровень применения снизился с 14% до 12% за лето 2025 года. Вместо того чтобы двигаться к масштабированию, компании начали сталкиваться с неудачами. Свежий отчет MIT также указывает на тревожный факт — 95% пилотных проектов с генеративным ИИ не доходят до реального использования.

Сегодня мы наблюдаем переходный момент — период «отрезвления», когда эйфория от первых успехов сменяется осознанием того, что не все так просто. На первый план выходят реальные проблемы: 42% лидеров признаются, что ИИ в их компаниях — это, в основном, маркетинговый шум, а 82% сотрудников скептически относятся к технологии. Вопрос стоит так: это лишь временные трудности или начало конца ИИ-революции?

Что на самом деле происходит?

В 2025 году мы сталкиваемся с очевидным расколом среди компаний: одни продолжают активно инвестировать в ИИ, другие сомневаются. Крупные корпорации начали понимать, что технологии не так безупречны, как ожидалось, и с опаской смотрят на масштабирование. В то же время малый бизнес продолжает двигаться вперед, экспериментируя с ИИ в узких сферах, что демонстрирует большую гибкость и готовность к новым решениям.

Интересно, что большая часть ИИ-инвестиций идет на улучшение внутренней инфраструктуры — не в саму технологию, а в ее обвязку. Так, например, 44% расходов направляются на создание объяснимых и безопасных моделей. Это свидетельствует о том, что компании осознали: без понимания работы ИИ и его контроля технологии могут представлять огромный риск.

Развитие ИИ идет далеко не так стремительно, как было обещано. Большинство пилотных проектов терпят неудачу, а огромные деньги по-прежнему тратятся, но отдачи нет. Параллельно с этим, реальный успех находит тот бизнес, который оценивает возможности ИИ не как магию, а как инструмент для решения четких и конкретных задач.


Сентябрь 2025 года стал моментом, когда блеф о мгновенной революции ушел в прошлое. ИИ, безусловно, обладает огромным потенциалом, но путь к его эффективному использованию требует гораздо больше усилий и осознанных решений, чем ожидали многие. Нам предстоит увидеть, кто пройдет через все трудности и выйдет на другой уровень.

ИИ станет неотъемлемой частью бизнеса?
👍 — Он будет повсюду
🤔 — Это технология для элитных компаний


Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍344🐳3😁1👀1
NVIDIA запускает nvmath-python: библиотеку для ускорения математических операций в Python 🍴

NVIDIA представила nvmath-python — библиотеку, которая позволяет легко интегрировать возможности её собственных математических библиотек, таких как cuBLASLt, в Python-экосистему. Это удобный инструмент для разработчиков, которым нужны мощные вычисления с оптимизацией под архитектуру NVIDIA.

Что может nvmath-python?
Библиотека совместима с популярными фреймворками и библиотеками, такими как NumPy, CuPy и PyTorch, и поддерживает высокую гибкость в настройке вычислений. Она позволяет:

• Работать с массивами из различных экосистем
• Подгонять точность вычислений, режимы умножения и операции эпилога
• Использовать передовые оптимизации от NVIDIA для ускорения математических и машинных задач

На данный момент проект находится в бета-версии, но уже доступен для использования.


Для разработчиков, работающих с числовыми вычислениями и машинным обучением, nvmath-python может стать полезным инструментом, особенно если вы хотите ускорить вычисления на архитектуре NVIDIA. Несмотря на то что библиотека пока находится в бета-версии, уже сейчас её возможности впечатляют.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥142🐳1
MalTerminal: первый вирус, который пишет сам себя с помощью ИИ

Хакеру больше не нужно сидеть ночами, вылизывая строчки кода для нового вируса. Зловред использует ии, в частности GPT-4, для самостоятельного создания кода на лету. Это не просто очередной троян — он сам «думает» и адаптируется, меняя свою структуру с каждой атакой 😣

Как это работает?
В отличие от старых вирусов, которые имели заранее подготовленный код, MalTerminal генерирует уникальные скрипты в реальном времени. После запуска на заражённой машине, вирус анализирует окружение и, через GPT-4, создаёт нужный код для атаки, будь то ransomware или reverse shell. Система, защищённая от известных угроз, не распознаёт эту атаку, потому что код постоянно меняется.

Как это выглядит в действии?
Злоумышленник запускает MalTerminal, программа анализирует ОС и защиту, а затем запрашивает у GPT-4 создание Python-скрипта для отключения Windows Defender и загрузки шифровальщика. Всё происходит автоматически и без следов.

Для компаний это угроза массовых персонализированных атак, которые могут адаптироваться под каждую систему и пользователя. Для пользователей — это риск, что хакеры смогут обойти все защитные механизмы, не имея глубоких знаний в программировании.

Как нам защититься?
Простое обновление антивируса уже не спасает. Нужно переходить к новым методам защиты, которые анализируют не код, а намерения программы: что она пытается сделать, куда лезет и какие данные скачивает. Появляются решения, такие как FalconShield, которые отслеживают активность программ, взаимодействующих с ИИ.

Киберугрозы станут массовыми и персонализированными. Мы увидим рост расходов на кибербезопасность и, возможно, запуск гонки ИИ-вооружений, где нейросети будут управлять атаками. Это также может привести к глобальным угрозам, если вирусы начнут атаковать критические инфраструктуры, такие как больницы или банки.


MalTerminal — это не просто вирус, это предупреждение. ИИ стал не просто инструментом, а потенциальным оружием. Мы находимся на грани новой эры, и от нас зависит, как мы сможем с этим справиться.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👎533🐳2🔥1
Российские ученые ускорили машинное обучение в распределенных системах без центрального сервера 😮

Новые разработки в области машинного обучения обещают улучшить эффективность распределенных систем. Ученые из России и США предложили децентрализованный алгоритм оптимизации, который работает без центрального сервера и адаптируется автоматически, без необходимости настройки параметров. Результаты исследования опубликованы на конференции NeurIPS.

Что изменилось в подходе?
Обычно в распределенных системах для координации работы используется центральный сервер, что может создавать узкие места. Децентрализованные алгоритмы, в свою очередь, требуют точной информации о параметрах задачи и сети, что делает их неэффективными в реальных условиях. Новый подход решает эту проблему, позволяя каждому агенту работать с локальной информацией и адаптировать параметры алгоритма в реальном времени.

Как работает новый алгоритм?
Используя метод «разбиения операторов» и новую метрику, алгоритм позволяет агентам самостоятельно определять оптимальный размер шага в процессе обучения, без необходимости обмениваться данными с другими агентами. Это значительно ускоряет вычисления и повышает масштабируемость, улучшая скорость сходимости.

Что показали эксперименты?
Эксперименты подтвердили, что новый алгоритм значительно превосходит существующие децентрализованные методы, особенно при решении сложных задач с большим объемом данных. Он был протестирован на задаче гребневой регрессии (ridge regression) и показал отличные результаты, особенно в слабо связанных сетях.


Этот децентрализованный подход — важный шаг к созданию более эффективных и масштабируемых систем машинного обучения, которые могут работать без центральных серверов и настраиваться под реальную сеть. Такой алгоритм может найти широкое применение в распределенных вычислениях и помочь ускорить обучение моделей в самых разных областях.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
7😁2
Forwarded from xCode Journal
В честь сделки с Nvidia Альтман написал новое эссе под названием "Изобилие интеллекта"

Оно небольшое, поэтому прямо тут приведем перевод полностью с небольшими сокращениями:
Рост использования AI-сервисов поражает, и мы ожидаем, что в будущем он станет ещё более стремительным.

По мере того как ИИ становится умнее, доступ к нему может стать не только ключевым драйвером экономики, но и со временем – базовым правом человека. Почти каждый захочет, чтобы у него было больше ИИ, работающего на его благо.

Чтобы обеспечить миру необходимые мощности для инференса и обучения всё более совершенных моделей, мы закладываем фундамент для масштабного роста AI-инфраструктуры.

Если ИИ сохранит текущую траекторию развития, нас ждут невероятные возможности. Например, с 10 гигаваттами вычислительных мощностей ИИ может найти способ вылечить рак или создать персонализированное обучение для каждого ребёнка на Земле. Но если мощности будут ограничены, придётся выбирать, что важнее. Никто не хочет делать такой выбор – значит, нужно строить.

Наша цель проста: создать фабрику, которая сможет выпускать по гигаватту новых AI-мощностей каждую неделю. Это невероятно сложная задача, требующая инноваций на всех уровнях – от чипов и энергетики до строительства и робототехники. Мы уже активно работаем над этим и верим, что это возможно. В нашем понимании, это может стать самым важным инфраструктурным проектом в истории.

В ближайшие месяцы мы поделимся планами и расскажем о партнёрах, а позже о том, как будем финансировать проект. Ведь рост вычислительных мощностей – ключ к росту дохода, и у нас есть несколько нестандартных идей.


Как это будет выглядеть, пока не до конца понятно, но один гигаватт в неделю – это 52 гигаватта в год

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳82
Новый метод обучения нейросетей: что предлагает Thinking Machines?

Исследователи стартапа Thinking Machines, возглавляемого Мирой Мурати, представили новую методику обучения нейросетей, которая обещает повысить стабильность и эффективность работы с моделями. В отличие от традиционных методов регулирования весов и активаций, авторы предлагают подход, который меняет саму структуру нейросетей.

Проблема, с которой сталкиваются нейросети
Во время обучения нейросетей одна из главных трудностей — это контроль за масштабами тензоров: весов, активаций и градиентов. Когда эти значения становятся слишком большими или маленькими, возникает ряд численных проблем, таких как взрывы и исчезающие градиенты, которые мешают корректному обучению. Для борьбы с этим часто используются такие методы, как gradient clipping, weight decay и layer norm, но они не решают проблему в корне.

Новая идея: обучение на многообразии
Предлагаемый подход идет намного глубже: вместо того, чтобы просто корректировать размеры тензоров, авторы предлагают ограничить сами структуры тензоров, заставив их "жить" в определённом многообразии (или manifold).

Предположим, мы хотим, чтобы веса полносвязных слоёв не растягивались слишком сильно. Для этого можно выбрать такое многообразие, где строки и столбцы матрицы ортонормированы. Это условие позволит избежать значительного увеличения нормы сигнала при обучении, что важно для стабильности сети.

— Обновление весов: В обычных нейросетях веса обновляются по стандартной формуле. Однако при использовании нового подхода, перед тем как вычесть градиент, мы должны проецировать его в касательное пространство. Это гарантирует, что обновление не выйдет за пределы нужного многообразия.

— Проекция и ретракция: Процесс обновления весов включает два этапа — проекцию градиента в нужное пространство и ретракцию для стабилизации. Это помогает минимизировать возможные численные ошибки, которые могут вывести матрицы за пределы заданного пространства.

— Равномерное движение слоёв: Для равномерной стабилизации предложено использовать "бюджет шагов", чтобы все слои модели двигались синхронно, что повышает общую стабильность.

Результаты и ограничения
На тесте с CIFAR-10 новый метод показал лучшие результаты по сравнению с популярным оптимизатором AdamW, в том числе по стабильности обучения. Однако, несмотря на перспективы, у метода есть и важные вопросы:

• Как правильно выбирать пространства для разных типов слоёв?
• Будет ли метод эффективно работать на больших моделях и на float16?
• Как его масштабировать для более сложных задач?
• И, конечно, серьёзные вычислительные затраты.


Подход Thinking Machines представляет собой интересную и фундаментальную инновацию в обучении нейросетей. Хотя этот метод ещё далёк от практического применения, его потенциал в решении проблем численной стабильности и масштабируемости нейросетей нельзя недооценивать.

🔥 — Подход имеет потенциал для масштабирования и решения текущих проблем
🤔 — Сложности с вычислениями и масштабированием остаются слишком большими


Data Science
🔥8🐳41
Google готовит революцию в мире машинного обучения: SQL, Python и Spark в одном месте 😊

По слухам, Google разрабатывает новую интегрированную среду для специалистов по машинному обучению, которая объединит SQL, Python и Apache Spark в одном рабочем пространстве. Это решение призвано устранить привычные проблемы, с которыми сталкиваются аналитики и разработчики: необходимость переключаться между различными инструментами и платформами.

Проблема, которую решает Google
Для большинства специалистов по данным процесс работы с машинным обучением выглядит так: сначала они извлекают данные с помощью SQL из баз данных, затем экспортируют их в Python, чтобы настроить модели, и, наконец, запускают вычисления на Apache Spark. Это вызывает лишнюю путаницу, задержки и дополнительные затраты времени.

Что меняет Colab Enterprise?

Google представил улучшенную версию своих блокнотов Colab Enterprise, которая должна упростить этот процесс и предоставить единое рабочее пространство для всех нужных операций:

• Предварительный просмотр ячеек SQL: Теперь разработчики смогут работать с данными непосредственно в SQL, не покидая рабочее окружение Colab.
• Интеграция Data Science Agent: Новый агент будет помогать в автоматизации анализа данных и разработки моделей машинного обучения, значительно ускоряя процесс.

Почему это важно?
Эти улучшения значительно облегчают работу специалистов по машинному обучению, устраняя необходимость в множественных экспортированных и импортированных данных между различными платформами. Теперь процесс может быть сосредоточен в одном инструменте, что повысит скорость разработки и улучшит взаимодействие с данными.


Google, похоже, готовит значительное упрощение для всех, кто работает с данными. Уменьшение необходимости в переключении между инструментами позволит ускорить рабочие процессы и улучшить производительность команд. Как вы думаете, поможет ли объединение в одной платформе ускорить процесс разработки?

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
11
LLM Embeddings: погружение в основы 🗒

LLM Embeddings — это не просто теоретическая основа, а мощный инструмент, где объясняют, как модели «понимают» текст. Эмбеддинги представляют слова, фразы или тексты в виде векторов. Эти векторы можно использовать для анализа и обработки информации с помощью машин. Однако не все эмбеддинги одинаковы. Важно выбрать правильную технику и обучить векторы для конкретных задач.

Какие вопросы раскрывает сервис:


• Как создавать качественные эмбеддинги?
• Как работают такие техники, как BERT, делающие их эффективными для обработки текста?
• Как эмбеддинги применяются в современных LLM и повышают их точность?
• Почему анализ эмбеддингов в виде графов может дать новые инсайты о структуре данных?


Понимание эмбеддингов важно не только для работы с моделями, но и для создания сложных систем анализа данных. Это открывает новые возможности для улучшения качества и точности машинного понимания.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
52🐳1
💬 Персональные ИИ-агенты и 10 миллиардов GPU

Грег Брокман, президент OpenAI, рассказал, что в будущем у каждого человека будет свой ИИ-агент, который будет работать 24/7, даже когда мы спим. Но для реализации этой идеи потребуется порядка 10 миллиардов GPU, ведь речь идет о запуске уже обученных моделей ИИ для конечных пользователей.

Однако эта цифра касается только инференса. Тренировка ИИ требует еще больше мощностей. Брокман также отметил, что с ростом спроса на ИИ могут возникнуть проблемы не только с GPU и памятью, но и с энергией, охлаждением дата-центров и другими ресурсами.


📈 Интервью с Брокманом прошло на фоне того, как Nvidia инвестирует 100 миллиардов долларов в OpenAI для закупки ускорителей и получения доли в акциях. Смогут ли корпорации увеличить свои мощности для всех?

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁86
🛍 Как ИИ меняет подход к математическим исследованиям

В последние годы искусственный интеллект не только поддерживает прогресс в сфере математики и компьютерных наук, но и активно становится полноправным партнёром исследователей. Речь идет о системах, таких как AlphaEvolve от Google DeepMind, которые используют мощь больших языковых моделей (LLM) для поиска и верификации новых математических структур.

Математические открытия всегда требуют безошибочности. Каждое новое доказательство или структура должна быть проверена и доказана без ошибок. ИИ, в отличие от нас, может делать это с огромной скоростью и в рамках совершенно новых подходов. Так, например, AlphaEvolve помогает не просто искать решения, но и создавать такие структуры, которые решают сложнейшие задачи в теории сложности.

☄️ Как работает AlphaEvolve?

Процесс работы системы заключается в том, что она генерирует и совершенствует кодовые фрагменты, которые могут привести к новым результатам в теории сложности. Применяя так называемую стратегию «lifting», AlphaEvolve преобразует конечные структуры в более универсальные теоремы, которые имеют гораздо более широкий диапазон применения. Это не просто генерация гипотез — это целенаправленное улучшение доказательств, что может стать основой для больших теоретических прорывов.

🔔 Например, AlphaEvolve была использована для решения задачи MAX-4-CUT, одной из сложнейших задач в теории графов. Ранее существующие алгоритмы ограничивались точностью в 0.9883, но с помощью ИИ был найден новый граничный показатель — 0.987. Это может показаться маленьким шагом, но в контексте многолетних исследований такие улучшения становятся важными прорывами.

Но достижения не ограничиваются только этим. ИИ также помогает в изучении «среднестатистической сложности», исследуя трудности в сертификации определённых свойств случайных графов. Это далеко не простая задача, ведь для этого нужно найти и подтвердить существование крайне редких объектов, таких как Рамануджан-графы, которые раньше находились только с помощью усилий вручную.

🙂 Важность верификации и роль человека

Несмотря на впечатляющие результаты, важно отметить, что ИИ не может полностью заменить человека. Он помогает открывать новые структуры и оптимизировать процессы, но именно человек, специалист в своей области, должен оставаться в процессе проверки и окончательного утверждения результатов. Именно это разделение между открытиями и верификацией гарантирует, что мы не столкнёмся с ошибками, которые могут «переписать» всю теорию.


Системы вроде AlphaEvolve уже открывают двери в новые возможности, но многие проблемы остаются нерешёнными. Например, как мы будем проверять правомерность математических доказательств, когда ИИ станет ещё более автономным? Если мы получим ответы через десять лет исследований, это будет хорошо.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82👍2
🆒 Как работает механизм самовнимания в трансформерах и почему он важен для ИИ

Если вы следите за развитием технологий в области ИИ и нейросетей, то, наверное, слышали про трансформеры. Но что стоит за этим загадочным механизмом самовнимания? Есть очень хорошая статья на эту тему. Давайте разберемся с ним шаг за шагом и поймем, почему он стал основой для большинства современных моделей, включая те, которые работают с языковыми задачами.

Саморегуляция стало настоящим прорывом в мире ИИ, а его основная идея — это возможность каждой части информации влиять на другие части в зависимости от контекста. Когда вы переводите предложение, например, из одного языка на другой, важно учитывать не только отдельные слова, но и их взаимосвязи. Это именно то, что и делает саморегуляция — оно позволяет модели «фокусироваться» на ключевых элементах данных и учитывать их в расчете результата.

🔴 Саморегуляция и его ключевая роль

Саморегуляция решает проблему, с которой сталкиваются традиционные нейросети — длинные последовательности и зависимости в тексте. Например, при переводе фразы «Жизнь коротка, ешь десерт первым» важно понимать контекст каждого слова в предложении. Саморегуляция позволяет модели динамически «выбирать», какие элементы наибольшую важность для конкретного контекста.

Концепция регуляции изначально предназначалась для улучшения рекуррентных нейронных сетей. Однако с появлением трансформеров регулирование стало ключевым элементом их архитектуры. Сегодня внимание используется не только в переводе, но и в анализе текста, генерации и даже создании изображений.

‼️ Основная идея саморегуляции проста: каждая часть данных может «внимательно» изучать другие части. В результате появляется «контекстное» представление каждого элемента.

— Создаем векторное представление для каждого слова в предложении (т.е. строим embedding). Например, для фразы «Жизнь коротка, ешь десерт первым» каждое слово превращается в вектор.

— Используем три матрицы (для запроса, ключа и значения) для того, чтобы преобразовать эти векторы в соответствующие компоненты. Запросы (queries) — это те элементы, которые мы анализируем, ключи (keys) и значения (values) — это элементы, с которыми запросы сравниваются.

— Считаем веса внимания между каждым элементом, используя скалярное произведение запросов и ключей. Это позволяет понять, насколько «важен» каждый элемент в контексте других.

— Применяем softmax для нормализации этих весов и создаем итоговое контекстное представление для каждого элемента.

✔️ Расширение саморегуляции

Multi-Head Attention — это еще одна важная концепция, которую используют трансформеры. Вместо того, чтобы использовать один набор матриц для вычислений, модель использует несколько «голов» внимания, каждая из которых фокусируется на разных аспектах входных данных. Это как если бы у модели было несколько разных точек зрения, с помощью которых она может анализировать информацию.

🕯 Перекрестное внимание

Одной из интересных особенностей трансформеров является перекрестное внимание (cross-attention). В отличие от саморегуляции, где все элементы исходной последовательности взаимодействуют между собой, в перекрестном внимании используются две разные последовательности. Это особенно важно в таких задачах, как машинный перевод, где один набор данных приходит из энкодера, а другой — из декодера.


Понимание саморегуляции помогает лучше разобраться в том, как работают трансформеры и какие возможности они открывают для ИИ. С помощью этого механизма нейросети могут «фокусироваться» на самых важных частях информации и учитывать контекст, что делает их такими мощными и универсальными. Думаете, сможет ли ИИ в будущем понимать все нюансы контекста?

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥2🐳1
💬 Ричард Саттон: «LLM — это ещё не тот самый горький урок»

Ричард Саттон, один из основателей Reinforcement Learning, недавно сделал довольно смелое заявление, которое не оставило равнодушными поклонников искусственного интеллекта. Он утверждает, что настоящие прорывы в области ИИ происходят не просто за счёт увеличения вычислительных мощностей, а благодаря самообучению.

🥸 Но вот что он считает важным: LLM, такие как GPT, всё ещё опираются исключительно на данные, созданные людьми. Эти данные, по его мнению, ограничены и часто имеют искажения. Самообучающиеся модели, по его словам, должны не только анализировать текст, но и активно взаимодействовать с миром — так, как это делают люди и животные. Являются ли LLM тупиковым ответвлением в развитии ИИ или же это лишь первый шаг на пути к чему-то большему?


Для тех, кто хочет услышать мнение Ричарда Саттона из первых уст, рекомендую послушать его интервью в подкасте на YouTube. Это отличный повод задуматься о том, что нас ждёт в будущем ИИ и действительно ли LLM — это финальная форма искусственного интеллекта.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥3🐳1
Forwarded from xCode Journal
🤩 Стэнфорд выпустил бесплатный курс по нейросетям от основателя Coursera

В программе есть все: от основ нейросетей до советов по карьере в AI-сфере и практических работ.

Первая лекция уже здесь, материалы и расписание тут.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥116🐳2
📣 Гарвардский прорыв: квантовая машина, работающая два часа без перезапуска

Каждый шаг в развитии квантовых компьютерах — это как борьба с физическими ограничениями: атомы, которые служат кубитами, могут теряться, и это приводит к сбоям, перезапускам и потере информации. Но вот физики из Гарварда сделали невероятное — они создали квантовую машину, которая теперь способна работать более двух часов подряд без необходимости перезапуска. Это в сотни раз дольше, чем прежний рекорд, составлявший около 13 секунд!

⚠️ Что стало возможным благодаря прорыву?

Одной из главных проблем квантовых вычислений долгое время был так называемый «атомный уход» — это когда атомы (или кубиты) теряются из-за различных внешних факторов, например, флуктуаций температуры или ошибок в магнитных полях. Это означало, что для нормальной работы квантовых машин приходилось постоянно их перезагружать, что сильно ограничивало их возможности.

Но ученые под руководством Михаила Лукина, который, кстати, родился в Москве и учился в МФТИ, нашли способ частично решить эту проблему. Они разработали уникальную технологию, использующую оптические конвейеры и оптические пинцеты. Эти инструменты позволяют заменять потерянные кубиты новыми прямо во время работы, не прерывая вычисления.

📌 Как это работает?

Оптический конвейер генерирует до 300 000 атомов в секунду, и система может одновременно удерживать около 3000 кубитов. Если один кубит теряется, его моментально заменяют новым, синхронизированным с остальными. Таким образом, квантовая информация сохраняется, а вычисления продолжаются без прерываний.

🥸 Этот прорыв открывает новые горизонты для квантовых технологий. По словам авторов исследования, квантовые компьютеры, которые могут работать без перезапуска в течение долгих периодов, могут появиться уже в ближайшие 2-3 года.


С каждым новым шагом мы все ближе к реальному применению этих технологий. Однако важным вопросом остается не только стабильность работы машин, но и как мы будем использовать их возможности для реальных задач.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
135🐳3👎1
📎 Как интегрировать LLM с Интернетом вещей

Сегодня технологии Интернета вещей (IoT) и большие языковые модели (LLM) часто встречаются в разговорах, но реальное взаимодействие между ними не так уж часто происходит. Как наладить такую интеграцию без сложных скриптов и нестабильных решений? Ответ найден: это IoT-MCP — мост между миром LLM и физическим оборудованием, который значительно упрощает их взаимодействие.

Что такое IoT-MCP и как он работает

Идея заключена в использовании Model Context Protocol (MCP) — стандартизированного метода, который позволяет LLM понимать, какие действия и с каким устройством нужно выполнить. Система делится на три слоя: Local Host, Datapool & Connection Server и IoT-устройства, что помогает распределить ответственность и облегчить взаимодействие.

• Local Host: отвечает за связь между LLM и специализированными MCP-серверами, которые знают, какой инструмент использовать.
• Datapool & Connection Server: управляет запросами, сглаживает обрывы связи и помогает масштабировать работу.
• IoT-устройства: отвечают за сбор данных с сенсоров и их передачу обратно с метками времени и типами сенсоров.

📌 Результаты испытаний и экспериментов

Авторы проекта провели серию тестов с более чем 100 задачами, включая базовые и сложные варианты. Вот что показали результаты:

• 100% успешных вызовов инструментов при базовых задачах.
• Средняя задержка составила 205 мс — достаточно быстро для большинства реальных приложений.
• Пиковое потребление памяти на устройствах — всего 74 КБ, что позволяет масштабировать систему и добавлять новые датчики без угрозы перегрузки.

Ну куда же без безопасности. Система показала отличную устойчивость к сложным промптам и различным типам датчиков, что свидетельствует о надежности всей инфраструктуры.


IoT-MCP действительно упрощает задачу интеграции LLM с реальными сенсорами, создавая стандартизированный и надежный процесс. Это позволяет не только сэкономить время на разработку и избежать ошибок, но и открывает новые горизонты для построения умных систем. Возможности для применения огромны — от умных домов до сложных промышленных приложений.

Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3🐳2