Machinelearning – Telegram
349K subscribers
4.54K photos
914 videos
17 files
4.98K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Claude получила возможность веб-поиска.

Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.

Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com

✔️ Hugging Face запустил приложение HuggingSnap: оффлайн-ИИ для анализа окружения через камеру iPhone.

Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.

Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com

✔️ Google добавит Gemini AI в Chrome, повторяя опыт Copilot для Windows 11

Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.

Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest

✔️ AudioX: универсальная модель генерации звука и музыки через кросс-модальные преобразования.

Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.

Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.

Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github

✔️ Microsoft Research разработал Claimify: инструмент фактчекинга ИИ

Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft

✔️ RF-DETR: новая SOTA для обнаружения объектов в реальном времени с открытым исходным кодом.
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github

✔️ Стивен Джонс, давний архитектор CUDA, выступит с отличной лекцией о том, как написать программу на CUDA!
Nvidia

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7719🔥7😍6🤓2
🌟 DAPO: алгоритм RL-обучения от ByteDance.

ByteDance опубликовала техотчет и код проекта DAPO — RL-алгоритма для больших языковых моделей, который смог преодолеть ограничения классических методов: коллапс энтропии (PPO и GRPO), зашумление из-за отброса длинных ответов, "мертвые зоны" в данных (группы ответов с одинаковым вознаграждением) и жесткая привязка к KL-дивергенции (традиционный RLHF).

DAPO включил в себя сразу 4 инновационных метода:

🟢Clip-Higher - решает проблему коллапса энтропии, разделяя диапазон клиппинга на нижний (low=0.2) и верхний (high=0.28). Это позволяет увеличивать вероятность маловероятных токенов, сохраняя разнообразие генерации, и предотвращает преждевременную фиксацию политики в локальном оптимуме.

🟢Dynamic Sampling - устраняет «мёртвые зоны» обучения, отфильтровывая группы ответов с одинаковой наградой (0 или 1), которые не генерируют полезные градиенты. Метод динамически дополняет батч примерами, где есть хотя бы один верный и один неверный ответ, сохраняя стабильность обновлений, что в результате сокращает время сходимости даже с учетом увеличения объема генерации на 20-30%.

🟢Token-Level Policy Gradient Loss - взвешивает вклад каждого токена в длинных цепочках рассуждений. Вместо усреднения по ответу градиенты рассчитываются для каждого токена, что предотвращает подавление значимых паттернов в длинных решениях. Например, 100-токенный ответ влияет на loss в 5 раз сильнее, чем 20-токенный, стимулируя целевую модель к структурированным рассуждениям.

🟢Overlong Reward Shaping - заменяет бинарное пенальти за превышение длины на постепенную штрафную функцию. Ответы длиной до 16К токенов получают полную награду, а в интервале 16-20К токенов штраф линейно растёт от 0 до -1. В итоге - снижается шум, позволяя модели учиться на частично корректных длинных решениях, вместо их полного отбрасывания.

Экспериментально обученная с применением DAPO Qwen2.5-32B достигла рекордных 50 баллов на тесте AIME 2024, обойдя DeepSeek-R1-Zero-Qwen-32B (47 баллов) при 2х меньшем числе шагов обучения, а отказ от штрафа за расхождение Кульбака-Лейблера позволил целевой модели свободнее развивать сложные цепочки рассуждений.

DAPO, помимо опенсорсной доступности а репозитории на Github, интегрирован в фреймворк verl, а мониторинг поможет отследать ключевые метрики — длину ответов, динамику наград и энтропию.

Веса тестовой Qwen2.5-32B и, возможно, других базовых моделей, обученных с DAPO разработчики обещают опубликовать в ближайшем будущем. Попробовать обучение алгоритмом можно специально подготовленным скриптом, с опубликованными вместе датасетами DAPO-Math-17k и валидационным сетом AIME 2024.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #ByteDance #DAPO
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥228🤓4🤔3👾3💅1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Перед вами недавно снятое видео с "испытательных полигонов" Unitree, демонстрирует головокружительную скорость развития человекоподобных-роботов.

Unitree постоянно совершенствуют алгоритмы управления, позволяя роботу обучаться и осваивать всё более сложные и точные движения.

Модель G1 обладает 23 степенями свободы, это гарантирует исключительную устойчивость и координацию.

Робот оснащён 3D-лидаром, камерой глубины и комплектом микрофонов с функцией шумоподавления для надёжного распознавания голосовых команд.

Его «сердцем» является 8-ядерный процессор, обеспечивающий такую высокую манёвренность ❤️

G1 оборудован легко заменяемой батареей ёмкостью 9000 мА·ч, что позволяет ему работать до двух часов, с возможностью оперативной замены источника питания. Максимальная скорость робота достигает 7,2 км/ч.

При росте 1,32 метра и весе 35 кг, гуманоидный робот может компактно складываться, занимая пространство в контейнере размером всего 69 × 44 × 30 см.

На этапе первичного обучения G1 использует симулятор Isaac от Nvidia, который с помощью методов обучения с подкреплением помогает осваивать сложнейшие алгоритмы поведения в контролируемой цифровой среде.

Затем отработанные действия плавно переносятся в физическую модель с использованием процесса Sim2Real, что обеспечивает высокую точность выполнения движений в реальном мире.

Unitree выпустила открытый датаяет, предназначенный для повышения эффективности управления и координации движений человекоподобных роботов.

Набор данных, созданный с применением технологии захвата движения LAFAN1, полностью совместим с гуманоидными системами Unitree.

Он включает усовершенствованный алгоритм перенаправления, который оптимизирует планирование движений через интерактивную обработку и обратную кинематику с учётом ограничений позы, сочленений суставов и параметров скорости.

Кстати, цена такого робота начинается от 16к$

https://www.unitree.com/g1

@ai_machinelearning_big_data


#ai #robots #news #unitree #ArtificialIntelligence #HumanoidRobot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥4717😨7
✔️ Apple реорганизовывает подразделение ИИ.

Создатель Vision Pro, Майк Роквелл возглавит разработку Siri, перейдя под управление Крэга Федериги, главы софтверного подразделения. Джон Джаннандреа, ранее курировавший Siri, сохранит контроль над исследованиями в области ИИ, но потеряет влияние на ключевой потребительский продукт.

CEO APPLE Тим Кук очень недоволен динамикой выполнения планов ИИ. Некоторые функции, изначально запланированные на июнь 2024 года, еще не реализованы - полное обновление Siri станет возможным с выходом iOS 20 в 2027 году.
bloomberg.com

✔️ Solidigm выпускает eSSD с жидкостным охлаждением.

Solidigm представила первое в мире решение eSSD с жидкостным охлаждением для серверов — D7-PS1010 E1.S, которое открывает перспективу для будущих серверов с полностью жидкостным охлаждением. Традиционные решения прямого жидкостного охлаждения eSSD не могут адекватно охлаждать обе стороны накопителя и не поддерживают горячую замену.

Разработка Solidigm преодолевает эти ограничения, устраняя необходимость в конструкциях стоек высотой 1U и сокращая расходы на кондиционирование и охлаждение воздуха в ЦОДах. Продукт будет выпущен во второй половине этого года.
tomshardware.com

✔️ Cloudflare создала ИИ-лабиринт для борьбы с краулерами.

Cloudflare представила новый инструмент «AI Labyrinth», нацеленный усложнить жизнь автоматизированным системам, сканирующим веб-ресурсы. Вместо традиционной блокировки нежелательных запросов "Лабиринт" генерирует с помощью ИИ правдоподобные, но бессмысленные для обучения модели страницы. В результате - краулеры тратят ресурсы на сбор «мусорных» данных, не нарушая при этом репутацию сайтов или их SEO-показатели.

Новый функционал уже доступен клиентам платформы в панели управления. Эксперты отмечают, что подобные технологии могут спровоцировать «гонку вооружений» между защитниками и злоумышленниками, но Cloudflare намерена продолжать совершенствовать систему, делая её элементы незаметнее для алгоритмов.
theregister.com

✔️ Oracle запускает AI Agent Studio для автоматизации бизнес-процессов.

Oracle анонсировала AI Agent Studio — платформу для разработки, внедрения и управления ИИ-агентами в рамках облачного пакета Fusion Applications. Решение позволяет клиентам и партнерам создавать кастомных агентов, оптимизирующих бизнес-задачи: от обработки заказов до планирования ресурсов.

Студия предлагает выбор языковых моделей (включая Llama и Cohere), инструменты тестирования и встроенную безопасность, для соответствие корпоративным стандартам. Агенты могут работать как автономно, так и в командах, с контролем этапов через утверждения. Подробности — на oracle.com/applications
oracle.com

✔️ HART от MIT и NVIDIA: ускорение генерации изображений в 9 раз.

Исследователи из MIT и NVIDIA представили HART - метод, объединяющий преимущества авторегрессионных и диффузионных моделей для генерации изображений. В отличие от медленных диффузионных систем (например, DALL-E), требующих 30+ итераций для денойза, и быстрых, но неточных авторегрессионных алгоритмов, HART использует гибридную архитектуру. Авторегрессионная модель формирует общую структуру изображения, а компактная диффузионная — дорабатывает детали за 8 шагов, компенсируя потери данных через остаточные токены.

Благодаря этому, HART генерирует изображения, сопоставимые по качеству с моделями на 2 млрд. параметров, но в 9 раз быстрее и с экономией 31% ресурсов.. В будущем HART планируют адаптировать для видео, аудио и мультимодальных задач, усилив совместимость с LLM. Проект поддержаkb MIT-IBM Watson AI Lab, Amazon Science Hub и NSF.
news.mit

✔️ Исходный код AlexNet опубликован в открытом доступе

AlexNet — это ИИ для распознавания изображений, перевернувшая мир в 2012 году.

Ее разработали Илья Суцкевер, Алекс Крижевский и лауреат Нобелевской премии Джеффри Хинтон.
По данным Google Scholar, статья об архитектуре AlexNet была процитирована свыше 170 тысяч раз, что делает её одной из самых часто цитируемых работ в истории информатики.
GitHub

✔️Sora стала безлимитной для всех, у кого есть подписка Сhatgpt

@ai_machinelearning

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6234🔥14🤨6💘2🥰1🤔1
🤖 Modern Robotics Course: Открытый курс по современной робототехнике.

Курс содержит лекции, учебные заметки, алгоритмы и практические задания, что позволяет последовательно изучать тему – от основ кинематики до сложных вопросов управления и планирования роботов.

🌟 Что внутри?
Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
Практика: Примеры кода на Python и C++ для управления роботами.
Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
Задания: Реальные практические задачи (например, управление манипулятором робота).

🌟 Для кого?
Начинающие робототехники: Освоить кинематику, динамику, управление.
Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
Технологические энтузиасты

С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).

✔️ Готовые решения: Внутри вы найдете библиотеки для работы с преобразованиями, датчиками, движением.

✔️Карьера в робототехнике: Курс даст возможность получить базовые навыки, востребованные в Bosch, Boston Dynamics, Tesla.

⭐️ Преимущества перед другими открытыми курсами
🟠 Акцент на практике: Минимум абстракций — максимум кода.
🟠Совместимость с ROS: Стандарт для промышленной робототехники.
🟠 Современные алгоритмы: Не только классика, но и нейросетевые подходы.

➡️ Cовет: Для погружения в курс, вам поможет книга Robotics, Vision and Control: Fundamental Algorithms in Python, Peter Corke, вот ее репозиторий с примерами кода.

P.S. А для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡

✔️ Github
✔️ Введение в курс
✔️Видео лекции

#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91👍3812🗿4🤔1👨‍💻1
📌Ученые обнаружили сходство между мозгом человека и нейросетями в принципах обработки языка.

Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.

Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.

Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.

Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.

Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.

Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.

Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.

🟡Статья
🟡Исследование


@ai_machinelearning_big_data

#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8926🔥21🤣9🌭7😁2😭1
⚡️ Цены на профессиональную линейку Nvidia RTX Pro Blackwell.

Американский ритейлер Connections опубликовал цены на серию RTX Pro Blackwell от Nvidia.

Флагманская модель RTX Pro 6000 стоит 8565 долларов, это на 26% дороже предыдущего поколения RTX 6000 Ada. В прайсе также перечислены еще невыпущенные модели RTX Pro 4000/4500/5000:

🟢RTX Pro 5000 — 4569 долларов;
🟢RTX Pro 4500 — 2623 доллара;
🟢RTX Pro 4000 — 1546 долларов.

Цены, традиционно для американского ритейла, указаны до налогов, которые в каждом штате разные.

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🥰147🤬4