NEW BOT Телеграм, страница

⚡️ LoRA почти так же хороша, как полный fine-tuning, но в разы дешевле

Thinking Machines выпустили новое исследование, которое смотрит на LoRA под другим углом.

Главная идея исследования: LoRA может обучаться почти как полный fine-tuning, но при этом быть проще, дешевле и предсказуемее.

Они доказали это экспериментально: взяли одинаковую модель, прогнали обучение двумя способами: полным fine-tuning и LoRA - и сравнили кривые потерь (loss vs steps).

Процесс:
- Дали чёткий рецепт, а не случайные гипотезы.
- Показали, что процесс можно повторять с одинаковым результатом.
- Выяснили, что если адаптеру не хватает памяти, модель не ломается, а просто замедляется.

Результат показал, что при правильных настройках LoRA движется по той же траектории, что и FullFT. То есть качество модели и динамика обучения совпадают, пока у адаптера хватает параметров. Когда лимит достигается, у LoRA кривая не «обрывается», а просто идёт дальше медленнее.

Именно за счёт этого LoRA демонстрирует предсказуемое и воспроизводимое поведение, а не случайные провалы, которые часто происходят при подборе гиперпараметров «на глаз».

✔️

Правила от команды Thinking Machines
1. Ставить LoRA на все слои, а не только на attention.
2. Использовать ~10× больший learning rate, чем обычно.
3. Не раздувать batch size - иначе падает стабильность.

✔️

Что в итоге:
- Кривые обучения LoRA почти совпадают с full fine-tuning.
- Даже в упоре в лимит адаптера модель ведёт себя плавно.
- Вычислений требуется на треть меньше, чем у FullFT.

LoRA может стать инструментом для надёжного и дешёвого пост-трейнинга.

Для Thinking Machines это шаг к миссии: они уверены, что непредсказуемость моделей - это не фича, а баг, который можно исправить.

Если убрать случайность и сделать выходы стабильными - ИИ станет безопасным даже для критически важных процессов.

📌 Подробнее

@ai_machinelearning_big_data

#LoRA #FineTuning #AI #MachineLearning #DeepLearning #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤95👍45🔥21✍7🤗2💘2⚡1🍓1

37.8K views10:02

Machinelearning

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 OpenAi показали Sora 2

Всё, что нужно знать коротко:
- Реализм и физика: движение стало правдоподобнее, модель учитывает сложную динамику движения.
- Законы физики соблюдаются: например, промах по кольцу в баскетболе отскакивает, а не “телепортируется”.
- Видео со звуком: синхронная генерация речи, эффектов и фоновых звуков.
- Управляемость: модель точно следует сложным промптам, держит сцены цельным, умеет в реализм и аниме.
- Cameos: можно загрузить своё видео/аудио и вставить лицо + голос в любой сгенерированный ролик.
- Пиложение: новое iOS-приложение “Sora” с лентой наподобие TikTok, ремиксами и cameo.
Доступ дают по инвайтам
- Как попробовать: доступ бесплатный, но пока только в США и Канаде, а Pro-версия генератора доступна для платных акаунтов ChatGPT Pro.
- API обещают скоро подвезти .

https://x.com/OpenAI/status/1973075422058623274

#Sora2 #OpenAI #видеогенерация #ИИ #AIvideo

❤133👍38🔥15😁7🗿5💘3🍓1

48.3K views17:33

✔️ Zai представили GLM-4.6
Новая флагманская модель получила заметные улучшения: поддержка длинного контекста до 200K токенов, сильные возможности в рассуждении, генерации кода, поиска и агентных задачах.
Hf | Api | Попробовать

✔️ NVIDIA анонсировала новые возможности для робототехники и симуляции.
Newton - это открытый физический движок с GPU-ускорением, созданный на базе NVIDIA Warp и OpenUSD и выпущенный под лицензией Apache 2.0. Он показывает огромный прирост скорости: в задачах движения до 152× быстрее, а при манипуляции объектами — до 313× быстрее по сравнению с MJX на RTX 4090.

Isaac Lab позволяет запускать тысячи параллельных симуляций для ускоренного обучения с подкреплением. Среди демонстраций — робот ANYmal, осваивающий ходьбу, и симуляция складывания одежды с реалистичной мультифизикой.
NVIDIA Blog

✔️ Anthropic опубликовала статью о том, как правильно работать с контекстом при создании LLM-агентов.
Главная идея - контекст не равен простому prompt’у: это весь набор информации (инструкции, история сообщений, память, внешние данные), который агент использует для принятия решений.

Контекст - ограниченный ресурс, длинные цепочки приводят к «context rot» - постепенной потере качества.
Нужно уметь структурировать и минимизировать инструкции, оставляя только важное.

Важно грамотно управлять вызовами инструментов: они должны возвращать релевантные и компактные данные.
Историю лучше периодически сжимать, сохраняя факты, а не «сырые токены».

Для сложных случаев полезно делить задачи между суб-агентами, а затем агрегировать их результаты.
Эффективная контекстная инженерия делает агентов точнее, дешевле и устойчивее при работе с длинными
Подробнее

✔️ServiceNow выпустила Apriel-v1.5-15B-Thinker

Новая 15B reasoning-модель с открытыми весами набрала 52 балла в Artificial Analysis Intelligence Index - уровень моделей в сотни миллиардов параметров. Отличается сильным instruction following, многошаговыми диалогами и поддержкой 128k контекста. Доступна на Hugging Face под MIT-лицензией для свободного коммерческого использования.
HF

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩82👍41❤23🎉15🔥11👏3💘2🤔1

33.1K viewsedited 05:50

Machinelearning

🔥

Интересный кейс про ML в картографии

В статье рассказано про развитие детектора Яндекс Карт для распознавания дорожных знаков на панорамах — от бинарного классификатора до нейросетей. Сейчас детектор умеет находить почти все знаки в России. Первая же версия создавалась в 2016 году с помощью небольшого датасета и модели на классических подходах компьютерного зрения. Использовали ACFFeatures + WaldBoost с бинарными решающими деревьями.

Классические методы страдали «близорукостью» — детектили знаки только «в лоб», повороты пропускали, поэтому перешли к новой версии на свёрточных нейросетях и натренировали Faster R-CNN.

Нетривиальные архитектурные решения:
▪️Объединили все знаки ограничения скорости в один класс + дополнительная сеть для распознавания чисел на вырезанном знаке
▪️ То же с направлениями по полосам — детектор находит знак, дополнительная модель выдаёт бинарный вектор направлений
▪️ Создали отдельную модель для обработки найденных знаков многополосности. Полная техническая реализация описана в статье.

🟢

Главная проблема — сбор датасета

Как обычно, всё упёрлось в данные для обучения. Терабайты фотографий улиц прогонять через асессоров — дорого и неэффективно. Выстроили такой процесс: сначала автоматически находить фотографии, где есть дорожные знаки, и только потом отправлять их на разметку асессорам.

🟢

Финальные цифры:
▪️ 300 тысяч фотографий в датасете
▪️ 1,5 миллиона размеченных знаков
▪️200+ поддерживаемых классов знаков

Любопытный факт: самый частый знак в датасете — пешеходный переход.

Практический результат: всё это помогает автоматически обновлять данные в Картах, по которым сервис строит маршруты, выдаёт голосовые подсказки о том, с какой скоростью ехать и тд. В год так вносится более 200 тысяч автообновлений

⚡️ Статья: https://habr.com/ru/companies/yandex/articles/946338/

@ai_machinelearning_big_data

#ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍326🔥254❤206👏88🥰56😁53🤔22🤣9🤩7👌5❤‍🔥1

33.6K views10:04

Machinelearning

🧠 Google/DeepMind представили AlphaEvolve: ИИ, который помогает математикам и компьютерным теоретикам искать новые результаты.

💡 Как он работает
Обычно LLM стараются писать доказательства целиком, но это слишком сложно и ненадёжно.

AlphaEvolve идёт другим путём: он не пишет доказательства сам, а генерирует новые маленькие элементы *конструкции (gadgets)*.

Эти кусочки можно быстро проверить автоматикой, и если они работают, их можно собрать в более крупные теоремы.

📈 Что удалось найти
- Новый результат для задачи MAX-4-CUT (Это задача из теории алгоритмов и комбинаторной оптимизации, разновидность классической задачи MAX-CUT), с конструкцией, которую раньше никто не придумывал.
- Сильные новые нижние границы для задач на случайных графах, включая работу с Ramanujan graphs.
- Проверка теорем стала в 10 000 раз быстрее, чем в обычных методах.

🧩 Зачем это нужно
- Математика требует 100% точности - и тут AI помогает именно как генератор идей, а проверка остаётся строгой и надёжной.
- Такой подход экономит годы человеческой работы и открывает дорогу к новым теоремам и алгоритмам.

📄 Подробнее: research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/

@ai_machinelearning_big_data

#AI #Math #DeepMind #Research

👍321👏155🔥51🤓23😁21🎉16🤩16😢13👌13🤔11🥰5

37.3K views15:05

About

Blog

Apps

Platform