Data Secrets – Telegram
Data Secrets
78.7K subscribers
6.38K photos
657 videos
20 files
2.67K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как моя мама представляет меня, когда я говорю, что занимаюсь машинным обучением VS действительно я на работе
😁19713🎉7😈53💘1
GPT-5 выходит в декабре или все-таки нет?

Вчера The Verge опубликовала статью под названием "OpenAI plans to release its next big AI model by December". Речь шла про Orion: тот самый, о котором слухи начали ходить еще в августе.

Журналисты (тогда и сейчас) написали, что эта модель будет в 100 раз мощнее GPT-4, но будет отлична по структуре от семейства ризонеров o1. А o1, кстати, выступит учителем: нагенерит синтетические данные для обучения Orion и, возможно, заменит человеческие аннотации в RLHF.

Кроме того, Verge сообщили, что моделька будет выпущена сперва на Azure для компаний-партнеров (и это произойдет уже в ноябре), а только потом ее раскатят на широкого пользователя.

Однако Альтман новость довольно грубо опроверг, написав, что это "фейковые новости, вышедшие из-под контроля" и раскритиковав СМИ за «печать случайных фантазий». Тем временем сам он недавно твитил про "зимние созвездия" и про то, что его команда празднует завершение обучения какой-то модели 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🤔1794😁2💅1
Красивое: посмотрите, как хорош новый Sonnet в рисовании по уравнениям
52👍3018🦄5🤯1
Perplexity сообщили, что они еженедельно обрабатывают более 100М запросов

В месяц это почти 400М, тем временем как в июле спрос за поисковик был почти в два раза меньше: 250M запросов.

Кстати, сейчас компания планирует привлечь около $500 млн при оценке в $8 млрд. Perplexity также обсуждает условия сотрудничества с брендами для спонсируемых ответов поисковика и недавно изменила свою модель подписки.
👍6012
AGI достигнут, расходимся
😁2294🙈1
Google Deepmind опенсорснули SynthID – инструмент для встраивания и обнаружения водяных знаков в сгенерированном тексте

Идентификация сгенерированного текста вообще больная тема. Классификаторы работают очень плохо, а альтернативных решений мало: разве что вотермарки. Но существующие решения для водяных знаков либо очень тормозят инференс, либо откровенно портят текст, либо на этапе обнаружения скатываются в точность классификаторов. SynthID – попытка это исправить.

Исследователи предлагают встаивать вотермарки дешево, внося несущественные изменения в процедуру выбора следующего токена на этапе, когда вероятности уже посчитаны. Таким образом мы влияем на распределение конечного текста и как бы вносим статистическую "подпись" в генерации (скрин 1, 2). На этапе идентификации можно просто посчитать статистики и по трешхолдам определить, сгенерирован текст или нет.

Гиперпараметры метода можно настраивать: мы можем вносить больше изменений, тогда текст будет меняться сильнее и перформанс может немного падать, но обнаружить вотермарку будет проще. Или наоборот, можем выкрутить температуру, и вотермарки станут более прозрачными (скрин 3).

Самое интересное: Google даже попробовали катнуть неискажающий вариант SynthID в продакшн gemini и доказали, что пользователи в основном не замечают изменений, а вотермарки, тем не менее, можно обнаружить с приемлемой точностью.

Статья в nature | Релиз на HF
👍358
Лекун опять выдает базу
👌63👍2110🤨7🫡6🔥3💯2
This media is not supported in your browser
VIEW IN TELEGRAM
Сэм Альтман: «мне больше не кажется, что AGI – наша конечная точка назначения»

Мы все привыкли к тому, что цель OpenAI – это AGI. Но внезапно в недавнем подкасте Джо Рогана Сэм сказал, что он так больше не думает, и что миссия компании может занять еще 7-8 лет.

Наверное, он имел в виду сверхинтеллект, но почему-то от произношения самого термина воздержался. Сразу вспоминается его эссе и фраза «It is possible that we will have superintelligence in a few thousand days (!)»…
👍35😁2985🔥3
Anthropic снова на сцене с продолжением того самого исследования про интерпретируемые фичи

Для контекста напоминаем: несколько месяцев назад стартап выпустил исследование, в котором ученые рассказали, что научились с помощью SAE извлекать из активаций модели интерпретируемые фичи. Более того, тогда выяснилось, что, затюнив какие-то вполне конкретные фичи, мы можем заставить LLM отвечать определенным образом. Эта статья запомнилась нам под названием “Golden Gate” и уже успела стать классикой. Мы делали ее подробный разбор здесь.

Сейчас исследователи фокусируются как раз на изучении тюнинга фичей: как и насколько сильно мы можем таким образом повлиять на генерации?

Результаты получились неоднозначные. Оказалось, что:

⚪️ Управлять аутпутами с помощью фичей действительно можно! Например, если повысить значимость фичи, которая отвечает за гендерную предвзятость, то на эвале четко видно, как модель начинает отвечать более стереотипно.

⚪️ Что касается метрик, то небольшой тюнинг фичей не портит модель, а вот более грубый уже способен повредить перформансу в целом.

⚪️ Тюнинг фичей может влиять на выходы непредсказуемо: мы не можем однозначно определить, на что еще подействует изменение их весов. Например, в примере из пункта один модель кроме гендерных стереотипов начала выдавать еще и возрастные.

Конечно, цель всего исследования – найти новые варианты и механики для alignment’а: и кажется, что выглядят результаты очень многообещающе. По крайней мере, ресерчеры обещают продолжить эксперименты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2811👍7🔥6👌1
Data Secrets
AGI достигнут, расходимся
AGI достигнут, расходимся v2
😁249🔥23👍141
Тем временем в Твиттере продолжают сравнивать модели по их способностям в майнкрафте 😔

Вот, например, Sonnet 3.5 new против o1 preview

Кто победил?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7715👍8🔥3
Хотя Альтман новости о декабрьском релизе опроверг, все уже переполошились: Google не хочет отставать от конкурента и теперь тоже планирует релизить новую Gemini 2 перед Новым Годом.

Winter is coming 🔥
😁74👍14🔥11🗿1
OpenAI предложили эффективное упрощение диффузионных моделей

Диффузионные модели – SOTA для генерации картинок, аудио и даже видео, но сэмлирование у этой архитектуры происходит на скорости черепахи. Чтобы получить один сэмпл, модели требуется прогнать сотни степов диффузии.

Некоторое время назад OpenAI начали работать над этой проблемой и в июне предложили так называемые Consistency модели: они, в отличие от обычных диффузионок расшумляют не итерационно, а как бы однозначно мапят шум и данные. За счет этого генерировать изображение можно не за сотни шагов, а всего за 1-2.

А на днях у стартапа вышла статья-продолжение: в ней они описывают sCM – scaled consistency model. Эти модельки оптимизированы еще сильнее. Например, если диффузия сэмплит образец за 6.16 секунд, то у sCM на это уходит 0.11 – разница очень существенная. И масштабируемость красивая: посмотрите на графики.

Качество образцов кстати тоже не уступает. И по FID, и на глаз модель соответствует качеству хороших взрослых диффузий, хотя и является по сути дистилляцией.

Полный текст статьи – здесь
👍439🔥8