Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Anthropic снова на сцене с продолжением того самого исследования про интерпретируемые фичи

Для контекста напоминаем: несколько месяцев назад стартап выпустил исследование, в котором ученые рассказали, что научились с помощью SAE извлекать из активаций модели интерпретируемые фичи. Более того, тогда выяснилось, что, затюнив какие-то вполне конкретные фичи, мы можем заставить LLM отвечать определенным образом. Эта статья запомнилась нам под названием “Golden Gate” и уже успела стать классикой. Мы делали ее подробный разбор здесь.

Сейчас исследователи фокусируются как раз на изучении тюнинга фичей: как и насколько сильно мы можем таким образом повлиять на генерации?

Результаты получились неоднозначные. Оказалось, что:

⚪️ Управлять аутпутами с помощью фичей действительно можно! Например, если повысить значимость фичи, которая отвечает за гендерную предвзятость, то на эвале четко видно, как модель начинает отвечать более стереотипно.

⚪️ Что касается метрик, то небольшой тюнинг фичей не портит модель, а вот более грубый уже способен повредить перформансу в целом.

⚪️ Тюнинг фичей может влиять на выходы непредсказуемо: мы не можем однозначно определить, на что еще подействует изменение их весов. Например, в примере из пункта один модель кроме гендерных стереотипов начала выдавать еще и возрастные.

Конечно, цель всего исследования – найти новые варианты и механики для alignment’а: и кажется, что выглядят результаты очень многообещающе. По крайней мере, ресерчеры обещают продолжить эксперименты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2811👍7🔥6👌1
Data Secrets
AGI достигнут, расходимся
AGI достигнут, расходимся v2
😁249🔥23👍141
Тем временем в Твиттере продолжают сравнивать модели по их способностям в майнкрафте 😔

Вот, например, Sonnet 3.5 new против o1 preview

Кто победил?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7715👍8🔥3
Хотя Альтман новости о декабрьском релизе опроверг, все уже переполошились: Google не хочет отставать от конкурента и теперь тоже планирует релизить новую Gemini 2 перед Новым Годом.

Winter is coming 🔥
😁74👍14🔥11🗿1
OpenAI предложили эффективное упрощение диффузионных моделей

Диффузионные модели – SOTA для генерации картинок, аудио и даже видео, но сэмлирование у этой архитектуры происходит на скорости черепахи. Чтобы получить один сэмпл, модели требуется прогнать сотни степов диффузии.

Некоторое время назад OpenAI начали работать над этой проблемой и в июне предложили так называемые Consistency модели: они, в отличие от обычных диффузионок расшумляют не итерационно, а как бы однозначно мапят шум и данные. За счет этого генерировать изображение можно не за сотни шагов, а всего за 1-2.

А на днях у стартапа вышла статья-продолжение: в ней они описывают sCM – scaled consistency model. Эти модельки оптимизированы еще сильнее. Например, если диффузия сэмплит образец за 6.16 секунд, то у sCM на это уходит 0.11 – разница очень существенная. И масштабируемость красивая: посмотрите на графики.

Качество образцов кстати тоже не уступает. И по FID, и на глаз модель соответствует качеству хороших взрослых диффузий, хотя и является по сути дистилляцией.

Полный текст статьи – здесь
👍439🔥8
Data Secrets
AGI достигнут, расходимся v2
AGI достигнут, расходимся v3
😁126🤪21👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Рубрика «красивое»: очень крутая интерактивная визуализация работы ANN в динамике из одного из курсов brilliant.org
👍105😍4910
Media is too big
VIEW IN TELEGRAM
Google: релизят свой самый крутой сервис за год
Meta: буквально через пару месяцев показывают опенсорс аналог

Да, в Meta выпустили открытую копию того самого NotebookLM, который генерирует подкасты из pdf, – Notebook Llama. Что под капотом:

⚙️ Предобработка PDF: Llama-3.2-1B-Instruct используется для преобразования pdf в txt.

⚙️ Составление сценария: здесь для написания драфта текста используется Llama-3.1-70B-Instruct, а затем Llama-3.1-8B-Instruct перерабатывает текст и делает его более лиричным и «очеловеченным», чтобы подкаст получился поживее.

⚙️ Text2speech: тут прикрутили parler-tts-mini и suno.

Пока еще заметны шероховатости, но замена точно достойная (пример⬆️). Код ищите тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
27😎22🔥16👍21
Media is too big
VIEW IN TELEGRAM
Линус Торвальдс: «Я фанат ИИ, но не хайпа вокруг него»

По его словам, реальный потенциал и пользу искусственного интеллекта можно будет оценить только на расстоянии, то есть примерно через 5 лет. «Сейчас ИИ на 90% состоит из маркетинга, и я ненавижу этот период хайпа»
👍11322💯12😐9🌚2🤓2🤝2🔥1🤨1💅1🦄1
Apple Intelligence здесь!

Правда, если вы не из определенного списка стран или у вас не определенное устройство, то вас отправят в Waitlist ☹️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8🗿82
Помните недавнюю статью Anthropic про новую технику RAG, которая навела столько шума?

Кратко: исследователи предложили технику аннотирования чанков и смешивания обычных эмбеддингов с TF-IDF. Количество галлюцинаций на таком пайплайне понизилось относительно классических техник RAG на 35% (!). Более подробный разбор статьи мы делали здесь.

Так вот, теперь появился шанс познакомиться с архитектурой еще ближе: появилась опенсорсная реализация от ребят из Together AI. Они используют Llama 3.2 3B для аннотирования, и Llama 3.1 405B как основную модель.

Код здесь. Если вы исследователь, то будет супер полезно поиграться и разобраться. А если крутите RAG где-то на проде – то сохраняйте имплементацию на заметку.
39🔥11👍8❤‍🔥2
⚪️ The Information сообщает, что Meta разрабатывает собственную поисковую систему с ИИ

⚪️ Perplexity привлекает новый раунд инвестиций и собирается забрать львиную долю рынка поиска

⚪️ OpenAI продолжает тестировать SearchGPT

Google: 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥14🫡81
This media is not supported in your browser
VIEW IN TELEGRAM
Там в Твиттере случайно сгенерировали классическую реакцию на новость про шестидневку
🔥82😁50🫡5🤝3😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так коллаб: NVIDIA совместно с xAI построили Colossus – самый большой в мире суперкомпьютер

Colossus был создан всего за 122 дня и работает на базе сетевой платформы NVIDIA Spectrum-X Ethernet, которая была разработана специально для обучения ИИ. Ее соль в повышенной пропускной способности: 95% с нулевой задержкой.

В Colossus (приготовьтесь) 100 000 видеокарт NVIDIA H100. И, судя по твитам Маска, туда собираются добавить еще столько же H200. Кластер будет использоваться для обучения моделей Grok.
👍51🔥326👀5
⚡️ Вышла Stable Diffusion 3.5 Medium

В модельке 2.5В параметров, так что, как создатели написали в релизе, запустить ее можно даже «на тостере». Для малышки потребуется всего 10 Гб видеопамяти, а на метриках это SOTA в своем размере.

Самое приятное: модель открыта как для личного, так и для коммерческого использования.

Веса | Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
34👍20🔥9💘2❤‍🔥1👏1
Более 25% кода, который сейчас пишут в Google, создается ИИ

Об этом рассказал Сундар Пичаи. Политика такова, что инженерам разрешают и даже рекомендуют активно использовать ИИ для генерации нового кода (но, конечно, сгенерированный код затем внимательно проверяется).

Кроме того, CEO поделился занятными цифрами: бизнес Google Cloud увеличился на 35%, и аналитики считают, что в основном это заслуга ИИ, который помогает заключать крупные b2b сделки.
🔥56🤯22👍5😁41🌚1