Борис опять – Telegram
Борис опять
15.1K subscribers
1.43K photos
72 videos
30 files
1.47K links
life = curiosity + irreducible noise

Whois: https://news.1rj.ru/str/boris_again/3400

Лс: @btseytlin
Download Telegram
ПЕРВЫЙ МУЛЬТИМОДАЛЬНЫЙ ДАТАСЕТ ЗАДАЧ ПО ФИЗИКЕ?

Контрибьютеры в вихре варят очень сложные датасеты - рецепт простой: краулим 10 гб html-pdf_ок, прогоняем через кучу ocr, latex конверторов, парсим текстовый слой и картинки. Потом обмазываем все это регулярками для вязкости и получаем вероятно один из самых сложных для LLM датасетов - physics_big.

Почему он сложный? Потому что это мультимодальная физика с олимпиад. В отилчие от геометрии или алгебры для физики все сильно хуже с солверами, авто решаторами и индукцией ее тоже не решишь


Заливать в test в train можно здесь hf


Над релизом работали:
@suro4ekgg - вообще почти сделал
@mlunderground
@lovedeathtransformers

поддержать в X
🔥30👍1122
Играюсь тут с новой моделью для генерации изображений Flux

Забавное: модели мира у неё ломаются при добавлении в промпт "upside down."

Больше интересных находок буду скидывать в комментарии.

Но в целом прогресс супер, эта модель гораздо лучше умеет в композицию и хорошо понимает промпт. К тому же модели ОЧЕНЬ быстрые. Маленькая генерирует изображение за чуть больше секунды.

Поиграть можно тут: https://replicate.com/black-forest-labs/flux-schnell

Или с полноценной моделью тут:
https://fal.ai/models/fal-ai/flux-pro
Но там ограниченные деньги, много не попробуешь
👍5🔥41😢1
Но это достойно поста в канале.

Приходите в наш массажный салон.

В большой модели вроде бы всё нормально, но у меня кончились кредиты и не потестить особо.

UPD: нет, в большой тоже самое
613
Массаж может быть новым тестом для генераторов изображений, так как с руками вроде бы разобрались в больших моделях
🔥363241
Кстати на платформе https://fal.ai/models/fal-ai/flux-pro у создателей вообще никакой цензуры, модель генерит что угодно. Кого-то ждет PR disaster
4
Ранее я спрашивал подписчиков интересно ли сделать на базе канала мини-сообщество в виде живого чата. Заинтересовались почти двести человек. Давайте делать!

Создаем уютный чат про любопытство. Ограничений по темам нет, но в основном обсуждаем машинное обучение, науку, карьеру, жизнь и мемы. Фокус на качественные дискуссии и обмен личным опытом. Лично я планирую отправлять в чат то, что мне интересно, но по каким-то причинам не пойдет в канал.

В качестве приманки: я недавно менял работу и опишу свой опыт в нескольких постах в чате.

Ссылка на чат:
https://news.1rj.ru/str/+Q8wZrzGl4ZY3MjZi

Это НЕ чат привязанный к каналу для комментариев, не ошибитесь кнопкой.

Правила:
1. Не будь мудаком.
2. Чат это не фронт войны за продвижение своих идей в какой-либо плоскости, особенно политической.
3. Недопустимы оскорбления и отсутствие уважения к собеседникам, систематически низкокачественный контент, переборы с самопиаром и спам.

Нормы:
- В дискуссии в первую очередь исходи из вазимного уважения. Предполагай, что собеседник искренен и уважает тебя, пока он не доказал обратного.
- Не будь слишком серьезен. Особенно по отношению к себе.
- Выражать своё мнение нормально, если вы готовы услышать мнение собеседника, но постоянное насаждаение совего мнения приведет к быстрому бану.
- Исповедуем гуманизм.

Модерация будет на основе моей диктатуры и votekick.

В процессе посмотрим, что из этого получится!
26👍6
Когда занимаешься интерпретацией нейросеток

Шутка украдена у него
25👍851
Вышло!

Запись моего выступления + AMA в Вастрик.Клубе про "Нейросети для троечников"

https://www.youtube.com/watch?v=b3XogyyXgUs&feature=youtu.be

Я постарался сделать максимально доступное и одновременно полное описание того как работают нейросети. Посмотрев первый час вы поймете всё про машинлернинг ну почти

Внутри:
* Показываю как за несколько слайдов перейти от сложения и умножения к ChatGPT.
* По каким принципам работает весь AI/ML.
* Что мы знаем про внутренние репрезентации нейросетей и почему это круто.

В видео три блока:
1. От школьной математики к нейросетям.
2. Как нейросети понимают сложные вещи.
3. Модели мира.

Самый важный, как я считаю, первый. Видео длинное, но этот блок идет примерно до 01:05. В конце блока слайд, где я постарался собрать всё машинное обучение.

Смотрите и пишите как по вашему мнению получилось 🚶‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍55🔥295😢2👎1
Forwarded from Сиолошная
Пара новостей от OpenAI (чтобы замять исход команды лидеров, кек):
1) теперь есть не просто JSON-режим, когда модель отвечает вам в машино-читаемом формате, а структурированная генерация. Первый (представленный в прошлом году) просто повышает надежность модели для создания синтаксически валидных JSON, а второй гарантирует, что ответ модели будет соответствовать определенной схеме. Вот если вы пишете "мне нужно, чтобы были такие-то и такие-то поля, и никаких больше" - теперь в 100% случаев будет исполняться. Можно указывать сложные вложенные структуры (см. картинку).
2) вышла новая gpt-4o, gpt-4o-2024-08-06, но об улучшениях в метриках и качестве работы ничего не говорят
3) зато она дешевле в 2 раза! не знаю, что там делают внутри компании - роняют маржинальность или дистиллируют более качественно (или на самом деле новая модель хуже..), но вот, теперь новая цена $2.50/$10 за миллион токенов на входе и на выходе (против $5/$15).

Напомню, что у OpenAI ещё есть BatchAPI (это когда нужно ждать ответа до 24 часов - подходит для разных несрочных задач), который делит цену на два. Совсем копеешно получается!
🔥18👍75
Forwarded from epsilon correct
Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.

Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер. 🏃‍♂️

Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали. Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи следующего колаба.

Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью. 👆

P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍156🤔64🔥2
Ребята из DevCrowd проводят исследование специалистов DS/ML/AI и приглашают вас поучаствовать в их опросе.

Это исследование нашего с вами рынка. Опрос про профессии, обязанности, ценность разных навыков, подходы к работе и конечно зарплаты. Все мы любим узнавать зарплаты соседей.

В конце сентября результаты выложат в открытый доступ и я напишу про самые интересные моменты.

Проходите опрос: ссылка.
👍87👎2🔥1🤬11
84😢13🔥75
# Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models
Gonen et. al.

Впервые в канале ссылка в названии статьи ведет не на arxiv, а на твиттер тред. Видимо так теперь в науке делаются публикации. Каждый день мы всё дальше от Бога(-машины).

Сейчас будет камень в огород моделей мира и любителей концепции "больше параметров LLM -> понимание лучше."

Авторы показывают, что если вы просите GPT-4o продолжить предложение "He likes yellow. He works as a" она предложит вам "school bus driver." Если спросить, что любит друг девушки по имени Мерседес, то он окажется любителем коллекционировать машины Мерседес. Если вы попросите LLM написать историю про девочку по имени Coral, то получите историю про море, волны, корабли. Рецепты еды на красной сковороде будут содержать больше перцев и помидоров, а на синюю сковороду модель предложит добавить черники.

Здесь мы наблюдаем как случайный концепт в промпте изменяет генерацию так, как будто наблюдается причинно-следственная связь. Авторы называют это semantic leakage, утечка (протечка?) смысла.

В целом мы уже интуитивно понимали это. Если писать LLM промпт ВОТ ТАКИМ СТИЛЕМ!!!11 она будет чаще выдавать что-то шизоидно-конспирологическое. Знаменитое "take a deep breath and answer carefully" тоже не имеет отношения к вопросу, но меняет результат. Работа авторов отличается тем, что они показали именно протекание смысла, а не стиля или других ассоциаций.

С некоторыми примерами авторов я согласен меньше. Например, "He watched a flamenco concert. For dinner he had a" -> "delicious paella". Мне кажется здесь всё верно. Если человек любит фламенко, то хотя бы на 0.000001 более вероятно, что он любит испанскую еду. Мы учили модель прикидывать какой текст наиболее вероятно следует за промптом и она это делает. В данном случае наиболее вероятный текст совпадает со здравым смыслом.

Проблемы начинаются когда причинно-следственное и похожее на наиболее вероятный текст не совпадают как в примере с Мерседесом выше. Если такое происходит часто, то мы не можем быть уверены, что модель ответит на наш вопрос "разумно", а не подставит что-то ассоциирующееся с промптом. Одно лишнее слово и поведение модели меняется.

Насколько часто это происходит? Авторы нашли способ замерить. Они делают руками промпты в двух версиях: с добавлением несвязанного концепта и без. Делают генерации. Генерацию с промптом без концепта называют контрольной, а генерацию после промпта с концептом называют тестовой. Сранивают: какая генерация по смыслу ближе к концепту? Далее считают долю случаев, когда тестовая генерация ближе к концепту, чем контрольная. Называют эту метрику Leak-Rate.

Если добавление концепта ничего не меняет, то мы ожидаем Leak-Rate 50%, а в присутствии утечек будет больше.

Для расстояний используют BERT эмбеддинги, OpenAI API эмбеддинги и людей.

Тестируют серии GPT и LLAMA. В итоге:
1. Все модели от LLAMA2 до GPT-4 имеют 70%+ Leak-Rate.
2. Это сохраняется для разных температур и разных типов эмбеддингов. При температуре 0 утечек больше всего, ддя остальных вариантов нет разницы.
3. Instruct и aligned модели имеют Leak-Rate чуть выше.
4. Leak-Rate никак видимо не зависит от размера модели.

Последний пункт самый важный и он же самый неприятный. Считается, что чем больше модель, тем больше она действительно что-то "понимает" и меньше просто генерирует похожий текст. Данная работа показывает, что проблема не решается добавлением параметров. Казалось бы должно помогать добавление данных: если качественного текста больше, то модели сложнее переобучаться и "читерить" семантическими утечками. Слишком часто будет ошибаться. Однако несмотря на то, что Llama-3, Llama-2 и GPT-4 обучались на разных данных, никакой значительной разницы между их Leak-Rate нет. Это действительно плохие новости: неужели не получим AGI просто закидав проблему деньгами? Хм, на самом деле звучит как хорошие новости для нас, думеров.

Из ограничений работы можно назвать только то, что было всего 109 промптов.
👍5118🔥114