Love. Death. Transformers. – Telegram
Love. Death. Transformers.
22.5K subscribers
4.26K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Абсолютно прекрасный электро саундтрек
🔥17👍4
Forwarded from Борис опять
Родни Брукс продолжает трекать свои предсказания по части развития ИИ, автопилотов, роботов и космоса. И чужие за одно.

При всей своей пессимистичности (относительно среднего хайпа) он очень даже точен.

Плюс дает хороший нарратив о произошедшем за 2024. Например, я не знал, что появилась практика, когда группы мужчин преследуют женщин использующих Waymo такси ночью, так как знают, что женщина одна и машина остановится в определенном месте.

https://rodneybrooks.com/predictions-scorecard-2025-january-01/
😡19👍10😁2😐1
Гайд несколько про практику, сколько про интуицию внутри RL

naklecha.com/reinforcement-learning
40🔥7❤‍🔥3👍2
https://bigcode-bench.github.io/

О1 с medium resoning работает хуже чем deepseek который opensource и хуже чем gemeni и хуже чем o1 low reasoning.
😁78🔥5👍4
Forwarded from Любовь Чубарова
#проект
Привет!

Для обучения и оценки качества генеративной языковой модели Сколтеху нужны авторы-эксперты в разных доменах компьютерных наук, в том числе по ML/DL/NLP/CV etc. Работа part-time, полная удаленка.

Что предстоит делать:

По выбранной вами теме из нашего глоссария нужно написать 100 вопросов, структурированных в формате multiple-choice с четырьмя вариантами ответа, один из которых является верным, отметить верные ответы.

Вопросы делим на три уровня сложности, где простой - вопрос для успешно прошедших курс по некоторой тематике, а сложный — нетривиальный кейс, требующий глубокого понимания тематики. Средний — что-то между.

Пакет вопросов должен содержать 40 простых, 35 средних и 25 сложных вопросов.

Ориентировочное время подготовки пакета вопросов — 20 часов

Мы предоставим вам список литературы, который поможет в составлении вопросов. Вам не нужно будет тратить время на поиск информации — всё необходимое уже будет под рукой.

Вопросы могут быть не только теоретическими, но и с примерами формул (в LaTeX) или кода, если это уместно. Например, можно писать вопросы по работе с кодом.
Вопросы должны быть уникальными и написанными вами — мы проверяем сеты на генеративность и на то, ищутся ли элементы в интернете.

Примерные темы вопросов:

- Python
- JavaScript
- теория массового обслуживания
- вероятности в компьютерных науках
- языки запросов к данным
- графическое и мультимедийное ПО
- медицинское ПО
- проектное управление


Что ожидаем от авторов-экспертов:

Студенты старших курсов, или bachelor/masters, или промышленный опыт от года в соответствующей области знаний.
Опыт преподавания или составления образовательных материалов в выбранной теме — большое преимущество.

Условия, сроки и оформление

Стоимость полного пакета вопросов — 20 000 рублей на руки. Оформление по ГПХ.
Перед тем, как вы приступите к написанию полного пакета, попросим заполнить короткую форму, написать 5 вопросов разной сложности и вернемся с фидбеком в течение двух-трех суток.
Работаем на специальной удобной платформе для разметки, сдать пакет вопросов нужно в течение двух недель от получения доступа к платформе. По завершении первого пакета в случае успешной работы мы сможем вам предложить и другие задачи.

Писать за подробностями в тг @skoltech_llm или на почту skoltech.llm.vacancy@yandex.ru

Если подробности не нужны — можно сразу заполнить форму
🤡117👍13🔥8💩86🤮42❤‍🔥11😁1
Привет! Акция на рекламу, 500usd в любом виде за 8/24, пост я напишу сам, писать в @transformerslovedeatch
🍓35😁1712🤔4👏33💅2💩1🤡1🆒1
Forwarded from black_samorez
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.

Если кратко, в статье мы:

Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.

Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.

Запись семинара (длиной 56 минут) можно найти на ютубе.
🔥43👏7❤‍🔥3
*Офис ресерч лабы. джуниор ресерчер со шваброй туалет чистит и бубнит:
- Все зассали, все засрали, каждый день говно соскребаю, как это все заебало!
Другой мужик сидит на очке, все это слышит и говорит:
- Так уволься, в чем проблема?
- Чтоо? Бросить ресерч? - да никогда!

by @degentradingggg
😁17530👏5🔥2🥴2🙈2❤‍🔥1🤡11
много думал
😁35👏10👍1👎1
Forwarded from AbstractDL
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)

С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁

Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.

Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.

Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.

Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.

P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.

Статья, GitHub
👍75🔥23💋8❤‍🔥2🥴2🆒11
TRANSFORMER2: SELF-ADAPTIVE LLMS

Идея какая: c помощью LORA мы доставляем матрички и учим в них новые знания на фиксированном сете, получаем на выходе примерно тоже самое что учили.

Что предлагают авторы: давайте с помощью RL и SFV(их метод представленный в этой статье ) найдем и затреним такой вектор внутри модели который будет отвечать за новую задачу(модель сама учится решать это новая или старая задача)

А зачтем на инференсе модель сама выберет какой вектор или комбинацию векторов использовать!

Бонусом: такие вектора переносятся между моделями(Mistral - LLama)



paper


От автора: https://sakana.ai/transformer-squared/ ребята из sakana.ai на мой взгляд делают один из самых интересных ресерчей в индустрии, идеи прям ОЧЕНЬ хороши, да еще и подробные ИНТЕРЕСНЫЕ статьи пишут
🔥60❤‍🔥7👍6
Мой сосед по телеграмму - Артем из @ai_newz

Чтобы преуспеть в век ускоряющегося AI вам не стоит тратить время на техноблоги, а нужно копать глубже: научные статьи, пейперы и технические отчёты из первых рук. Так вот, @ai_newz — это не очередной ИИ технобложек, которых в телеге развелось в последнее время. На канале Артёма, Staff Research Scientist-а в Meta, можно почитать пейперы из первых рук Meta GenAI. Ну и кроме того, обзоры других пейперов и важных новостей.

Вот, например:

— Артем рассказал о MovieGen, в обучении которого его команда принимала непосредственное участие
— Артём рассказал о новой модели Imagine Flash для риалтайм генерации картинок, которую он и его команда обучили — был ещё один громкий релиз от Meta.
— Пост про модель для генерации стикеров, которую Артём лично оптимизировал. Моделька уже крутится в Инсте и WhatsApp в проде.
Актуальный список книг для изучения ML в 2024.
— Статья Артёма об ускорении диффузии с помощью кеширования, без потери качества, конечно же.
— Лонгрид про парижский стартап Mistral и знакомство Артёма с фаундером.
— Пост про грейды в бигтехе [ч1, ч2] и компенсации. Все же в курсе, что сеньор это еще не все?:) Ну и туда же запись стрима про собеседования в БигТех.

Такие люди как Артем, двигают SOTA и делают наступление AGI все ближе. Рекомендую подписаться, чтобы не потерять себя, когда наступит AGI: @ai_newz.
🤡84👍34🤮13💩10🔥76❤‍🔥5😁3💋1
This media is not supported in your browser
VIEW IN TELEGRAM
погодите это реально?

ориг тут
55🤮14🗿4🙈3👍1🔥1😁1🥴1👾1
Когда у айтишников-парней две работы все такие типа вау

Но когда она...


А на самом деле ситуация оч страшная, надеюсь ее не уволят и все будет хорошо, профессианальные доклады на конфах неплохие.


Лучше найти лида на онлифансе чем его телеграмм канал
👍23067😁28🍓15🤡11😢3🔥1💯1🍌1
🔥16🤔5👍3
Тренируете нейронку для создания изображений и столкнулись с кучей проблем? Нет легальных датасетов для тренировки, и это может стать серьезной юридической проблемой в самом ближайшем будущем. Боитесь, что в обучение попадет много синтетики. Нужно прокачать нейронку под определенную тематику или стиль, но у вас мало качественных входящих данных. А вы же знаете золотое правило ML: говно на входе — говно на выходе?

Но есть решение! Ребята из Bang! Bang! AI подготовили качественные датасеты для тренировки — как общие, так и с фокусом на конкретные темы. Сейчас доступны десятки тысяч лицензированных иллюстраций, и скоро обещают увеличить до сотен тысяч.
🥴47👍1614👎2🤡2💯1
Inference-Time Scaling for Diffusion Models
beyond Scaling Denoising Steps


забавная статья, оказывается если сэмплить из диффузии несколько раз шум и фильтровать то можно получить результаты получше.

paper
😁24👍5💯2