NEW BOT Телеграм, страница

Купились? На самом деле будет куча(уже полно) нейро стримовых шоу которые будут нарезаться на кеки и те в свою очередь будут циркулировать по сети.
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.

Стрим

👍37🙈18😁6🌭3❤2🔥2

27.1K viewsedited 12:57

Love. Death. Transformers.

вроде генеративки научились генерировать руки, но почему такая зловещая долина?

Plot twist: это не генерация

🤔41😁16❤8🔥4🌚4👀3❤‍🔥2🍌1🍾1🖕1

4.89K viewsedited 15:44

Love. Death. Transformers.

Сбер планирует gpt3.5 20 июля?
Выпускайте llama2 18 июля.

😁80👍11🥴8❤2🔥2🤣1🆒1

4.85K viewsedited 08:45

Love. Death. Transformers.

Вы русский nlpшник? Вам нужна модель под ft, но у saiga слишком низкая плотность токенов, rugpt 13b жирная?
Выход есть!
Siberian Fred это инструктивный файнтюн fredT5 на инструкции, он меньше бредит, неплохо решает text qa и неплохо zsшотиться. Но самое главное - он всего 1.7б параметров, те его можно деплоить практически на любые карты в ggml формате!

Link

❤‍🔥26👍6🤔3❤2✍1🍌1

4.96K viewsedited 16:48

Love. Death. Transformers.

Втф а почему телеграмм теперь Инстаграм

❤56😁23😍4👎2🤬1🗿1

4.73K views21:53

Love. Death. Transformers.

#чтивонаночь
Meta-Transformer: A Unified Framework for Multimodal Learning

Помните китайские инструменты нож-молоток-плоскогубцы-уровень в одном? Китайцы выпустили meta Transformer - модель с пошернным между модальностями space и при этом с разными энкодерами и головами для разных модальностей.

По метрикам очевидно все плохо, но есть код и веса!
paper
code

😁23🔥7👎2🕊1

4.68K views09:24

Love. Death. Transformers.

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

❤51😢14😁8👎5👍1

6.36K views21:42

Love. Death. Transformers.

Вау, оказывается есть ~~магазин~~ витрина коннекторов для LLM+ langchain/llama index.
Есть интеграции с Gmail/confluence/calendar и кучей источников данных!
GitHub
LlamaHub

❤20👎1

7.42K viewsedited 15:23

Love. Death. Transformers.

Релиз llama2-saiga от Ильи Гусева, на sbs 15% прирост относительно llama1!

Model

huggingface.co

IlyaGusev/saiga2_7b_lora · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍42❤7👎1🤔1

4.87K viewsedited 16:30

Love. Death. Transformers.

😁24❤‍🔥2❤1🌚1😈1

5.52K views18:12

Love. Death. Transformers.

❤92😁44🌭2

6.8K views13:09

Love. Death. Transformers.

#чтивонаночь длинное

Блог про токенайзеры

Благодоря покупке рекламы помимо обычно чтивананочь появились(пока не регулярные) блоги по разным темам, конкретно этот я тянул больше месяца, но он будет полезен для ознакомления с токенизаторами и в целом что есть внутри hf имплементации.

скоро выйдет погулять текст про новые llam_ы и sd_xl

блог

🔥55❤‍🔥4❤3👍3☃1

5.39K viewsedited 15:58

Love. Death. Transformers.

🔥 Прод не упал 🔥

Спустя годы в стартапах и корпорациях я собрал букет мыслей, проницательных идей и бесстрашных мнений. Ты найдешь ответы на вопросы, которые не задают вслух.

• Почему можно и нужно нарушать дедлайны?

https://news.1rj.ru/str/prodneupal/5

• И почему не стоит говорить, что ты пользуешься WhatsApp?

https://news.1rj.ru/str/prodneupal/10

Есть мат. Есть лонгриды. Нет спама.

🚀 Узнай больше - тыкай сюда 🚀
#промо

прод не упал

Лучше поздно и качественно, чем вовремя и хреново

В любой работе (а особенно в IT) есть дедлайны. Каждый менеджер спрашивает про эстимейты. Каждый заказчик напоминает про горящие сроки. И конечно, лучше делать и хорошо, и вовремя. Но так редко бывает - надо…

🤡41👍5👎4🤮3🙈3❤2🤔2🖕1🤓1

4.36K viewsedited 07:01

Love. Death. Transformers.

sam almond
demis wassabi
greg broccoliman
oreo vinyals
guac le
baguette zoph
liam feta
ilya sushikever
yoshua bento
elon mustard

🌭45😐16💅4🔥2

4.06K viewsedited 15:02

Love. Death. Transformers.

Forwarded from что-то на DL-ском

А вы знали, что есть способ улучшить генерализацию любой кодовой модели? Как? Применив до этого модель от Microsoft – CodeExecutor

Сложно-сложно, непонятно. Как я могу улучшить результаты своей модели, применив до этого CodeExecutor? А как именно надо применить?🤨

Итак, модель вышла в мае этого года. Основана она на предыдущей модели Microsoft под названием UnixCoder (2022). Коротко – чуваки взяли и поверх предыдущей модели на претрэйне обучали ее на предсказание трассировки по коду. Что за трассировка можно посмотреть во вложении, но по сути это состояние переменных в течении выполнения кода.

Они кстати выложили, как выглядит их датасет, но я нашла только test. 😠 А собирали они его следующим образом: брали код из датасета CodeNet и прогоняли в песочнице, которая будет комплитить этот код и выдавать трассировку. Вау, как неожиданно. Ладно, на самом деле это не все, они еще зааугали данные различными операциями (вложения, там список). И получив AST дерево (тоже напомню во вложениях как оно выглядит), они получали элементы к которым они могут применить операции «мутаций»

Еще мне понравилось, что авторы вспомнили древний (ну реально, на фоне всех методов NLP) подход curriculum learning. Если коротко – это обучение с постепенным усложнением функции. Ну то есть начинаем с линейной, постепенно продвигаемся к выпуклой. Соответственно они начинали учить с однострочных кодов и увеличивали постепенно количество строк.

Так вот, как же она может то давать прирост величины результатов любой модели. Перед тем, как использовать кодовые модели просто прогоняем трестировку на данных и скарливаем. Все🧠. По метрикам у моделей действительно увеличивается понимание кода.

🤗Модель

🖥

Код

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21🔥1

4.14K views17:16

Love. Death. Transformers.

#чтивонаночь по быстрому
Retentive Network: A Successor to Transformer
for Large Language Models

Довольно перспективная архитектура под убийство трансформеров, с одной стороны она совмещает плюсы трансформера: легкий layer paralel, возможность смотреть на все токены и attention. А с другой стороны она обрабатывает все токены за O(N) по памяти, что ОЧЕНЬ мало(у трансформера ~N**2).
При этом еще и инференс идет за O(1).
При обучении на 100B(где то 400гб) текста авторы показывают лучший ppl, и на голову лучшие метрики на валидиционных сетах(SIC!) и разница практически на 10 пунктов(SIC!).

А еще эта версия в два раза меньше памяти потребляет при тех же размерах и в 6 раз быстрее на реальных замерах.

paper
code

будет тут когда нибудь

❤‍🔥41🔥13👍3❤1👎1

4.83K viewsedited 07:40

Love. Death. Transformers.

Преза с ICML от HF и Toloka
Доклад Nathan Lambert из HF и Dmitry Ustalov из Tolokи про то как делать RL+LLM, много крутых заметок от людей кто реально учит RL, например:
- RM имеет на eval 65-70% agreement
-дизайн тасок для толоки под sbs разметку
-псевдо код PPO (ура хоть кто то показал насколько он простой)

презу украл из желтый ии

👍22👎2🥴2☃1❤1

4.29K viewsedited 12:35

Love. Death. Transformers.

Forwarded from Ilya Gusev

Привет!

Появились финальные результаты по Сайге на новых моделях.

Сами новые модели:
saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B

Side-by-side сравнения (победы левой - ничьи - победы правой):

- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95

- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53

Сырую разметку можно найти здесь: rulm_human_preferences

А на картинке - результаты на RussianSuperGLUE.

В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.

А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.

❤22🍾10👎4🤮3😢1

5.06K views18:50

About

Blog

Apps

Platform