NEW BOT Телеграм, страница

gonzo-обзоры ML статей

4.86K views18:00

gonzo-обзоры ML статей

4.94K views18:01

gonzo-обзоры ML статей

5.04K views18:02

gonzo-обзоры ML статей

4.98K views18:03

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

5.3K views18:04

🔥12😱5

gonzo-обзоры ML статей

Вдруг кто ещё не видел

https://github.com/karpathy/LLM101n

LLM101n: Let's build a Storyteller

What I cannot create, I do not understand. -Richard Feynman

In this course we will build a Storyteller AI Large Language Model (LLM). Hand in hand, you'll be able create, refine and illustrate little stories with the AI. We are going to build everything end-to-end from basics to a functioning web app similar to ChatGPT, from scratch in Python, C and CUDA, and with minimal computer science prerequisits. By the end you should have a relatively deep understanding of AI, LLMs, and deep learning more generally.

Syllabus

Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)

GitHub

GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller

LLM101n: Let's build a Storyteller. Contribute to karpathy/LLM101n development by creating an account on GitHub.

🔥138❤12👍7😁2🤡1

11.8K views23:14

gonzo-обзоры ML статей

Гугл сегодня выкатит Gemma 2, в том числе большую модель на 27B.

Видимо ближе к вечеру по Европе и утром Америки.

UPD: https://blog.google/technology/developers/google-gemma-2/

😱33👍22🤔4🥱4❤2

8.75K viewsedited 10:31

gonzo-обзоры ML статей

Для разнообразия сегодня немножко арта

https://youtu.be/fnDO6RKLTpk?si=owsSfRVIScG_IeJ7

Сделано этими ребятами:
https://www.thedorbrothers.com/

YouTube

Rogue Runway: Genesis

Welcome to Rogue Runway. A small Runway fashion show we created with Runway's Gen-3

Join our DIscord to learn the prompts and make suggestions:

https://discord.gg/uW7TmSvnAg

Official Website:

https://www.thedorbrothers.com/

👏9🤮4🤯2🥱1

7.49K views16:42

gonzo-обзоры ML статей

Я думаю, что следующий большой шаг в демократизации LLM случится, когда кто-то опубликует открытую модель среднего размера (скажем, 20-50B, но хорошо если и маленькие тоже, до 10B) со следующими свойствами:

1. Мультиязычность by design. Идеально с поддержкой хотя бы нескольких десятков, а лучше сотни языков, покрывающих разные языковые семьи и письменности.

Прямо сейчас, хоть отдельные модели как-то умеют работать с неанглийским из коробки или могут быть достаточно хорошо зафайнтюнены благодаря удачным токенизаторам и не только, это не оптимальное решение для рабочих продуктов, где надо покрывать широкий спектр культур и языков.

2. Function calling, который пока массово отсутствует в открытых моделях больших игроков. Только комьюнити файнтюны.

Это откроет дорогу к сильно более полезным локальным агентным историям, чем можно собрать на открытых моделях сейчас.

Может ещё есть какое-то полезное свойство, но сходу на ум не пришло. Напишите в комментариях, если считаете что есть ещё что-то важное.

Здесь наверное могла бы быть мультимодальность, но мне кажется и без неё уже будет огонь 🔥

Может быть супер длинный контекст, но кажется, что его расширить можно проще, чем добавить в трейнсет много языков

UPD: модель с commercial friendly лицензией

Интересно, кто будет первым и оставит этот след в истории. Я больше верю в какого-то не самого большого игрока, Мистраль, например. Либо вообще кто-то новый с ресурсами. От больших не дождёмся, кажется.

👍48❤5

7.91K viewsedited 11:13

gonzo-обзоры ML статей

Сегодня доказали (используя Coq), что пятое число Busy Beaver, BB(5), равно 47,176,870

https://www.quantamagazine.org/amateur-mathematicians-find-fifth-busy-beaver-turing-machine-20240702/

Quanta Magazine

Amateur Mathematicians Find Fifth ‘Busy Beaver’ Turing Machine | Quanta Magazine

After decades of uncertainty, a motley team of programmers has proved precisely how complicated simple computer programs can get.

👍27🔥16❤11😱8

9.74K views21:16

gonzo-обзоры ML статей

Chain-of-Thought → Whiteboard-of-Thought

Когда-то мы писали про расширение Chain-of-Thought (CoT) и переход к Tree-of-Thought (ToT, https://news.1rj.ru/str/gonzo_ML/1885), и где-то там же была пачка работ про более сложные Graph-of-Thoughts (GoT, https://arxiv.org/abs/2308.09687) и даже Everything-of-Thoughts (XoT, https://arxiv.org/abs/2311.04254).

Перечисленные выше подходы используют текст для улучшения ризонинга. Но есть и другое развитие темы специально для мультимодальных моделей, а конкретно для visual language models (VLM) про использование рисунков для помощи “мышлению”.

Недавно вышли две похожие работы (но наверняка есть больше) Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models (https://arxiv.org/abs/2406.09403, https://visualsketchpad.github.io/) и Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities (https://arxiv.org/abs/2406.14562).

1) Visual Sketchpad от авторов из University of Washington, Allen Institute for AI, и University of Pennsylvania на неделю более ранняя. В этом подходе модели даётся доступ к альбому и тулам для рисования промежуточных “мыслей”, которые модель дальше может использовать. Это напоминает подход ReAct (https://react-lm.github.io/), когда агент генерит thoughts, выполняет acts и получает observations. В Sketchpad также есть эти три компонента, причём модель не надо обучать пользоваться всем этим добром, всё достигается промптом.

Например, в геометрической задачке с имеющейся картинкой на входе модель может решить (thought) нарисовать вспомогательную линию, сгенерить код на питоне для модификации входной диаграммы (act), получить контекст (observation) с обновлённой диаграммой. Модель может повторять этот процесс пока не сгенерит специальное действие Terminate — тогда она выдаёт финальный ответ.

Тулы для скетчинга могут быть разными в зависимости от задачи, например, питон с matplotlib и networkx (для графовых задач), специальные зрительные модели, например, для детекции и рисования bounding boxes, навешивания лейблов и сегментации.

Результаты неплохи, относительно базовых GPT-4 Turbo и GPT-4o использование скетчпада добавляет от единиц до десятков процентных пунктов к accuracy на задачах из геометрии, математики, графов и игр, Бейзлайны вроде совсем базовые, было бы, конечно, интересно относительно бейзлайнов с CoT/GoT/XoT. Сравнили планы решения геометрических задач с человеческими, они в целом сильно перекликаются.

На задачах с различным visual reasoning бейзлайны уже с различными фреймворками аугментации, там результат прекрасный, GPT-4o со скетчпадом установила новую SoTA.

2) Whiteboard-of-Thought (WoT) в целом очень похож, но попроще, в два шага. Модели также как бы даётся метафорическая доска, в том смысле, что модель может генерить картинки, которые будут учитываться на входе в дальнейших шагах вывода. Для этого также используются промптинг (вида “You write code to create visualizations using the {Matplotlib/Turtle} library in Python, which the user will run and provide as images. Do NOT produce a final answer to the query until considering the visualization.”) и базовые способности модели генерить код на питоне (Turtle и Matplotlib), он далее исполняется через интерпретатор питона и результирующая картинка парсится моделью.

Проверили на задачах visual reasoning, это задачи из BIG-Bench на понимание ASCII text graphics (MNIST digit recognition, word recognition, kanji recognition), а также на пространственную навигацию по языковым описаниям.

На ASCII буст огромный, модели по дефолту плохо работают с такими задачами, CoT не сильно помогает. На пространственной навигации дефолтные модели хорошо справляются с 2D grid задачами, но плохо с другими геометриями, тут WoT помогает.

В общем, подход работает. Забавно также наблюдать работы всё больше построенные на использовании API OpenAI.

gonzo-обзоры ML статей

Chain-of-Thought → Tree-of-Thought

Техника для повышения качества ответа LLM’ок под названием Chain-of-Thought (CoT), пришедшая, кажется, из работы “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (https://arxiv.org/abs/2201.11903)…

👍22❤8👀2🤯1

5.89K views00:02

gonzo-обзоры ML статей

3.56K views00:03

gonzo-обзоры ML статей

👍1

3.79K views00:04

gonzo-обзоры ML статей

3.79K views00:04

gonzo-обзоры ML статей