AGI – Telegram
Channel created
Channel name was changed to «AGI»
AGI будет создан скоро. Много лет я изучал современные алгоритмы deep learning и RL и классические алгоритмы из формальных методов, логического программирования, constraint optimization etc

Сейчас делаю ставку на адаптивные Large Language модели. Это системы которые могут обучаться без gradient descent, за счет автоматического промпт инжиниринга. На данный момент фокусируюсь на контроле аутпута LLM. Дело в том что мы можем контролировать аутпут LLM с помощью масок. То есть обнулять вероятности тех слов которые мы не хотим чтобы генерировались. Таким образом на самом деле проблема галлюцинации нейронных сетей вовсе не проблема. С помощью масок мы можем контролировать чтобы LLM выдавала только те токены которые мы хотим.
Все это верно когда мы генерим один токен, но в практической задаче нам нужна последовательность где каждый токен обусловлен предыдущими. Есть разные методы декодирования LLM. Простейщий метод это жадный алгоритм где мы берем каждый раз токен с самой высокой вероятностью, важно понимать что жадный алгоритм не означает максимальную вероятность всей строки. То есть мы беря каждый раз самый вероятный токен, мы не получаем самую вероятную строку. Жадный алгоритм в данному случае всего лишь один проход в глубину. Чтобы получить самую вероятную строку мы должны делать поиск в ширину, но на практике мы быстро получаем комбинаторный взрыв. Так же есть другой способ декодирования это просто сэмплирование из категориального распределения. В данному случае строки которые мы получим так же не будут самими оптимальными и слова в строке могут выглядить не связанными.
Те кто давно занимается автогенеративными моделями знают beam search, когда мы комбинируем жадный алгоритм с поиском в ширину. На данный момент beam search это основной метод который применяют на практике ресерчеры.

Таким образом вся задача сводится к прунингу спейса, чтобы победить комбинаторный взрыв. Это область которая давно изучается в таких направлениях как program synthesis, формальные методы, counter guided program synthesis, sat solvers.

В данном канале буду публиковать различные пейперы связанные с large language models, AGI, formal method, practical research etc
🔥7👏21😍1
Как формальные методы могут помочь прунить спейс если объяснить на пальцах?
Например мы хотим генерить код, в данном случае мы можем на каждом этапе генерации токена проверять удовлетворяет ли корректному синтаксису полученная строка.

Другой пример если мы ставим какой то constraint на аутпут LLM. Например a && b, понятно если a=false, нет смысла дальше проверять эту ветку дерева.

Математически мы используем производные от строк, так называемые Brzozowski derivatives, пример теоремы определенной формальной абстракции которые позволяют сохранить Soundness при прунинге спейса с сonstraints, на практике мы хотим получить гарантии soundness, а не completeness
🔥4💋1
Интересные пейперы по prompt engineering которые прочитал на этих выходных.

From Words to Code: Harnessing Data for Program Synthesis from Natural Language
https://arxiv.org/pdf/2305.01598.pdf

Unstructured and structured data: Can we have the best of both worlds with large language models?
https://arxiv.org/pdf/2304.13010.pdf

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
https://arxiv.org/pdf/2303.16434.pdf

MM-REACT : Prompting ChatGPT for Multimodal Reasoning and Action
https://arxiv.org/pdf/2303.11381.pdf

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision
https://arxiv.org/pdf/2305.03047.pdf

GPT is becoming a Turing machine: Here are some ways to program it
https://arxiv.org/pdf/2303.14310.pdf

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs
https://arxiv.org/pdf/2305.03111.pdf

A Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQL
https://arxiv.org/pdf/2304.13301.pdf

Divide and Prompt: Chain of Thought Prompting for Text-to-SQL
https://arxiv.org/pdf/2304.11556.pdf

DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
https://arxiv.org/pdf/2304.11015.pdf

Teaching Large Language Models to Self-Debug
https://arxiv.org/pdf/2304.05128.pdf

Querying Large Language Models with SQL [Vision]
https://arxiv.org/pdf/2304.00472.pdf

AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS
https://arxiv.org/pdf/2210.03493.pdf

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
https://arxiv.org/pdf/2305.05176.pdf

Refining the Responses of LLMs by Themselves
https://arxiv.org/pdf/2305.04039.pdf

Simulating H.P. Lovecraft horror literature with the ChatGPT large language model
https://arxiv.org/pdf/2305.03429.pdf

Low-code LLM: Visual Programming over LLMs
https://arxiv.org/pdf/2304.08103.pdf

Complex QA & language models hybrid architectures, Survey
https://arxiv.org/pdf/2302.09051.pdf

PAL: Program-aided Language Models
https://arxiv.org/pdf/2211.10435.pdf

Reflexion: an autonomous agent with dynamic memory and self-reflection
https://arxiv.org/pdf/2303.11366.pdf?trk=public_post_comment-text

Tool Learning with Foundation Models
https://arxiv.org/pdf/2304.08354.pdf

ChatGPT Prompt Patterns for Improving Code Quality, Refactoring, Requirements Elicitation, and Software Design
https://arxiv.org/pdf/2303.07839.pdf

Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions
https://arxiv.org/pdf/2212.10509.pdf

Self-planning Code Generation with Large Language Model
https://arxiv.org/pdf/2303.06689.pdf

Prompted LLMs as Chatbot Modules for Long Open-domain Conversation
https://arxiv.org/pdf/2305.04533.pdf
🔥51💘1
Все пейперы выше по prompt engineering, это нельзя назвать разделом machine learning, так как это другая дисциплина.
Порог входа в понимание пейперов очень низкий, вам не нужно знать хорошо математику или computer science. Поэтому можно читать сотни таких пейперов без напряга
🔥5🥰1
Хороший survey по prompt engineering написал Lil’Log из openai. Где он уложил 25 ключевых пейперов по prompt engineering каждый в пару предложении
https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
🔥3😘1
Комбинирование constraint SAT solver-a c LLM (in context learning)

Reliable Natural Language Understanding with Large Language Models and Answer Set Programming
https://arxiv.org/pdf/2302.03780.pdf
❤‍🔥1🔥1
Компании в будущем будут полностью управляться AI с минимальным вмешательством человека.

Интересный пейпер про операционную аналитику, ERP, digital twins и LLM

Towards autonomous system: flexible modular production system enhanced with large language model agents
https://arxiv.org/pdf/2304.14721.pdf
🔥5🥰1
В первом посте я писал на сколько важно валидировать аутпут LLM. Это позволяет убрать галлюцинирование, контролировать constraints, и самое главное строить сложные композиции из LLM агентов которые смогут общаться между собой, декомпозировать задачи, критиковать и рефайнить. Например у нас есть LLM аналитик, LLM инженер, LLM board member итд

После разговора с одним VC, он говорит что за последнее время видел 50 LLM B2B стартапов которые пытаются делать кооперирующих LLM агентов.

Проблема в том что такие агенты при коммуникации умножают свои ошибки, и error propagation в каскаде агентов растет экспоненционально.

Данная проблема решается валидацией и constraints формальными методами над которыми я щас работаю. Но для этого нам нужны доступ к логитам чтобы строить маски. GPT-4 не дает этот доступ так как люди активно дистиллируют модель имея доступ к логитам и быстро забирают конкурентное преимущество openai почти за очень маленькие деньги. Скорее всего провайдеры больших foundation моделей не будут давать доступ к логитам в принципе.

Но появляется вопрос что делать юзерам апи моделей. В любом случае валидация будет нужна всем, и тогда люди будут просто активнее пользоваться опенсоурс моделями и поднимать их сами.
Прэтому я думаю openai и другие провайдеры позволят отправлять маски к ним без доступа к логитам напрямую. Таким образом они не будут проигрывать конкуренцию опенсорсу и другие не смогут заниматься дистилляцией.
🔥6🥰21💯1
На данный момент молодому ресерчеру(или deeptech стартапу ахах) важно сфокусироваться на 4 направлениях

1. Engineering - Gpu optimisation/distributed training - методы по типу fast attention которые позволили обучить модели типо gpt-4 с большим context length

2. Lora и другие методы адаптеров и файн тюна, в будущем скорее всего у каждого человека будет персональный АИ который будет tailored к нему, вопрос где держать данные пользователя в весах нейронной сети или же в векторной базе данных, чуть позже попробую написать более подробный пост про это

3. Новые методы обучения LLM, такие как
Efficient (Soft) Q-Learning for Text Generation with Limited Good Data
https://arxiv.org/abs/2106.07704
Один из самых красивых пейперов которые видел за долгое время

4. Meta learning LLM, Джон Шульман фаундер опенаи, один из самых мощных специалистов по meta learning в мире, поэтому это дело времени когда мы увидим meta learning llm
🔥7🥰2👍1
Channel photo updated
Еще один template language для LLM, теперь от Microsoft.

Потихонько девелопмент LLM applications стабилизируется. Люди понимают что решения типо langchain не юзабельны для сложных композиции LLM, так как у вас получается огромный лапша код полностью не юзабельный, особенно если он пишется большой командой.
Идея использовать классические template language с LLM достаточно очевидна, поэтому в скором времени мы увидим целый класс таких фреймворков. Код становится более понятный и легче поддерживаемый.

Но глобально все эти фреймворки не решают проблемы по настоящему сложных систем LLM аппов и агентов. Поэтому я работаю над фреймворком где основная абстракция это tractable стохастическая мутация строк. По настоящему сложные приложения не будут выглядеть как огромная композиция захардкоженых чейнов, аппликейшены будущего будут больше похожи на autogpt или babyagi. Где сама логика и флоу чейнов генерируется и декомпозируется автоматически.

https://github.com/microsoft/guidance
🔥52😘2
Где все клоуны кто задвигал про dpo)

Мне буквально СТО стартапа юникорна полтора года назад задвигал что RL больше не нужен, так как есть DPO😂
🔥16😘5💘2🥰1