NEW BOT Телеграм, страница

🙅‍♂️

Чего не может ChatGPT. Часть 1

Это изображение первого сервера, на котором запускался ChatGPT. И я не шучу! На Nokia 3310 был настоящий прародитель сегодняшнего хайпоносца, а именно движок текстовых подсказок Т9.

В чём суть T9?

Мы берем три буквы, к примеру "стр"

У нас есть словарь из слов, начинающихся на эти три буквы:

Страх
Страница
Страна
Строка
Стритбол

Телефон пытался предложить продолжение слова, которое набирает пользователь и продолжить его автоматически чтобы сократить время ввода.

❓Как телефону догадаться, какое слово пользователь хочет ввести? Есть несколько способов.

Прокачанные чуваки скажут – вычислить

расстояние Левенштейна

для каждого из слов и выбрать то, до которого расстояние ближе.

Но это душно, и возможно я чуть позже про это расскажу.

Один из таких – взять языковой корпус и вычислить частоту употребляемости каждого из слов и выбирать самое употребляемое. Я тут сам выставил частоту употребляемости чисто для иллюстрации, но, думаю, суть вы уловили:

Страх 60%
Страница 70%
Страна 50%
Строка 55%
Стритбол 10%

Получается, что слово страница самое употребимое, мы его и предлагаем. Но что если пользователь баскетболист? Не всё время же подставлять ему строку, если он постоянно зовёт друзей играть в стритбол? (хотя Т9 этим грешил, чем нагенерил кучу мемов в моей жизни)

Мы можем запоминать выбор пользователя и вносить поправки в нашу таблицу. Скажем, накидывать по 20% после каждого введенного стритбола от пользователя. И со временем у стритбол у нас поднимется с колен до вершин списка.

Так вот. Что мы тут имеем? Мы имеем небольшую модель, в которой есть 6 слов и 1 нейрон, который мы постепенно тренируем выдавать нам слово Стритбол.

🅰️ Вот эти процентики напротив каждого слова, это по сути коэффициенты. Коэффициенты это и есть то из чего состоит модель в своей сути. То есть, когда мы говорим, что ChatGPT весит 100 Гб и содержит 175 миллиардов записей, это значит, что это текстовый файл в котором записано 175 миллиардов вот таких вот процентиков:

Страх 60%
Страница 70%
Страна 50%
Строка 55%
Стритбол 10%

Естественно не всё так просто. В следующей части я попытаюсь на пальцах объяснить, как это улучшить так, чтобы можно было генерить целые тексты, пусть и бессвязные, но похожие на правду.
#chatgpt

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1😍1

228 viewsedited 17:02