Forwarded from Сиолошная
Наткнулся на занятную статью "8 вещей, которые надо знать о больших языковых моделях"
Краткое содержание:
1. LLM предсказуемо становятся более "способными" с увеличением затрат в $, даже без крутых инноваций. Главное тут - предсказуемость, что было показано в статье про GPT-4: учили 5-7 маленьких моделек с бюджетом 0.1% от финального, а затем по этому делали предсказание для огромной модели. Для общей оценки перплексии и метрик на подвыборке одной конкретной задаче такое предсказание было очень точным.
2. Однако конкретные важные навыки, как правило, возникают непредсказуемо как побочный продукт увеличения затрат на обучение (дольше тренировать, больше данных, больше модель) - практически невозможно предсказать, когда модели начнут выполнять определенные задачи. Подробнее об этом мы писали в статье про историю развития GPT-моделей, которую, надеюсь, многие из вас читали. На картинке - распределение роста качества моделей в разных задачах. В трети маленькие модели ничего не показывают, средние в целом тоже, а большие БАХ! И учатся решать.
3. LLM часто выучивают и используют представления внешнего мира. Тут приводится много примеров, и вот один из них: модели, обученные играть в настольные игры на основе описаний отдельных ходов, никогда не видя изображения игрового поля, выучивают внутренние представления о состоянии доски на каждом ходу.
4. Не существует надежных методов управления поведением LLM. Хотя и был достигнут некоторый прогресс в понимании и смягчении разных проблем (в том числе ChatGPT и GPT-4 с обучением из обратной связи), нет единого мнения о том, сможем ли мы их решить. Растет обеспокоенность, что проблемы alignment'а станут катастрофическими, когда проявятся в более крупных системах будущего.
5. Эксперты пока не могут интерпретировать внутреннюю работу LLM. Yе существует методики, которая позволила бы каким-либо удовлетворительным образом изложить, какие виды знаний, рассуждений или целей использует модель, когда она генерирует какой-либо результат.
6. Качество выполнения задач человеком не является верхней границей для LLM. Хотя они и обучены в первую очередь имитировать поведение человека при написании текста, но всё равно потенциально могут превзойти нас во многих задачах. Так происходит в более узких задачах вроде шахмат или игры в Го.
7. LLM не должны выражать ценности своих создателей или ценности, закодированные в выборке из интернета. Они не должны повторять стереотипы, теории заговора или стремиться оскорбить кого-либо.
8. Оценки способности модели по первым впечатлениям часто вводят в заблуждение. Очень часто нужно додумать правильный промпт, подсказать модели, может, показать примеры - и она начнёт справляться куда лучше. То есть она "умнее", чем кажется на первый взгляд.
Краткое содержание:
1. LLM предсказуемо становятся более "способными" с увеличением затрат в $, даже без крутых инноваций. Главное тут - предсказуемость, что было показано в статье про GPT-4: учили 5-7 маленьких моделек с бюджетом 0.1% от финального, а затем по этому делали предсказание для огромной модели. Для общей оценки перплексии и метрик на подвыборке одной конкретной задаче такое предсказание было очень точным.
2. Однако конкретные важные навыки, как правило, возникают непредсказуемо как побочный продукт увеличения затрат на обучение (дольше тренировать, больше данных, больше модель) - практически невозможно предсказать, когда модели начнут выполнять определенные задачи. Подробнее об этом мы писали в статье про историю развития GPT-моделей, которую, надеюсь, многие из вас читали. На картинке - распределение роста качества моделей в разных задачах. В трети маленькие модели ничего не показывают, средние в целом тоже, а большие БАХ! И учатся решать.
3. LLM часто выучивают и используют представления внешнего мира. Тут приводится много примеров, и вот один из них: модели, обученные играть в настольные игры на основе описаний отдельных ходов, никогда не видя изображения игрового поля, выучивают внутренние представления о состоянии доски на каждом ходу.
4. Не существует надежных методов управления поведением LLM. Хотя и был достигнут некоторый прогресс в понимании и смягчении разных проблем (в том числе ChatGPT и GPT-4 с обучением из обратной связи), нет единого мнения о том, сможем ли мы их решить. Растет обеспокоенность, что проблемы alignment'а станут катастрофическими, когда проявятся в более крупных системах будущего.
5. Эксперты пока не могут интерпретировать внутреннюю работу LLM. Yе существует методики, которая позволила бы каким-либо удовлетворительным образом изложить, какие виды знаний, рассуждений или целей использует модель, когда она генерирует какой-либо результат.
6. Качество выполнения задач человеком не является верхней границей для LLM. Хотя они и обучены в первую очередь имитировать поведение человека при написании текста, но всё равно потенциально могут превзойти нас во многих задачах. Так происходит в более узких задачах вроде шахмат или игры в Го.
7. LLM не должны выражать ценности своих создателей или ценности, закодированные в выборке из интернета. Они не должны повторять стереотипы, теории заговора или стремиться оскорбить кого-либо.
8. Оценки способности модели по первым впечатлениям часто вводят в заблуждение. Очень часто нужно додумать правильный промпт, подсказать модели, может, показать примеры - и она начнёт справляться куда лучше. То есть она "умнее", чем кажется на первый взгляд.
Forwarded from Big Data Science
😎Searching for data and learning SQL at the same time is easy!!!
Census GPT is a tool that allows users to search for data about cities, neighborhoods, and other geographic areas.
Using artificial intelligence technology, Census-GPT organized and analyzed huge amounts of data to create a superdatabase. Currently, the Census-GPT database contains information about the United States, where users can request data on population, crime rates, education, income, age, and more. In addition, Census-GPT can display US maps in a clear and concise manner.
On the Census GPT site, users can also improve existing maps. The data results can be retrieved along with the SQL query. Accordingly, you can learn SQL and automatically test yourself on real examples.
Census GPT is a tool that allows users to search for data about cities, neighborhoods, and other geographic areas.
Using artificial intelligence technology, Census-GPT organized and analyzed huge amounts of data to create a superdatabase. Currently, the Census-GPT database contains information about the United States, where users can request data on population, crime rates, education, income, age, and more. In addition, Census-GPT can display US maps in a clear and concise manner.
On the Census GPT site, users can also improve existing maps. The data results can be retrieved along with the SQL query. Accordingly, you can learn SQL and automatically test yourself on real examples.
Censusgpt
Census GPT
Search the census database with natural language
Forwarded from DataGym Channel [Power of data]
Вышел kandinsky 2.1
Почитать можно тут
А это код, который дергает публичную API (пока работает)
Можете погенерировать картинки на любом тапке с установленным питоном
UPD: Но ожидания в очереди жесть)
@powerofdata
Почитать можно тут
А это код, который дергает публичную API (пока работает)
Можете погенерировать картинки на любом тапке с установленным питоном
UPD: Но ожидания в очереди жесть)
import PIL
import base64
import io
import requests
import time
text = "комикс игра престолов"
wtf = '----WebKitFormBoundarywlnxcaZpV1ghiA4E'
cdfdn = '\r\nContent-Disposition: form-data; name='
api_url = 'https://fusionbrain.ai/api/v1/text2image'
api_url_run = api_url + '/run'
api_url_pockets = api_url + '/generate/pockets/'
data = (f'--{wtf}{cdfdn}"queueType"\r\n\r\ngenerate\r\n--{wtf}' +
f'{cdfdn}"query"\r\n\r\n{text}\r\n--{wtf}' +
f'{cdfdn}"preset"\r\n\r\n1\r\n--{wtf}' +
f'{cdfdn}"style"\r\n\r\n\r\n--{wtf}--\r\n').encode()
response = requests.post(api_url_run, headers={'Content-Type': f'multipart/form-data; boundary={wtf}'}, data=data)
pocket = response.json()['result']['pocketId']
time.sleep(3)
response = requests.get(api_url_pockets + f"{pocket}/status",
headers={'Content-Type': f'multipart/form-data; boundary={wtf}'},
)
while response.json()['result'] != 'SUCCESS':
print(response.json()['result'])
time.sleep(3)
response = requests.get(api_url_pockets + f"{pocket}/status")
response = requests.get(api_url_pockets + f"{pocket}/entities")
msg = base64.b64decode(response.json()['result'][0]['response'][0])
buf = io.BytesIO(msg)
img = PIL.Image.open(buf)
img
@powerofdata
Telegram
Complete AI
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные…
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные…
Forwarded from UnlimAI Info
Про выбор Движка и точность ответов во всех режимах.
В боте есть возможность выбрать 2 движка: GPT_3.5 и GPT_3.5_Turbo
GPT_3.5_Turbo заточен как раз на ответы на вопросы, он отвечает правильнее и решает лучше задачи. Но более цензурируемый и отвечает более сухо, как ИИ ассистент. Расходует в 10 раз меньше токенов.
GPT_3.5 гораздо менее цензурируемый, отвечать может много отсебятины, но зато потенциально генерирует более забавные и живые диалоги. Задачи решает плохо. В общем такой разгильдяй-балабол. Расходует в 10 раз больше токенов. Возможно, лучше подходит для имитации именно человека. Правда у него бывают проблемы со склонениями русских слов иногда.
Движок можно выбирать как в режиме обычной генерации текста, так и в режиме Работы с интернетом.
GPT4 мы добавим, когда это можно будет сделать по адекватной цене, сейчас мы, во-первых, не сможем давать бесплатные токены на неё, во-вторых, будет стоить в 6 раз дороже, чем GPT_3.5, там пара сообщений будет съедать сразу очень немало денег. Просто никто серьезно ей пользоваться не будет при таких условиях.
В боте есть возможность выбрать 2 движка: GPT_3.5 и GPT_3.5_Turbo
GPT_3.5_Turbo заточен как раз на ответы на вопросы, он отвечает правильнее и решает лучше задачи. Но более цензурируемый и отвечает более сухо, как ИИ ассистент. Расходует в 10 раз меньше токенов.
GPT_3.5 гораздо менее цензурируемый, отвечать может много отсебятины, но зато потенциально генерирует более забавные и живые диалоги. Задачи решает плохо. В общем такой разгильдяй-балабол. Расходует в 10 раз больше токенов. Возможно, лучше подходит для имитации именно человека. Правда у него бывают проблемы со склонениями русских слов иногда.
Движок можно выбирать как в режиме обычной генерации текста, так и в режиме Работы с интернетом.
GPT4 мы добавим, когда это можно будет сделать по адекватной цене, сейчас мы, во-первых, не сможем давать бесплатные токены на неё, во-вторых, будет стоить в 6 раз дороже, чем GPT_3.5, там пара сообщений будет съедать сразу очень немало денег. Просто никто серьезно ей пользоваться не будет при таких условиях.
Forwarded from Datalytics
Большие языковые модели (LLMs), к которым относится ChatGPT (и GPT3, которая под капотом у ChatGPT) открывают огромный простор для дешевого создания сервисов, способных выполнять операции по несложному семантическому анализу. Например, я за пару часов с использованием API Яндекс.Переводчика, API OpenAI и библиотеки LangChain сделал небольшого бота, который в ответ на фразу даёт численные оценки её специфичности и детализации с объяснением почему была дана такая оценка, а также рекомендациями как эти показатели улучшить. На картинках примеры, а в конце поста ссылка на блокнот
Отдельно стоит заметить, что в работе с запросами к GPT3 важную роль играет сколько мы поставляем ей примеров и явное указание специфичной формы ответа (будь то перечисление конкретных заголовков, атрибутов ответа, явное указание на то, что ответ должен быть получен в виде таблице). На картинке есть пример запроса
А ещё вижу зарождение новой профессии «prompt engineer», задача которой будет в формировании таких запросов, которые будут максимально эффективно решать потребности бизнеса с помощью LLMs. И тут речь не только про запрос, качественно решающий изначальную задачу, но и про формирование цепочек запросов, настройку переиспользования предыдущих ответов для улучшения качества запросов. В общем, целая новая вдохновляющая область на стыке AI, лингвистики и бизнес-аналитики
https://github.com/axmakarov/datalytics/blob/master/GPT3_phrase_detail_and_specific_analyser.ipynb
Отдельно стоит заметить, что в работе с запросами к GPT3 важную роль играет сколько мы поставляем ей примеров и явное указание специфичной формы ответа (будь то перечисление конкретных заголовков, атрибутов ответа, явное указание на то, что ответ должен быть получен в виде таблице). На картинке есть пример запроса
А ещё вижу зарождение новой профессии «prompt engineer», задача которой будет в формировании таких запросов, которые будут максимально эффективно решать потребности бизнеса с помощью LLMs. И тут речь не только про запрос, качественно решающий изначальную задачу, но и про формирование цепочек запросов, настройку переиспользования предыдущих ответов для улучшения качества запросов. В общем, целая новая вдохновляющая область на стыке AI, лингвистики и бизнес-аналитики
https://github.com/axmakarov/datalytics/blob/master/GPT3_phrase_detail_and_specific_analyser.ipynb
Создание интеллектуальной образовательной платформы с помощью OpenAI, ChatGPT и Django
В этом руководстве вы узнаете, как ИИ может помочь создавать образовательные платформы, которые будут умнее, персонализированнее и эффективнее, благодаря использованию последних достижений в области ИИ, таких как GPT-3 и ChatGPT: https://testdriven.io/blog/python-openai-chatgpt/
#нейросети #туториал #ml
В этом руководстве вы узнаете, как ИИ может помочь создавать образовательные платформы, которые будут умнее, персонализированнее и эффективнее, благодаря использованию последних достижений в области ИИ, таких как GPT-3 и ChatGPT: https://testdriven.io/blog/python-openai-chatgpt/
#нейросети #туториал #ml
PromtStd: новый стандарт для организации и хранения промптов: ChatGpt, Midjourney, и тд #habr
https://habr.com/ru/articles/727942/
Tags: Python, Подготовка технической документации, промт, promt, chatgpt, chat, chatgpt-4, chatgpt4, chatgpt api, chatgpt pro, chatgpt plus, midjourney
Author: denisxab
https://habr.com/ru/articles/727942/
Tags: Python, Подготовка технической документации, промт, promt, chatgpt, chat, chatgpt-4, chatgpt4, chatgpt api, chatgpt pro, chatgpt plus, midjourney
Author: denisxab
Дружим chatGPT 3.5 с выдачей Google в Telegram боте #habr
https://habr.com/ru/articles/727994/
Tags: Поисковые технологии, Python, Искусственный интеллект, chatgpt, python, search, google, telegram, telegrambot
Author: TAU15
https://habr.com/ru/articles/727994/
Tags: Поисковые технологии, Python, Искусственный интеллект, chatgpt, python, search, google, telegram, telegrambot
Author: TAU15
Хабр
Дружим chatGPT 3.5 с выдачей Google в Telegram боте
Если коротко, то идея в следующем: А что если перед ответом на вопрос к chatGPT дать ему информацию с первого сайта в выдаче Google по этому же запросу? И вот что из этого получается: Для реализации...
Как создать GPT-бота в Телеграме
Вы же тоже видели эту рекламу, что «Telegram наконец-то появился ChatGPT»? На деле оказывается, что это обычный бот, который работает через API OpenAI, так ещё и платный.
Вот отличный гайд, как сделать такого же, но полностью своего и гораздо дешевле (а если постараться, то вообще бесплатно).
#туториал #нейросети #бот #telegram
Вы же тоже видели эту рекламу, что «Telegram наконец-то появился ChatGPT»? На деле оказывается, что это обычный бот, который работает через API OpenAI, так ещё и платный.
Вот отличный гайд, как сделать такого же, но полностью своего и гораздо дешевле (а если постараться, то вообще бесплатно).
#туториал #нейросети #бот #telegram
31 марта на Хабре завершился Сезон машинного обучения. Было много всего про ChatGPT (и даже немного про то, что ChatGPT написала сценарий для другой нейросети). Если вы ещё не пробовали поручить нейросети хотя бы часть своей работы, узнайте, как это сделать, в нашей подборке:
💪 Приделываем руки к ChatGPT: бот, который исполняет код в рантайме
🏡 Как воспитать GPT-3 модель в домашних условиях
🛠 ChatGPT: новый инструмент в борьбе с багами. Как можно использовать AI для повышения качества тестирования
🤔 Как решать реальные задачи при помощи ChatGPT
🎥 Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома
📣 Правила сезона и список всех участников
Если вам интересны последние достижениях в области ИИ и работы с данными, то можете зарегистрироваться и посмотреть конференцию Data Fusion от ВТБ.
💪 Приделываем руки к ChatGPT: бот, который исполняет код в рантайме
🏡 Как воспитать GPT-3 модель в домашних условиях
🛠 ChatGPT: новый инструмент в борьбе с багами. Как можно использовать AI для повышения качества тестирования
🤔 Как решать реальные задачи при помощи ChatGPT
🎥 Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома
📣 Правила сезона и список всех участников
Если вам интересны последние достижениях в области ИИ и работы с данными, то можете зарегистрироваться и посмотреть конференцию Data Fusion от ВТБ.
Forwarded from Мысли Рвачева
Andrew Ng (тот самый CoFounder Coursera и известный специалист в кругах AI) и Isa Fulford (OpenAI) выложили бесплатно (for a limited time) короткий курс (на 1 час) ChatGPT Prompt Engineering for Developers. Если вы разработчик и планируете внедрять ChatGPT (или другие LLMs) в свои продукты - настоятельно рекомендую
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers
#ai #llm #prompt #andrew_ng
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers
#ai #llm #prompt #andrew_ng
DeepLearning.AI - Learning Platform
ChatGPT Prompt Engineering for Developers
Learn the fundamentals of prompt engineering for ChatGPT. Learn effective prompting, and how to use LLMs for summarizing, inferring, transforming, and expanding.
Forwarded from Denis Sexy IT 🤖
Наткнулся на бесплатный курс на ~1.5 часа для промпт-инженеринга с акцентом на разработчиков: в курсе не только банальные «лучшие практики» собраны, но обучают именно промпт инженерингу – включая промпт-программированию, это когда LLM учат использовать инструменты вроде плагинов и других API. Учат без тренировки модели, а просто текстом.
Курс разработал Эндрю Нг, профессор Стэнфорда, соучредитель и бывший руководитель Google Brain. OpenAI тоже приняла участие.
Короче, если вы разработчик или просто любопытно, рекомендую не пропускать:
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
Курс разработал Эндрю Нг, профессор Стэнфорда, соучредитель и бывший руководитель Google Brain. OpenAI тоже приняла участие.
Короче, если вы разработчик или просто любопытно, рекомендую не пропускать:
https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
DeepLearning.AI - Learning Platform
ChatGPT Prompt Engineering for Developers
Learn the fundamentals of prompt engineering for ChatGPT. Learn effective prompting, and how to use LLMs for summarizing, inferring, transforming, and expanding.
Forwarded from Инжиниринг Данных (Dmitry)
Оперативненько! уже есть курсы по ChatGPT, бросайте ваши питоны и скули, и учите жпт!
Forwarded from Инжиниринг Данных (Dmitry)
😫before chatGPT & Co
6 hours of debugging
can save you 5 min
🤩with chatGPT & Co
chatGPT account can
save 6 hours of debugging
5 min of reading documentation
4 hours of writing code
2 hours of searching for right command or code snippet
6 hours of debugging
can save you 5 min
🤩with chatGPT & Co
chatGPT account can
save 6 hours of debugging
5 min of reading documentation
4 hours of writing code
2 hours of searching for right command or code snippet
Forwarded from Инжиниринг Данных (Dmitry)
Список дел в ChatGpt за неделю:
1. Написал кучу Terraform скриптов для AWS Batch, AWS ECS, ECR, IAM - задача запускать dbt в контейренере в ECS, чтобы он мог ворочить данные в Redshift.
2. PoC Glue Spark - именно сам PySpark, который сэкономил очень много времени для описании огромного JSON.
3. AWS CLI команды в bash для запуска glue jobs из CLI и мониторинга
4. Кучу команд для AWS EMR утилитки s3-dict-cp и bash для автоматизации (включая функции), команды для hadoop hdfs
5. Glue pyspark для проекта по компресии данных, что-то s3-dict-cp не перформит для моих задач.
Эти примеры сэкономили мне ОЧЕНЬ много времени. Самое главное, что у меня есть понимание, что нужно делать, а chatGPT лишь автоматизирует набор кода, который я бы и сам написал, но потратил кучу времени на поиск решений. А так вот все успел.
Так что мои топ 3 use cases:
- Terraform (или любой другой инфраструктурный код)
- bash
- PySpark
SQL пока сам пишу☺️
1. Написал кучу Terraform скриптов для AWS Batch, AWS ECS, ECR, IAM - задача запускать dbt в контейренере в ECS, чтобы он мог ворочить данные в Redshift.
2. PoC Glue Spark - именно сам PySpark, который сэкономил очень много времени для описании огромного JSON.
3. AWS CLI команды в bash для запуска glue jobs из CLI и мониторинга
4. Кучу команд для AWS EMR утилитки s3-dict-cp и bash для автоматизации (включая функции), команды для hadoop hdfs
5. Glue pyspark для проекта по компресии данных, что-то s3-dict-cp не перформит для моих задач.
Эти примеры сэкономили мне ОЧЕНЬ много времени. Самое главное, что у меня есть понимание, что нужно делать, а chatGPT лишь автоматизирует набор кода, который я бы и сам написал, но потратил кучу времени на поиск решений. А так вот все успел.
Так что мои топ 3 use cases:
- Terraform (или любой другой инфраструктурный код)
- bash
- PySpark
SQL пока сам пишу☺️
Forwarded from AI Hurricane. Articles & Researches
the biggest open-source Code-LLM.
It outperforms all other open language models on programming benchmarks and can generate realistic code, act as a technical assistant, and autocomplete code in over 80 languages. 🔥🚀
StarCoder was created by Hugging Face and ServiceNow through #BigCode, an open scientific collaboration. 🤗
🔡 8192 token context window
📊 trained on 1 trillion token
💭 80+ Programming languages
🔐 only permissive licensed data
✅ commercial use
👉 Also can be tested inside HuggingChat!
or learn more
blog: https://huggingface.co/blog/starcoder
💊model: https://huggingface.co/bigcode/starcoder
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Alexander Kolosov
Telegram
AI, бизнес. Самое важное.
Теперь ChatGPT может строить графики и анализировать данные.
Сегодня стало известно, что некоторым пользователям стали доступны новые функции в ChatGPT. Основное внимание привлекают две из них: Browsing (ChatGPT с поиском в интернете) и Code Interpreter…
Сегодня стало известно, что некоторым пользователям стали доступны новые функции в ChatGPT. Основное внимание привлекают две из них: Browsing (ChatGPT с поиском в интернете) и Code Interpreter…