OpenChat 7B действительно догоняет GPT-3.5 v1-0301 на наших LLM бенчмарках!
И это очень круто, что такая маленькая модель догнала и сравнялась со старой и младшей моделью от ChatGPT. Лиха беда начало. Ведь тут открытая лицензия.
Где-то в уголке кусает локти LLama 70B 🤣
Ваш, @llm_under_hood 🤗
И это очень круто, что такая маленькая модель догнала и сравнялась со старой и младшей моделью от ChatGPT. Лиха беда начало. Ведь тут открытая лицензия.
Где-то в уголке кусает локти LLama 70B 🤣
Ваш, @llm_under_hood 🤗
🔥20❤7👍1
Если ChatGPT надавить на совесть, то он начинает отвечать лучше. Работает с другими LLM-ками тоже. 🥺
Никто точно не знает почему оно работает так, но цифры врать не будут. Чтобы обеспечить дополнительные 5% точности нужно похвалить модель и сказать, что ее ответ очень важен для карьеры.
Оригинальная статья, недавний обзор, обсуждение на HN.
Ваш, @llm_under_hood 🤗
Никто точно не знает почему оно работает так, но цифры врать не будут. Чтобы обеспечить дополнительные 5% точности нужно похвалить модель и сказать, что ее ответ очень важен для карьеры.
Оригинальная статья, недавний обзор, обсуждение на HN.
Ваш, @llm_under_hood 🤗
👍15😁8🤣4
#клиентспросил, и я добавил в ML Product Labs словарик с краткими описаниями самых важных терминов. Он лежит тут
Какие еще термины вы бы хотели там увидеть?
(Лабы доступны всем подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
Какие еще термины вы бы хотели там увидеть?
(Лабы доступны всем подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
🔥19
В лабах появилось описание нашего LLM бенчмарка, с примерами и описанием методологии. Смотреть тут.
Материал аналогичен старой PDF методичке, но поддерживается в актуальном состоянии.
(Лабы доступны всем подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
Материал аналогичен старой PDF методичке, но поддерживается в актуальном состоянии.
(Лабы доступны всем подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
🔥10👍2
Хотите cплетню про ChatGPT фичи от OpenAI?
В Reddit кто-то случайно заметил новые цены от OpenAI. Изменение быстро откатили обратно. Но если оно верно, то у нас появятся:
- AssistantsAPI (retrieval, code interpreter)
- GPT4-Turbo (мощнее и свежее текущего) - мультимодальное API
- hosted Text-to-speech
Точнее узнаем чуть позже.
Что из этого вам бы хотелось больше всего?
Ваш, @llm_under_hood 🤗
В Reddit кто-то случайно заметил новые цены от OpenAI. Изменение быстро откатили обратно. Но если оно верно, то у нас появятся:
- AssistantsAPI (retrieval, code interpreter)
- GPT4-Turbo (мощнее и свежее текущего) - мультимодальное API
- hosted Text-to-speech
Точнее узнаем чуть позже.
Что из этого вам бы хотелось больше всего?
Ваш, @llm_under_hood 🤗
🔥9🥰5
Почему я не пишу ни слова про новую модель Grok от Twitter?
Пока это относительно слабая и закрытая модель. Про текущие версии скоро забудут.
Ребята из OpenChat уже померялись (картинка с их репы), и пока доступная все 7B модель смотрится очень выигрышно.
В следующем году можно смело начинать переносить проекты с ChatGPT на локальные модели!
Ваш, @llm_under_hood 🤗
Пока это относительно слабая и закрытая модель. Про текущие версии скоро забудут.
Ребята из OpenChat уже померялись (картинка с их репы), и пока доступная все 7B модель смотрится очень выигрышно.
В следующем году можно смело начинать переносить проекты с ChatGPT на локальные модели!
Ваш, @llm_under_hood 🤗
🔥8👍4❤1
Выжимка новостей OpenAI про GPT-4 Turbo 🎉
- Новая модель - GPT-4 Turbo. Умнее, свежее и в 2-3 раза дешевле GPT-4. Ищите gpt-4-1106-preview в своем API уже сейчас.
- Контекст аж 128k tokens, что больше 100k Claude. Говорят, что побороли забывчивость.
- GPT 3.5 получила апдейт (gpt-3.5-turbo-1106) и тоже сталазаметно умнее быстрее, дешевле и несколько глупее. См бенчмарк ниже.
- Добавили ассистентов - кастомные инструкции, дополнительные знания и любая комбинация скиллов. Позже откроют GPT Store.
- Ассистенты могут использовать Code Interpreter (Python), Retrieval по своим документам, function calling (внешние сервисы)! Можно поиграть в assistant playground.
- Добавилась мультимодальная модель ChatGPT, которая умеет картинки по API (gpt-4-vision-preview). Стоимость - попиксельно. Все детали на странице с ценами.
- И вообще цены снижаются на множество позиций.
- ChatGPT UI превращается прямо в центр управления агентами. Можно конструировать своих агентов, добавлять данные и возможности вызывать сторонние сервисы. А потом - делиться агентами (см GPT Store выше).
- GPT-4 можно теперь файн-тюнить.
Прочитать больше в официальном объявлении.
Время обновлять бенчмарки? ;)
Ваш, @llm_under_hood 🤗
- Новая модель - GPT-4 Turbo. Умнее, свежее и в 2-3 раза дешевле GPT-4. Ищите gpt-4-1106-preview в своем API уже сейчас.
- Контекст аж 128k tokens, что больше 100k Claude. Говорят, что побороли забывчивость.
- GPT 3.5 получила апдейт (gpt-3.5-turbo-1106) и тоже стала
- Добавили ассистентов - кастомные инструкции, дополнительные знания и любая комбинация скиллов. Позже откроют GPT Store.
- Ассистенты могут использовать Code Interpreter (Python), Retrieval по своим документам, function calling (внешние сервисы)! Можно поиграть в assistant playground.
- Добавилась мультимодальная модель ChatGPT, которая умеет картинки по API (gpt-4-vision-preview). Стоимость - попиксельно. Все детали на странице с ценами.
- И вообще цены снижаются на множество позиций.
- ChatGPT UI превращается прямо в центр управления агентами. Можно конструировать своих агентов, добавлять данные и возможности вызывать сторонние сервисы. А потом - делиться агентами (см GPT Store выше).
- GPT-4 можно теперь файн-тюнить.
Прочитать больше в официальном объявлении.
Время обновлять бенчмарки? ;)
Ваш, @llm_under_hood 🤗
Openai
Introducing GPTs
You can now create custom versions of ChatGPT that combine instructions, extra knowledge, and any combination of skills.
👍7🔥7🤯5
Хотел быстренько побенчмаркать ChatGPT-4 Turbo, но наткнулся на недетские лимиты -
Поэтому вот вам пока только сравнительный бенчмарк новой GPT-3.5 Turbo (gpt-3.5-turbo-1106).
Она стала быстрее, дешевле и немного глупее прошлой версии.
Ваш, @llm_under_hood 🤗
Limit: 100 / dayПоэтому вот вам пока только сравнительный бенчмарк новой GPT-3.5 Turbo (gpt-3.5-turbo-1106).
Она стала быстрее, дешевле и немного глупее прошлой версии.
Ваш, @llm_under_hood 🤗
❤4😁2🤔2🤡2😢1
Краткие выводы
- OpenAI превращается в AWS. Они потихоньку начинают строить сервисы вверх и прибирать в свои загребущие лапки интересные бизнес-кейсы. Vendor lock-in крепчает.
- Vision модель сильно дешевле, чем я ожидал. Картинка 768*768 будет стоить всего лишь $0.00765.
- Стартапы должны плакать, что их заменяет OpenAI верно? Про неминуемую гибель ChatWithPDF, FlowChai и прочих стартапов вы завтра прочитаете еще не раз. А на самом деле они радуются, т.к. у них только что выросла маржа из-за удешевления GPT API, и работать в своей нише стало выгоднее.
Конец света откладывается. Продолжаем работать!
Ваш, @llm_under_hood 🤗
- OpenAI превращается в AWS. Они потихоньку начинают строить сервисы вверх и прибирать в свои загребущие лапки интересные бизнес-кейсы. Vendor lock-in крепчает.
- Vision модель сильно дешевле, чем я ожидал. Картинка 768*768 будет стоить всего лишь $0.00765.
- Стартапы должны плакать, что их заменяет OpenAI верно? Про неминуемую гибель ChatWithPDF, FlowChai и прочих стартапов вы завтра прочитаете еще не раз. А на самом деле они радуются, т.к. у них только что выросла маржа из-за удешевления GPT API, и работать в своей нише стало выгоднее.
Конец света откладывается. Продолжаем работать!
Ваш, @llm_under_hood 🤗
🙏11👍8🔥5❤2🥰2
Бенчмарки новых GPT-4 Turbo и GPT-3.5!
Новые версии моделей стали дешевле 🤑, свежее 😃 и глупее 🤪 своих предыдущих версий.
Как читать бенчмарк? Колонки оценивают модели в категориях:
- Code - понимание, разбор и написание кода
- CRM - работа с описаниями и свойставами товаров на маркетплейсах
- Docs - работа с документами, их частями и базами знаний
- Integrate - интеграция со сторонними API, форматами данных и БД
- Marketing - чтение, оценка и написание маркетинговых текстов
- Reason - сложные задачки в рамках контекста.
- Cost - примерная стоимость работы (пропорционально бенчмарку). Для локальных моделей - считаем стоимость аренды необходимого GPU в популярном облаке.
- Speed - сколько запросов в секунду, с batch_size=1 при запуске с HF transformers.
Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов.
Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
Новые версии моделей стали дешевле 🤑, свежее 😃 и глупее 🤪 своих предыдущих версий.
Как читать бенчмарк? Колонки оценивают модели в категориях:
- Code - понимание, разбор и написание кода
- CRM - работа с описаниями и свойставами товаров на маркетплейсах
- Docs - работа с документами, их частями и базами знаний
- Integrate - интеграция со сторонними API, форматами данных и БД
- Marketing - чтение, оценка и написание маркетинговых текстов
- Reason - сложные задачки в рамках контекста.
- Cost - примерная стоимость работы (пропорционально бенчмарку). Для локальных моделей - считаем стоимость аренды необходимого GPU в популярном облаке.
- Speed - сколько запросов в секунду, с batch_size=1 при запуске с HF transformers.
Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов.
Более детальное описание и примеры evals есть в лабах: Trustbit LLM Benchmark (лабы открыты подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
❤12👍5😁3🔥2
Update: обновил бенчмарк (см картинку выше).
Там часть тестов в области Code посыпалась, т.к. ChatGPT 4 Turbo стал красиво выделять куски SQL при помощи
Тут было два варианта - либо писать научную работу про деградацию ChatGPT, либо править бенчмарк.
GPT 4 Turbo все еще глупее своих предшественников, но уже не так сильно. Плюс это preview версия, все еще может улучшиться. А стоимость уже и так хороша!
Ваш, @llm_under_hood 🤗
Там часть тестов в области Code посыпалась, т.к. ChatGPT 4 Turbo стал красиво выделять куски SQL при помощи
'''sql 👨🎨Тут было два варианта - либо писать научную работу про деградацию ChatGPT, либо править бенчмарк.
GPT 4 Turbo все еще глупее своих предшественников, но уже не так сильно. Плюс это preview версия, все еще может улучшиться. А стоимость уже и так хороша!
Ваш, @llm_under_hood 🤗
😁10👍5🔥1🤣1
Продолжаем эксперимент по прокачке ученика с нуля до приносящего деньги ML/DS инженера за минимальное время (*)
Он вчера прислал свое решение второй каты, поэтому я выложу его и свое решение в комментарии.
Самое классное в том, что:
(1) Питон по-прежнему для него чужой. Когда он встретил
(2) он в итоге смог получить правильный ответ, причем сделал это вручную, на ChatGPT 3.5. Даже без Advanced Data Analytics!
Решения - в комментариях. Я читил и использовал ADA, чтобы получить ответ за два вопроса.
Следующая ката уже будет сложнее. SQLite в реальности аналитику никто не даст. Данные надо выковыривать из всяких MS SQL, mySQL, Kafka, ручных Excel-выгрузок или страшно запутанных BigQuery таблиц.
Ваш, @llm_under_hood 🤗
(*) Приносящий деньги инженер - в данном случае это тот, кого можно смело отправить в Data Science/ML проект в современной компании. Чтобы он мог решить типовую задачу вроде "а построй мне отчет по продукту X. Я хочу видеть тренды продаж, складских остатков, динамику типов жалоб и предложения по оптимизации всего этого".
И он сможет самостоятельно разобраться в куче данных, подключиться куда надо и построить отчет, который нужен директорам.
Он вчера прислал свое решение второй каты, поэтому я выложу его и свое решение в комментарии.
Самое классное в том, что:
(1) Питон по-прежнему для него чужой. Когда он встретил
TypeError в середине когда из ChatGPT, то сначала не знал, что делать 😂 (Правильный ответ - попросить ChatGPT пофиксить)(2) он в итоге смог получить правильный ответ, причем сделал это вручную, на ChatGPT 3.5. Даже без Advanced Data Analytics!
Решения - в комментариях. Я читил и использовал ADA, чтобы получить ответ за два вопроса.
Следующая ката уже будет сложнее. SQLite в реальности аналитику никто не даст. Данные надо выковыривать из всяких MS SQL, mySQL, Kafka, ручных Excel-выгрузок или страшно запутанных BigQuery таблиц.
Ваш, @llm_under_hood 🤗
(*) Приносящий деньги инженер - в данном случае это тот, кого можно смело отправить в Data Science/ML проект в современной компании. Чтобы он мог решить типовую задачу вроде "а построй мне отчет по продукту X. Я хочу видеть тренды продаж, складских остатков, динамику типов жалоб и предложения по оптимизации всего этого".
И он сможет самостоятельно разобраться в куче данных, подключиться куда надо и построить отчет, который нужен директорам.
👍11❤4🤔3🔥1
Заметили ли вы, что в документации OpenAI теперь все чаще упоминается Javanoscript/Node.js? Я вот только сейчас обратил внимание.
По-моему, OpenAI хочет стать еще удобнее для тех, кто создает разные продукты (с LLM под капотом 😁). А интерфейс у современных продуктов, обычно как раз на базе web технологий с JS.
Ваш, @llm_under_hood 🤗
По-моему, OpenAI хочет стать еще удобнее для тех, кто создает разные продукты (с LLM под капотом 😁). А интерфейс у современных продуктов, обычно как раз на базе web технологий с JS.
Ваш, @llm_under_hood 🤗
👍10❤3🤔3🔥2
ChatGPT UI трудолюбив. Особенно, в режиме Advanced Data Analytics и самокопания.
Ему можно выдавать задачи и уходить продуктивно пить кофе. Через пару минут возвращаться, давать наводящие вопросы и снова запускать процесс.
Качество самостоятельной работы уже достаточно хорошо и, самое главное, стабильно хорошо.
Например сейчас я так конвертирую одну упоротую Oracle DB в SQLite.
Но больше одной сессии держать не получится. А хочется одновременно 3-5 рабочих процессов. Чтобы ещё продуктивнее кофе было.
У кого ещё такая проблема? Как решаете?
Ваш, @llm_under_hood 🤗
Ему можно выдавать задачи и уходить продуктивно пить кофе. Через пару минут возвращаться, давать наводящие вопросы и снова запускать процесс.
Качество самостоятельной работы уже достаточно хорошо и, самое главное, стабильно хорошо.
Например сейчас я так конвертирую одну упоротую Oracle DB в SQLite.
Но больше одной сессии держать не получится. А хочется одновременно 3-5 рабочих процессов. Чтобы ещё продуктивнее кофе было.
У кого ещё такая проблема? Как решаете?
Ваш, @llm_under_hood 🤗
🔥5🙏1
Кто слышал про Phind?
Вроде это какой-то самодельный движок вопросов-ответов на базе ChatGPT.
Говорят, что во время сегодняшних проблем с ChatGPT у него поехала крыша, и он начал изливать чужие вопросы/ответы всем подряд. Вот пример ссылки: https://www.phind.com/search?cache=nsa0xrak9gzn6yxwczxnqsck
Там первый вопрос про то, как жить без ChatGPT? А потом почему-то идут другие вопросы вроде adult TV.
Это пример того, почему серьезные компании относятся со скепсисом к свежим оберткам на базе ChatGPT. Демо - хорошее, но чуть что, и все сыплется.
Ваш, @llm_under_hood 🤗
Вроде это какой-то самодельный движок вопросов-ответов на базе ChatGPT.
Говорят, что во время сегодняшних проблем с ChatGPT у него поехала крыша, и он начал изливать чужие вопросы/ответы всем подряд. Вот пример ссылки: https://www.phind.com/search?cache=nsa0xrak9gzn6yxwczxnqsck
Там первый вопрос про то, как жить без ChatGPT? А потом почему-то идут другие вопросы вроде adult TV.
Это пример того, почему серьезные компании относятся со скепсисом к свежим оберткам на базе ChatGPT. Демо - хорошее, но чуть что, и все сыплется.
Ваш, @llm_under_hood 🤗
😱5😁2
Chat GPT-4 Turbo сильно лучше понимает языки!
(Когда не лежит под нагрузкой, как сейчас 😂)
Коллеги из группы "Языки разные - код один" обратили внимание, что ChatGPT-4 Turbo сильно лучше понимает Башкирский язык и культуру, нежели предыдущие модели. Разница прямо как день и ночь.
Это очень крутые новости! Вполне возможно, что русский и другие языки тоже стали работать сильно лучше.
Мы неспеша потестируем разные языки и версии ChatGPT моделей, оценим их вручную экспертами, а потом выложим краткий отчет сюда.
Ваш, @llm_under_hood 🤗
(Когда не лежит под нагрузкой, как сейчас 😂)
Коллеги из группы "Языки разные - код один" обратили внимание, что ChatGPT-4 Turbo сильно лучше понимает Башкирский язык и культуру, нежели предыдущие модели. Разница прямо как день и ночь.
Это очень крутые новости! Вполне возможно, что русский и другие языки тоже стали работать сильно лучше.
Мы неспеша потестируем разные языки и версии ChatGPT моделей, оценим их вручную экспертами, а потом выложим краткий отчет сюда.
Ваш, @llm_under_hood 🤗
🔥23🥰3👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я собирал заявки на интерактивный вебинар про использование AI Coding Assistants?
Первоначально планировал его провести в конце октября, но навалилось проектов, и мои estimates пошли по бороде 😆
И вот наконец процесс выбора участников запущен! GPT-4 Turbo проходит по заявкам и пытается определить, кому вебинар будет полезнее всего.
Дальше: я пришлю письма с инвайтом в группу участников. Будем выбирать слот для встречи.
Ваш, @llm_under_hood 🤗
Первоначально планировал его провести в конце октября, но навалилось проектов, и мои estimates пошли по бороде 😆
И вот наконец процесс выбора участников запущен! GPT-4 Turbo проходит по заявкам и пытается определить, кому вебинар будет полезнее всего.
Дальше: я пришлю письма с инвайтом в группу участников. Будем выбирать слот для встречи.
Ваш, @llm_under_hood 🤗
🔥11👍2❤1
Приглашение на вебинар ушло на почту человекам, привлечь которых настоятельно и настойчиво рекомендовал AI.
Проверяем почту и папку "Спам".
Ваш, @llm_under_hood 🤗
Проверяем почту и папку "Спам".
Ваш, @llm_under_hood 🤗
👏5🤩3
Стал ChatGPT-4 тупее или умнее в новой версии?
Anonymous Poll
25%
Стал тупее
55%
Не заметил разницы
20%
Стал умнее
😁2😡2👎1
#Ката 3 по прокачке Data Scientist-а верхом на ChatGPT-4
Эксперимент по обучения человека с нуля до матерого DS/ML практика пока в процессе.
Питона с юпитером ученик уже не боится, поэтому сделал вчера ему третью кату. Для практического опыта завел реальную виртуалку, куда покидал разных БД, только одна из которых с нужными данными. Да и в тех - небольшое мессиво и нюансы. 😈
Задачка - на скриншоте. Если кратко - нужно сделать отчет по наиболее прибыльным продуктам в последнем квартале. Просто? 😉
Если кому тоже хочется поучиться на практике, могу выложить лайтовую версию задачки в виде SQLite. Данные те же, но без возни с mySQL и обманок с второстепенными БД.
Предыстория:
Kata 1: Задача / решение
Kata 2: Задача / решение
Ваш, @llm_under_hood 🤗
Эксперимент по обучения человека с нуля до матерого DS/ML практика пока в процессе.
Питона с юпитером ученик уже не боится, поэтому сделал вчера ему третью кату. Для практического опыта завел реальную виртуалку, куда покидал разных БД, только одна из которых с нужными данными. Да и в тех - небольшое мессиво и нюансы. 😈
Задачка - на скриншоте. Если кратко - нужно сделать отчет по наиболее прибыльным продуктам в последнем квартале. Просто? 😉
Если кому тоже хочется поучиться на практике, могу выложить лайтовую версию задачки в виде SQLite. Данные те же, но без возни с mySQL и обманок с второстепенными БД.
Предыстория:
Kata 1: Задача / решение
Kata 2: Задача / решение
Ваш, @llm_under_hood 🤗
🔥7🙏2