AI для Всех – Telegram
AI для Всех
15.2K subscribers
1.37K photos
193 videos
11 files
1.55K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Еще из прикольного, все объявления на мероприятии делает голос ChatGPT (ну типа, please join your sits, session will resume shortly)
🔥10
Показали цены на prompt caching
🔥3
1👍1
Оптимизация точности, задержки и стоимости в приложениях на базе LLM

Разработка приложений с использованием крупных языковых моделей (LLM) всегда связана с поиском баланса между точностью, задержкой и стоимостью. В этом докладе рассказывали, как эффективно оптимизировать каждую из этих составляющих.

Точность: как установить правильную цель
Первый шаг на пути к высокой точности — создание наборов оценок (evals), которые помогают протестировать производительность модели на различных этапах.

Один из способов установить целевую точность — разработать модель затрат. Сравните стоимость ошибок и успехов модели: сколько стоит исправление ошибки и сколько экономит правильное решение? Так вы сможете определить, какая точность будет для вас приемлемой. Стоит отметить, что пользователи часто ожидают от LLM более высокой точности, чем от людей.

Задержка: как её уменьшить
Задержка — это время, которое проходит от момента запроса до получения ответа. Она складывается из нескольких составляющих:

- Сетевая задержка (примерно 200 мс из-за роутинга OpenAI).
- Время до первого токена (TTFT) — задержка перед началом генерации ответа.
- Время между токенами (TBT) — задержка между выводом каждого токена.
- Количество выводимых токенов — больше токенов требует больше времени.

Как снизить задержку:

- Используйте короткие запросы и меньшие модели.
- Внедрите кэширование запросов, чтобы избегать повторной генерации.
- Сократите количество выводимых токенов — 100 токенов генерируются в 10 раз быстрее, чем 1000.

Стоимость: как сделать приложение экономичнее
Многие способы сокращения задержки также помогают снизить затраты. Например:

- Кэширование позволяет сэкономить на повторной генерации одного и того же ответа.
- Пакетные запросы (Batch Requests) снижают накладные расходы за счёт обработки нескольких запросов одновременно.
Чем меньше токенов — тем дешевле и быстрее будет работа модели.
Используйте специально сгенерированные промпты из плэйграунда

Заключение: сбалансированный подход
Оптимизация LLM-приложений требует внимательного подхода к каждому аспекту: точности, задержке и стоимости.

Установите целевые показатели, проанализируйте источники задержек и найдите способы сокращения затрат. Такой подход поможет вам создать более быстрое, точное и экономичное решение.
👍6🔥31😐1
Начался Firechat с Сэмом Альтманом
🔥6
Сессия вопросов и ответов с Сэмом Алтменом об искусственном интеллекте и OpenAI

Q: Насколько мы близки к созданию AGI (Artificial General Intelligence)?
A: Раньше было легко определить, почему тот или иной продукт не является AGI, но сейчас это становится все сложнее. Модель O1 явно соответствует второму уровню, хотя в некоторых важных аспектах она еще не ощущается как AGI (имеются ввиду уровни автономности AGI). Мы активно работаем над развитием агентных возможностей, и если сравнить O1 с GPT-4 прошлого года, разница поразительна. Ожидайте стремительного прогресса как минимум в ближайшие два года. Мы находимся в размытой зоне — это AGI или нет? В скором времени это перестанет иметь значение. Мы продолжаем двигаться по плавной экспоненциальной кривой развития.

Q: Сохраняет ли OpenAI прежнюю приверженность исследованиям, как и раньше?
A: Да, и даже больше, чем когда-либо. Наша миссия — создать безопасный AGI. Если решение заключается в увеличении количества GPU, мы это сделаем, но сейчас все сосредоточено на исследованиях. Каждые несколько месяцев появляются новые возможности, которые меняют направление наших разработок. OpenAI гибко реагирует на то, что работает или нет, и быстро адаптируется. Хотя правительство хочет получать уведомления за 60 дней о новых возможностях, мы часто движемся быстрее.

Q: Правда ли, что OpenAI теперь лишь формально уделяет внимание проблеме выравнивания (alignment)?
A: Наш подход изменился, но мы по-прежнему стремимся создавать более мощные модели, которые работают безопасно. Новые модели приносят новые вызовы. Важно понять, куда движутся возможности, и затем обеспечить их безопасное развертывание. Безопасные системы поддерживаются набором инструментов. Модели должны быть в целом безопасными и надежными для применения в реальном мире. Когда мы создавали GPT-3, мы даже не задумывались о вещах, которые важны сегодня, потому что тогда они не существовали! Мы придерживаемся итеративного подхода, постоянно улучшаясь.

Забота о возможных научно-фантастических сценариях важна, но мы не ограничиваемся только этим. Мы хотим подходить к проблемам с разных сторон. Главное — итеративное развертывание.

Q: Как вы видите роль агентов в реальном мире?
A: O1 и его возможности рассуждения сделают агентов реальностью. Чат-интерфейсы отличны и важны, но когда вы можете попросить модель выполнить многошаговые взаимодействия с миром быстрее и дешевле, чем это могут люди, это существенно изменит то, как функционирует мир в очень короткие сроки. Люди быстро привыкают — спустя всего лишь 20 минут в автономном автомобиле вы уже не впечатлены и пялитесь в телефон.

Когда возможности улучшаются, ожидания растут: если компьютер выполняет задачу за час, вы хотите, чтобы это заняло минуту. Одна из самых увлекательных вещей в OpenAI — наблюдать за невероятно быстрым развитием идей и проектов со стороны разработчиков. Мы планируем быть небольшой частью агентов в мире; основную роль будут играть разработчики.

Q: Какие препятствия существуют для того, чтобы агенты управляли компьютерами?
A: Основные вызовы — безопасность и выравнивание. Люди готовы уступить контроль, но стандарты безопасности высоки. Важно разработать рамки безопасности и доверия.

Q: Может ли безопасность выступать ограничивающим фактором для технологий? Это приведет к более эгалитарному миру?
A: Да, это вероятно. Мы начинаем с консервативного подхода. Если вы хотите, чтобы O1 вас оскорбил, он, вероятно, должен следовать вашим инструкциям. Но мы будем консервативны, потому что система станет гораздо более мощной в короткие сроки, и мы всегда можем ослабить ограничения.
👍31🔥21