This media is not supported in your browser
VIEW IN TELEGRAM
gpu.cpp - a lightweight library that makes portable GPU compute with C++ simple
Тем временем парни из answer.ai (ex fast.ai) упоролись и выкатили gpu-agnostic фреймворк на WebGPU для С++.
Теперь один и тот же код можно крутить на всем, где есть Vulkan, Metal, или DirectX.
При этом тащить 100500гб CUDA для hello world больше не надо.
/ Ну и маководы снова в деле! :D
git
x-уит
answer.ai
@derplearning
Тем временем парни из answer.ai (ex fast.ai) упоролись и выкатили gpu-agnostic фреймворк на WebGPU для С++.
Теперь один и тот же код можно крутить на всем, где есть Vulkan, Metal, или DirectX.
При этом тащить 100500гб CUDA для hello world больше не надо.
/ Ну и маководы снова в деле! :D
git
x-уит
answer.ai
@derplearning
🔥38🤩1
Forwarded from эйай ньюз
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.
Как это вышло?
➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.
Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:
➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.
Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).
В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.
Пейпер
Код
@ai_newz
Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе.
Как это вышло?
➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12).
➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов.
➖ Завезли Group Query Attention, который раньше в таких моделях не использовался.
➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее.
Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий:
➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же.
➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте.
➖ Сначала считать слои в обычном порядке, а потом задом наперёд.
Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз).
В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет.
Пейпер
Код
@ai_newz
👍13❤2🔥1👨💻1
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Всегда работающий приём — взять что-то очень новое и смешать со старым, или лучше с очень старым.
Например, взять модную шмотку, крашеные волосы, пирсинг, татухи и смешать с чтением книг, экспертностью в вине и слушаньем музыки на виниле или, ладно, кассетах.
Или делать поиски в латентном пространстве с помощью MIDI-контроллера в реальном времени.
Технологии будут совсем неотличимы от магии, если замешать всё это на химические элементы, колбы и пипетки, я полагаю.
Красота крутится на SDXL Turbo и тулките для интерактивных выставок Lunar Tools
Например, взять модную шмотку, крашеные волосы, пирсинг, татухи и смешать с чтением книг, экспертностью в вине и слушаньем музыки на виниле или, ладно, кассетах.
Или делать поиски в латентном пространстве с помощью MIDI-контроллера в реальном времени.
Технологии будут совсем неотличимы от магии, если замешать всё это на химические элементы, колбы и пипетки, я полагаю.
Красота крутится на SDXL Turbo и тулките для интерактивных выставок Lunar Tools
🔥29❤3
Forwarded from Нейросети и Блендер
This media is not supported in your browser
VIEW IN TELEGRAM
Kling генерации
⭐️ Приятное видео воссоединения одного и того же человека в молодости и в старости.
🧠 Все это сделано в Kling видеонейронке. Предварительно сшив две фотографии из разного возраста звезд в одну картинку и похоже подав с промптом на обнимание. 🐈⬛
☺️ Хотя с таким же подходом можно подать видео в Dream machine
Доступ к видеонейронке только с валидным китайским номером.Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥6❤4👀2🤗1
Forwarded from эйай ньюз
Пока OpenAI всё тянет с релизом обещанной модельки, гугл потихоньку разворачивает киллер-фичи от Gemini, в том числе Vids.
Vids — это новая тулза от гугл, которая должна помось создавать видосы на скорую руку. Из функционала:
- Генерация скрипта
- Текста для видео
- Подбор стоковых видео
- Генерация видео (наверное через Veo)
- Подбор фоновой музыки
- Генерация текста для озвучки
- Генерация самой озвучки
И всё это в один шаблон.
Короче, полноценный агент для создания дешёвых промо роликов. (Ну а что, Спилберг тоже не с Голливуда начинал)
Я в гугл доках у себя вижу значок "Ask Gemini", а вы? Но Vids у меня пока не доступно, пишут что раскатили это только на маленькую группу «доверенных юзеров».
Подробности
Про Vids
@ai_newz
Vids — это новая тулза от гугл, которая должна помось создавать видосы на скорую руку. Из функционала:
- Генерация скрипта
- Текста для видео
- Подбор стоковых видео
- Генерация видео (наверное через Veo)
- Подбор фоновой музыки
- Генерация текста для озвучки
- Генерация самой озвучки
И всё это в один шаблон.
Короче, полноценный агент для создания дешёвых промо роликов. (Ну а что, Спилберг тоже не с Голливуда начинал)
Чтобы проверить, есть ли у вас доступ к функциям Workspace Labs, откройте документ в Google Docs. Слева [у меня была справа] найдите раздел "Help me write".
Я в гугл доках у себя вижу значок "Ask Gemini", а вы? Но Vids у меня пока не доступно, пишут что раскатили это только на маленькую группу «доверенных юзеров».
Подробности
Про Vids
@ai_newz
👍7❤3
Dev Meme / devmeme
Be honest, did you gave it a second of thought?
Помню мне как-то предлагали вакансию "водитель фуры-рефрижератора по вашему резюме 3д-визуализатор"
😁28❤3👍1
Forwarded from Andrey Nisnevich
Отец знакомого работает в Microsoft. Сегодня срочно вызвали на совещание. Вернулся поздно и ничего не объяснил. Сказал лишь собирать всю технику и бежать в магазин за драйверами на две недели. Сейчас едем куда-то далеко за город. Не знаю что происходит, но мне кажется началось...
😁94❤11👍4🔥1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Новая порция звезд с собой из прошлого
Сделано в Kling
Сделано в Kling
👍23😘4😁1