🌟 Новый этап в обучении LLM. Представили YaFSDP — это собственная разработка Яндекса для ускорения обучения больших языковых моделей
Её использование поможет ускорить обучение LLM с открытым исходным кодом до 25%. Кроме того, решение поможет оптимизировать использование графических процессоров (GPU).
Читать…
Её использование поможет ускорить обучение LLM с открытым исходным кодом до 25%. Кроме того, решение поможет оптимизировать использование графических процессоров (GPU).
Читать…
🌟 SF-V — новый метод генерации видео от Snapchat
Новый метод генерации видео позволяет генерировать динамические и согласованные видео за 1 проход.
Обширные эксперименты показывают, что метод обеспечивает конкурентоспособное качество генерации синтезированных видео со значительно меньшими вычислительными затратами для процесса шумоподавления.
🟡Страничка SF-V
🖥GitHub
@Devsp — Подписаться
Новый метод генерации видео позволяет генерировать динамические и согласованные видео за 1 проход.
Обширные эксперименты показывают, что метод обеспечивает конкурентоспособное качество генерации синтезированных видео со значительно меньшими вычислительными затратами для процесса шумоподавления.
🟡Страничка SF-V
🖥GitHub
@Devsp — Подписаться
🖥 Дайджест самых интересных публикаций за последние дни:
• SF-V — новый метод генерации видео от Snapchat
• Простые способы ускорения обучения PyTorch-моделей
• L-MAGIC: Language Model Assisted Generation of Images with Coherence
• SF-V — новый метод генерации видео от Snapchat
• Простые способы ускорения обучения PyTorch-моделей
• L-MAGIC: Language Model Assisted Generation of Images with Coherence
👤 AGiXT — open-source платформа, которая позволяет легко организовать выполнение сложных задач различными AI-агентами
AGiXT — это динамическая платформа автоматизации искусственного интеллекта, разработанная для организации эффективного управления инструкциями ИИ и выполнения задач среди множества поставщиков.
Решение сочетает в себе адаптивную обработку памяти с широким спектром команд для улучшения понимания и реагирования ИИ, что приводит к более эффективному выполнению задач.
🖥GitHub
🟡Доки
🟡Примеры использования
@Devsp — Подписаться
AGiXT — это динамическая платформа автоматизации искусственного интеллекта, разработанная для организации эффективного управления инструкциями ИИ и выполнения задач среди множества поставщиков.
Решение сочетает в себе адаптивную обработку памяти с широким спектром команд для улучшения понимания и реагирования ИИ, что приводит к более эффективному выполнению задач.
🖥GitHub
🟡Доки
🟡Примеры использования
@Devsp — Подписаться
⚡️WebLLM — высокопроизводительный браузерный движок для инференса LLM
WebLLM — это высокопроизводительный механизм вывода LLM в браузере, который переносит вывод языковой модели непосредственно в веб-браузеры с аппаратным ускорением.
Все работает внутри браузера без поддержки сервера и ускоряется с помощью WebGPU.
Также WebLLM поддерживает целый ряд моделей, включая Llama 3, Phi 3, Gemma, Mistral, Qwen и многие другие.
🖥GitHub
🟡Доки
🟡Чат с WebLLM
@Devsp — Подписаться
WebLLM — это высокопроизводительный механизм вывода LLM в браузере, который переносит вывод языковой модели непосредственно в веб-браузеры с аппаратным ускорением.
Все работает внутри браузера без поддержки сервера и ускоряется с помощью WebGPU.
Также WebLLM поддерживает целый ряд моделей, включая Llama 3, Phi 3, Gemma, Mistral, Qwen и многие другие.
🖥GitHub
🟡Доки
🟡Чат с WebLLM
@Devsp — Подписаться
🌟dstack — open-source cистема оркестрации контейнеров для запуска AI-систем в любом облаке или ЦОДе
dstack— это механизм оркестрации контейнеров с открытым исходным кодом, предназначенный для рабочих нагрузок ИИ в любом облаке или центре обработки данных.
Поддерживаемые поставщики облачных услуг включают AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO.
🖥GitHub
🟡Доки
@Devsp — Подписаться
dstack— это механизм оркестрации контейнеров с открытым исходным кодом, предназначенный для рабочих нагрузок ИИ в любом облаке или центре обработки данных.
Поддерживаемые поставщики облачных услуг включают AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🌟MusicGPT — приложение для локального запуска моделей, генерирующих музыку
MusicGPT — это приложение, которое позволяет эффективно запускать новейшие модели искусственного интеллекта музыкального поколения локально, на любой платформе и без установки тяжелых зависимостей, таких как Python или фреймворки машинного обучения.
На данный момент он поддерживает только MusicGen от Meta, но планируется обеспечить прозрачную для пользователя поддержку различных моделей генерации музыки.
🖥GitHub
@Devsp — Подписаться
MusicGPT — это приложение, которое позволяет эффективно запускать новейшие модели искусственного интеллекта музыкального поколения локально, на любой платформе и без установки тяжелых зависимостей, таких как Python или фреймворки машинного обучения.
На данный момент он поддерживает только MusicGen от Meta, но планируется обеспечить прозрачную для пользователя поддержку различных моделей генерации музыки.
🖥GitHub
@Devsp — Подписаться
⚡️Semantic Kernel — open-source SDK, который позволяет интегрировать LLM от OpenAI, с Hugging Face и другие, с обычными языками программирования типо C#, Python и Java
Семантическое ядро достигает этого, позволяя вам определять плагины , которые можно объединить в цепочку всего за несколько строк кода.
Однако что делает Semantic Kernel особенным, так это его способность автоматически управлять плагинами с помощью ИИ.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Семантическое ядро достигает этого, позволяя вам определять плагины , которые можно объединить в цепочку всего за несколько строк кода.
Однако что делает Semantic Kernel особенным, так это его способность автоматически управлять плагинами с помощью ИИ.
🖥GitHub
🟡Доки
@Devsp — Подписаться
⚡️VideoLLaMA 2 — набор open-source Video-LLM, предназначенных для генерации видео
VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.
🖥GitHub
🤗 Демо на HF
🤗 Модель VideoLLaMA 2 на HF
@Devsp — Подписаться
VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.
🖥GitHub
🤗 Демо на HF
🤗 Модель VideoLLaMA 2 на HF
@Devsp — Подписаться
Погружение в xLSTM – обновленную LSTM, которая может оказаться заменой трансформера
Архитектура LSTM была предложена в 1997 году немецкими исследователями Зеппом Хохрайтером и Юргеном Шмидхубером. С тех пор она выдержала испытание временем: с ней связано много прорывов в глубоком обучении, в частности именно LSTM стали первыми большими языковыми моделями.
Читать далее
Архитектура LSTM была предложена в 1997 году немецкими исследователями Зеппом Хохрайтером и Юргеном Шмидхубером. С тех пор она выдержала испытание временем: с ней связано много прорывов в глубоком обучении, в частности именно LSTM стали первыми большими языковыми моделями.
Читать далее
📊 NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей
В этой статье я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке.
Читать...
В этой статье я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке.
Читать...
Разбор статьи про KAN – принципиально новую архитектуру нейросетей
В основе всех архитектур глубокого обучения лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.
Сейчас, спустя 67 лет, исследователи из MIT представили альтернативу MLP – новую архитектуру нейронной сети, получившую название Kolmogorov-Arnold Networks (KAN), в которой реализовано перемещение активаций на «ребра» сети.
Читать...
В основе всех архитектур глубокого обучения лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.
Сейчас, спустя 67 лет, исследователи из MIT представили альтернативу MLP – новую архитектуру нейронной сети, получившую название Kolmogorov-Arnold Networks (KAN), в которой реализовано перемещение активаций на «ребра» сети.
Читать...
🖥 Самые интересные публикации за последние дни:
• NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей
• Погружение в xLSTM – обновленную LSTM, которая может оказаться заменой трансформера
• MusicGPT — приложение для локального запуска моделей, генерирующих музыку
• NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей
• Погружение в xLSTM – обновленную LSTM, которая может оказаться заменой трансформера
• MusicGPT — приложение для локального запуска моделей, генерирующих музыку
❤1
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике
DeepSeek-Coder-V2, модель языка кода Mixture-of-Experts (MoE) с открытым исходным кодом, которая обеспечивает производительность, сравнимую с GPT4-Turbo, в задачах, специфичных для кода.
В частности, DeepSeek-Coder-V2 дополнительно проходит предварительное обучение на промежуточной контрольной точке DeepSeek-V2 с дополнительными 6 триллионами токенов.
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@Devsp — Подписаться
DeepSeek-Coder-V2, модель языка кода Mixture-of-Experts (MoE) с открытым исходным кодом, которая обеспечивает производительность, сравнимую с GPT4-Turbo, в задачах, специфичных для кода.
В частности, DeepSeek-Coder-V2 дополнительно проходит предварительное обучение на промежуточной контрольной точке DeepSeek-V2 с дополнительными 6 триллионами токенов.
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@Devsp — Подписаться
🎙️StreamSpeech: Мощная модель синхронного перевода речи.
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@Devsp — Подписаться
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@Devsp — Подписаться
🌟Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
Open Interpreter предоставляет интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.
🖥GitHub
🟡Доки
@Devsp — Подписаться
Open Interpreter предоставляет интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.
🖥GitHub
🟡Доки
@Devsp — Подписаться
🌟Modded-NanoGPT — позволяет добиться качества GPT-2 (124M) при обучении всего на 5B лексем
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥GitHub
@Devsp — Подписаться
Modded-NanoGPT позволяет:
— обучать в 2 раза эффективнее (требуется всего 5B лексем вместо 10B для достижения той же точности)
— имеет более простой код (446 строк вместо 858)
🖥GitHub
@Devsp — Подписаться