Generative Ai – Telegram
Generative Ai
3.63K subscribers
289 photos
117 videos
7 files
830 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
#чтивонаночь - LLAVA 1.5
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!

teletype
paper
github
🔥3
Forwarded from AI для Всех (Artemii)
RedPajama - новый датасет на 30 триллионов токенов!

Компания Together Computer представила обновлённую версию открытого набора текстовых данных RedPajama. Теперь он содержит 30 триллионов токенов - в 30 раз больше, чем было в первой версии!

Это колоссальный объём информации, отфильтрованной из сотен миллиардов веб-страниц. Такие данные послужат фундаментом для обучения по-настоящему масштабных открытых языковых моделей.

Преимущества нового датасета не заканчиваются на внушительных размерах. В набор добавлены десятки готовых аннотаций качества текста. Они позволят исследователям гибко фильтровать и взвешивать данные под конкретные задачи.

Все это существенно упростит и ускорит разработку открытых моделей ИИ. Каждый сможет с лёгкостью создать свою собственную уникальную выборку на основе RedPajama. А значит, ждём новую волну экспериментов и прорывных результатов!

В общем, RedPajama 2 - это мощный импульс для всего сообщества ИИ. Крупные данные, гибкость, доступность - так рождается прогресс!

🦙 Блог-пост
🦙 Датасет
🐙 Git
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Learn from Andrew Ng! Generative AI for Everyone

Instructed by AI pioneer Andrew Ng, Generative AI for Everyone offers his unique perspective on empowering you and your work with generative AI.

Узнайте, как работает генеративный искусственный интеллект в новом бесплатном курсе от легендарного Эндрю Ына. Как использовать ИИ в профессиональной или личной жизни и как он повлияет на работу, бизнес и общество.

Вы познакомитесь с реальными примерами работы ии, изучите типичные кейсы использования, получите возможность практической работы с инструментами генеративного ИИ, чтобы применить полученные знания на практике и получить представление о влиянии ИИ на бизнес и общество.

Этот курс доступен для всех и не предполагает наличия опыта кодинга или работы с искусственным интеллектом.

https://www.deeplearning.ai/courses/generative-ai-for-everyone/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍1🥰1
Forwarded from e/acc
Ровно месяц назад я писал об анонсе GPT-4V, который сегодня уже доступен всем пользователям. Эта модель умеет распознавать текст, формулы, эмоции, считать объекты и ставить диагнозы по картинке, умеет в в навигацию в реальном мире.

Но, как известно, месяц в ИИ это как год в крипте и как 5 лет в любой другой индустрии. Сегодня давайте поугораем по LLaVA, новой SotA (то есть, самой клёвой) vision модели.

Из новостей:
— модель открытая и бесплатная, включая датасет для тьюнинга
— показывает более крутые результаты по сравнению с GPT-4V
— последняя версия натренирована за 1 день на кластере из 8 A100 (то есть, за $700)
демо доступно на сайте авторов
— довольно легко тьюнить на своих данных (еще не пробовал)
— звучит как тема для нашего следующего вебинара (кстати, сегодня на mastermind сессии для участников сообщества codex.town мы будем разбирать и изучать лайфхаки для vision моделей!)
Sam Lessin State of The Vcs.pdf
24.3 MB
#PDF_Summary

Sam Lessin про текущий кризис VC.

Закрытие "фабрики VC” и конец эры единорогов: Традиционная модель создания единорогов через "фабричное фермерство" закончилась. Этот канал больше не работает и вряд ли возобновится, так как публичный рынок теперь ценит органический, без пестицидов и естественный рост.

Сосредоточение на начальном этапе инвестиций: Мультистадийные и даже поздние фирмы входят в сферу начального этапа инвестирования для размещения капитала в отсутствие традиционной фабричной линии. Этот сдвиг обусловлен стремлением построить репутацию и опередить конкурентов, хотя и основан на расширении инноваций, а не на деструктивных технологиях.

Постпандемические культурные изменения: Пандемия привела к фундаментальным культурным изменениям, влияющим на стартапы. Экономическая непредсказуемость, переосмысление личных приоритетов и поиск независимости и безопасности меняют направление движения талантов и их цели.

Приоритет финансовой гибкости в инвестициях: В современных условиях VC крайне важно придавать приоритет финансовой гибкости для инвестиций и как фонд. Компаниям и фондам необходимо сосредоточиться на создании устойчивых бизнесов с начальным капиталом и позиционировать себя так, чтобы использовать возможности при совмещении раундов финансирования. Ждать публичного размещения компании или её приобретения больше не является ответственным подходом, и фирмы должны активно разрабатывать варианты ликвидности.

Эффективность капитала вместо масштабируемости: Инвесторы на начальной стадии должны приоритизировать эффективность капитала вместо масштабируемости инвестиционных возможностей. Они должны сосредоточиться на тех местах, где доллары дефицитны и ценны для компаний, а не только на компаниях, способных увеличить свой спрос на доллары.

Терпение и дисциплина: Основателям, фондам и LP необходимо проявлять терпение и дисциплину в новую эру VC.
https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k

Nous-Yarn-Mistral-7b-128k is a state-of-the-art language model for long context, further pretrained on long context data for 1500 steps using the YaRN extension method. It is an extension of Mistral-7B-v0.1 and supports a 128k token context window.

Yarn Paper v2 on Arxiv: https://arxiv.org/abs/2309.00071
1
Obsidian-3B:
Worlds smallest multi-modal LLM. First multi-modal model in size 3B
(Worked on iphone!)

This is likely not just a first for Nous but likely the Worlds first 3B sized open-source multi-modal model with vision+text capabilities.

This model is based on the Capybara-3B model, holds robust conversational abilities, and even competes in benchmarks with first-gen SOTA models such as WizardLM-13B and GPT4-X-Vicuna 13B.

It's efficient enough to briskly run on even a non-pro iphone, while demonstrating surprisingly accurate understanding of images and holding back and forth conversations!

Download the direct version of Obsidian here: https://huggingface.co/NousResearch/Obsidian-3B-V0.5

Or download the optimized quantized version by @nisten here: https://huggingface.co/nisten/obsidian-3b-multimodal-q6-gguf
1🔥1
https://llava-vl.github.io/llava-interactive/

LLaVA-Interactive
Image Chat, Segmentation and Generation/Editing -- All-in-one
Forwarded from Сиолошная
Новая модель:
— контекст длиннее. 128K токенов (365 страниц обычной книги)
— модель более аккуратна при работе с длинным текстом, не теряет то, что было в серединке
— фича для разрабов: можно заставить модель писать ответы в JSON-формате
— можно вызывать несколько функций за раз
— можно указать seed генерации, чтобы получать воспроизводимость
— скоро добавят logprobs в API
— Retrieval прямо из коробки, можно загружать документы на платформу и они будут подтягиватсья (F стартапам chatWithPDF)
— Теперь модель знает события не до сентября 2021го, а апреля 2023го
— Эта новая модель принимает картинки на вход через API

— DALLE-3 + text-to-speech (6 голосов) сегодня появятся в API
— Для GPT-4 появится файнтюнинг сегодня (но на узкую выборку пользователей)
— Custom Models: программа плотной работыт инженеров OpenAI с вашей компанией, чтобы помочь адаптировать тренировку под ваши проблемы

ЦЕНА НА GPT-4-TURBO (Sam говорит, что эта модель ещё и умнее GPT-4) уменьшена в 3 раза для промпта и в 2 раза для генерации!

Обещают скоро ещё больше ускорить GPT-4 Turbo
https://langfuse.com/
https://github.com/langfuse/langfuse
Open source tracing and analytics for LLM applications
👍3
https://huggingface.co/01-ai/Yi-34B-200K

The Yi series models are large language models trained from scratch by developers at 01.AI. The first public release contains two bilingual(English/Chinese) base models with the parameter sizes of 6B(Yi-6B) and 34B(Yi-34B). Both of them are trained with 4K sequence length and can be extended to 32K during inference time. The Yi-6B-200K and Yi-34B-200K are base model with 200K context length.
3
Forwarded from Machinelearning
🎧 Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model

Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model.

Многочисленные исследования в области генерации музыки продемонстрировали впечатляющую производительность, однако практически ни одна модель не способна напрямую генерировать музыку для сопровождения видео.

В данной работе представлен генеративный музыкальный ИИ-фреймворк Video2Music, который может генерировать музыку под предоставленное видео.

Сначала была собрана уникальная коллекцию музыкальных клипов. Затем проанализированы музыкальные видеоролики, чтобы получить семантические характеристики, характеристики смещения сцены, движения и эмоций.

Эти отличительные признаки используются в качестве исходных данных для модели генерации музыки.

Затем транскрибируются аудиофайлы в MIDI и аккорды, а также извлекаются такие характеристики, как плотность нот и громкость.

В результате был собран набор мультимодальных данных под названием MuVi-Sync, на котором обучена модель для генерации музыки на основе видео. Эта модель включает в себя новый механизм, обеспечивающий сходство между видео и музыкой. Наконец, выполняется постобработка на основе регрессионной модели на базе biGRU для оценки плотности и громкости нот на основе характеристик видео.

Это обеспечивает динамическую визуализацию генерируемых аккордов с изменяющимся ритмом и громкостью.

В ходе экспериментов показано, что фреймворк позволяет генерировать музыку, соответствующую видеоконтенту с точки зрения эмоций. Музыкальное качество, а также качество согласования музыки и видео подтверждается в ходе исследования.

Модель AMT, а также новый датасет MuVi-Sync представляют собой перспективный шаг для задачи генерации музыки для видео.

🖥 Github: https://github.com/amaai-lab/video2music

📕 Paper: https://arxiv.org/abs/2311.00968v1

Demo: https://llmrec.github.io/

🌐 Dataset: https://zenodo.org/records/10057093

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Бесплатный, очень короткий, но познавательный курс пр промтингу.

Курс "ChatGPT Prompt Engineering for Developers" обучает использованию больших языковых моделей (LLM) через OpenAI API для быстрого создания приложений. Ведущие, Isa Fulford (OpenAI) и Andrew Ng (DeepLearning.AI), раскрывают принципы LLM, делятся лучшими практиками запросов и демонстрируют применение LLM API в разнообразных задачах.

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/
👍3
Lobe Chat - это инновационный чат-клиент с открытым исходным кодом, поддерживающий расширяемость и визуальное распознавание. Он позволяет легко развертывать частные приложения ChatGPT/LLM с помощью одного клика. С изящным дизайном, настраиваемыми ролями агентов, поддержкой плагинов и улучшенной мобильной версией, Lobe Chat обеспечивает удобное и персонализированное взаимодействие.

https://github.com/lobehub/lobe-chat
2
Bill Gates про будущее ИИ и агентов.

ИИ-агенты радикально изменят использование компьютеров, обеспечивая индивидуальную помощь в различных задачах. Эти агенты будут влиять на многие сферы, включая здравоохранение, образование и развлечения, поднимая важные вопросы о конфиденциальности данных и общественных последствиях.

Полная статья доступна здесь: ИИ собирается полностью изменить то, как вы используете компьютеры
👍2