This media is not supported in your browser
VIEW IN TELEGRAM
🔥 One of the most beautiful interactive visualizations on how LLMs work.
Хотите понять, как работают большие языковые модели?
Эта статья поможет вам понять основные концепции в интерактивной форме!
Одна из самых красивых визуализаций того, как работают
http://ig.ft.com/generative-ai/
@ai_machinelearning_big_data
Хотите понять, как работают большие языковые модели?
Эта статья поможет вам понять основные концепции в интерактивной форме!
Одна из самых красивых визуализаций того, как работают
LLM.http://ig.ft.com/generative-ai/
@ai_machinelearning_big_data
👍33🔥7❤4😍2
This media is not supported in the widget
VIEW IN TELEGRAM
👍56🥴15🔥7🤬4🏆4🌚2❤1
OpenAI DevDay сейчас идет онлайн конференции для разработчиков от OpenAI.
OpenAI выпустит
— Можно писать промты длинной в 128 тысяч токенов — это 365 страниц примерно обычной книги!
— Поддерживает возможность загружать собственные документы (PDF и прочие форматы);
— Можно может писать ответы в JSON-формате;
— Обновили базу данных до апреля 2023 года;
— Цена будет дешевле, работа по API для разработчиков — в 3 раза меньше цена для промта и в 2 раза для генераций.
— Голоса ChatGPT теперь не отличить от человеческих.
— GPT-4 turbo стала намного умнее.
— В 3 раза меньше цена для промта и в 2 раза для генераций.
Выпущен: https://github.com/openai/whisper
https://www.youtube.com/watch?v=U9mJuUkhUzk
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
Robust Speech Recognition via Large-Scale Weak Supervision - openai/whisper
👍22🔥12❤5
⚡️ EntitySeg Toolbox: Towards open-world and high-quality image segmentation
EntitySeg - это инструментарий с открытым исходным кодом, предназначенный для сегментации изображений с открытым миром и высоким качеством.
На сегодняшний день в EntitySeg реализованы следующие алгортмы:
▪Open-World Entity Segmentation (TPAMI2022)
▪High Quality Segmentation for Ultra High-resolution Images (CVPR2022)
▪CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation (ECCV2022)
▪High-Quality Entity Segmentation (ICCV2023 Oral)
▪Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion --- released
🖥 Github: https://github.com/qqlu/entity
📕 Paper: https://arxiv.org/abs/2311.03352v1
🌐 Dataset: https://paperswithcode.com/dataset/coco
@ai_machinelearning_big_data
EntitySeg - это инструментарий с открытым исходным кодом, предназначенный для сегментации изображений с открытым миром и высоким качеством.
На сегодняшний день в EntitySeg реализованы следующие алгортмы:
▪Open-World Entity Segmentation (TPAMI2022)
▪High Quality Segmentation for Ultra High-resolution Images (CVPR2022)
▪CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation (ECCV2022)
▪High-Quality Entity Segmentation (ICCV2023 Oral)
▪Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion --- released
🌐 Dataset: https://paperswithcode.com/dataset/coco
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1👏1
🚀 Introducing YOLO-NAS Pose : A Game-Changer in Pose Estimation 🚀
This Model is a redefinition of pose estimation's potential.
Компьютерное зрение достигло значительных успехов, и последний скачок произошел благодаря модели YOLO-NAS Pose.
Эта модель открывает новые возможности обнаружения и оценки позы людей на видео.
- Ошеломляющее снижение задержки на 38,85% на мощных процессорах Intel Xeon.
-Модель поднимает YOLOv8 на новую высоту по качеству обнаружения.
-Ориентирована на работу в режиме реального времени, уникальное сочетание точности и скорости.
- Невероятное улучшение на 0,27 балла на AP@0.5-0.9
Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.
🖥 Github: https://github.com/Deci-AI/super-gradients
📕 Notebook: https://colab.research.google.com/drive/1O4N5Vbzv0rfkT81LQidPktX8RtoS5A40
🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo
🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF
@ai_machinelearning_big_data
This Model is a redefinition of pose estimation's potential.
Компьютерное зрение достигло значительных успехов, и последний скачок произошел благодаря модели YOLO-NAS Pose.
Эта модель открывает новые возможности обнаружения и оценки позы людей на видео.
- Ошеломляющее снижение задержки на 38,85% на мощных процессорах Intel Xeon.
-Модель поднимает YOLOv8 на новую высоту по качеству обнаружения.
-Ориентирована на работу в режиме реального времени, уникальное сочетание точности и скорости.
- Невероятное улучшение на 0,27 балла на AP@0.5-0.9
Для решения различных задач модель выпускается в четырех вариантах, каждый из которых имеет свой размер и время задержки.
🚀 Demo: https://huggingface.co/spaces/Deci/YOLO-NAS-Pose-Demo
🌐 Colab: https://colab.research.google.com/drive/1agLj0aGx48C_rZPrTkeA18kuncack6lF
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍7❤4
🚀 Whisper-V3 / Consistency Decoder
Improved decoding for stable diffusion vaes.
Многие упустили из виду, что на Dev Day компания OpenAI выложила в открытый доступ сразу две модели, и на них стоит обратить внимание.
Первая из них - Whisper-V3, лучшая из существующих OSS-моделей распознавания речи. Она демонстрирует значительные улучшения по сравнению с Whisper-V2 на десятках языков.
Whisper остается одной из лучших фундаментальных моделей всех времен. В отличие от предыдущих работ, в которых создавались сложные конвейеры, Whisper представляет собой большой трансформер, который преобразует звук непосредственно в текст, со специальными "
Скорее всего Whisper позволил получить не менее триллиона высококачественных разговорных лексем из интернет-видео/аудиозаписей для GPT-4 и последующих проектов.
Второй открытый проект - это декодер согласованности (Consistency Decoder) из работы "Consistency Models" (Модели согласованности) под руководством Доктор Янге Сонг.
Янг был одним из первопроходцев в области диффузионных моделей. Вы можете заменить декодер Stable Diffusion на Consistency Decoder, и это улучшит рендеринг текстов, лиц и геометрических фигур.
- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder
@ai_machinelearning_big_data
Improved decoding for stable diffusion vaes.
Многие упустили из виду, что на Dev Day компания OpenAI выложила в открытый доступ сразу две модели, и на них стоит обратить внимание.
Первая из них - Whisper-V3, лучшая из существующих OSS-моделей распознавания речи. Она демонстрирует значительные улучшения по сравнению с Whisper-V2 на десятках языков.
Whisper остается одной из лучших фундаментальных моделей всех времен. В отличие от предыдущих работ, в которых создавались сложные конвейеры, Whisper представляет собой большой трансформер, который преобразует звук непосредственно в текст, со специальными "
метаязыковыми" лексемами, позволяющими выполнять элегантную многозадачность: определение языка, перевод, распознавание голоса и т.д. Его первый автор - легендарный Алек Рэдфорд - человек, ответственный почти за все революционные статьи OAI.Скорее всего Whisper позволил получить не менее триллиона высококачественных разговорных лексем из интернет-видео/аудиозаписей для GPT-4 и последующих проектов.
Второй открытый проект - это декодер согласованности (Consistency Decoder) из работы "Consistency Models" (Модели согласованности) под руководством Доктор Янге Сонг.
Янг был одним из первопроходцев в области диффузионных моделей. Вы можете заменить декодер Stable Diffusion на Consistency Decoder, и это улучшит рендеринг текстов, лиц и геометрических фигур.
- Whisper paper: https://arxiv.org/abs/2212.04356
- Whisper-V3 checkpoint: https://github.com/openai/whisper/discussions/1762
- Consistency Models: https://arxiv.org/abs/2303.01469
- Consistency Decoder release: https://github.com/openai/consistencydecoder
@ai_machinelearning_big_data
👍25🔥3❤2
Бесплатный курс углубленного анализа данных c ChatGPT
Этот курс входит в специализацию Prompt Engineering
https://www.coursera.org/learn/chatgpt-advanced-data-analysis
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🤣12❤5🔥4😱2
🪞 Mirror: A Universal Framework for Various Information Extraction Tasks
Мощный инструмент для решения практически всех задач извлечения и унификации информации.
🖥 Github: https://github.com/Spico197/Mirror
📕 Paper: https://arxiv.org/abs/2311.05419v1
🌐 Dataset: https://paperswithcode.com/dataset/glue
@ai_machinelearning_big_data
Мощный инструмент для решения практически всех задач извлечения и унификации информации.
🌐 Dataset: https://paperswithcode.com/dataset/glue
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥6❤2
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference.
Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.
LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.
pip install diffusers transformers accelerate gradio==3.48.0 🌐 Project: https://latent-consistency-models.github.io
🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤7🔥2🤔1
✨ Feature Selection for Deep Tabular Models
Аналог LASSO для нейронных сетей, названный Deep Lasso, который превосходит классические методы отбора признаков в сложных задачах.
🐱 Github: https://github.com/vcherepanova/tabular-feature-selection
📕 Paper: https://arxiv.org/pdf/2311.05877v1.pdf
⭐ Tasks: https://paperswithcode.com/task/feature-selection
@ai_machinelearning_big_data
Аналог LASSO для нейронных сетей, названный Deep Lasso, который превосходит классические методы отбора признаков в сложных задачах.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥7❤2
LLaMA2-Accessory - это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и муллимодальных LLM. Этот репозиторий в основном унаследован от LLaMA-Adapter с более расширенными возможностями.🧠
✨ В рамках этого инструментария представлена SPHINX, универсальная мультимодальная языковая модель (MLLM), которая показывает хорошие результаты генерации для широкого спектра задач.
🚀 Demo: http://imagebind-llm.opengvlab.com/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥7❤3
Сhat & pretrained large audio language model proposed by Alibaba Cloud.
Qwen-Audio (Qwen Large Audio Language Model) - это мультимодальная версия серии больших моделей Qwen (аббревиатура Tongyi Qianwen), предложенная компанией Alibaba Cloud.
Qwen-Audio принимает на вход различные звуки (человеческую речь, естественные звуки, музыку и песни) и текст, а на выходе выдает текст. Функции Qwen-Audio включают в себя:
▪Фундаментальные аудиомодели: Qwen-Audio - это фундаментальная многозадачная аудио-языковая модель, поддерживающая различные задачи, языки и типы аудио, выступающая в качестве универсальной модели понимания аудио.
▪Qwen-Audio-Chat позволяет вести полноценные диалоги .
Многозадачная система обучения для всех типов аудиозаписей. Модель включает в себя более 30 задач, и обширные эксперименты показывают, что модель демонстрирует высокую производительность.
▪Результаты экспериментов показывают, что Qwen-Audio достигает впечатляющей производительности в различных эталонных задачах, не требуя тонкой настройки под конкретную задачу, и превосходит свои аналоги. В частности, Qwen-Audio достигает лучших результатов на тестовых наборах Aishell1, cochlscene, ClothoAQA и VocalSound.
▪Гибкий многозадачный чат из аудио- и текстового ввода: Qwen-Audio поддерживает анализ нескольких аудиофайлов, понимание и осмысление звука, восприятие музыки и использование инструментов для редактирования речи.
🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3🔥1🍌1
🔥 NVIDIA сжала свои данные за 30 лет своей корпоративной памяти в 13Б параметров.
Все свои данные, которые включают проекты по разработке чипов, внутренние кодовые базы и инженерные журналы, такие как отчеты об ошибках, что составляет 24Б токенов.
Модель "ChipNeMo" развернута внутри компании и работает как джинн-помощник, который отвечает за :
- Генерацию сценариев EDA.
EDA расшифровывается как "
- Чатбот-ассистент для инженеров по GPU ASIC и архитектуре, понимающий внутренние спецификации аппаратного дизайна и способный объяснять сложные темы проектирования;
- Обобщение и анализ ошибок в рамках внутренней системы отслеживания ошибок и проблем;
- Генератор кода уже создает скрипты длиной около 10-20 строк на двух специализированных языках, используемых разработчиками микросхем.
📌 Процесс создания ChipNeMo
📌 Официальный блог
@ai_machinelearning_big_data
Все свои данные, которые включают проекты по разработке чипов, внутренние кодовые базы и инженерные журналы, такие как отчеты об ошибках, что составляет 24Б токенов.
Модель "ChipNeMo" развернута внутри компании и работает как джинн-помощник, который отвечает за :
- Генерацию сценариев EDA.
EDA расшифровывается как "
Electronic Design Automation" - основной программный пакет для проектирования графических процессоров нового поколения. Эти сценарии - ключ к рыночной капитализации в $1T 🦾;- Чатбот-ассистент для инженеров по GPU ASIC и архитектуре, понимающий внутренние спецификации аппаратного дизайна и способный объяснять сложные темы проектирования;
- Обобщение и анализ ошибок в рамках внутренней системы отслеживания ошибок и проблем;
- Генератор кода уже создает скрипты длиной около 10-20 строк на двух специализированных языках, используемых разработчиками микросхем.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍10❤4😱2🤯1🍌1
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.
В модели используется набор динамических визуальных маркеров для единообразного представления изображений и видео. Такая схема представления позволяет модели эффективно использовать ограниченное количество визуальных лексем для одновременного отражения пространственных деталей.
Обширные экспиременты показывают, что Chat-UniVi как единая модель стабильно превосходит даже существующие методы, предназначенные исключительно для работы с изображениями или видео.
🐱 Github: https://github.com/pku-yuangroup/chat-univi
📕 Paper: https://arxiv.org/abs/2311.08046v1
⏩ Dataset: https://paperswithcode.com/dataset/activitynet-qa
@ai_machinelearning_big_data
Chat-UniVi - унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.
В модели используется набор динамических визуальных маркеров для единообразного представления изображений и видео. Такая схема представления позволяет модели эффективно использовать ограниченное количество визуальных лексем для одновременного отражения пространственных деталей.
Обширные экспиременты показывают, что Chat-UniVi как единая модель стабильно превосходит даже существующие методы, предназначенные исключительно для работы с изображениями или видео.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤5🔥4🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Мета показали свои новые нейросети Emu Video и Emu Edit.
Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.
🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/
📌Paper: https://emu-edit.metademolab.com/assets/emu_edit.pdf
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥7❤1🍌1
ARES - автоматизированная система оценки RAG, предназначенная для оценки LLM моделей по таким параметрам, как релевантность контекста, верность ответа и уместность ответа.
RAG - это техника, повышающая производительность языковых моделей путём предоставления модели контекста вместе с вопросом.
Используя синтетические обучающие данные, ARES настраивает легковесных судей LM для оценки качества отдельных компонентов RAG. Для смягчения возможных ошибок предсказания ARES использует небольшой набор аннотированных человеком данных.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4❤3🍌1