Generative Ai – Telegram
Generative Ai
3.63K subscribers
289 photos
117 videos
7 files
830 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Прозрение отца ИИ о том, как ИИ сможет понимать мир.
GLOM – революционная теория Джеффри Хинтона (о которой в России почему-то никто не знает).

Можно научить ИИ понимать окружающий мир так, как его понимают люди. Ключом к этому станет техника восприятия мира, подобная человеческой.
• Человеческое восприятие построено на интуиции, и чтобы ИИ понимал мир, нужно смоделировать для ИИ интуицию.
• Интуиция – это способность легко проводить аналогии. С её помощью ИИ, подобно человеческому мозгу, будет понимать мир и обладать проницательностью.
• С детства и на протяжении всей жизни мы осмысливаем мир, используя рассуждения по аналогии, отображая сходство одного объекта (идеи, концепции …) с другим - или, в терминологии GLOM, - сходство одного большого вектора с другим.
• Современные теории исходят либо из того, что в ходе восприятия мозг обрaбaтывaет изобрaжение («пиксели»), либо из того, что мозг обрабатывает символы. GLOM утверждает, что обa подходы неверны: мозг оперирует не пикселями и не символaми, a большими векторaми нейронной aктивности (т.е. нaборaми aктивaций тех или иных нейронов).
• Если удастся на основе GLOM создать новый класс моделей и алгоритмов глубокого обучения, это может стать прорывом к ИИ, умеющему гибко решать проблемы. Такой ИИ будет способен понимать вещи, с которыми никогда раньше не сталкивался, извлекать сходства из прошлого опыта, экспериментировать с идеями, обобщать, экстраполировать – одним словом, понимать.


GLOM – это новая гипер-прорывная теория ИИ, разработанная Джеффри Хинтоном. То, что его называют отцом ИИ, - вовсе не преувеличение. По словам соучредителя и члена правления Института искусственного интеллекта Vector Джордана Джейкобса: «Через 30 лет мы оглянемся назад и скажем, что Джефф — Эйнштейн для ИИ, глубокого обучения, всего, что мы зовем ИИ».
Из всех исследователей ИИ Хинтона цитируют чаще, чем трех идущих за ним, вместе взятых. Его студенты и аспиранты уходят работать в лаборатории ИИ Apple, Facebook и OpenAI; сам Хинтон — ведущий ученый в команде Google Brain AI. Практически любое достижение в области ИИ за последние десять лет — в переводе, распознавании речи, распознавании изображений и играх — так или иначе касается работ Хинтона.

Его новая теория GLOM решает две самые сложные проблемы для систем визуального восприятия (и то, и другое современный ИИ не умеет в принципе):
понимание всей сцены в терминах объектов и их естественных частей (например, если такому ИИ показать 10 фрагментов тела подорвавшегося на мине солдата, он опознает, что это труп мужчины);
• распознавание объектов при взгляде с иной точки зрения (современный ИИ не может даже распознать автобус, перевернувшийся и лежащий на крыше).

И хотя GLOM фокусируется на визуальном восприятии, Хинтон ожидает, что эти же идеи можно применить и к языку, чтобы воспроизвести дерево синтаксического анализа в нейронной сети (пока это несбыточная мечта).

Ключевые идеи GLOM недавно были опубликованы Хинтоном в 44-х страничной статье. Эти идеи представляют собой существенный пересмотр архитектуры капсульных нейронных сетей, изобретенной Хинтоном 4 года назад.

И хотя GLOM сегодня – не более, чем «новая философия нейронных сетей», но звучит эта философия чарующе и маняще. Ибо обещает открыть перед ИИ почти что неограниченные горизонты.

Подробней:
- популярно за пэйволом и в обход его
- научно
- очень интересный видео-рассказ о сравнении теории GLOM с «Теорией интеллекта тысячи мозгов»

#КудаИдетИИ #ГлубокоеОбучение
Представляем вам проект «Карьера» – вакансии для инженеров и разработчиков.

Проект создан, чтобы помочь инженерам найти интересную работу в ведущих компаниях своей отрасли.

Какие преимущества для соискателей?

1. Для отклика не нужно резюме или анкета на несколько страниц
2. Вопросы в отклике целевые - связаны с работой, не будем спрашивать: "Где вы хотите себя видеть через 5 лет?"
3. Диаграмма соответствия вакансии для вас.
Читать все преимущества.

Вакансии по теме:

Senior Deep Learning Engineer for AD/ADAS
Machine learning/Deep learning engineer

Смотреть все вакансии.
Объявляем Weekend Offer для тех, чей конёк — работа с данными!

Weekend Offer — шанс получить оффер в X5 Group, под крылом которых все «Пятёрочки», «Перекрёстки», «Карусели» и «Чижики» страны.
Это 34 продукта, 123 проекта, 324 IT-системы на поддержке — а ещё миллионы людей, на опыт которых вы будете влиять каждый день.

Схема такая: отправьте заявку → пройдите 2 коротких интервью → оффер.

Отправьте заявку до 4 июня, а лучше — прямо сейчас
Forwarded from Gradient Dude
This media is not supported in your browser
VIEW IN TELEGRAM
Researchers from Berkeley rolled out VideoGPT - a transformer that generates videos.

The results are not super "WOW", but the architecture is quite simple and now it can be a starting point for all future work in this direction. As you know, GPT-3 for text generation was also not built right away. So let's will wait for method acceleration and quality improvement.

📝Paper
⚙️Code
🌐Project page
🃏Demo
👍2
Forwarded from Neural Shit
Там китайцы выкатили очередной text to image алгоритм: CogView. Трансформер на 4 миллиарда параметров + токенизатор VQ-VAE.

Тут демо версия алгоритма (к сожалению, сайт на китайском и принимает текстовые запросы только на китайском, переводчик в помощь). Ну и очередь на генерацию на сайте приличная. На изображениях выше примеры текстовых запросов и генерации изображений из них
Milvus - Векторная база данных для хранения и поиска среди эмбеддингов!

Milvus is built on top of multiple optimized Approximate Nearest Neighbor Search (ANNS) indexing libraries, including faiss, annoy, hnswlib, etc.

https://github.com/milvus-io/milvus/
Куда приводят мечты или рендеринг майкрафт мира с помощью GAN.

https://nvlabs.github.io/GANcraft/
https://github.com/NVlabs/imaginaire
https://arxiv.org/pdf/2104.07659v1.pdf

We present GANcraft, an unsupervised neural rendering framework for generating photorealistic images of large 3D block worlds such as those created in Minecraft. Our method takes a semantic block world as input, where each block is assigned a label such as dirt, grass, tree, sand, or water. We represent the world as a continuous volumetric function and train our model to render view-consistent photorealistic images from arbitrary viewpoints, in the absence of paired ground truth real images for the block world. In addition to camera pose, GANcraft allows user control over both scene semantics and style.

https://youtu.be/1Hky092CGFQ
This media is not supported in your browser
VIEW IN TELEGRAM
Офигенно!)

Unsupervised 3D Neural Rendering of Minecraft Worlds
This media is not supported in your browser
VIEW IN TELEGRAM
Куча классных Vision Transformer для Pytorch в одном пакете.

https://github.com/lucidrains/vit-pytorch
PyTorchVideo мощная библиотека от facebook для задач с пониманием и анализом видео.

PytorchVideo provides reusable, modular and efficient components needed to accelerate the video understanding research. PyTorchVideo is developed using PyTorch and supports different deeplearning video components like video models, video datasets, and video-specific transforms.

Key features include:

Based on PyTorch: Built using PyTorch. Makes it easy to use all of the PyTorch-ecosystem components.

Reproducible Model Zoo: Variety of state of the art pretrained video models and their associated benchmarks that are ready to use. Complementing the model zoo, PyTorchVideo comes with extensive data loaders supporting different datasets.

Efficient Video Components: Video-focused fast and efficient components that are easy to use. Supports accelerated inference on hardware.

https://github.com/facebookresearch/pytorchvideo
Еще одна модная векторая база данных для ML задач с трансформерами из коробки и GraphQL!

https://github.com/semi-technologies/weaviate

Weaviate in a nutshell: Weaviate is a vector search engine and vector database. Weaviate uses machine learning to vectorize and store data, and to find answers to natural language queries. With Weaviate you can also bring your custom ML models to production scale.

Weaviate in detail: Weaviate is a low-latency vector search engine with out-of-the-box support for different media types (text, images, etc.). It offers Semantic Search, Question-Answer-Extraction, Classification, Customizable Models (PyTorch/TensorFlow/Keras), and more. Built from scratch in Go, Weaviate stores both objects and vectors, allowing for combining vector search with structured filtering with the fault-tolerance of a cloud-native database, all accessible through GraphQL, REST, and various language clients.
[OpenAI DALL·E] Zero-Shot Text-to-Image Generation
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever
Статья: https://arxiv.org/abs/2102.12092
Пост в блоге: https://openai.com/blog/dall-e/
Код (официальный, но неполный): https://github.com/openai/dall-e
Код (неофициальный, но более полный): https://github.com/lucidrains/DALLE-pytorch
Обученная модель от Сбера: https://github.com/sberbank-ai/ru-dalle

В последнее время появилось много мультимодальных трансформеров, и хочется их поразбирать. Нельзя обойти при этом наиболее известные модели, одна из которых — DALL·E от OpenAI.

DALL·E прошумел уже довольно давно, в самом начале года, но статья и все детали реализации стали доступны не сразу (в официальной репе так вообще лежит только обученный dVAE, который лишь часть от DALL·E).

Собственно, что такое DALL·E? Это декодер трансформера, который авторегрессионно умеет генерить изображения, “продолжая” заданное текстовое описание и, возможно, начальную часть изображения.

В оригинальном посте было заявлено, что это 12-миллиардная версия GPT-3, обученная на парах картинок и их описаний, но реальность сильно сложнее.

Начать стоит с того, что процесс обучения двухэтапный. На первом этапе обучается дискретный VAE (dVAE), сжимающий входную картинку 256*256 в картиночные токены на сетке 32*32, принимающие 8192 возможных значения каждый (то есть размер словаря). Это нужно для того, чтобы уменьшить количество токенов, с которыми должен дальше оперировать трансформер, и даёт уменьшение размера контекста в 192 раза. Часть высокочастотного сигнала в изображении при этом, ожидаемо, теряется, мелкие детали становятся плохо- или неразличимы, но в целом качество восстановления картинки после такого dVAE вполне достойно. Именно отсюда получается та самая своеобразная гладкость генеримых DALL·E картинок и проблемы с мелкими деталями, соответственно не для любого типа изображений DALL·E подходит, либо же процесс требует переобучения dVAE на более специальные кейсы. В dVAE никаких трансформеров нет, это свёрточный резнет.

Второй этап — это собственно трансформер. 256 кодирующих текст BPE-токенов (словарь размера 16384) конкатенируются с 1024 картиночными токенами, полученными от dVAE, и эта последовательность авторегрессионно продолжается. Сам трансформер это 64-слойный sparse transformer от тех же OpenAI (https://arxiv.org/abs/1904.10509). Он хитрый, в нём три типа шаблонов внимания: 1) text-to-text классический masked механизм как в авторегрессионных языковых моделях по типу GPT, где текущий токен не имеет права заглядывать в будущие токены; 2) image-to-text, где каждый токен изображения смотрит на все токены текста; и 3) image-to-image, где используются паттерны из sparse transformer с вниманием по строкам, столбцам и более хитрыми свёрточными шаблонами, которые применяются только в последнем self-attention слое. При этом все три типа заведены в одну единственную операцию внимания, потому что это работало лучше, чем три отдельные операции.

Авторы сначала экспериментировали на маленькой модели в 1.2B параметров и датасете в 3.3M пар картинка-текст, а потом отскейлили это на 12B модель и датасет в 250M пар (который пришлось собрать). Собственно этот скейлинг и составляет главные идейную и техническую часть работы. Идейно — показать, что обученная на большом датасете модель большого размера демонстрирует интересное поведение, а технически — заставить всё это работать, потому что вылезает много инженерных челленджей, не проявляющихся на меньших масштабах.

По признанию авторов, самая сложная часть проекта была в том, чтобы обучить большую модель на 16-битных числах (вместо обычных 32-битных). Было много всяких нестабильностей, поэтому авторы придумали хитрые методы масштабирования градиентов для защиты от underflow. Другой челлендж — распределённое обучение, где использовался тонко настроенный вариант PowerSGD. За этими (на самом деле важными, если хотите повторить) техническими деталями обращайтесь в Appendix.
Начать разбираться в AI и ML — легко!

Смотрите, какой крутой проект — YouTube-канал "Академия искусственного интеллекта". Это совместный проект Сбера и Благотворительного фонда "Вклад в будущее". Цель проекта — помочь разобраться, что такое искусственный интеллект и машинное обучение. В коротких видео понятным языком рассказывают о новых веяниях ИИ, об олимпиадах, стажировках и хакатонах; а также дают много полезных ссылок и материалов, которые помогут лучше разобраться в теме.

Вот несколько интересных видео:
- Нейросеть DallE от Сбера: интервью с одним из создателей.
- Почему ИИ стоит изучать.
- Стажировка в Сбере.
- Как достичь успеха в data science и IT

В 2021 изученим AI и ML действительно стоит начать заниматься уже сейчас: чтобы не отодвигать изучение самой развивающейся сферы в мире и стать в ней первым!
Академия ИИ докажет вам, что AI — это суперувлекательно! Подписывайтесь
Вы руководите стартапом в сфере искусственного интеллекта или, может быть, работаете в секторе Интернета вещей или индустрии дополненной реальности? Нажмите здесь и узнайте, как вы можете воспользоваться программой Европейского Союза, не находясь в ЕС. Завоевать новых клиентов и новые контакты на европейском рынке. Ознакомьтесь с программой Poland Prize
https://technopark.kielce.pl/polandprizerus/
15 Open Source библиотек для повышения качества данных

Open Source библиотеки Python, которые помогут вам сделать данные лучше, чтобы избежать траты времени и упростить анализ данных.

Статья
👍3
Forwarded from Denis Sexy IT 🤖
Настоящие революции в мире ML происходят не так часто — что случилось что-то серьезное, можно понять по сообщениям в твиттере от ML-инженеров в стиле: «У меня просто руки опускаются теперь что-то делать», «Я не вижу смысла продолжать свое исследование» и тп.

Речь идет о задаче генерации картинки по тексту, и я про новую версию DALL•E от OpenAI, о которой кажется все уже написали.

Нейронка может работать в трех режимах:
 Генерировать картинку с нуля;
 Дорисовывать часть картинки;
 Сгенерировать новые версии картинки на входе.

Упрощенно, на пальцах, довольно сложно рассказать как работает этот подход (потому что на фразе «диффузионный декодер и диффузионную визуальную модель» обычные люди начинают плакать), но я подумаю над простым объяснением, как я делал тут.

Ниже будет пост, где я собрал результаты генерации из разных твиттер тредов и дописал запросы по которым эти картинки генерировались (их никто не дорабатывал в фотошопе, это сырой выход из нейронки – в разрешении 1024х1024).

А вот так выглядит интерфейс для генерации, доступ к которому пока есть только у ~400 человек (я тоже подал заявку и в списке ожидания):
👍14💩1