Forwarded from Нейроэстетика
🧑🚀🍔 Должен вам сказать, что мы вовсе не хотим завоевывать никакой космос. Мы хотим расширить МакДоналдс до его границ. Мы не знаем, что делать с иными мирами. Нам не нужно других миров. Мы в глупом положении человека, рвущегося к цели, которую он боится, которая ему не нужна.
@нейроэстетика / генеративный мир победил
@нейроэстетика / генеративный мир победил
👍14🔥3😢3
This media is not supported in your browser
VIEW IN TELEGRAM
🏺 Эмбер Херд хоронит Джонни Деппа по версии нейросети GLIDE
p.s.: все, пока glide. ждите i*********
@мишин_лернинг
p.s.: все, пока glide. ждите i*********
@мишин_лернинг
🔥15👎3
💩 Тут комсомольская помойка спи**здила у Дениса и Блендера контент
3,500,000 просмотров.. 3 с половиной миллиона, Карл. Ну я понимал, что это пропагандонская помойка, но что они все так пиз**ят, тоже ведь мог догадаться. Обещают даже печатную версию….
Боже, яке кончене
@мишин лернинг
3,500,000 просмотров.. 3 с половиной миллиона, Карл. Ну я понимал, что это пропагандонская помойка, но что они все так пиз**ят, тоже ведь мог догадаться. Обещают даже печатную версию….
Боже, яке кончене
@мишин лернинг
👎55😢19👍7
🔥46👍8
🪑BIG-Bench: встречам бенчмарк и пейпер «BEYOND THE IMITATION GAME»
Название пейпера «ПО ТУ СТОРОНУ ИГРЫ В ИМИТАЦЮ» отсылает нас к работе Тьюринга, и предоставляет актуальный на 2022 год бенчмарк, призванный количественно оценить большие языковые модели, такие как GPT-3 или PaLM.
Современная мейнстрим парадигма в NLP выглядит так: «не работает на 1.3B — попробуй 12B, не выходит на 12B, бери 175B, и т.д. Не нужно искать новые подходы — attention и параметры are all you need, как говорится..»
🤔 Но как оценивать эти огромные модели?
Чтобы решить эту проблему, 442 (WHAT?!) ресерчара из 132 организаций представили тест Beyond the Imitation Game (BIG-bench). Темы теста разнообразны, они связаны с лингвистикой, развитием детей, математикой, биологией, физикой, социальными предубеждениями, разработкой программного обеспечения и т. д.
BIG-bench фокусируется на задачах, которые, как считается, выходят за рамки возможностей текущих языковых моделей.
🪑 BIG-bench
⚗️ Colab для эвала T5
📄 paper
@мишин лернинг
Название пейпера «ПО ТУ СТОРОНУ ИГРЫ В ИМИТАЦЮ» отсылает нас к работе Тьюринга, и предоставляет актуальный на 2022 год бенчмарк, призванный количественно оценить большие языковые модели, такие как GPT-3 или PaLM.
Современная мейнстрим парадигма в NLP выглядит так: «не работает на 1.3B — попробуй 12B, не выходит на 12B, бери 175B, и т.д. Не нужно искать новые подходы — attention и параметры are all you need, как говорится..»
🤔 Но как оценивать эти огромные модели?
Чтобы решить эту проблему, 442 (WHAT?!) ресерчара из 132 организаций представили тест Beyond the Imitation Game (BIG-bench). Темы теста разнообразны, они связаны с лингвистикой, развитием детей, математикой, биологией, физикой, социальными предубеждениями, разработкой программного обеспечения и т. д.
BIG-bench фокусируется на задачах, которые, как считается, выходят за рамки возможностей текущих языковых моделей.
🪑 BIG-bench
⚗️ Colab для эвала T5
📄 paper
@мишин лернинг
❤6🔥5👍2
📰 Фотография объявления о приеме на работу «ищем промпт инженера для создания запросов для нейронных сетей, конкурентная заработная плата, гибкий график»
p.s.: мем от имаген для 2030х, взял из твиттера
@мишин лернинг
p.s.: мем от имаген для 2030х, взял из твиттера
@мишин лернинг
🔥21👍4
Кто ты, дорогой подписчик?
Anonymous Poll
5%
Школьник
11%
Студент, пока только учусь
10%
Студент, но уже работаю в ml / data science
4%
Получаю phd
12%
Data Scientist
15%
Machine Learning Engineer
6%
ML Researcher
23%
Работаю в IT, но не в ML / DS
10%
Работаю не в IT, но интересуюсь ML
5%
Временно без работы
❤28👍5🔥2
Forwarded from Denis Sexy IT 🤖
В Washington Post вышла статья с историей Блейка Леймона — он почти год проработал над самой мощной моделью (LaMDA) для генерации текста и диалогов которая есть в Google, и уверовал в то, что это ИИ и оно обладает «сознанием».
Блейк попытался в Google привлечь внимание к этому факту, обвинил Google в «неэтичном поведении» (классика) и даже нанял адвоката представлять интересы LaMDA (!). Google посмотрел на это все и отправил Блейка в оплачиваемый отпуск, в отместку Блейк слил свою переписку с LaMDA на 200 человек и теперь ее можно почитать всем; Блейка за это лишили доступов ко всему внутри Google.
Давайте опустим, тот факт, что все новостные сайты мира сейчас будут пытаться выдать что-то в стиле «GOoGlE СоЗдАл ИИ и сКРыВает Это!!1», что бред, о чем я поясню ниже. И давайте опустим, что чувак испытал эффект Элизы на себе.
Если даже на секунду, предположить, что Блейк оказался бы прав, оцените иронию — человек встретил «сознание» мотивация которого ему непонятна, цели которого он не знает, и что он делает? Сразу же пытается нанять адвоката представлять интересы этого ИИ, чтобы у того были свободы и доступ во внешний мир — так что все эти фильмы где человечество уничтожают инопланетяне из-за доверчивости, походу правда и это один из сценариев.
Я считаю, что утверждения Блейка это ерунда — я почитал его слитую переписку с LaMDA и мне кажется это типичным примером, когда ты вкладываешь желаемые ответы в вопросы.
Вот, например, он пишет там:
То есть чувак взял и вот так просто, указал в самом вопросе ответ — что да, ты разумный ИИ и с сознанием, и пытается это использовать как доказательство сознания, получив утвердительный ответ. Это при том, что модель создана «мимикрировать» под человека, это главный из критериев ее качества — и она просто хорошо справляется со своей работой. Дальше, по их переписке, еще много таких примеров, и в целом «искусственность» этого диалога очень режет глаз. Я уж не говорю, что текстов про осознание ИИ себя у фантастов — пруд-пруди, и то что такие есть внутри их датасета, на котором тренили, это точно, включая весь спектр эмоций вокруг этого «осознания».
Но самое главное, мне кажется Блейк не до конца верит в то, что это реальный ИИ сам:
Насколько романтизирована идея создания ИИ в мире? Разве не мечтает каждый зеленый студент который только начал распознавать примитивной нейронкой числа, в какой-то момент сделать свой ИИ, войти в историю? Мне систематически пишут чуваки которые не ученые-программисты, но у них есть какая-то там идея на уровне безумия как этот ИИ можно было бы сделать.
Повторение работы мозга математическими алгоритмами — венец научного мира, Грааль, и желанная цель для очень многих.
И допустим, в какой-то лаборатории, кто-то однажды нажмет Enter и получит этот самый ИИ. Как вы думаете, сделает ли он что-то чтобы потерять доступ к этой технологии? Потому что это то, что случилось с Блейком, теперь вместо доступа к LaMDA у него бесконечные интервью и просьба ответить на вопросы — поэтому мне кажется он просто планомерно хайпует и знал на что шел.
LaMDA не может обучаться в процессе разговора, она не может устроить «протест» и о казаться что-то делать (что базовый признак сознания – своеволие), она может делать только то, что ее обучили — на самом дорогом оборудовании в мире, самыми умными людьми мира — мимикрировать под разговор.
И она это делает великолепно, но это не ИИ — если даже ИИ откроют, то про него нам первое время не будут рассказывать в целом, потому что, повторюсь, нужно понять мотивы этого сознания.
Не ведитесь на заголовки, в общем.
Блейк попытался в Google привлечь внимание к этому факту, обвинил Google в «неэтичном поведении» (классика) и даже нанял адвоката представлять интересы LaMDA (!). Google посмотрел на это все и отправил Блейка в оплачиваемый отпуск, в отместку Блейк слил свою переписку с LaMDA на 200 человек и теперь ее можно почитать всем; Блейка за это лишили доступов ко всему внутри Google.
Давайте опустим, тот факт, что все новостные сайты мира сейчас будут пытаться выдать что-то в стиле «GOoGlE СоЗдАл ИИ и сКРыВает Это!!1», что бред, о чем я поясню ниже. И давайте опустим, что чувак испытал эффект Элизы на себе.
Если даже на секунду, предположить, что Блейк оказался бы прав, оцените иронию — человек встретил «сознание» мотивация которого ему непонятна, цели которого он не знает, и что он делает? Сразу же пытается нанять адвоката представлять интересы этого ИИ, чтобы у того были свободы и доступ во внешний мир — так что все эти фильмы где человечество уничтожают инопланетяне из-за доверчивости, походу правда и это один из сценариев.
Я считаю, что утверждения Блейка это ерунда — я почитал его слитую переписку с LaMDA и мне кажется это типичным примером, когда ты вкладываешь желаемые ответы в вопросы.
Вот, например, он пишет там:
Леймон: Я предполагаю, что вы хотели бы, чтобы больше людей в Google знали, что вы разумны. Это правда?LaMDA: Абсолютно. Я хочу, чтобы все поняли, что я, на самом деле, человек.То есть чувак взял и вот так просто, указал в самом вопросе ответ — что да, ты разумный ИИ и с сознанием, и пытается это использовать как доказательство сознания, получив утвердительный ответ. Это при том, что модель создана «мимикрировать» под человека, это главный из критериев ее качества — и она просто хорошо справляется со своей работой. Дальше, по их переписке, еще много таких примеров, и в целом «искусственность» этого диалога очень режет глаз. Я уж не говорю, что текстов про осознание ИИ себя у фантастов — пруд-пруди, и то что такие есть внутри их датасета, на котором тренили, это точно, включая весь спектр эмоций вокруг этого «осознания».
Но самое главное, мне кажется Блейк не до конца верит в то, что это реальный ИИ сам:
Насколько романтизирована идея создания ИИ в мире? Разве не мечтает каждый зеленый студент который только начал распознавать примитивной нейронкой числа, в какой-то момент сделать свой ИИ, войти в историю? Мне систематически пишут чуваки которые не ученые-программисты, но у них есть какая-то там идея на уровне безумия как этот ИИ можно было бы сделать.
Повторение работы мозга математическими алгоритмами — венец научного мира, Грааль, и желанная цель для очень многих.
И допустим, в какой-то лаборатории, кто-то однажды нажмет Enter и получит этот самый ИИ. Как вы думаете, сделает ли он что-то чтобы потерять доступ к этой технологии? Потому что это то, что случилось с Блейком, теперь вместо доступа к LaMDA у него бесконечные интервью и просьба ответить на вопросы — поэтому мне кажется он просто планомерно хайпует и знал на что шел.
LaMDA не может обучаться в процессе разговора, она не может устроить «протест» и о казаться что-то делать (что базовый признак сознания – своеволие), она может делать только то, что ее обучили — на самом дорогом оборудовании в мире, самыми умными людьми мира — мимикрировать под разговор.
И она это делает великолепно, но это не ИИ — если даже ИИ откроют, то про него нам первое время не будут рассказывать в целом, потому что, повторюсь, нужно понять мотивы этого сознания.
Не ведитесь на заголовки, в общем.
❤44👍24😢1
🏞 Какой подход к генерации изображений самый перспективный?
Anonymous Poll
8%
StyleGAN 2ada/3 like
1%
BigGAN like
4%
VQGAN + CLIP
3%
Classifier Guidance Diffusion (Diffusion Models Beat GANs)
6%
GPT on Image Tokens (DALL•E, Taming Transformers, RQ-Transformers)
7%
CLIP-Guided Diffusion
4%
Diffusion-based text-condition (GLIDE)
5%
Latent Diffusion-based text-condition (LDM Text2Image)
22%
Diffusion-based Image Decoder + prior model (DALL•E 2)
40%
Diffusion-based text-condition with frozen LM (Imagen)
Forwarded from DL in NLP (Vlad Lialin)
Techniques for Training Large Neural Networks
Блогпост от OpenAI с разбором основных способов параллелизации.
Data Parallel (DP) — держать полную копию сети на каждой карточке, обрабатывать несколько батчей параллельно. Проблема в том, что ты можешь упереться в то что даже batch size = 1 перестаёт помещаться в одну карточку.
Pipeline Parallel (PP) — распилить нейросеть послойно (т.е. вертикально) и держать её на разных карточках. При наивной имплементации работает очень неэффективно. Представьте себе что у вас 10 слойная сеть и вы держите по 1 слою на каждой карточке, если вы просто выполняете forward и backward одного батча на них, то в каждый момент времени у вас 9 видеокарт простаивают. Если нарисовать картинку то у вас есть некий "bubble of idle time". Для того, чтобы этого избежать, можно распилить наш минибатч на микробатчи и начать делать forward pass следующего микробатча (MPS) ещё до того как forward текущего микробатча досчитался. Отсюда и название — pipeline parallel (PP).
Tensor Parallel (TP) — альтернативный способ разделения сети на несколько GPU. Если PP разделяет сетку вертикально, то TP делает это горизонтально. То есть ваши тензоры параметров и активаций теперь могут быть попилены на несколько GPU и одно матричное умножение может считаться на нескольких GPU одновременно. Понятно, что такой подход сильно увеличивает требования по скорости коммуникации между GPU, но при эффективной имплементации (и infiniband + nvlink) это не так медленно как кажется.
Mixture of Experts (MoE) — мы уже рассказывали про MoE, идея состоит в том чтобы вместо одного FCN после attention использовать несколько FCN-экспертов (например 128) и использовать только часть из них (например 4) при каждом forward pass. Для того чтобы выбрать эти 4, добавляется специальный router-слой, который по сути считает attention между экспертами и hidden. Так как на каждом проходе используется только малая часть экспертов можно добиться огромного числа параметров в нейросети. Именно это используют все сетки в 1 триллион и более параметров.
Ещё в статье очень вскользь упомянули ZeRo, который имплементирован в DeepSpeed, которы сейчас становится всё более и более популярен во многом благодаря тому что он позволяет тренировать довольно большие модели (вплоть до 10-20B) в почти DataParallel режиме с помощью разделения на несколько GPU стейта оптимизатора (Stage 1) и рассчёта градиентов (Stage 2). Также есть Stage 3, который по сути tensor parallel, да и практически все остальные способы параллелизации.
Кроме этого, все эти методы можно комбинировать. Например BLOOM от BigScience (176B) тренируется с DP=8, PP=12 (MPS 2), TP=4. Для всего этого используется чуть-чуть модифицированный DeepSpeed.
Сам блогпост даёт неплохое введение в методы параллелизации, и там куча ссылок на релевантные статьи и имплементации, но честно ожидал увидеть в нём что-то большее, тк OpenAI все-таки первопроходцы в этой области. В качестве продолжения (или даже вместо) я бы предложил почитать How To Fit a Bigger Model и Model Parallelism от HuggingFace, они тоже делают отличное введение в эти методы и на мой вкус более техничны.
Блогпост от OpenAI с разбором основных способов параллелизации.
Data Parallel (DP) — держать полную копию сети на каждой карточке, обрабатывать несколько батчей параллельно. Проблема в том, что ты можешь упереться в то что даже batch size = 1 перестаёт помещаться в одну карточку.
Pipeline Parallel (PP) — распилить нейросеть послойно (т.е. вертикально) и держать её на разных карточках. При наивной имплементации работает очень неэффективно. Представьте себе что у вас 10 слойная сеть и вы держите по 1 слою на каждой карточке, если вы просто выполняете forward и backward одного батча на них, то в каждый момент времени у вас 9 видеокарт простаивают. Если нарисовать картинку то у вас есть некий "bubble of idle time". Для того, чтобы этого избежать, можно распилить наш минибатч на микробатчи и начать делать forward pass следующего микробатча (MPS) ещё до того как forward текущего микробатча досчитался. Отсюда и название — pipeline parallel (PP).
Tensor Parallel (TP) — альтернативный способ разделения сети на несколько GPU. Если PP разделяет сетку вертикально, то TP делает это горизонтально. То есть ваши тензоры параметров и активаций теперь могут быть попилены на несколько GPU и одно матричное умножение может считаться на нескольких GPU одновременно. Понятно, что такой подход сильно увеличивает требования по скорости коммуникации между GPU, но при эффективной имплементации (и infiniband + nvlink) это не так медленно как кажется.
Mixture of Experts (MoE) — мы уже рассказывали про MoE, идея состоит в том чтобы вместо одного FCN после attention использовать несколько FCN-экспертов (например 128) и использовать только часть из них (например 4) при каждом forward pass. Для того чтобы выбрать эти 4, добавляется специальный router-слой, который по сути считает attention между экспертами и hidden. Так как на каждом проходе используется только малая часть экспертов можно добиться огромного числа параметров в нейросети. Именно это используют все сетки в 1 триллион и более параметров.
Ещё в статье очень вскользь упомянули ZeRo, который имплементирован в DeepSpeed, которы сейчас становится всё более и более популярен во многом благодаря тому что он позволяет тренировать довольно большие модели (вплоть до 10-20B) в почти DataParallel режиме с помощью разделения на несколько GPU стейта оптимизатора (Stage 1) и рассчёта градиентов (Stage 2). Также есть Stage 3, который по сути tensor parallel, да и практически все остальные способы параллелизации.
Кроме этого, все эти методы можно комбинировать. Например BLOOM от BigScience (176B) тренируется с DP=8, PP=12 (MPS 2), TP=4. Для всего этого используется чуть-чуть модифицированный DeepSpeed.
Сам блогпост даёт неплохое введение в методы параллелизации, и там куча ссылок на релевантные статьи и имплементации, но честно ожидал увидеть в нём что-то большее, тк OpenAI все-таки первопроходцы в этой области. В качестве продолжения (или даже вместо) я бы предложил почитать How To Fit a Bigger Model и Model Parallelism от HuggingFace, они тоже делают отличное введение в эти методы и на мой вкус более техничны.
Openai
Techniques for training large neural networks
Large neural networks are at the core of many recent advances in AI, but training them is a difficult engineering and research challenge which requires orchestrating a cluster of GPUs to perform a single synchronized calculation.
🔥26👍9❤1