Мишин Лернинг – Telegram
Мишин Лернинг
7.78K subscribers
1.17K photos
151 videos
4 files
642 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
🧑‍🚀🍔 Должен вам сказать, что мы вовсе не хотим завоевывать никакой космос. Мы хотим расширить МакДоналдс до его границ. Мы не знаем, что делать с иными мирами. Нам не нужно других миров. Мы в глупом положении человека, рвущегося к цели, которую он боится, которая ему не нужна.

@
нейроэстетика / генеративный мир победил
👍14🔥3😢3
This media is not supported in your browser
VIEW IN TELEGRAM
🏺 Эмбер Херд хоронит Джонни Деппа по версии нейросети GLIDE

p.s.: все, пока glide. ждите i*********

@мишин_лернинг
🔥15👎3
💩 Тут комсомольская помойка спи**здила у Дениса и Блендера контент

3,500,000 просмотров.. 3 с половиной миллиона, Карл. Ну я понимал, что это пропагандонская помойка, но что они все так пиз**ят, тоже ведь мог догадаться. Обещают даже печатную версию….

Боже, яке кончене

@мишин лернинг
👎55😢19👍7
🤮 Лол, 2ое суток висел пост.. И вдруг поправили.. интересно почему это..

@мишин лернинг
🔥46👍8
🪑BIG-Bench: встречам бенчмарк и пейпер «BEYOND THE IMITATION GAME»

Название пейпера «ПО ТУ СТОРОНУ ИГРЫ В ИМИТАЦЮ» отсылает нас к работе Тьюринга, и предоставляет актуальный на 2022 год бенчмарк, призванный количественно оценить большие языковые модели, такие как GPT-3 или PaLM.

Современная мейнстрим парадигма в NLP выглядит так: «не работает на 1.3B — попробуй 12B, не выходит на 12B, бери 175B, и т.д. Не нужно искать новые подходы — attention и параметры are all you need, как говорится..»

🤔 Но как оценивать эти огромные модели?

Чтобы решить эту проблему, 442 (WHAT?!) ресерчара из 132 организаций представили тест Beyond the Imitation Game (BIG-bench). Темы теста разнообразны, они связаны с лингвистикой, развитием детей, математикой, биологией, физикой, социальными предубеждениями, разработкой программного обеспечения и т. д.

BIG-bench фокусируется на задачах, которые, как считается, выходят за рамки возможностей текущих языковых моделей.

🪑 BIG-bench
⚗️ Colab для эвала T5
📄 paper

@мишин лернинг
6🔥5👍2
📰 Фотография объявления о приеме на работу «ищем промпт инженера для создания запросов для нейронных сетей, конкурентная заработная плата, гибкий график»

p.s.: мем от имаген для 2030х, взял из твиттера

@мишин лернинг
🔥21👍4
🍻 View of the corner of dark pub in Ireland | DALL•E 2
🔥469👍2
Forwarded from Denis Sexy IT 🤖
В Washington Post вышла статья с историей Блейка Леймона — он почти год проработал над самой мощной моделью (LaMDA) для генерации текста и диалогов которая есть в Google, и уверовал в то, что это ИИ и оно обладает «сознанием».

Блейк попытался в Google привлечь внимание к этому факту, обвинил Google в «неэтичном поведении» (классика) и даже нанял адвоката представлять интересы LaMDA (!). Google посмотрел на это все и отправил Блейка в оплачиваемый отпуск, в отместку Блейк слил свою переписку с LaMDA на 200 человек и теперь ее можно почитать всем; Блейка за это лишили доступов ко всему внутри Google.

Давайте опустим, тот факт, что все новостные сайты мира сейчас будут пытаться выдать что-то в стиле «GOoGlE СоЗдАл ИИ и сКРыВает Это!!1», что бред, о чем я поясню ниже. И давайте опустим, что чувак испытал эффект Элизы на себе.

Если даже на секунду, предположить, что Блейк оказался бы прав, оцените иронию — человек встретил «сознание» мотивация которого ему непонятна, цели которого он не знает, и что он делает? Сразу же пытается нанять адвоката представлять интересы этого ИИ, чтобы у того были свободы и доступ во внешний мир — так что все эти фильмы где человечество уничтожают инопланетяне из-за доверчивости, походу правда и это один из сценариев.

Я считаю, что утверждения Блейка это ерунда — я почитал его слитую переписку с LaMDA и мне кажется это типичным примером, когда ты вкладываешь желаемые ответы в вопросы.

Вот, например, он пишет там:

Леймон: Я предполагаю, что вы хотели бы, чтобы больше людей в Google знали, что вы разумны. Это правда?

LaMDA: Абсолютно. Я хочу, чтобы все поняли, что я, на самом деле, человек.

То есть чувак взял и вот так просто, указал в самом вопросе ответ — что да, ты разумный ИИ и с сознанием, и пытается это использовать как доказательство сознания, получив утвердительный ответ. Это при том, что модель создана «мимикрировать» под человека, это главный из критериев ее качества — и она просто хорошо справляется со своей работой. Дальше, по их переписке, еще много таких примеров, и в целом «искусственность» этого диалога очень режет глаз. Я уж не говорю, что текстов про осознание ИИ себя у фантастов — пруд-пруди, и то что такие есть внутри их датасета, на котором тренили, это точно, включая весь спектр эмоций вокруг этого «осознания».

Но самое главное, мне кажется Блейк не до конца верит в то, что это реальный ИИ сам:

Насколько романтизирована идея создания ИИ в мире? Разве не мечтает каждый зеленый студент который только начал распознавать примитивной нейронкой числа, в какой-то момент сделать свой ИИ, войти в историю? Мне систематически пишут чуваки которые не ученые-программисты, но у них есть какая-то там идея на уровне безумия как этот ИИ можно было бы сделать.

Повторение работы мозга математическими алгоритмами — венец научного мира, Грааль, и желанная цель для очень многих.

И допустим, в какой-то лаборатории, кто-то однажды нажмет Enter и получит этот самый ИИ. Как вы думаете, сделает ли он что-то чтобы потерять доступ к этой технологии? Потому что это то, что случилось с Блейком, теперь вместо доступа к LaMDA у него бесконечные интервью и просьба ответить на вопросы — поэтому мне кажется он просто планомерно хайпует и знал на что шел.

LaMDA не может обучаться в процессе разговора, она не может устроить «протест» и о казаться что-то делать (что базовый признак сознания – своеволие), она может делать только то, что ее обучили — на самом дорогом оборудовании в мире, самыми умными людьми мира — мимикрировать под разговор.

И она это делает великолепно, но это не ИИ — если даже ИИ откроют, то про него нам первое время не будут рассказывать в целом, потому что, повторюсь, нужно понять мотивы этого сознания.

Не ведитесь на заголовки, в общем.
44👍24😢1
Forwarded from DL in NLP (Vlad Lialin)
Techniques for Training Large Neural Networks
Блогпост от OpenAI с разбором основных способов параллелизации.

Data Parallel (DP) — держать полную копию сети на каждой карточке, обрабатывать несколько батчей параллельно. Проблема в том, что ты можешь упереться в то что даже batch size = 1 перестаёт помещаться в одну карточку.
Pipeline Parallel (PP) — распилить нейросеть послойно (т.е. вертикально) и держать её на разных карточках. При наивной имплементации работает очень неэффективно. Представьте себе что у вас 10 слойная сеть и вы держите по 1 слою на каждой карточке, если вы просто выполняете forward и backward одного батча на них, то в каждый момент времени у вас 9 видеокарт простаивают. Если нарисовать картинку то у вас есть некий "bubble of idle time". Для того, чтобы этого избежать, можно распилить наш минибатч на микробатчи и начать делать forward pass следующего микробатча (MPS) ещё до того как forward текущего микробатча досчитался. Отсюда и название — pipeline parallel (PP).
Tensor Parallel (TP) — альтернативный способ разделения сети на несколько GPU. Если PP разделяет сетку вертикально, то TP делает это горизонтально. То есть ваши тензоры параметров и активаций теперь могут быть попилены на несколько GPU и одно матричное умножение может считаться на нескольких GPU одновременно. Понятно, что такой подход сильно увеличивает требования по скорости коммуникации между GPU, но при эффективной имплементации (и infiniband + nvlink) это не так медленно как кажется.
Mixture of Experts (MoE) — мы уже рассказывали про MoE, идея состоит в том чтобы вместо одного FCN после attention использовать несколько FCN-экспертов (например 128) и использовать только часть из них (например 4) при каждом forward pass. Для того чтобы выбрать эти 4, добавляется специальный router-слой, который по сути считает attention между экспертами и hidden. Так как на каждом проходе используется только малая часть экспертов можно добиться огромного числа параметров в нейросети. Именно это используют все сетки в 1 триллион и более параметров.

Ещё в статье очень вскользь упомянули ZeRo, который имплементирован в DeepSpeed, которы сейчас становится всё более и более популярен во многом благодаря тому что он позволяет тренировать довольно большие модели (вплоть до 10-20B) в почти DataParallel режиме с помощью разделения на несколько GPU стейта оптимизатора (Stage 1) и рассчёта градиентов (Stage 2). Также есть Stage 3, который по сути tensor parallel, да и практически все остальные способы параллелизации.

Кроме этого, все эти методы можно комбинировать. Например BLOOM от BigScience (176B) тренируется с DP=8, PP=12 (MPS 2), TP=4. Для всего этого используется чуть-чуть модифицированный DeepSpeed.

Сам блогпост даёт неплохое введение в методы параллелизации, и там куча ссылок на релевантные статьи и имплементации, но честно ожидал увидеть в нём что-то большее, тк OpenAI все-таки первопроходцы в этой области. В качестве продолжения (или даже вместо) я бы предложил почитать How To Fit a Bigger Model и Model Parallelism от HuggingFace, они тоже делают отличное введение в эти методы и на мой вкус более техничны.
🔥26👍91