Forwarded from Мишин Лернинг
📣🤗 T0 — Быстрее, умнее и легче GPT-3 в 16 раз + собрал Colab | Zero-Shot NLP
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал для вас colab (3B, 100ms) для решения многих nlp задач. T0 и GPT-3 — NLP нейросети, которые не нужно дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А - сын дяди Б. Каковы семейные отношения между А и Б?”:
“B is A's cousin.”
📰 Paper 🤗 demo 🔮 T0 Colab от @mishin_learning
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал для вас colab (3B, 100ms) для решения многих nlp задач. T0 и GPT-3 — NLP нейросети, которые не нужно дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А - сын дяди Б. Каковы семейные отношения между А и Б?”:
“B is A's cousin.”
📰 Paper 🤗 demo 🔮 T0 Colab от @mishin_learning
Тем временем я в очередной раз тюню основную нейронку из алгоритма face2comics.
Слева (сверху) результат старой версии с апскейлерами и энхансерами. Справа (внизу) - без них, но уже с новой версией. Выигрыш во времени - х10 раз! Не говоря уже про затраты VRAM. Да, на совсем ушатанных картинках все равно придется юзать апскейлеры, но это малая часть. А главное, решена основная боль старой модели - мутные красные цвета и боязнь тумана :) Ну и, в целом, стало четче и контрастнее.
В бота @face2comicsbot планирую добавить уже в следующем месяце. Запасаемся терпением :)
Слева (сверху) результат старой версии с апскейлерами и энхансерами. Справа (внизу) - без них, но уже с новой версией. Выигрыш во времени - х10 раз! Не говоря уже про затраты VRAM. Да, на совсем ушатанных картинках все равно придется юзать апскейлеры, но это малая часть. А главное, решена основная боль старой модели - мутные красные цвета и боязнь тумана :) Ну и, в целом, стало четче и контрастнее.
В бота @face2comicsbot планирую добавить уже в следующем месяце. Запасаемся терпением :)
Точность vs кол-во параметров
Недавно paperswithcode.com добавили кол-во параметров в свои графики, и один реддитор запилил мета-анализ - отношение top 1 accuracy на imagenet к кол-ву параметров. Модели из одного года объединены одной линией.
Любопытный (но ожидаемый) тренд: более новые модели показывают лучший результат с тем же количеством параметров. Все-таки, емкость - не единственный критерий успеха.
Недавно paperswithcode.com добавили кол-во параметров в свои графики, и один реддитор запилил мета-анализ - отношение top 1 accuracy на imagenet к кол-ву параметров. Модели из одного года объединены одной линией.
Любопытный (но ожидаемый) тренд: более новые модели показывают лучший результат с тем же количеством параметров. Все-таки, емкость - не единственный критерий успеха.
👍1
Forwarded from addmeto (Grigory Bakunov)
Огромный массив данных, индекс из слов и фраз, встречающихся в научных и исследовательских публикациях на английском языке выложен в свободный доступ. В таблице n-грамм 355 миллиардов записей, всего проиндексировано более ста миллионов статей. Я не знаю где они взяли документы для индексации (вероятнее всего это Sci-Hub, да продлится онлайн его вечно), но это очень большое дело. С таким индексом можно не только банально аналитикой заниматься, но и пытаться строить штуки похожие на GPT-3 с разной степенью полезности. Представьте, систему которая за вас дописывает научные статьи. Или доливает воды по вкусу 🙂 https://archive.org/details/GeneralIndex
Internet Archive
The General Index : Public Resource : Free Download, Borrow, and Streaming : Internet Archive
Welcome to the General Index The General Index consists of 3 tables derived from 107,233,728 journal articles. A table of n-grams, ranging from unigrams to...
Forwarded from Технологии | Нейросети | NanoBanana
В середине октября «Яндекс» в сотрудничестве с изданием N+1 запустили онлайн-журнал «Техно». Каждый выпуск журнала будет посвящен одной из технологий «Яндекса». Первый номер о языковых моделях с интерактивными дополнениями и тестами уже доступен всем желающим.
«Яндекс» в первом выпуске онлайн-журнала «Техно» открыл всем желающим доступ к общению с ИИ, генеративная модель которого обучена выдавать тексты «в стиле Хабра». Разработанная командой «Яндекса» «болтливая» языковая модель из семейства YaLM (Yet another Language Model), вдохновленная GPT-3 от компании Open AI, очень любит говорить про нейросети или может рассказать, как переустановить винду.
• Новость на Habr
• Онлайн-Журнал Техно
• Попробовать/пообщаться
«Яндекс» в первом выпуске онлайн-журнала «Техно» открыл всем желающим доступ к общению с ИИ, генеративная модель которого обучена выдавать тексты «в стиле Хабра». Разработанная командой «Яндекса» «болтливая» языковая модель из семейства YaLM (Yet another Language Model), вдохновленная GPT-3 от компании Open AI, очень любит говорить про нейросети или может рассказать, как переустановить винду.
• Новость на Habr
• Онлайн-Журнал Техно
• Попробовать/пообщаться