LLaMA V2: OpenAI и Google, трепещите!
В феврале этого года мир увидел LLaMA (мы писали о ней вот тут). Еще тогда стало понятно, что это сильный конкурент чат-ботам: LLaMA-13B проявила себя лучше, чем GPT-3, в большинстве тестов. Но LLaMA была доступна только для исследователей: коммерческое использование не допускалось.
Но теперь это может измениться. Цукерберг и его команда планируют сделать новую версию LLaMA (еще более мощную, возможно близкую к GPT-4) доступной для коммерции и разрешить компаниям свободно ее использовать и получать прибыль.
Даже страшно подумать, какой это удар по Open(не Open)AI и Google. Опенсоурс победит?
😻 #news
В феврале этого года мир увидел LLaMA (мы писали о ней вот тут). Еще тогда стало понятно, что это сильный конкурент чат-ботам: LLaMA-13B проявила себя лучше, чем GPT-3, в большинстве тестов. Но LLaMA была доступна только для исследователей: коммерческое использование не допускалось.
Но теперь это может измениться. Цукерберг и его команда планируют сделать новую версию LLaMA (еще более мощную, возможно близкую к GPT-4) доступной для коммерции и разрешить компаниям свободно ее использовать и получать прибыль.
Даже страшно подумать, какой это удар по Open(не Open)AI и Google. Опенсоурс победит?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🤯9✍4❤1🙈1
Как устроены трансформеры для задач CV на примере ViT
— один из примеров статьи в канале DeepSchool
В нем 15 практикующих инженеров пишут уникальные посты:
- разбирают статьи
- дают советы по обучению нейросетей
- напоминают теорию ML/DL
- и пишут туториалы к сервисам и фреймворкам
Ребята ревьюят посты друг друга, чтобы добавить разные точки зрения, а редактор упрощает текст и убирает лишнее, чтобы вам было легче читать.
Еще больше примеров постов:
❶ Подкаст «Почему растет популярность 3D CV»
❷ Разбор решений Kaggle соревнования по детекции столкновений футболистов
❸ Обзор ключевых идей MobileNet — почему она столь эффективна
❹ Что такое kafka доступным языком и с примером для датасаенс
❺ Вопрос на подумать: как защититься от ленивых разметчиков на краудсорсинг-платформах
Подписывайтесь, чтобы не пропустить полезный совет и развиваться в Deep Learning!
— один из примеров статьи в канале DeepSchool
В нем 15 практикующих инженеров пишут уникальные посты:
- разбирают статьи
- дают советы по обучению нейросетей
- напоминают теорию ML/DL
- и пишут туториалы к сервисам и фреймворкам
Ребята ревьюят посты друг друга, чтобы добавить разные точки зрения, а редактор упрощает текст и убирает лишнее, чтобы вам было легче читать.
Еще больше примеров постов:
❶ Подкаст «Почему растет популярность 3D CV»
❷ Разбор решений Kaggle соревнования по детекции столкновений футболистов
❸ Обзор ключевых идей MobileNet — почему она столь эффективна
❹ Что такое kafka доступным языком и с примером для датасаенс
❺ Вопрос на подумать: как защититься от ленивых разметчиков на краудсорсинг-платформах
Подписывайтесь, чтобы не пропустить полезный совет и развиваться в Deep Learning!
👍14🙈3❤2🔥1🤯1
Разбор вчерашней задачи
Как вчера верно отметил один из комментаторов (верно решивший задачу): "тервер это одна из самых неочевидных областей математики))) поэтому проверять такие вещи нужно неинтуитивно, а по уже давно доказанным теоремам". Мы полностью согласны, поэтому разбираемся с определениями и решаем задачу математично.
😻 #math
Как вчера верно отметил один из комментаторов (верно решивший задачу): "тервер это одна из самых неочевидных областей математики))) поэтому проверять такие вещи нужно неинтуитивно, а по уже давно доказанным теоремам". Мы полностью согласны, поэтому разбираемся с определениями и решаем задачу математично.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🤯8👏3👌3❤1
Затухающий и взрывающийся градиент
Увеличение числа слоев нейронной сети с одной стороны увеличивает ее способности к обучению и расширяет ее возможности, но с другой стороны может порождать проблему затухающего и взрывающегося градиента. Что это такое и как это распознать – в карточках.
P.S. В следующих частях подробнее о том, как бороться с такой проблемой
😻 #train #NN
Увеличение числа слоев нейронной сети с одной стороны увеличивает ее способности к обучению и расширяет ее возможности, но с другой стороны может порождать проблему затухающего и взрывающегося градиента. Что это такое и как это распознать – в карточках.
P.S. В следующих частях подробнее о том, как бороться с такой проблемой
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍11🤯1
Доброе DSное! Пора ответить на главный вопрос: какая ты функция активации?
Anonymous Poll
8%
Линейная – слегка наивен и со мной никто не дружит(
18%
Сигмоида – я крутой и меня все любят
14%
Гиперболический тангент – как тот, кого все любят, только круче
8%
SoftMax – никто не обращает на меня внимания
16%
ReLU – полный ноль, но только наполовину
35%
Leaky ReLU – очень стараешься быть не нулем
🤯31🤓8🔥7🤔4
Обзор полного Workflow модели машинного обучения в бизнесе
В реальном мире внедрение любой ML-фичи происходит в три этапа: обработка данных, обучение моделей, деплой. Как это все работает смотрите на схеме, а подробнее про каждый этап – в карточках.
😻 #train
В реальном мире внедрение любой ML-фичи происходит в три этапа: обработка данных, обучение моделей, деплой. Как это все работает смотрите на схеме, а подробнее про каждый этап – в карточках.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26🔥14👍7🤯3
LLaMA 2 вышла!
Есть варианты: 7B, 13B, 34B и 70B. Вот чем она отличается от первой версии тезисно:
– Добавили Grouped-Query Attention
– Токенов стало больше в два раза(2Т)
– Контекст увеличили до 4К
– И самое интересное: есть Chat версии. Они дообучены на диалог, и там даже есть RLHF, прямо как в ChatGPT. По качеству бот сравнимм с ChatGPT-3.5, однако на многих задачах ведет себя даже лучше.
И кстати, веса все-таки тоже опубликуют! Для получения доступа, правда, надо просить его на HuggingFace.
📖 Статья 🖥 Github 🤗 Demo
😻 #news
Есть варианты: 7B, 13B, 34B и 70B. Вот чем она отличается от первой версии тезисно:
– Добавили Grouped-Query Attention
– Токенов стало больше в два раза(2Т)
– Контекст увеличили до 4К
– И самое интересное: есть Chat версии. Они дообучены на диалог, и там даже есть RLHF, прямо как в ChatGPT. По качеству бот сравнимм с ChatGPT-3.5, однако на многих задачах ведет себя даже лучше.
И кстати, веса все-таки тоже опубликуют! Для получения доступа, правда, надо просить его на HuggingFace.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤯7👍6🤓3❤2