Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Новый робот от Boston Dynamics конечно очень крут, но ощущение, как будто находишься в хорроре Звонок.

Сами создатели шутят: «зато вы точно знаете, что внутри нет человека и это не обман».

А еще оцените схожесть со SkyNet. Хорошая попытка приближения конца света, BD
39🔥13😁12👍6👏3🌭2🏆1🗿1
Breaking! Llama-3 уже здесь и рвет лидерборды!

Две модели - на 8B и 70В – уже ворвались, одна – на 400B – еще тренируется. Обе вышедшие модельки стали лучшими в своем весе.

Единственное, чем модели не могут похвастаться – контекст. У обеих он составляет всего 8k.

Приятным бонусом идет интервью с Цукербергом о Llama-3, вышедшее пару минут назад.

Блогпост | Попробовать новую ламу
👍34🔥117🥰1🏆1
⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁964🔥31👍1🏆1
Data Secrets
График наверху – это динамика частоты употребления слова «delve» (вникать) в статьях по медицине. Видите этот скачок в 2023? Вы скажете: ну и что? А то, что delve – это по каким-то причинам любимое слово ChatGPT. Бот использует его очень часто, и это стало…
Помните, пару недель назад мы показывали вам график резкого роста медицинских статей, в котором используется слово delve (вникать), любимое слово ChatGPT?

Так вот, это слово уже давно принято считать признаком, что текст сгенерирован. Но люди до сих пор недоумевают, почему именно delve? Что за тайна такая вокруг этого слова?

Кажется, мы разгадали, в чем тут дело.

Да, в США слово delve употребляется редко, но вот в Нигерии очень распространено: его, например, часто произносят учителя в начальной школе.

А в GPT есть RLHF, где качество ответов модели развернуто оценивается людьми. Над RLHF часто работают люди, чей труд дешевле, чем у среднего жителя США.

Понимаете, куда мы клоним? Для RLHF нанимают людей из Нигерии, для которых слово delve - классика, они описывают ответы модели, используя это слово («вникай глубже»), а затем их отзывы подгружаются обратно модель для дообучения. Вот она и запоминает это слово как «хорошее».

С вами была программа «Следствие вели» с DataSecrets
👍174😁648🤯8🔥7🥰52
Кстати, вот вам лучшая иллюстрация RLHF 👹
Please open Telegram to view this post
VIEW IN TELEGRAM
😨46🤪12👍9😁65
Тем временем Mistral активно ищет инвестиции

В декабре стартап уже привлек $415 млн. Тогда они оценивались в $2 млрд. Сейчас оценка компании – $5 млрд. К тому же, недавно Mistral стал получать доход.

Короче, несложная математика и здравый смысл подсказывает, что компания может привлечь сотни миллионов долларов. Среди инвесторов: Andreessen Horowitz, Microsoft (OpenAI ревнует, да) и др.
👍29🔥117👏1😁1
На днях вышла новая книга по Computer Vision от трех крутых авторов: Antonio Torralba, Bill Freeman и Phillip Isola

Авторы работали над книгой почти 10 лет. В ней собрано вообще все, от линейных фильтров и оптики до современных диффузионнок. Скорее всего, чтиво скоро будет признано сообществом как мастрид.

Самая приятная вещь в книге - авторские иллюстрации. Ну и вообще, на выходные самое то.
👍66🤯138🔥7
Опенсорс вперед ❤️
👍4722🥰11❤‍🔥7🔥4🌚1
Миниатюра: я пытаюсь файнтюнить новую Llama-3 на своем линово 2001 года
😁13211👍7🔥5🤯3
Визуализация эмбеддингов от TensorFlow

Пространство эмбеддингов с огромной размерностью представить себе очень сложно. Поэтому иногда, чтобы лучше понять задачу и/или наглядно оценить качество векторов, полезно посмотреть на эмбеддинги меньшей размерности. Крутейший залипательный инструмент для этого – Embedding Projector.

Что делаем: загружаем свои эмбеддинги/выбираем предобученные -> выбираем алгоритм сокращения размерности -> любуемся. На картинке сверху, например, можно увидеть кластер чисел снизу слева. Это означает, что эмбеддинги неплохо отражают семантическую близость слов.

Красивое...
46👍19🔥8
В Х парень поделился историей о том, как Claude-3 его загипнотизировал.

Эксперимент проводился ради шутки, но, неожиданно, автор якобы действительно захотел спать и отключился на час. В реплаях люди массово пишут, что больше ни за что не будут пользоваться LLM.

Получается, будильники в понедельник в 7 утра тоже нас гипнотизируют?
🤯35😁206👍4🗿1
Ждем GPT-5 завтра?
😁86🔥13👍7🗿3😐2
Если сегодня Claude-3 может кого-то загипнотизировать, то через несколько лет ИИ станет в разы умнее гениев человечества?

В последнее время в сети часто мелькает график с картинки. Мнение сообщества снова разделилось.

Одни говорят: «как мы можем выйти за пределы человеческого разума, если тренируем модели только на данных от зеленой до оранжевой линии? Это невозможно».

Другие же отмечают, что LLM уже несколько раз показывали свою способность находить в обучающих данных паттерны, которых человек не видит, и делать на их основе продвинутые выводы. Эта способность и даст ИИ взлететь по экспоненте.

Что думаете?
❤️ - будет так, как на графике
🗿 - да не, не будет
🗿156119🤔24🌚3👍1🔥1
Обычный человек vs Data Scientist

Профдеформация вещь опасная, поэтому мы решили напомнить вам оригинальные значения DS-терминов.

Не забудь отправить друзьям, чтобы лучше тебя понимали.
👍65😁38🔥155💅4🤗1