Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Итоги 2023

Ну что, доели свои салатики? Пора строить планы на новый год и подводить итоги старого. Рассказываем, что важного произошло с индустрией ИИ в 2023, и как это повлияет на нас в будущем.

Пишите в комментариях, чем больше всего запомнился вам прошлый год – и чего ждете от наступившего!
👍315🔥4💋1
Годовой рост выручки OpenAI составляет 5700%

Издание The Information сообщает, что объем выручки компании за 2023 год перешагнул отметку в $1.6 млрд. В 2022 году при этом они заработали всего $28 млн.

Конечно, такой бурный рост вызывает внимание инвесторов. Однако, мы до сих пор не знаем, сколько компания тратит на работу ChatGPT.

Да, может и не зря Сэм в таких часах гоняет.
👍30🔥104🤯31😐1🆒1
Вот такая вот NY party, получается
👍60😁29🎄92🤔21
На клавиатурах для Windows появится новая клавиша для вызова ИИ

Видимо Microsoft действительно верит в то, что за ИИ будущее. В 2024 году они планируют оснащать клавиатуры ноутбуков и ПК новой клавишей Copilot. Она заменит правый Ctrl.

Кстати, в прошлый раз клавиатуры меняли аж 30 лет назад – тогда на них появилась клавиша Windows.
👍50🫡21🔥11🗿75
Microsoft побили SOTA эмбеддиг-моделей

Главный камень преткновения современных подходов – данные: собрать хороший датасет для «fetching tasks» очень сложно и дорого. Поэтому часто модели сначала обучают на неразмеченный general данных, а потом файнтюнят на датасетах поменьше. Производительность таких моделей неплохая, но для RAG-систем без дополнительных танцев с бубном они обычно слабоваты.

Но в Microsoft придумали простой и действенный способ обойти эти ограничения. Они решили попросить LLM саму составить датасет, то есть сгенерировать триплеты «задача - релевантный документ - нерелевантный документ», а после обучать эмбеддинги с помощью парного лосса.

Итог – новая SOTA. Этот простой и гениальный подход теперь в топе Huggingface Leaderboard, и может стать поворотной точкой для RAG.

Статья | Модель | Датасет
👍6012🔥10🤪3
OpenAI запускает GPTStore уже на следующей неделе

Об этом компания сообщила в письмах тем, кто уже создавал свои GPTs. Напоминаем, что GPTs – это кастомные ботики, в которых можно загрузить дополнительные знания и скилы и назначить им роль так, чтобы они служили вам или вашему бизнесу верой и правдой. А GPTStore – это место, где можно будет продать или купить такого кастомного GPTёнка.

Вот, к слову, инструкция по тому, как создать GPTs.
45👍13🔥4
Google Colab в это время: 🗿
Please open Telegram to view this post
VIEW IN TELEGRAM
59😁25👍9🔥4🍓2
Вот вам полезность: GitHub с огромным количеством туториалов по ML на Python. Присутствуют все топ-темы, от АБ-тестов до rl. Код хорошо закомментирован и объяснен. Вот примеры того, что можно найти в репозитории:

🟩Многорукие бандиты – Introduction
🟩Алгоритм токенизации Byte Pair Encoding (BPE) from scratch
🟩ALS-WR from scratch + из библиотек
🟩RNN в pyTorch, Keras и TensorFlow
🟩И еще тысячи ноутбуков с кодом

Осторожно – можно залипнуть на все выходные
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥81👍1912
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Google DeepMind выпустили сразу несколько исследований, которые помогут роботам быстрее и качественнее принимать решения:

Первая из новых технологий – SARA-RT – позволяет ускорять развертывание трансформерной модели (именно трансформеры лежат в основе SOTA-модели RT-2) на роботе без потери качества. Это происходит за счет нового метода обучения “up-training”.

Модель RT-Trajectory позволяет роботу стать более точным в движениях. Она как бы «дорисовывает» движения робота или траектории к обучающим видео из датасета, принимая на вход видео с человеческими движениями или даже картинки и схемы.

И, наконец, AutoRT. Эта разработка помогает создать систему, способную понимать намерения и цели человека и масштабировать ее на нескольких роботов. Тут как раз рулит LLM, которая описывает задачу, строит пошаговый пайплайн для робота и прогоняет его через пул правил безопасности. Все это с минимальный человеческим вмешательством.

2024 – год роботов?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥44👍12👾93🦄2🤯1
🧠 Цитата дня от Илона Маска
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76😐1614🔥10😁1
А как очнешься – будет уже поздно
😁164👍15🔥843
А вы знали, что Франция – одна из стран с самой выдающейся академической и бизнес-экосистемой ML? Вот несколько фактов, о которых вы, возможно, не знали:

– Главный офис HuggingFace расположен во Франции
– sklearn поддерживается французским университетом Inria
– Создатели Llama 2 и CodeLlama из Франции
– Там расположены крупнейшие исследовательские центры Google DeepMind, Meta, kyutai, MistralAI и других
– OVHcloud и Scaleway – это французские компании
– Крупнейший стартап-кампус Station F расположен в Париже
– PhotoRoom, Mithril Security, Giscard, ChainLid, Zama – все это французские стартапы
– Там множество сильных CS университетов, известных своими выпускниками

Ну что, собираем вещи и attends-moi France?
70👍26🔥12🤨3🍌2🍓2👻2👀2👌1
Media is too big
VIEW IN TELEGRAM
У NVIDIA снова новые видеокарты

Компания анонсировала обновление серии RTX 40 – теперь у них будет приставка Super: GeForce RTX 4070 Super, RTX 4070 Ti Super и RTX 4080 Super. Улучшена производительность для игр и генеративного ИИ. Круче всего – RTX 4080 Super – эта видюха оснащена 10240 CUDA-ядер с 16 ГБ памяти. Она поступит в продажу 31 января и будет стоит $999.

Видимо, серия для тех, кто все-таки жалеет 1.6к бачей на RTX 4090, но хочет простого человеческого GPU
👍33🔥7🤯32
😻 Mixtral продолжает набирать популярность: сегодня HuggingChat установили эту модель в качестве дефолтной. До этого использовалась Llama2 (в настройках все еще можно сменить модель на ламу или любую другую из доступных). Кроме того, Mixtral уже доступна даже в Perplexity.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥13👨‍💻31
А вы когда-нибудь задумывались, как оценить качество LLM? Тут уже всякие MAE и Accuracy не подойдут – нужно что-то похитрее. Рассказываем о самых важных метриках, которые используются для оценки таких моделей.
👍45🔥106