NEW BOT Телеграм, страница

Forwarded from Tony

😁56

8.85K views12:23

Сегодня опенсорснули Mistral Large 123B

Поддерживаются десятки языков, включая английский, французский, немецкий, испанский, итальянский, китайский, японский, корейский, португальский, голландский и польский.

LLMка обучена более чем 80 языках программирования, таких как Python, Java, C, C++, Javacsript и Bash. Также есть возможности вызова функций и вывода JSON.

Лицензия Mistral Research: разрешает использование и модификацию в исследовательских и некоммерческих целях.

Контекст: 128 тысяч токенов. Новый стандарт, короче.

🇫🇷 https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

huggingface.co

mistralai/Mistral-Large-Instruct-2407 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤27👍18👎2🦄2

9.85K views19:27

Мишин Лернинг

🏆 LLaMa 3.1 — 405B модель от Меты заняла 3е на арене

Это невероятный успех для опенсорса!

1 место — GPT-4o & GPT-4o-mini
2 место — Claude 3.5 Sonnet
3 место — Gemini-Advanced & LLaMa 3.1

❤34🔥13😁3👍2🏆2

49.7K viewsedited 15:56

Мишин Лернинг

📋 GPT-4o System Card

OpenAI выложили отчет, который описывает работу по обеспечению безопасности, выполненную перед выпуском GPT-4o, включая внешнюю проверку (red teaming), оценку рисков, а также обзор встроенных мер по снижению рисков в ключевых областях применения.

https://openai.com/index/gpt-4o-system-card/

50❤14🔥5🥴3👍1😁1

8.13K views22:05

Мишин Лернинг

Forwarded from addmeto (Grigory Bakunov)

Удивительное дело, оказывается у Anthropic выложены в свободный доступ системные промпты от их Claude. Никаких тайных знаний, но оказалось что они довольно обьемные, посмотреть можно тут, я прям минут 20 читал и вчитывался.

подглядел у @cgevent, он нашел первым

Claude Docs

System Prompts

See updates to the core system prompts on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

❤27👍7

6.97K views14:28

Мишин Лернинг

⛓🧠 OpenAI модели с Chain-of-Thought из "коробки" и это прям топ

Есть такая концепция "быстрого и медленного мышления".
Например, когда тебя спрашивают:
— Сколько будет 7 на 8 ?
— Сколько нужно слоев в нейросети для аппроксимация функции с заданной точностью?
— Кто написал "Евгения Онегина"?

При быстром мышлении мы отвечаем сразу, "не думая":
— 56; 2 слоя; Чайковский
При медленном мы задаем себе промежуточный вопросы:
— Умножить или поделить? Прям любой функции? Оперу или роман?

Короче, Chain-of-Thought там очень серьезный, и качество стало значительно выше.

👉 Так что приглашаю всех на блог OpenAI

❤45👍11🔥3🥰1

7.12K viewsedited 20:13

Мишин Лернинг

😁116🤔7👎2🥴1

7.22K views18:13

Мишин Лернинг

👾 GPT o1-preview заняла первое место на лидерборде https://lmarena.ai/

Ожидаемо. В той или иной форме, медленное мышление (chain-of-thought) уже было следующим шагом. Так что, скорее всего, новым стандартом станет: preTrain, с последующим SFT + DPO\RLFH + Chain-of-Thought. Скорее всего 2025 станет годом подобных open-source релизов.

Из интересного стоит добавить, что OpenAI обновила и GPT-4o (2024-09-03), которая получила 1335 эло-скора (против предшественницы 2024-08-08 с 1316).

Кстати, ребята добавили Jailbreak models at RedTeam Arena, где можно тестить (через дикий объюз) и сравнивать (борда) безопасность/опасность языковых моделей.

👍18❤4🔥3🦄1

6.51K views23:02

Мишин Лернинг

https://youtu.be/Do6iiSa4hmc?si=4IpOeAa8ijroPf2j

Имхо не зря человечество тренит сети

YouTube

Blurred Rails

Follow:
Instagram https://www.instagram.com/doopiidoo
X https://twitter.com/doopiidoop

Created with @Luma × Midjourney × Suno

☕ buymeacoffee.com/doopiidoo

🔥18👀5👎4👍3

4.6K views13:16

Мишин Лернинг

🔥 NVIDIA выпустила Llama-3.1-Nemotron-51B

Llama-3.1-Nemotron-51B модель нового поколения, которая выводит на новый уровень соотношение точность/эффективность.

Сеть создана с использованием Neural Architecture Search (NAS) и дистилляции от Llama-3.1-70B, эта модель предлагает 2.2x ускорение инференса без значительных потерь в точности.

Подробнее:

📊 Производительность:

▫️Пропускная способность: 6472 токенов/сек, что более чем в два раза быстрее исходной Llama-3.1-70B.

▫️И главное, модель поддерживает выполнение задач на одной NVIDIA H100 GPU, что значительно снижает стоимость и упрощает инференс.

⚙️ Основные инновации:

▫️Архитектура оптимизирована с помощью NAS, что снижает нагрузку на память и вычислительные ресурсы.

▫️Плюс заюзали механизм Block-distillation, позволяющий уменьшить количество блоков без значительных потерь в точности.

📇 Blog NVIDIA
🤗 Веса
💻 Потестить бесплатно можно тут

❤31🔥11👍1🤔1

6.28K views14:11

Мишин Лернинг

🦙 Релиз Llama 3.2 от Meta

На этот раз нам предоставили выбор аж из четырех моделей, включая, в том числе, и достаточно легковесные и мультимодальные версии:

▫️Llama 3.2 — 1B (1.23B) Lightweight
▫️Llama 3.2 — 3B (3.21B) Lightweight
▫️Llama 3.2 — 11B Multimodal
▫️Llama 3.2 — 90B Multimodal

Обзор: Llama 3.2 была предварительно обучена на 9 триллионах токенов данных из общедоступных источников.

Претрейн моделей 1B и 3B Llama 3.2 являются дистилом из Llama 3.1 8B и 70B (предиктили не следующий токен, а логиты из старших моделей)

В инстракт трейне использовали аналогичный рецепт, что и Llama 3.1:
— Supervised Fine-Tuning (SFT)
— Rejection Sampling (RS)
— Direct Preference Optimization (DPO)

Сutoff: Декабрь 2023

P.S.: Круто, что подвезли мультимодальные 11B и 90B. А среди легковесных — 3B модель вышла очень интересной, и по моему тесту она даже лучше, чем Phi-3.5-mini (3.8B), которая очень неплохо справляется в своей весовой категории.

🤗 Скачать 1B и 3B легковесные версии можно уже сейчас на HuggingFace

👍16❤9🔥4

7.86K viewsedited 12:36

Мишин Лернинг

🍎 Всех с Новым Годом, Шана Това!

❤74🎄11😁10🕊3🗿3🌚2🦄2

7.66K views17:47

Мишин Лернинг

🎓 Хинтон и Хопфилд получили Нобелевскую премию по физике за создание искусственных нейронных сетей

Нобелевскую премию по физике 2024 года Джону Дж. Хопфилду и Джеффри Э. Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».

❤53🤯37🔥12👍5🥴3🍌3😁2🤩1

61.8K views10:52

Мишин Лернинг

🎓 Уже вторая Нобелевская премия за AI — на этот раз по химии. Половина премии за предсказание структуры белков» нейросетью Alpha Fold (от DeepMind)

Нобелевскую премию по химии 2024 года: одну половину — Дэвиду Бейкеру «за вычислительный дизайн белков», а другую половину — совместно Демису Хассабису и Джону М. Джамперу «за предсказание структуры белков».

❤51👍10🤯3🔥2🏆1

31.9K views11:05

Мишин Лернинг

🔥 Сегодня Mistral AI представила новые модели — Ministral 3B и Ministral 8B

Ministral 3B и Ministral 8B, разработанные для on-device вычислений. Эти модели предлагают превосходную производительность в задачах reasoning, commonsense и function-calling, поддерживая контекст до 128k токенов.

⚙️ Ministral 3B разработана для сверхэффективного использования на устройствах с ограниченными ресурсами (e.g.: смартфоны). Ministral 8B предлагает больше возможностей для сложных задач. Обе модели поддерживают до 128k контекста и используют передовые методы pruning и quantization для снижения нагрузки на железо.

Бенчмарки показывают неплохой буст в сравнение с существующими Llama 3.1 / 3.2 и Gemma 2 моделями.

🤖 Ministral 8B: ссылка на модель

👍33❤6🔥2🏆1👾1

8.07K views16:47

About

Blog

Apps

Platform