Neural Networks | Нейронные сети – Telegram
Neural Networks | Нейронные сети
11.6K subscribers
822 photos
189 videos
170 files
9.46K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
🚀 Mistral Vibe: Ваш CLI помощник для генерации кода

Mistral Vibe — это мощный помощник, который использует модели Mistral для взаимодействия с вашим кодом на естественном языке. Он предлагает удобный интерфейс для поиска, изменения и управления проектами, делая разработку более интуитивной.

🚀 Основные моменты:
- Интерактивный чат для выполнения запросов и задач.
- Набор инструментов для работы с файлами и командной строкой.
- Автоматическое сканирование структуры проекта для лучшего понимания контекста.
- Высокая настраиваемость через конфигурационные файлы.
- Поддержка UNIX-систем с возможностью работы на Windows.

📌 GitHub: https://github.com/mistralai/mistral-vibe
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Эксперимент с крысами и Doom вышел на новый уровень

Теперь крысы умеют стрелять по врагам в Doom.

Для эксперимента используется изогнутый AMOLED-дисплей, который создаёт для животного погружённую «игровую» среду. Проект разрабатывает open-source команда нейроинженеров.

Это уже не просто демонстрация реакции на стимулы, а полноценное обучение взаимодействию с виртуальным миром — с восприятием, принятием решений и действием.

Грань между нейронаукой, ИИ и игровыми средами становится всё тоньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Nanbeige4-3B от Boss Zhipin - LLM с 3 млрд параметров, которая превосходит Qwen3-32B в математике (AIME), науке (GPQA) и tool calling (BFCL-V4), а на бенчмарках с человеческими предпочтениями (Arena-Hard-V2) сопоставима с Qwen3-30B-A3B.

Как это удалось?

- 23 трлн токенов ультра-курированных данных
- более 30 млн высококачественных SFT-инструкций
- многостадийный RL + инновационная дистилляция (DPD)
- реконструкция chain-of-thought и deliberative generation

Модель также входит в топ-15 на WritingBench и EQ-Bench3, обгоняя модели в 100 раз больше по размеру — включая GLM-4.5 и Deepseek-R1.

🔗 Weights: https://modelscope.cn/organization/nanbeige
📄 Paper: https://arxiv.org/pdf/2512.06266
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интересная утечка - Google работает над TorchTPU, секретным проектом, который позволит PyTorch работать нативно на TPU от Google, обходя легендарную привязку NVIDIA к CUDA.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Дарио Амодеи как-то сказал, что суперинтеллект будет выглядеть как город дата-центров.

Новый дата-центр Amazon подходит к этому описанию пугающе близко.
Forwarded from Machinelearning
⚡️ Nvidia забирает команду основателей Groq и лицензирует архитектуру LPU

Производитель чипов Groq объявил о сделке с Nvidia, которая больше напоминает «покупку кадров», чем обычное партнерство.

Стороны опровергли слухи о полном поглощении стартапа за $20 млрд: вместо этого подписан договор о неэксклюзивном лицензировании технологий инференса.

Ключевой момент сделки — трансфер мозгов.

Основатель и CEO Groq Джонатан Росс, президент Санни Мадра и ведущие инженеры переходят на работу в Nvidia. Им предстоит интегрировать свои наработки в экосистему «зеленой команды».

Groq при этом продолжит существовать как независимая компания под руководством бывшего финдиректора Саймона Эдвардса, а платформа GroqCloud будет работать в штатном режиме.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В Шэньчжэне появился полноценный “дрон-аэропорт” для доставки еды 🚁🍜

Компания Meituan (китайский аналог DoorDash) запустила в Шэньчжэне полноценный аэропорт для дронов отсюда начинаются все рейсы доставки.

Дроны поднимаются в воздух, летят по маршруту и
доставляют еду жителям напрямую с неба, быстро и без пробок.

- доставка занимает меньше времени, чем курьер на дороге
- меньше трафика и выбросов
- можно покрывать районы, куда сложно доехать

Китай фактически превращает дроны
из эксперимента в обычную городскую инфраструктуру.

Будущее логистики всё ближе и оно летает. 🚁
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Илон Маск: стоит ли детям идти в университет в эпоху ИИ

> Если вы хотите поступить по социальным причинам - быть среди ровесников в учебной среде - это вполне разумно.
> Но будут ли эти навыки нужны в будущем? Скорее всего, нет.
> Мы движемся к обществу без работы. ИИ и робототехника -нас ждет самое радикальное изменение в истории.
> Если что-то действительно то что вам интересно. Изучайте широкий спектр курсов. Но идти в колледж не обязательно.

Маск говорит, что даже его собственные сыновья понимают: их навыки могут стать ненужными, но они всё равно хотят пройти через сам опыт обучения и студенческой жизни.
🔥 AI-исследователи сегодня стоят слишком дорого.

По данным СМИ, OpenAI осенью 2025 года зарезервировала пул акций на 50 млрд долларов для будущих опционов и RSU.
Это примерно 10% компании при оценке около 500 млрд долларов.

Уже выдано акций примерно на 80 млрд.
Вместе с новым пулом это около 26% всей компании.

Вывод простой: рынок ИИ полностью перестраивает компенсации и фонды под сотрудников. Компании борются не за сервера, а за людей, которые умеют тренировать модели мирового уровня.

Подробнее: reuters.com/technology/openai-reserves-50-billion-stock-grant-pool-information-reports-2026-01-08/
Forwarded from Machinelearning
⚡️ DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:

🟡Engram — модуль, который возвращает нас к дедам с N-грамами.

DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):

🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).

🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.

🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.

🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".

🟡Баланс распределения ресурсов.

Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:

🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.

🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.

🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.

🟡Тесты и результаты.

DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:

Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.

На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.

Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.


🟡Архитектурный нюанс.

Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.

Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.

🟡DeepSeek фактически легализовала подобие шпаргалок для LLM.

Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.

Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.


🟡Техотчет
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.

https://www.wsj.com/tech/ai/the-row-over-south-koreas-push-for-a-native-ai-model-chinese-code-4c047a6f

@neural
🚨 Andrea Vallone, которая руководила ключевым safety-направлением в OpenAI, ушла в Anthropic.

Её зона ответственности была одной из самых “тонких” в области безопасности ИИ: она определяла, как модель должна отвечать, когда у пользователя появляется эмоциональная зависимость от ИИ или заметны первые признаки психологического дистресса.

За 3 года в OpenAI Vallone также создала и выстроила команду model policy - это исследования и правила поведения моделей: где границы допустимого, как предотвращать вред и как правильно реагировать в рискованных ситуациях.

Теперь этот опыт уходит к Anthropic - компании, которая делает ставку на alignment и безопасность как на основу продукта.

theverge.com/ai-artificial-intelligence/862402/openai-safety-lead-model-policy-departs-for-anthropic-alignment-andrea-vallone
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны

Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.

В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:

- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)

DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии

И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.

А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями

Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.

microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
🤖 ИИ превращает учёных в “конвейеры по выпуску статей”

Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.

Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:

📈 публикуют в 3 раза больше статей
получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует

То есть AI - это прямой буст:
скорость, видимость, карьера.

Но есть обратная сторона.

Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)

Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”

ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?

spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739