Machinelearning – Telegram
383K subscribers
4.44K photos
853 videos
17 files
4.88K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Distill-Any-Depth: метод оценки глубины сцены по одному изображению.

Distill-Any-Depth - метод обучения моделей монокулярной оценки глубины, который сочетает кросс-контекстную дистилляцию и мульти-учительский подход для точного определения расстояния до объектов на RGB-изображении. Он предназначен для обучения моделей (например, DPT, MiDaS или DepthAnythingv2), которые учатся на псевдо-метках, сгенерированных учительскими моделями (Genpercept, DepthAnythingv2).

Метод не просто улучшает существующие алгоритмы, но и задает новый стандарт в области определения глубины. Методика может применяться в сфере автономного транспорта и AR-решений. Она может ускорить создание точных 3D-карт для навигации и улучшить реалистичность виртуальных миров за счет детализированного анализа пространства. При этом, обучение CV-моделей с Distill-Any-Depth довольно энергоэффективно — достаточно одной NVIDIA V100.

Основа Distill-Any-Depth - кросс-контекстная дистилляция, объединяющая 2 сценария:

🟠Shared-Context Distillation — модель-учитель и модель-ученик обучаются на одинаковых фрагментах изображения.

🟠Local-Global Distillation — модель-учитель анализирует локальные фрагменты, а модель-ученик предсказывает глубину для всего изображения, отвечая за глобальную согласованность сцены.

Экспериментальная модель обучалась на 50 тыс. изображений из SA-1B с разрешением 560×560. Использовались псевдо-метки от Genpercept (диффузионная модель) и DepthAnythingv2 (DINOv2). В рамках мульти-учительского подхода на каждой итерации случайно выбирался один учитель.

На тестах DIODE и ETH3D метод сократил значение AbsRel на 9.6–20% по сравнению с базовой дистилляцией. Например, при обучении модели-ученика DPT с учителями Genpercept и DepthAnythingv2 AbsRel на ETH3D составил 0.065 против 0.096 у Genpercept.

На бенчмарках NYUv2, KITTI, ScanNet модель достигла SOTA: AbsRel 0.043 (NYUv2), 0.070 (KITTI), 0.042 (ScanNet). В сравнении с DepthAnything v2 (AbsRel: 0.045 на NYUv2) и Marigold (0.055) Distill-Any-Depth показал более высокую детализацию и точность относительной глубины.

▶️В открытом доступе 3 модели, обученные с Distill-Any-Depth:

🟢Distill-Any-Depth-Multi-Teacher-Small - 24.8М параметров

🟢Distill-Any-Depth-Multi-Teacher-Base - 95.5М параметров

🟢Distill-Any-Depth-Multi-Teacher-Large - 335.3М параметров


▶️Локальная установка и инференс в Gradio:

# Create Conda env 
conda create -n distill-any-depth -y python=3.10
conda activate distill-any-depth

# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/

# Install dependencies
pip install -r requirements.txt
pip install -e .

# If use hf_hub_download, you can use the following code
checkpoint_path = hf_hub_download(repo_id=f"xingyang1/Distill-Any-Depth", filename=f"large/model.safetensors", repo_type="model")

# Launch Gradio demo
python app.py


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Depth #DIstillAnyDepth
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2119🥰2
✔️ В сеть утекли спецификации RTX 5060 Ti и 5050.

NVIDIA RTX 5060 Ti будет использовать чип GB206-300, иметь 4608 ядер CUDA, две конфигурации GDDR7 объемом 8 ГБ и 16 ГБ, использовать 128 бит и энергопотребление в 180 Вт.

RTX 5050 построена на чипе GB207-300 с 2560 ядрами CUDA, 8 ГБ видеопамяти GDDR6, 128-битную разрядность и энергопотреблением 130 Вт. Обе видеокарты используют конструкцию печатной платы PG152.

По слухам, RTX 5060 Ti и RTX 5050 выйдут в апреле-мае, а RTX 5050 должна составить конкуренцию Intel Battlemage Arc B580.
videocardz.com

✔️ Квантовый интернет стал немного ближе к реальности.

Ученые при момощи ИИ обнаружили более простой способ формирования квантовой запутанности между субатомными частицами. Это открытие потенциально облегчит разработку квантовых коммуникационных технологий.
Исследование, опубликованное в Physical Review Letters, описывает, как разработанный ИИ-инструмент PyTheus предложил принципиально новый метод, основанный на неразличимости путей фотонов.

Это открытие упрощает процесс формирования квантовой запутанности, что в перспективе может сделать квантовые сети для безопасной передачи сообщений более осуществимыми. Хотя практическое масштабирование технологии еще предстоит оценить, исследование убедительно демонстрирует потенциал AI как инструмента для научных открытий в физике.
space.com

✔️ Similarweb: ChatGPT посещают почти 4 миллиарда человек в месяц, но рост замедляется.

Февраль 2025 года стал для ChatGPT рекордным по числу посетителей – 3,905 миллиарда, но несмотря на это, месячный прирост составил скромные 1,44%, что указывает на существенное замедление динамики.

В годовом исчислении рост остается впечатляющим - 137% по сравнению с февралем 2024 года. Эти показатели позволили ChatGPT занять 5 место среди самых посещаемых десктопных веб-сайтов в мире и 7 место с учетом мобильного трафика. Даже с таким внушительным количество пользователей, ChatGPT пока не может сравниться по объемам трафика с Google.
Similarweb в X (Twitter)

✔️ Китайские университеты расширяют прием студентов по ИИ направлениям.

Несколько ведущих университетов Китая заявили о планах по увеличению набора студентов. Данная инициатива направлена на приоритетное развитие кадров в сферах, имеющих "национальное стратегическое значение", одна из них - искусственный интеллект.

Решение последовало за запуском университетских курсов по ИИ, основанных на разработках стартапа DeepSeek, чьи успехи сравнивают со "спутником" в технологическом прорыве. Peking University добавит 150 мест в 2025 году, Renmin University - более 100, Shanghai Jiao Tong University также увеличит прием на 150 мест в специализациях по ИИ и новых технологиях. Эти меры тесно связаны со стремлением КНР стать "мощной образовательной державой".
reuters.com

✔️ Sony Music ведет масштабную борьбу с дипфейками.

Компания Sony Music отчиталась о удалении более 75 тысяч сгенерированных искусственным интеллектом материалов, в основном это подделки записей известных исполнителей. Этот объем выявленных фейков, по мнению музыкальных руководителей, является лишь вершиной айсберга.

Sony опасается, что планируемое ослабление законодательства об авторском праве в Великобритании усугубит проблему и нанесет прямой коммерческий ущерб артистам. В своем обращении к правительству Великобритании компания подчеркнула, что существующая система лицензирования интеллектуальной собственности для обучения ИИ является предпочтительной и ведет с рядом компаний переговоры.
ft.com

✔️ У китайцев вышел новый DeepSeek — супернейросеть Kimi k1.5, которая теперь доступна для всех (если у вас есть аккаунт Google).
• По бенчмаркам AIME и MATH 500 она с лёгкостью обходит OpenAI o1, предлагая сразу возможности поиска и «глубокого размышления».
•Можно загрузить до 50 файлов, а контекстное окно на 200 тысяч токенов способно обработать огромный объём данных, выдавая подробный ответ или краткий вывод.
kimi.ai

✔️ANUS (Autonomous Networked Utility System) — опенсорсную версию популярного Manus, который клонировал самого себя

GItHub

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🤣23🔥117
🌟 EuroBERT: энкодеры нового поколения.

Исследовательская группа под патронажем Centrale Supélec (Университет Париж-Сакле) выпустила в открытый доступ EuroBERT — семейство мультиязычных энкодеров, обученных на 5 трлн. токенов из 15 языков, включая русский.

EuroBERT сочетает инновационную архитектуру с поддержкой контекста до 8192 токенов, что делает это семейство идеальным для анализа документов, поиска информации, классификации, регрессии последовательности, оценки качества, оценки резюме и задач, связанных с программированием, решением математических задачи.

В отличие от предшественников (XLM-RoBERTa и mGTE), EuroBERT объединил GQA, RoPE и среднеквадратичную нормализацию, чтобы достичь беспрецедентной эффективности производительности даже в сложных задачах. Второе немаловажное преимущество EuroBERT - в обучение помимо текстовых данных были включены примеры кода и решения математических задач.

Самая младшая модель EuroBERT с 210 млн. параметров показала рекордные результаты: в тесте MIRACL по многоязычному поиску её точность достигла 95%, а в классификации отзывов (AmazonReviews) — 64,5%. Особенно выделяется умение работать с кодом и математикой — в бенчмарках CodeSearchNet и MathShepherd EuroBERT опережает аналоги на 10–15%.

▶️Состав релиза:

🟢EuroBERT-210М
🟢EuroBERT-610М
🟢EuroBERT-2.1В

⚠️ EuroBERT можно использовать непосредственно с transformers, начиная с версии 4.48.0

⚠️ Для достижения максимальной эффективности, разработчики рекомендуют запускать EuroBERT с Flash Attention 2

▶️ Пример инференса:

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_id = "EuroBERT/EuroBERT-210m"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)

text = "The capital of France is <|mask|>."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token: Paris


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Коллекция на HF
🟡Arxiv
🖥GitHub (Скоро)


@ai_machinelearning_big_data

#AI #ML #Encoder #EuroBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥2618🥰2🤓2😁1
✔️ OpenAI презентовала новые инструменты для разработчиков.

OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя.

Опубликованы и тарифы: Computer Use несколько дороже обычной GPT-4o, а поиск по файлам тарифицируется за запросы ( 2.5 долл. за 1000) и объем загруженных данных
(10 центов за гигабайт)
OpenAI на Youtube

✔️ TypeScript 7.0 будет в 10 раз быстрее.

Microsoft анонсировала радикальное улучшение производительности TypeScript за счет новой нативной реализации компилятора, написанной на Go. Он сократит время сборки проектов, ускорит загрузку редакторов и снизит потребление памяти. Уже сейчас тесты показывают: проверка кода VS Code занимает не 77,8 секунд, а всего 7,5.

Выпуск TypeScript 7.0 запланирован на конец 2025 года, но тестовую версию уже можно опробовать в GitHub-репозитории. Пока команда сохранит поддержку TypeScript 6.x для проектов, зависящих от старых API.

Подробности — в AMA-сессии Discord 13 марта, где авторы ответят на вопросы о будущем экосистемы.
devblogs.microsoft.com

✔️ Agora выпустила набор Conversational AI для IoT-устройств.

Agora, мировой лидер в области решений для взаимодействия в реальном времени, анонсировала запуск ConvoAI Device Kit — инструментария для разработки голосового ИИ в IoT-устройствах. Совместно с производителем чипов Beken и создателем роботов Robopoet Agora предлагает технологию, которая превращает игрушки, гаджеты и «умные» устройства в эмоционально отзывчивых собеседников.

ConvoAI Device Kit объединяет чипы Beken с платформой Agora и обеспечивает распознавание речи с минимальной задержкой, адаптивные диалоги и обработку эмоций.
Решение подходит для образовательных игрушек, «умных» домов и носимых гаджетов.
agora.io

✔️ Supermicro запускает edge-серверы для AI с процессорами Intel Xeon 6.

Supermicro анонсировала линейку компактных серверов, оптимизированных для ИИ. Новые системы оснащены процессорами Intel Xeon 6 с P-ядрами (до 144 вычислительных ядер, увеличенная на 40% пропускная способность памяти и улучшенная энергоэффективность). Новая линейка позволит обрабатывать данные в реальном времени непосредственно на месте их генерации, что критично для телекома, медицины и промышленности.

Серверы поддерживают до 512 ГБ DDR5, имеют порты 100 GbE и слот PCIe 5.0 для GPU, что делает их идеальными для медиа-задач и Edge AI. Отдельного представлены системы с процессорами Intel Core Ultra 15-го поколения — они предназначены для IoT и AI-инференса на edge-периферии (до 24 ядер и NPU).
supermicro.com

✔️ Cerebras развернёт 6 дата-центров в США и Европе.

Cerebras Systems, лидер в области инференса генеративного ИИ, объявила о запуске 6 новых дата-центров. Объекты в США, Канаде и Европе, оснащённые тысячами систем CS-3 на базе Wafer-Scale Engines, обеспечат обработку свыше 40 млн токенов Llama 70B в секунду, что сделает Cerebras крупнейшим поставщиком облачных решений для ИИ.

Проект увеличит совокупную мощность компании в 20 раз, удовлетворив растущий спрос клиентов — от Mistral до гигантов вроде HuggingFace. Особое внимание уделено надёжности: дата-центр в Оклахома-Сити, защищённый от торнадо и сейсмической активности, начнёт работу в июне 2025 года.
cerebras.ai

✔️ GPUStack — менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.Позволяет организовать эффективное распределение ресурсов для инференса AI моделей, упрощает развертывание масштабируемых решений и обеспечивает гибкую интеграцию с существующими сервисами и приложениями.
Github

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5718🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Gemma 3 — свежий релиз, который значительно расширяет возможности открытых моделей и упрощает их развёртывание:

🟢 27B модель: Достигла рейтинга ELO 1338 и при этом умещается на одном H100.
🟢 Поддержка vision: Теперь модель способна обрабатывать смешанный контент, включая изображения, видео и текст.
🟢Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях
🟢 Расширенное окно контекста: Модель может работать с контекстом до 128k токенов
🟢 Широкая языковая поддержка: Поддерживается 140 языков
🟢 Встроенные возможности для реализации агентных сценариев и интеграции с внешними инструментами.

Попробуйте модель по ссылке: Gemma 3 27B.

🟡Пост: https://blog.google/technology/developers/gemma-3/

🟡Попробовать: aistudio.google.com/prompts/new_chat?model=gemma3-27b

🟡Tech report: https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

🟡Видео https://youtube.com/watch?v=UU13FN2Xpyw

🟡HF: https://huggingface.co/blog/gemma3

@ai_machinelearning_big_data

#gemma #ai #ml #release #google #
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍2213
📌Awesome CursorRules: репозиторий с рецептами Cursor AI.

Awesome CursorRules — коллекция файлов-рецептов .cursorrules для тонкой настройки поведения Cursor AI. Автор репозитория собрал десятки шаблонов, адаптирующих генерацию кода под конкретные проекты: от мобильных приложений до блокчейн-решений.

Главная «фишка» .cursorrules — гибкость. Разработчики могут прописать правила, которые сделают подсказки ИИ более релевантными: например, учесть стиль кода команды или архитектурные особенности проекта. Это не только ускоряет работу, но и снижает риск ошибок.

Коллекция включает практически все сферы разработки: фронтенд (Angular, NextJS, Qwik, React, Solid, Svelte, Vue), бэкенд (Deno, Elixir, ES, Go, Java, Lavarel, NodeJS, Python, TypeScript, WordPress), мобильную разработку (React Native, SwiftUI, TypeScript, Android, Flutter) и специфические задачи — интеграцию с Kubernetes или оптимизацию под SOLID-принципы.

Для новичков есть пошаговые инструкции: достаточно скопировать файл в проект или установить расширение для VS Code.

Судя по отзывам, Awesome CursorRules уже стал мастхэв для тех, кто хочет выжать максимум из Cursor AI.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Github #Awesome #CursorAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥31👍20🤨6
✔️ TSMC предлагает ИТ-гигантам объединиться вокруг производственных мощностей Intel.

TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg

✔️ ИИ от Sakana AI успешно прошел научное рецензирование.

Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.

Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai

✔️ Google DeepMind выводит ИИ в физический мир с Gemini Robotics.

Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.

Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google

✔️ Doubao (ByteDance) опубликовала технические детали модели генерации изображений Seedream 2.0.

Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.

В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com

✔️ Испания вводит крупные штрафы за отсутствие маркировки контента, созданного ИИ.

Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".

Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥1913
📌Опенсорс-модели T-Lite и T-Pro: процесс обучения моделей от подготовки данных до финальных экспериментов.

В открытом доступе представлено ограниченное количество LLM. Как правило, крупные игроки публикуют модели с ограничивающими лицензиями или выкладывают легкие версии своих флагманских разработок. В этих условиях русскоязычные модели T-Lite и T-Pro (на 7 млрд. и 32 млрд. параметров соответственно) от Т-Банка поддерживают все опенсорс-сообщество. Компания выложила эти LLM с открытой лицензией в конце 2024 года.

При обучении этих моделей использовался гибридный подход Continual Pretraining, который сочетает элементы Pre-Training и Post-Training. При этом вместо обучения с нуля за основу была взята сильная открытая модель — Qwen2.5. Это позволило значительно снизить затраты и ускорить сам процесс обучения, сохранив преимущества глубокой адаптации.

Процесс обучения LLM можно условно разделить на шесть стадий:
выбор оптимальной базовой модели, опциональный этап по расширению токенизатора, continual pretraining stage 1, continual pretraining stage 2 с добавлением инструктивных данных, SFT и DPO.

Основной идеей остается дообучение сильных открытых моделей, что приводит к меньшим затратам ресурсов на обучение по сравнению с созданием моделей лидерами индустрии.

Какую именно открытую модель необходимо выбрать, как происходит дообучение, почему важны кодовые датасеты и связь с навыками рассуждения подробно рассказывается в статье от MLE по разработке фундаментальных моделей.

🟡Статья

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
41👍19🔥10😍3😁1🤓1
Дайджест событий из мира диффузионок за 2 года от экспертов ШАДа

✔️ Simple Diffusion улучшила качество генерации изображений
Модель Simple Diffusion от Google Brain позволила генерировать изображения высокого разрешения без дополнительных моделей Super Resolution.

✔️ SDXL подняла планку для opensource-моделей
SDXL стала первой крупной opensource-моделью с 2,8 миллиардами параметров. Это повысило четкость изображений и улучшило контроль генерации с помощью механизма Micro-Conditioning.

✔️ EMU фокусировалась на качестве обучающих данных
Разработчики модели EMU разделили обучение на стадии pre-training и supervised fine-tuning, акцентируя внимание на качестве дообучающего датасета. При таком подходе получается высокий результат при минимальном сборе данных.

✔️ PixArt-α и эффективность трансформеров
Модель PixArt-α от Huawei показала высокую эффективность при обучении на малом количестве данных с использованием трансформерной архитектуры. Это открыло новые возможности для создания мощных генеративных моделей с меньшими затратами.

✔️ SANA от Nvidia обеспечила качество в 4K
Модель SANA генерировала изображения в разрешении 4K без дополнительных Super Resolution решений. Использование глубокого автокодировщика с масштабом 32 ускорило процесс генерации и улучшило качество изображений.

🟡 Статья

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4015🔥4
🌟 MM-EUREKA: Мультимодальный ризонинг.

MM-Eureka — разработка Шанхайской лаборатории ИИ, которая совершила шаг вперед в решении задач, требующих анализа изображений и текста. В отличие от рядовых VLM, эта модель сочетает RL с мультимодальным мышлением, имитируя человеческую способность, схожую с «моментами озарения». Авторы заявляют, что MM-Eureka не только обладает повышенной точностью ответов, но и учится перепроверять визуальные данные с помошью рассуждений.

MM-Eureka суперэффективна: даже при обучении на 0,05% данных от аналогов, модель превзошла их в тестах на математическую логику и анализ графиков. Например, в задачах уровня школьной программы она показала рост точности на 8,2%. При этом тестовая модель, не имея явных инструкций, научилась «переосмысливать» изображения — заново оценивать геометрические схемы для поиска ошибок.

В основе MM-Eureka - модели InternVL2.5 с параметрами 8 и 38 млрд. Архитектура объединяет механизмы внимания для анализа визуальных паттернов и языковые слои для генерации ответов.

Обучение строилось на алгоритме RLOO (REINFORCE Leave-One-Out), который снижает шум в оценках преимуществ, и PPO-clip, предотвращающем резкие изменения политики. Авторы отказались от ограничений KL-дивергенции, чтобы не сдерживать «творческий» поиск решений. Функция вознаграждения включала проверку точности ответов через Math-Verify и соблюдение структуры вывода, чтобы усилить логическую строгость.

▶️В релиз вошли 2 модели, датасет и код для самостоятельных изысканий в обучении:

🟢MM-Eureka-8B
🟢MM-Eureka-Zero-38B
🟠MM-Eureka-Dataset


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Reasoning #MMEUREKA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4816👍14🥰4🤓1
✔️ Alibaba представила ИИ-модель для анализа эмоций.

Alibaba Group выпустила модель R1-Omni, способную распознавать эмоции людей на видео. Как заявили разработчики из лаборатории Tongyi, система не только определяет настроение — например, «радость» или «гнев» — но и анализирует одежду и окружение человека. Это улучшенная версия предыдущей открытой модели HumanOmni, созданной под руководством исследователя Цзясин Чжао.

R1-Omni пока ограничена базовыми оценками, но ее способность «читать» визуальные подсказки — серьёзный шаг в развитии компьютерного зрения. Alibaba делает ставку на открытость: новинка доступна на Hugging Face.
bloomberg.com

✔️ CSM 1B от Sesame — это 1B версия модели Conversational Speech Model, предназначенной для генерации речи. Модель преобразует текст и аудио в RVQ аудио коды с помощью архитектуры, основанной на Llama, и компактного аудио-декодера, генерирующего Mimi аудио коды.
HF

✔️ Google открыла функцию ИИ-ресерча для всех пользователей.

Google представила обновленную версию ризонинг-модели Flash Thinking 2.0, одновременно открыв бесплатный доступ к функции Deep Research для всех пользователей. Новая итерация Flash Thinking 2.0 быстрее обрабатывает данные и позволяет загружать файлы.

Переработана функция Deep Research, которая теперь на базе Flash Thinking 2.0 анализирует информацию с нескольких сайтов и документов за считанные минуты, показывая пользователям пошаговую логику своих рассуждений.
blog.google

✔️ Marey — первая ИИ-модель для видео, обученная на лицензированных данных.

Moonvalley объявила о релизе своей модели Marey, созданной исключительно на лицензированных и этично собранных данных. Разработка велась совместно со студией Asteria, с целью изменить подход к производству фильмов и рекламы, предлагая инструменты, которые не заменяют, а помогают в творческом процессе.

Особенности Marey: точный контроль над камерой и движением объектов, что позволяет режиссерам работать с ИИ как с виртуальной съёмочной группой.

Инвесторы уже вложили $70 млн в проект, видя в нём потенциал для масштабного внедрения ИИ в индустрии. Как отметил CEO Asteria Брин Мозер, Marey не только решает юридические риски, но и сохраняет права творцов, чей труд лежит в основе технологического прогресса.
businesswire.com

✔️ В Китае разработали транзистор на основе висмута.

Ученые из Пекинского университета разработали транзистор на основе висмута, который, по их словам, на 40% быстрее и на 10% энергоэффективнее передовых разработок Intel и TSMC.

Команда использовала висмут как в полупроводнике, так и в оксиде с высокой диэлектрической проницаемостью. В отличие от кремния, висмут относится к металлам, которые становятся полупроводником лишь в достаточно тонких слоях.
pcgamer.com

✔️ Open-Sora 2.0: открытая модель генерации видео.

Luchen Technology выпустила Open-Sora 2.0 — новую версию семейства моделей Open-Sora для создания видео, которая превосходит аналоги при рекордно низкой стоимости обучения. С бюджетом всего $200 000 разработчики обучили 11В модель, способную конкурировать с коммерческими HunyuanVideo и Step-Video. По данным тестов VBench, ее качество практически сравнялось с закрытой Sora от OpenAI.

Модель использует архитектуру архитектуры MMDiT и генерирует видео с разрешением до 720p (24 кадра/с) с контролируемым движением объектов. Использование автоэнкодера со степенью сжатия 4×32×32 ускорило инференс в несколько раз: создание 5-секундного ролика 768x768 занимает менее 27 минут на одной H100.
hpcaitech.github.io

✔️ OpenAI интегрировала в модели о1 и о3-mini расширенные возможности анализа данных на Python. 📈
Модель позволяет:
Выполнить регрессионный анализ тестовых данных
Построить визуализации для сложных бизнес-метрик
Провести сценарное прогнозирование

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
46👍30🔥8🤔3🥰2
ML-комьюнити о крупнейших запусках LLM начала 2025 года:

✔️ DeepSeek — революция или переоцененный запуск?

Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.

✔️ Grok 3 — Маск не дотянул

ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.

✔️ GPT-4.5 — не оправдал ожиданий экспертов

Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.

✔️ YandexGPT 5 — что в России?

Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.

✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество

Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.

✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах

Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6629🔥12