Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.27K photos
181 videos
642 links
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft запускает бесплатный видеогенератор.

Microsoft анонсировала Bing Video Creator, который превращает текстовые описания в короткие видео. Он основан на технологии Sora и доступен бесплатно через мобильное приложение Bing, а позже появится на десктопе и в Copilot Search. Пользователям нужно просто ввести запрос и ИИ сгенерирует 5-секундный ролик в вертикальном формате. (16:9 добавят позже).

За один запрос генерируется 3 видео, с выбором между быстрой и стандартной генерацией (первые 10 быстрых — бесплатно, далее за баллы Microsoft Rewards). Созданные видео будут храниться до 90 дней. Готовые ролики можно скачивать, делиться в соцсетях или по ссылке. Сервис стартует глобально, кроме Китая и России.
blogs.bing.com

✔️ Французский стартап H Company запустил сервис ИИ-агентов.

Стартап H представил три ИИ-агента: Runner, Surfer и Tester. Runner автоматизирует задачи: написание писем, и взаимодействует с приложениями. Бета-версия доступна бесплатно, но с ограничениями. Surfer — бесплатный инструмент для автономного серфинга в интернете. Tester (бета, платный) создан для тестирования сайтов: проверяет функционал меню, языковые настройки и валюту.

Стартап основан бывшими сотрудниками Google DeepMind год назад с инвестициями в €202 млн от Bernard Arnault, Amazon и Eric Schmidt.
H Company в сети X (ex-Twitter)

✔️ SketchAgent от MIT и Stanford рисует как человек по текстовому описанию.

MIT и Stanford создали SketchAgent, систему, которая превращает текстовые запросы в наброски, имитируя человеческий процесс рисования. Вместо обучения на базах данных, модель использует «язык рисования»: скетч разбивается на последовательность штрихов с пояснениями. Это позволяет генерировать эскизы предварительной тренировки.

Пока система не справляется с логотипами или сложными фигурами, а иногда интерпретирует планы рисования ошибочно. Ресерчеры планируют улучшить модель через синтетические данные и упростить интерфейс. В будущем инструмент может стать помощником в образовании или дизайне.
news.mit.edu

✔️ Firecrawl запускает endpoint API search для одновременного поиска и скрапинга данных.

Firecrawl прислушался к просьбам сообщества, которое давно просило функцию автоматизации с поиском. Теперь вместо двух этапов (сначала поиск, затем парсинг), все делается за раз. /search позиционируется как более простой и универсальный инструмент для работы с веб-данными. Использовать его можно через API, сторонние приложения или интерактивный Playground.

Сервис предлагает гибкую настройку: можно указать язык, регион, временной диапазон или формат вывода. Интеграция уже доступна в Zapier, n8n, MCP и других платформах, а в документации описаны примеры использования.

Команда также сообщила, что альфа-версии /llmstxt и /deep-research перестанут обновляться с 30 июня 2025 года, но останутся рабочими.
firecrawl.dev

✔️ TSMC запускает массовое производство 2-нм чипов.

Тайваньская фабрика вот-вот начнет выпуск 2-нм чипов, установив рекордный ценник — до $30 тыс. за пластину (а улучшенные версии подорожают до $45 тыс.). Это делает технологии доступными лишь для топовых клиентов AMD, Apple и MediaTek уже вложились: процессоры A20/A20 Pro для iPhone 18, M6 для Mac, новых серверов EPYC и флагманских смартфонов Mediatek 2025 года будут на этой архитектуре.

По данным поставщиков, мощности TSMC растут. К концу года выпуск достигнет 30 тыс. пластин в месяц. Эксперты отмечают: лидерство фабрики держится не на одном оборудовании, но еще и на опыте. Накопленные знания о производственных тонкостях трудно повторить.
ctee.com.tw

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Llama Nemotron Nano VL от NVIDIA — один из лучших open-source инструментов для документов**

Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.

📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU

🔍 **Заточена под:**
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов

🧠 Под капотом — vision-энкодер C-RADIO v2 (distilled multi-teacher трансформер), который справляется даже с визуальным шумом и высоким разрешением.

📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.

📌 И всё это работает на одной видеокарте.

🟡Hf
🟡Подробнее

#Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.


Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Reddit подаёт в суд на Anthropic за незаконное использование данных

Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.

Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"

📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”

😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?

Судебная битва за контент только начинается.

https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd

@ai_machinelearning_big_data

#reddit #Anthropic #ai #claude
✔️ Google представила превью обновлённой модели Gemini 2.5 0605

Новая версия уже доступна для тестирования и показывает заметные улучшения в:

🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике

Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.

💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.

Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).

💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)

🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

@ai_machinelearning_big_data

#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Anthropic ограничила доступ Windsurf к моделям Claude.

Anthropic отключила Windsurf от прямого использования моделей Claude 3.5 и 3.7 Sonnet, объяснив это слухами о возможной покупке стартапа OpenAI.

По словам сооснователя Anthropic Джареда Каплана, компания хочет сосредоточиться на долгосрочных партнерствах, так как сейчас сталкивается с нехваткой вычислительных мощностей.

Windsurf, получавший доступ к Claude для разработки своих продуктов, теперь вынужден переходить на сторонние платформы, что может временно нарушить стабильность сервиса для пользователей.

В то же время Anthropic анонсировал сотрудничество с Cursor. Каплан подчеркнул, что фокус компании смещается с чат-ботов на «агентные» решения вроде Claude Code, которые, по его мнению, окажутся более полезными в будущем.

Источник: Techcrunch

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🎮 Учимся Python прямо в бою — в Steam бесплатно раздают CodeStrike!

Это не просто игра — это шпионский экшен, где ты решаешь всё кодом.
В CodeStrike ты — элитный агент, действующий в мире, захваченном ИИ и алчными корпорациями.

💻 Что тебя ждёт:
• Пишешь Python-код
• Ломаешь системы, обходишь ловушки, взрываешь и взламываешь
• Программируешь поведение героя в реальном времени
• Участвуешь в гонках, сражениях и выживании — только с помощью кода

Это как если бы *Metal Gear* встретился с *LeetCode* — но весело.
🐍 Прокачай Python, даже не замечая, как учишься.

Вкатиться можно здесь: https://store.steampowered.com/app/3444170/CodeStrike__Python_Practice_Adventure_Game/

@pythonl
Media is too big
VIEW IN TELEGRAM
✔️ EleutherAI представила лицензированный датасет для обучения ИИ-моделей.

EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.

Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co

✔️ OpenAI вынуждена сохранять данные пользователей ChatGPT из-за судебного решения по иску NYT.

OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.

Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.

OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com

✔️ MIT & Recursion Boltz-2: модель прогнозирования взаимодействия молекул.

MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.

Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com

✔️ AMD пополнилась командой стартапа Untether AI.

AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.

Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.

Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com

✔️ Фестиваль ИИ-фильмов в Нью-Йорке.

В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.

По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Solune — высокопроизводительная NoSQL-база данных на Go

Solune — это быстрая и гибкая NoSQL-база данных, разработанная с упором на масштабируемость, низкую задержку и производительность. Она использует приоритетную работу с данными в памяти, чтобы обеспечить молниеносный доступ и минимальную задержку при высоких нагрузках.

🧠 Почему Go?
Solune построена на Go — и вот почему это важно:

Горутины и каналы — идеально для обработки тысяч запросов одновременно
Высокая скорость исполнения — Go отлично подходит для чувствительных к производительности систем
Простота и читаемость — легче поддерживать и развивать проект
Богатая экосистема — множество библиотек и инструментов для создания надёжных систем

Фокус на хранении в памяти:

Мгновенный доступ — чтение из памяти быстрее, чем с диска
Минимальные задержки — нет тяжёлых операций I/O
Гибкое масштабирование — просто увеличивайте объём RAM

💡 Подходит для:
• Высоконагруженных API
• Систем, где критична скорость доступа
• Приложений с минимальной допустимой задержкой

📌 Solune — это выбор для тех, кто ищет быструю, масштабируемую и современную NoSQL-БД, идеально подходящую для in-memory архитектур.

git clone https://github.com/thijsrijkers/solune.git
cd solune


🔗 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 ether0: специализированная модель с ризонингом для химии.

Ether0 - специализированная модель с 24 млрд. параметров, разработанная FutureHouse для проектирования соединений и решения сложных задач в химии.

В отличие от традиционных моделей, она не просто пересказывает теорию, а решает практические задачи: считает атомы, проверяет химическую стабильность и генерирует структуры, подходящие для синтеза, используя естественный язык для рассуждений и вывода структур в формате SMILES.

SMILES (Simplified Molecular Input Line Entry System) — это линейная текстовая нотация для описания структуры химических соединений с использованием коротких ASCII-строк. Он позволяет кодировать молекулярные графы, включая информацию о связях, атомах и хиральности, что делает его удобным для обмена данными в химинформатике.


Пайплайн инференса выглядит так: пользователь вводит текстовый запрос (например, «создай ингибитор киназы с 30 атомами»), модель запускает цепочку рассуждений. Они работают параллельно, предлагая варианты, а потом выбирается лучший результат. Это позволяет комбинировать экспертизу: одна часть системы фокусируется на структуре кольца, другая — на функциональных группах, третья — на токсичности.

Основой ether0 стала Mistral-Small-24B-Instruct-2501, которую адаптировали в несколько итераций.

Сначала исходная модель Mistral прошла стадию SFT на примерах цепочек рассуждений, сгенерированных другими моделями.

Затем ее усилили обучением на группах связанных задач предсказания растворимости и синтеза. После этого, знания объединили в общий пул через дистилляцию, а затем улучшили его с помощью общего RL.

В завершении - GRPO, который сравнивает несколько вариантов ответов на один вопрос, выбирая наиболее точные. Финальный штрих - алайнмент. Модель обучили избегать генерации опасных соединений через дополнительные данные и RL.

В тестах ether0 сравнивали с общими LLM (Claude, o1), специализированными химическими моделями (ChemDFM, TxGemma) и традиционными подходами (Molecular Transformer).

На тестовых задачах с множественным выбором (MCQ), она показала 50,1% точности в режиме zero-shot, что близко к результату o1-2024-12-17 (52,2%).

В задачах проектирования молекул (предсказание реакций) ether0 достигла 70% точности после 46 000 примеров, а MT, обученный на полном наборе данных USPTO (480 000 реакций), показал лишь 64,1%.

ether0 превзошла людей-экспертов и специализированные модели в OA, а тесты на безопасность показали, что модель отказывается от 80% опасных запросов, не теряя точности .


📌 Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🟡Demo
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Ether0 #Chemistry #FutureHouse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mistral выпустила ризонинг-модель Magistral.

Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».

Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:

🟢опенсорсный Magistral Small с 24 млрд. параметров;

🟠корпоративный Magistral Medium.

Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).

В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.

Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🟡Web Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Magistral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM