Машинное обучение digest – Telegram
Машинное обучение digest
41 subscribers
1.27K photos
181 videos
641 links
Download Telegram
🎮 Учимся Python прямо в бою — в Steam бесплатно раздают CodeStrike!

Это не просто игра — это шпионский экшен, где ты решаешь всё кодом.
В CodeStrike ты — элитный агент, действующий в мире, захваченном ИИ и алчными корпорациями.

💻 Что тебя ждёт:
• Пишешь Python-код
• Ломаешь системы, обходишь ловушки, взрываешь и взламываешь
• Программируешь поведение героя в реальном времени
• Участвуешь в гонках, сражениях и выживании — только с помощью кода

Это как если бы *Metal Gear* встретился с *LeetCode* — но весело.
🐍 Прокачай Python, даже не замечая, как учишься.

Вкатиться можно здесь: https://store.steampowered.com/app/3444170/CodeStrike__Python_Practice_Adventure_Game/

@pythonl
Media is too big
VIEW IN TELEGRAM
✔️ EleutherAI представила лицензированный датасет для обучения ИИ-моделей.

EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.

Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co

✔️ OpenAI вынуждена сохранять данные пользователей ChatGPT из-за судебного решения по иску NYT.

OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.

Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.

OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com

✔️ MIT & Recursion Boltz-2: модель прогнозирования взаимодействия молекул.

MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.

Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com

✔️ AMD пополнилась командой стартапа Untether AI.

AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.

Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.

Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com

✔️ Фестиваль ИИ-фильмов в Нью-Йорке.

В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.

По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Solune — высокопроизводительная NoSQL-база данных на Go

Solune — это быстрая и гибкая NoSQL-база данных, разработанная с упором на масштабируемость, низкую задержку и производительность. Она использует приоритетную работу с данными в памяти, чтобы обеспечить молниеносный доступ и минимальную задержку при высоких нагрузках.

🧠 Почему Go?
Solune построена на Go — и вот почему это важно:

Горутины и каналы — идеально для обработки тысяч запросов одновременно
Высокая скорость исполнения — Go отлично подходит для чувствительных к производительности систем
Простота и читаемость — легче поддерживать и развивать проект
Богатая экосистема — множество библиотек и инструментов для создания надёжных систем

Фокус на хранении в памяти:

Мгновенный доступ — чтение из памяти быстрее, чем с диска
Минимальные задержки — нет тяжёлых операций I/O
Гибкое масштабирование — просто увеличивайте объём RAM

💡 Подходит для:
• Высоконагруженных API
• Систем, где критична скорость доступа
• Приложений с минимальной допустимой задержкой

📌 Solune — это выбор для тех, кто ищет быструю, масштабируемую и современную NoSQL-БД, идеально подходящую для in-memory архитектур.

git clone https://github.com/thijsrijkers/solune.git
cd solune


🔗 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 ether0: специализированная модель с ризонингом для химии.

Ether0 - специализированная модель с 24 млрд. параметров, разработанная FutureHouse для проектирования соединений и решения сложных задач в химии.

В отличие от традиционных моделей, она не просто пересказывает теорию, а решает практические задачи: считает атомы, проверяет химическую стабильность и генерирует структуры, подходящие для синтеза, используя естественный язык для рассуждений и вывода структур в формате SMILES.

SMILES (Simplified Molecular Input Line Entry System) — это линейная текстовая нотация для описания структуры химических соединений с использованием коротких ASCII-строк. Он позволяет кодировать молекулярные графы, включая информацию о связях, атомах и хиральности, что делает его удобным для обмена данными в химинформатике.


Пайплайн инференса выглядит так: пользователь вводит текстовый запрос (например, «создай ингибитор киназы с 30 атомами»), модель запускает цепочку рассуждений. Они работают параллельно, предлагая варианты, а потом выбирается лучший результат. Это позволяет комбинировать экспертизу: одна часть системы фокусируется на структуре кольца, другая — на функциональных группах, третья — на токсичности.

Основой ether0 стала Mistral-Small-24B-Instruct-2501, которую адаптировали в несколько итераций.

Сначала исходная модель Mistral прошла стадию SFT на примерах цепочек рассуждений, сгенерированных другими моделями.

Затем ее усилили обучением на группах связанных задач предсказания растворимости и синтеза. После этого, знания объединили в общий пул через дистилляцию, а затем улучшили его с помощью общего RL.

В завершении - GRPO, который сравнивает несколько вариантов ответов на один вопрос, выбирая наиболее точные. Финальный штрих - алайнмент. Модель обучили избегать генерации опасных соединений через дополнительные данные и RL.

В тестах ether0 сравнивали с общими LLM (Claude, o1), специализированными химическими моделями (ChemDFM, TxGemma) и традиционными подходами (Molecular Transformer).

На тестовых задачах с множественным выбором (MCQ), она показала 50,1% точности в режиме zero-shot, что близко к результату o1-2024-12-17 (52,2%).

В задачах проектирования молекул (предсказание реакций) ether0 достигла 70% точности после 46 000 примеров, а MT, обученный на полном наборе данных USPTO (480 000 реакций), показал лишь 64,1%.

ether0 превзошла людей-экспертов и специализированные модели в OA, а тесты на безопасность показали, что модель отказывается от 80% опасных запросов, не теряя точности .


📌 Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🟡Demo
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Ether0 #Chemistry #FutureHouse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mistral выпустила ризонинг-модель Magistral.

Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».

Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:

🟢опенсорсный Magistral Small с 24 млрд. параметров;

🟠корпоративный Magistral Medium.

Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).

В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.

Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🟡Web Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Magistral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🔥 Manus Chat Mode — чат с ИИ бесплатно и без ограничений для всех!

💬 Работает супер быстро.

🚀 Так же доступен Agent Mode с расширенными возможностями.

От простых вопросов до сложных задач — всё в одном окне : https://manus.im/

@ai_machinelearning_big_data

#news #ai #ml #manus
🎉 cuOpt от NVIDIA стал open source!

Теперь можно легко ускорять задачи оптимизации —
🔸 линейное программирование (LP)
🔸 целочисленные задачи (MIP)
🔸 маршрутизацию транспорта (VRP)
— с помощью GPU, почти не меняя код.

💡 Работает с Python, REST API и CLI
💡 Поддерживает PuLP и AMPL
💡 Запускается локально или в облаке
💡 Настраивается за пару минут

pip install --extra-index-url=https://pypi.nvidia.com cuopt-server-cu12==25.5.* cuopt-sh==25.5.*

📈 Результат — решения почти в реальном времени, даже для сложных задач.

👉 Попробуй
🌟 NVIDIA cuOpt: GPU-решатель для оптимизации решений.

NVIDIA опубликовала в открытом доступе свой проект cuOpt. Это набор инструментов оптимизации, который использует ресурсы и возможности GPU для решения сложных задач линейного программирования, маршрутизации и логистики.

cuOpt помогает находить эффективные решения для проблем с миллионами переменных, где традиционные методы терпят крах., превращая «нерешаемые» задачи в реальные решения, без жертвования масштабом или скоростью. Это, своего рода, «турбокомпрессоре» для задач, где время и точность критически важны, от доставки товаров до расписаний производства.

cuOpt состоит из C++-движка и API (Python, C и другие), которые работают как обертки, которые дают возможность гибко интегрировать библиотеку в разные проекты.

Для задач маршрутизаций (TSP, VRP, PDP) cuOpt генерирует начальные решения, а затем улучшает их итеративно, используя эвристические алгоритмы. Это не «лобовое» вычисление всех вариантов, а умный поиск, который экономит ресурсы и время.

Методы работы с линейным программированием (LP) и смешанными целочисленными задачами (MILP) тоже уникальны. Для LP применяется PDLP — алгоритм первого порядка, который использует градиентный спуск и работает на GPU, альтернативно запускаясь на CPU с симплекс-методом.

Смешанное целочисленное программирование - это метод математической оптимизации, позволяющий решать задачи с использованием смеси непрерывных переменных (которые могут иметь любое значение, включая десятичные и дробные), дискретных переменных и двоичных переменных.


В MILP немного сложнее: на GPU выполняются эвристики для поиска допустимых решений (локальный поиск, «feasibility pump»), а CPU занимается ветвлениями и границами, улучшая оценку. Решения между GPU и CPU обмениваются в реальном времени, создавая гибридную систему.

▶️ NVIDIA cuOpt предлагает несколько вариантов развертывания, адаптированных под разные задачи: pip, conda или готовый контейнер Docker / NSG.

Еще поддерживаются (с минимальным рефакторингом) инструменты AMPL и PuLP, с помощью которых сценарии использования cuOpt значительно расширяются.

В репозитории проекта разработчики собрали примеры и Jupyter-ноутбуки, которые можно запустить локально или в облачных сервисах: Google Colab (с выбором GPU-среды) или NVIDIA Launchable.


📌 Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DS #NVIDIA #CuOPT
Please open Telegram to view this post
VIEW IN TELEGRAM