Machinelearning – Telegram
383K subscribers
4.45K photos
858 videos
17 files
4.89K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🖥 Вдогонку OpenAI выпустили BrowseComp — новый бенчмарк, предназначенный для оценки способности AI-агентов находить сложную и труднодоступную информацию в интернете.

Этот набор данных включает 1 266 задач, требующих от моделей глубокого понимания контекста и эффективного поиска информации. ​

Особенности:

В отличие от существующих бенчмарков, таких как SimpleQA, BrowseComp фокусируется на вопросах, ответы на которые трудно найти и которые требуют анализа множества источников. ​
Например, “Найдите мне статью из EMNLP 2018–2023, где первый автор учился в бакалавриате в Dartmouth, а четвёртый — в UPenn”
 → Ответ: Frequency Effects on Syntactic Rule Learning in Transformers

Структура вопросов: Каждый вопрос имеет однозначный, короткий ответ, что облегчает оценку результатов и снижает вероятность неоднозначности. ​
OpenAI

Примеры вопросов: Вопросы охватывают различные темы и требуют от модели способности устанавливать связи между разрозненными фактами. ​
OpenAI

💡 По аналогии с тем, как CodeForces навыки программирования, BrowseComp показывает, насколько модель способна ориентироваться в "диких" условиях в вебе.

🟡Релиз
🟡Paper

@ai_machinelearning_big_data

#openai #benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥278😁5
✔️ Forbes опубликовал список 2025 AI 50.

Forbes выпустил ежегодный рейтинг AI 50, составленный в сотрудничестве с Sequoia и Meritech Capital, который показал смещение акцента среди ИИ-стартапов с разработки моделей на создание практических приложений. Новички списка:, Anysphere (Cursor) и Speak (обучение английскому и испанскому с аудиторией 10 млн пользователей).

Лидеры прежние: OpenAI и Anthropic. Впервые в список попали xAI и проект Миры Мурати Thinking Maсhine. В этом году было подано 1860 заявок, а суммарное финансирование участников составило 142,45 млрд. долл.
forbes.com

✔️ Google и Samsung показали прототипы устройств Android XR.

На TED2025 в Ванкувере глава подразделения Android X продемонстрировал прототип умных очков от Google. Устройство получило функции перевода в реальном времени, распознавание изображений и интеграцию с Gemini.

Параллельно Samsung представила свой X-rеality шлем с акцентом на многозадачность. Оба проекта развиваются в рамках Android XR, но детали их релиза и даты выхода остаются неизвестными.
9to5google.com

✔️ QodoAI внедрила RAG в код-ревью инструмент Qodo Merge.

QodoAI выпустила обновление для своего инструмента проверки кода Qodo Merge, интегрировав технологию RAG. Это позволит разработчикам анализировать код в контексте всей базы проекта, ускоряя ревью и упрощая коммуникацию по правкам.

RAG даёт ИИ доступ к полной истории и зависимостям кода - теперь система может автоматически предлагать исправления, ссылаясь на ранее написанные модули.
bito.ai

✔️ Adobe анонсировала ИИ-агентов для Photoshop, Acrobat и Premiere Pro.

Adobe анонсировала разработку ИИ-агентов для Photoshop и Premiere Pro, которые упростят рутинные задачи в редакторах. Например, ИИ может автоматически убрать людей с фона или настроить глубину резкости — пользователю достаточно кликнуть по подсказке.

Для Premiere Pro агенты помогут создавать черновые монтажи, корректировать цвет и звук, опираясь на функцию Media Intelligence, которая распознаёт объекты в видео. При этом ИИ не заменяет креативность, а ускоряет работу: система обучаема, а пользователи смогут давать команды на естественном языке.

Презентация технологии для Photoshop состоится 24 апреля на мероприятии Max в Лондоне.
blog.adobe.com

✔️ Спам-бот при помощи ChatGPT атаковал 80 000 сайтов.

SentinelLabs обнаружили, что спамеры используют модели OpenAI для массовой рассылки сообщений, обходящих стандартные фильтры. Бот AkiraBot генерировал уникальный контент через API ChatGPT (модель gpt-4o-mini), подставляя в шаблон название целевого сайта. Это делало каждое сообщение «персонализированным», усложняя его блокировку.

Вместо шаблонных фраз AkiraBot создавал описания услуг под конкретный ресурс, имитируя ручную работу. По данным логов, с сентября 2024 по январь 2025 года бот успешно отправил сообщения на 80 000 доменов, тогда как 11 000 попыток завершились ошибкой.

OpenAI подтвердила, что подобное использование ChatGPT нарушает её политику, и поблагодарила экспертов за информацию.
arstechnica.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍3315🥰4🤝1
✔️ Google представила новые геопространственные модели для анализа данных.

Google анонсировала запуск тестовой программы новых геопространственных и Population Dynamics моделей.

Эти инструменты объединяют генеративный ИИ (под капотом - Gemini), с данными спутниковых снимков и социальными индексами, чтобы ускорить анализ в сферах урбанистики, экологии и кризисного управления.

Модели позволяют находить объекты по описанию («дороги с заторами»), сегментировать ландшафты и предсказывать динамику населения. Интеграция с Google Cloud и Earth Engine дает разработчикам возможность для создания собственных решений — от медиапланирования до мониторинга сельхозугодий.

Первыми тестерами стали Airbus, Maxar и Planet Labs: они используют модели для анализа спутниковых данных в реальном времени. Сейчас доступ к моделям открыт через программу Trusted Tester, а детали Google обещает раскрыть в ближайшие месяцы.

🔗 research.google

@ai_machinelearning_big_data

#google #geospatialreasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4915🔥14
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Google Veo-2 стал доступен в AI Studio бесплатным пользователям

Можно создавать 5, 6, 7 и 8 секундные видеоролики.

Генерация 6-секундного заняла примерно 45 секунд.

Примечание: доступ пока открыт появился не у всех (у меня появился на бесплатном акке), ждем анонса от Google

https://aistudio.google.com/

Напишите в комментах появился ли Veo у вас?

@ai_machinelearning_big_data

#video #veo2
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6918🔥13🥰2
✔️ Учёные Яндекса, НИУ ВШЭ,MIT, ISTA и KAUST разработали новый метод сжатия LLM без использования данных

Недавно был представлен HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) — data-free метод квантизации, который позволяет запускать большие языковые модели локально, за минуты, без GPU.

🔥 Особенности:
🟢Работает без обучающих данных (data-free)
🟢Квантизует даже модели масштаба DeepSeek R1 (671B) и Llama 4 Maverick (400B)
🟢Полностью open-source

📈 Результаты:
🟠Лучшее соотношение качество / размер среди всех data-free методов (NF4, HQQ и др.)
🟠Проверено на Llama 3, Qwen2.5
🟠Статья принята на NAACL 2025

Применение:
▶️Прототипирование без серверов и долгих калибровок
▶️Демократизация доступа к LLM
▶️Подходит для стартапов, исследователей, независимых лабораторий, образовательных и ограниченных сред

🛠 Установка:
pip install flute-kernel

🌟 Пример:
python 
from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig

model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=HiggsConfig(bits=4),
device_map="auto",
)


🟡Paper
🟡Hugging Face
🟡GitHub

@ai_machinelearning_big_data

#quantization #LLM #opensource #HIGGS #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119🔥3932🥱8👏2
🌟 Firecrawl

Это open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

Firecrawl обрабатывает сложные случаи, включая динамический контент, JavaScript-рендеринг, PDF, изображения и защищённые страницы.

Поддерживает интеграцию с Langchain, LlamaIndex, Dify и другими инструментами, поддерживает Python, Node.js, Go и Rust.

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'

# { "jobId": "1234-5678-9101" }


Лиценизровавние: AGPL-3.0 license

GitHub
Инструкция по запуску локально

@ai_machinelearning_big_data

#llm #crawler
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥36🥰95🤬1👨‍💻1💘1
🌟 В ElevenLabs обновили процесс профессионального клонированиея голоса (PVC) — теперь он стал максимально удобным:

Загружаете запись ваших диалогов или соло-записи (например, подкасты)
AI сам разделит голос по спикерам, дальше вы выбираете только голос для обучения

Второе прикрепленное видео - это туториал, который поможет добиться максимально реалистичного результата

🔒 По умолчанию ваш клон голоса — приватный и доступен только вам.
💸 Но так же у вас есть возможность монетизировать свой голос и получать роялти, когда кто-то генерирует аудио с вашим голосом.

🚀 elevenlabs.io/app/voice-lab

#voiceclone #ai #elevenlabs #voiceai #texttospeech
51👍40🔥23
✔️ Canva выпустила Visual Suite 2.0: единая платформа для креатива и продуктивности.

В версии 2.0 пользователи могут работать с презентациями, видео, интерактивными досками, сайтами и таблицами без переключения между сервисами. Главная новинка — Canva Sheets, переосмысление таблиц с поддержкой ИИ: функции вроде Magic Insights автоматизируют рутину, а интеграция с Google Analytics или HubSpot превращает данные в красочные диаграммы через Magic Charts.

Для разработчиков появился Canva Code — генератор кода на основе текстовых запросов. В нем достаточно описать идею, а ИИ подготовит решение. Обновился и фоторедактор: теперь фон меняется в пару кликов, а элементы изображения можно перемещать или перекрашивать прямо в рабочем интерфейсе.

Попробовать Visual Suite 2.0 можно уже сегодня — все новые функции доступны на сайте Canva.
canva.com

✔️ Apple представит улучшенную Siri с Apple Intelligence в iOS 19 этой осенью.

Apple готовит масштабное обновление для Siri — она получит новые возможности в iOS 19. Среди ключевых функций: редактирование и отправка фото по запросу, распознавание содержимого экрана, учёт личного контекста и глубокая интеграция с приложениями. Изначально эти фичи планировали включить в iOS 18.4 и показать на WWDC 2024, но релиз перенесли из-за внутренних разногласий и нехватки бюджета.

Крейг Федериги и Майк Роквелл, курирующие проект, считают, что конкуренты ещё не вывели AI на идеальный уровень. Это позволяет Apple не спешить и доработать Siri до премиального качества. Окончательный релиз запланирован на осень.
appleinsider.com

✔️ ByteDance и Qualcomm разрабатывают умные ИИ-очки.

Устройство сможет снимать фото и видео в высоком качестве, сохраняя заряд батареи — ключевая задача для носимой электроники. Партнёром проекта выступил Qualcomm: вместе компании планируют усилить VR- и ИИ-технологии в железе, о чём договорились на MWC 2025.

Это не первый шаг ByteDance в сегменте «умных» гаджетов: ранее они выпускали ИИ-наушники, а в 2021 году купили производителя VR-шлемов Pico. Новые очки станут прямым конкурентом Ray-Ban Hypernova за $1000+. Пока детали проекта уточняются: обсуждаются характеристики, стоимость и сроки релиза.
theinformation.com

✔️ Microsoft готовится к релизу Recall.

Microsoft начала финальный этап тестирования Recall — функции, которая автоматически сохраняет скриншоты действий на ПК с Copilot Plus для последующего поиска. Сейчас она доступна в Release Preview для участников программы Windows Insiders, что означает скорый выход обновления для всех пользователей Windows 11.

Выпуск Recall не раз откладывался: сначала из-за опасений экспертов по безопасности, позже — ради доработки защиты данных. Теперь для работы Recall потребуется явное согласие пользователя, а сохранение снимков можно в любой момент приостановить.

Функция останется эксклюзивом для новых Copilot Plus PC — возможно, это попытка минимизировать риски. Как отмечают тестеры, Recall одновременно впечатляет и настораживает: он удобен для поиска информации, но сама идея постоянного слежения за действиями вызывает вопросы.
blogs.windows.com

✔️ MIT представил метод PAC Privacy для защиты данных в ИИ без потери точности.

PAC Privacy автоматически определяет минимальный уровень «шума» (случайных данных), который нужно добавить в алгоритм, чтобы сохранить приватность — например, медицинских изображений — без ущерба для производительности. Улучшенная версия метода работает быстрее, анализируя не всю матрицу корреляций, а только дисперсии выходных данных.

Ключевая идея — стабильные алгоритмы, чьи предсказания мало меняются при небольших изменениях в данных, требуют меньше шума. Команда проверила это на классических алгоритмах: чем стабильнее модель, тем проще её обезопасить.

Метод уже протестирован против современных методов джейлбрейка, а его вычислительная эффективность выросла в разы. Работу поддержали Cisco, Capital One и Министерство обороны США.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4817🔥10
📌Early-fusion vs Late-fusion: как архитектура влияет на эффективность мультимодальных моделей.

Исследование, проведенное Apple и Университетом Сорбонны в котором были проанализировали 457 архитектур, чтобы выяснить, действительно ли позднее слияние модальностей (late-fusion — когда изображения и текст обрабатываются отдельно до объединения ) имеет преимущества перед ранним слиянием (early-fusion). Оказалось, что early-fusion не только не уступают, но и превосходятlate-fusion при ограниченных ресурсах, требуя меньше параметров и быстрее обучаясь.

Early-fusion, где данные разных модальностей объединяются на начальных этапах, показал более высокую эффективность на небольших моделях. На модели с 300 млн. параметров такие архитектуры достигают лучших результатов с меньшими вычислительными затратами. Плюс, их проще развертывать — отсутствие отдельных визуальных энкодеров сокращает требования к инфраструктуре.

✔️ Ключевой вывод ресерча: мультимодальные модели масштабируются по законам, близким к языковым.

Оптимальное соотношение параметров и данных для обучения почти одинаково, но early-fusion требует меньше параметров при том же бюджете: при увеличении вычислительных ресурсов late-fusion вынуждена наращивать размер модели, тогда как early-fusion эффективнее использует дополнительные токены.

Авторы также проверили, как влияет на результаты внедрение MoE — техники, где модель динамически распределяет специализированные «эксперты» для разных типов данных.

Оказалось, MoE значительно улучшает производительность: разреженные модели с 8 экспертами сокращают потери на 15-20% по сравнению с плотными аналогами. При этом эксперты неявно специализируются — часть обрабатывает текст, другая фокусируется на изображениях, особенно в начальных и финальных слоях.

✔️ Практические советы из исследования:

🟢Экономия на инференсе: раннее слияние снижает стоимость вывода за счёт компактности.

🟢Данные важнее параметров: для MoE увеличение объёма обучающих данных даёт больший прирост качества, чем рост числа активных параметров.

🟢Универсальный роутинг: модели с «агностическим» распределением экспертов (без жёсткой привязки к модальностям) работают лучше, чем системы с предопределёнными правилами.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #MMLM #ScalingLaw #MoE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥2820👏1
🌟 NVIDIA добавила нативную поддержку Python в CUDA.

Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.

Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».

Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.

Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.

🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.

🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.

🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.

Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.

Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.

Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.

🔜 Посмотреть полную презентацию на GTC 2025


@ai_machinelearning_big_data

#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥174👍7730🤓1