Анализ данных (Data analysis) – Telegram
Анализ данных (Data analysis)
47.1K subscribers
2.68K photos
304 videos
1 file
2.3K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
LoRA-модель от autoweeb, которая превращает обычные фотографии в аниме-стиль ☺️

Основана на Qwen-Image-Edit-2509.

Работает просто: загружаете фото, пишете что-то вроде «transform into anime» - и получаете аниме-версию исходного снимка. Настроек минимум, результат отличный.

Ссылка: https://huggingface.co/autoweeb/Qwen-Image-Edit-2509-Photo-to-Anime

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1810👍6🍌1
DeepAnalyze: первый агентный LLM для полностью автономной Data Science 🤖📊

Забудьте о ручной обработке данных — DeepAnalyze-8B сам проходит весь путь:
от сырых файлов до аналитического отчёта уровня эксперта.

Поддерживает:
🛠 Подготовку данных, анализ, моделирование, визуализацию и генерацию инсайтов
🔍 Открытые исследовательские задачи и автоматическое составление research-репортов

И всё это — без жёстких workflow’ов, с обучением по принципу «от простого к сложному», как настоящий дата-сайентист.

При этом модель всего 8B параметров, но уже обгоняет агентов на проприетарных LLM.

Открытый код
Открытые веса
Открытые данные обучения

Идеальный инструмент для автоматизации рутинных и сложных data-задач.

🔗 https://ruc-deepanalyze.github.io
👍107🔥2
⚡️ Google представила Private AI Compute - облачную платформу, где Gemini выполняет запросы на серверах Google, но при этом данные остаются видимы только пользователю.

Даже сама компания не имеет к ним доступа.

Причина проста: локальные модели упираются в ограничения по вычислительным мощностям и контексту, поэтому сложные задачи переносятся в «запечатанное» облако с теми же гарантиями приватности, что и локальная обработка.

Основу системы составляют TPU и Titanium Intelligence Enclaves — аппаратно изолированные области, где код исполняется так, что хост не может прочитать входные и выходные данные. Перед отправкой запросов телефон проверяет подлинность окружения (через remote attestation) и шифрует канал.

Google описывает концепцию как “no access”: обработка данных в enclave не может быть просмотрена операторами или другими сервисами. Ключи и логи привязаны к состоянию самого enclave.

Первые функции уже работают на Pixel 10: улучшенные подсказки Magic Cue и расширенные языковые сводки в Recorder. Эти задачи требуют большого контекста и мощных вычислений, но при этом выполняются с сохранением приватности.

По сути, это аналог Apple Private Cloud Compute, но встроенный глубже в стек Google: простые запросы обрабатываются на устройстве, а тяжёлые — в аттестованном облачном enclave.

Источник: blog.google/technology/ai/google-private-ai-compute
👍3810🔥3🌚1
🧮 Anthropic против OpenAI: ставка на эффективность

По данным *The Information*, Anthropic делает акцент не на масштабах, а на эффективности - и планирует тратить на вычисления в несколько раз меньше, чем OpenAI, при этом сохраняя агрессивное ценообразование.

💸 Прогноз по затратам на вычисления
- 2025: Anthropic — ~$6 млрд, OpenAI — ~$15 млрд
- 2028: Anthropic — ~$27 млрд, OpenAI — ~$111 млрд

Это показывает существенный разрыв по себестоимости обработки токена.

📈 Финансовые цели
- Anthropic ожидает выйти в плюс по cash-flow уже в 2027
- Цель — ~$70 млрд выручки в 2028
- Для сравнения: OpenAI прогнозирует ~$100 млрд, но прибыльности ждёт только к 2029 году

⚙️ Как достигается эффективность
Anthropic распределяет вычисления между Google TPUs, Nvidia и Amazon.
Свежий контракт с Google предусматривает до 1 млн TPU и >1 ГВт мощностей к 2026 году — это заметно снижает стоимость токена при высокой загрузке.

💡 Модель монетизации
OpenAI инвестирует миллиарды в инфраструктуру для обслуживания бесплатных пользователей ChatGPT.
Anthropic же получает 80 % выручки от платного API и избегает чрезмерных расходов на «бесплатный» трафик.

Anthropic строит менее громкую, но гораздо более устойчивую и экономичную модель роста.
👍136🔥6🤣4
Baidu представила ERNIE 5.0 - новую омни-модальную модель, которая изначально обучена работать сразу со всеми типами данных: текстом, изображениями, видео и аудио.

ERNIE 5.0 особенно сильна в понимании мультимодального контекста, создании связных и творческих текстов и точном выполнении сложных инструкций.

ernie.baidu.com
12👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Создание изображений с контролем идентичности

WithAnyone — это проект, направленный на генерацию изображений с несколькими идентичностями, позволяющий контролировать выражения лиц, прически и аксессуары. Он решает проблему "копирования-вставки" в генерации лиц, обеспечивая гармоничное сочетание всех созданных образов в одной фотографии.

🚀 Основные моменты:
- Контролируемая генерация лиц без артефактов.
- Поддержка многократной генерации идентичностей.
- Доступны модели и датасеты на Hugging Face.
- Интерактивная демонстрация доступна онлайн.

📌 GitHub: https://github.com/Doby-Xu/WithAnyone
👍103
IBM представила два новых квантовых процессора - Nighthawk и Loon - и сделала важный шаг: теперь все её квантовые чипы производятся на 300-мм пластинах в Albany NanoTech. Это снижает стоимость, ускоряет эксперименты и делает квантовое железо более «промышленным». IBM говорит о квантовом преимуществе уже к 2026 году и устойчивой работе с коррекцией ошибок к 2029.

Nighthawk увеличивает сложность схем примерно на 30% при тех же уровнях ошибок. Он рассчитан на нагрузки с ~5000 двухкубитных операций и должен вырасти до ~15000 к 2028 году. Поддерживает Qiskit и будет доступен пользователям в конце 2025.

Loon — это шаг к по-настоящему устойчивым квантовым вычислениям: более эффективная коррекция ошибок, длинные связи между кубитами через многослойную маршрутизацию, сброс кубитов между циклами и сверхбыстрое декодирование ошибок менее чем за 480 нс. Новый LDPC-подход IBM вывела на год раньше графика.

Почему важны 300-мм пластины? Их площадь в 2.25 раза больше, чем у 200-мм, значит — больше чипов за один прогон и ниже стоимость. Это также позволяет параллельно тестировать разные варианты чипов и ускорять разработку.

Albany работает 24/7, и IBM уже удвоила скорость R&D: время сборки сократилось в два раза, а сложность создаваемых систем выросла в 10 раз.

Переход на полноценное 300-мм производство означает, что квантовые процессоры становятся реальной производственной технологией, а не лабораторными экспериментами.

https://www.ibm.com/quantum/blog/300mm-fab
👍93🔥2
🧠 Большой шаг к AGI.

MIT представили подход SEAL - метод, который позволяет языковым моделям самостоятельно обновлять свои знания и «вписывать» новую информацию прямо во внутренние веса.

Вместо статичной модели после релиза появляется система, которая:
- пишет свои «учебные конспекты»,
- генерирует несколько вариантов объяснений,
- тестирует себя,
- выбирает лучший результат,
- и обновляет себя же, закрепляя новое знание.

Фактически модель саморедактируется и самообучается, как студент, который улучшает понимание через пробу и ошибки.

Первые результаты впечатляют:
- +15% точности в QA-задачах
- +50% успеха в освоении новых навыков
- маленькая модель превосходит крупные LLM

Проблема катастрофического забывания ещё есть, но прогресс быстрый.
Это выглядит как первый реальный шаг к непрерывно обучающимся AI-агентам, которые могут адаптироваться, эволюционировать и работать вместе.

https://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge-1112
🔥267👍4😁2🌭1
⚡️ NVIDIA выпустила модель Llama-3 Nemotron Super-49B-v1.5-NVFP4

Это 49B reasoning-модель, улучшенная версия Meta Llama-3.3-70B-Instruct, которая даёт более сильное рассуждение, лучшее использование инструментов и стабильный диалог на длинных контекстах.

Она ориентирована на реальные агентные нагрузки - RAG, tool calling, сложные цепочки действий - и поддерживает контекст 128K, позволяющий держать большие беседы, документы и планы без нарезки.

Главное обновление - Neural Architecture Search, который снижает потребление памяти и повышает пропускную способность.
В итоге модель может выполнять тяжёлые задачи на одном H200 под высокой нагрузкой - это уменьшает стоимость сервинга и позволяет использовать большие batch'и.

huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5-NVFP4
9👍5🔥4
🚀 PyTorch выходит за рамки квантизации: теперь с **Sparse Inference**

Новый виток оптимизации - разреженный вывод в PyTorch. Это означает: меньше памяти, выше скорость, без необходимости менять архитектуру модели.

🔍 Что такое Sparse Inference?

Разреженность - это когда в весах и активациях модели большинство значений обнулены (например, 80–90%).
Теперь PyTorch умеет:

- 📦 Использовать N:M разреженность (например, 2:4 sparsity)
- Ускорять инференс на GPU и CPU
- 🧠 Поддерживать это в torch.compile() и torch.export

🧠 Как это работает?

1. Модель обнуляется с помощью Pruning / Structured Sparsity
2. Преобразуется через torch.sparse.to_sparse() или torch.export
3. Запускается через TorchInductor + XNNPACK или CUTLASS

🔧 Что поддерживается:

- 🖥️ CPU (x86, M1/M2) — через XNNPACK backend
- ⚙️ GPU (Ampere+) — через CUTLASS
- 🔁 Интеграция с torch.compile() (TorchInductor)

💡 Почему это важно?

- 📉 Меньше память → меньше latency на edge-устройствах
- 🚀 Выше производительность без компромиссов
- 🔧 Удобно встраивается в текущий PyTorch-пайплайн

👉 Подробнее:https://pytorch.org/blog/beyond-quantization-bringing-sparse-inference-to-pytorch/
👍12🔥9🥰41
⚙️ Китайский “невозможный чип” меняет правила игры

В Китае представили разработку, которая может переписать будущее технологий. Речь о новом аналоговом чипе, который не просто обгоняет Nvidia и AMD — он выносит их за счётами.

Что известно:

- до 1000 раз быстрее современных топ-процессоров
- до 100 раз энергоэффективнее
- работает не в логике 1 и 0, а как мозг — обрабатывает непрерывные сигналы прямо в памяти
- никаких задержек, минимум потерь энергии, максимальный интеллект

Учёные заявляют, что решили проблему, над которой бились больше века: добились цифровой точности на аналоговом железе с минимальным потреблением. В тестах новый чип обошёл Nvidia H100 и AMD Vega 20 до 1000x по пропускной способности.

Если технология масштабируется, это может перевернуть всё — от ИИ и дата-центров до связи и робототехники. Начало новой техноэры может наступить намного раньше, чем кто-то ожидал.


https://www.livescience.com/technology/computing/china-solves-century-old-problem-with-new-analog-chip-that-is-1-000-times-faster-than-high-end-nvidia-gpus
🔥2512😁11😱5🤔3👍1
🔥 Подборка полезных ресурсов для программистов.

Здесь ты найдёшь всё это - коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Собеседования DS: t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Data Science: t.me/data_analysis_ml
Javanoscript: t.me/javanoscriptv
C#: t.me/csharp_1001_notes
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://news.1rj.ru/str/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://news.1rj.ru/str/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://news.1rj.ru/str/addlist/mzMMG3RPZhY2M2Iy
Папка Linux:https://news.1rj.ru/str/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://news.1rj.ru/str/addlist/BkskQciUW_FhNjEy

Сохрани себе, чтобы не потерять!
👍75🔥5
🔥 SciAgent - возможно, самый впечатляющий научный ИИ на сегодня

Это многоагентная система, которая координирует работу целой команды “мини-агентов”, как настоящий научный коллектив.

Главная идея проста и мощна:

- сверху есть Координатор, который понимает, какая задача перед ним: математика, физика, химия, какая сложность, какой тип рассуждений нужен
- он сам собирает нужную цепочку рассуждений из разных специализированных агентов
- те параллельно считают, моделируют, доказывают, проверяют и подстраиваются друг под друга

Это динамический научный pipeline, который ИИ строит *на ходу*.

И результаты - просто безумие:

- 🥇 уровень золотых медалистов на IMO 2025
- 💯 идеальный результат на IMC 2025
- 🔝 почти человеческий топ уровень на IPhO 2024/2025
- 📈 огромный отрыв на CPhO 2025 (264 против 199 у лучших людей)
- 🧠 уверенная работа на Humanity’s Last Exam
- ⚙️ полная автоматизация: моделирование, вычисления, вывод формул и верификация — всё параллельно

Почему это важно?

Потому что SciAgent показывает:
ИИ может рассуждать не как одиночная модель, а как команда специалистов, которая сама выбирает стратегию, инструменты и порядок действий.

Это уже не рост точности на 2 %.
Это новая парадигма научного мышления в ИИ.

И если такие системы будут масштабироваться - научные задачи высокого уровня изменятся навсегда.

https://arxiv.org/abs/2511.08151
🔥186👍6
🚨 Новый обзорный препринт о том, как ИИ меняет человеческое мышление - простым языком выделяю главное.

ИИ перестал быть просто инструментом: он всё сильнее вмешивается в то, как мы думаем, что считаем важным и какие решения принимаем.

Главные идеи:
- ИИ берёт на себя всё больше когнитивных задач, а мы начинаем меньше думать сами. Растёт риск «ленивого мышления».
- Персонализированные алгоритмы создают пузырь: нам показывают только удобные мнения. Это снижает разнообразие взглядов и усиливает поляризацию.
- ИИ легко воздействует на наши когнитивные искажения. Алгоритмы могут подталкивать к нужным эмоциям и решениям.
- Информационные экосистемы становятся управляемыми: дезинформация может распространяться автоматически и тонко.
- Встаёт философский вопрос: что будет, если ИИ приблизится к сознанию? Где пройдёт граница между человеком и машиной?
- Итог автора: растёт риск потери интеллектуальной автономии. Чтобы смягчить эффект, нужны образование, прозрачные модели и продуманное управление ИИ.

Источник: arxiv.org/abs/2508.16628
18🔥8👏3😱2🙏2
⚡️ 94-страничный обзор о том, как научные LLM эволюционируют за счет более богатых данных и замкнутых циклов с автономными агентами.

Авторы разобрали 270 датасетов и 190 бенчмарков.

Почему обычные LLM не тянут науку?

Научные данные - это смесь текста, таблиц, формул, кода, изображений и неопределённых измерений. Нюансы легко теряются.

Обзор предлагает:
- единую таксономию научных данных
- многослойную модель научного знания: от сырых наблюдений до теории

Эта рамка помогает строить преподготовку и постобучение так, чтобы модели сохраняли научные правила и могли соединять разные форматы и масштабы.

Обзор классифицирует модели по областям: физика, химия, биология, материалы, науки о Земле, астрономия, плюс универсальные научные ассистенты.

В оценке качества виден сдвиг: от одноходовых квизов, к процесс-ориентированным проверкам, которые оценивают цепочку рассуждений, работу с инструментами и промежуточные результаты.

Авторы продвигают закрытый цикл: агенты планируют эксперименты, запускают симуляторы или лаборатории, проверяют результаты и обновляют общее знание.

Итог: научные LLM движутся к подходу, основанному на данных, проверке процессов и агентных петлях, связанных с реальными доказательствами.

https://arxiv.org/abs/2508.21148
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥136🥰1👏1🤔1
🚀 Grok 4.1 - новая фронтир-модель, которая поднимает планку разговорного интеллекта, эмоционального понимания и практической полезности в реальных сценариях.

Grok 4.1 доступен бесплатно на:
grok.com
grok.x.com
• мобильных приложениях.

Первое место в LMArena Text Leaderboard (привет старому другу “quasar”) и в EQ-Bench (и даже превосходит Kimi k2).

Модель стала лучше понимать контекст, тон, эмоции и намерения собеседника, а также выдавать более точные и прикладные ответы. Это делает Grok 4.1 одним из наиболее продвинутых решений в своей категории.

https://x.ai/news/grok-4-1
👍95🔥1
🚀 Построение многоагентных систем с Laddr

Laddr — это фреймворк на Python для создания масштабируемых многоагентных систем, где агенты могут общаться, делегировать задачи и выполнять работу параллельно. Он предлагает гибкие архитектурные решения с поддержкой наблюдаемости и горизонтального масштабирования.

🚀Основные моменты:
- Модели работы: координация и последовательные потоки.
- Высокая производительность с автоматическим балансировкой нагрузки.
- Полная трассировка действий агентов и интерактивная панель мониторинга.
- Легкость в разработке с чистым CLI и поддержкой горячей перезагрузки.
- Совместимость с различными хранилищами и моделями AI.

📌 GitHub: https://github.com/AgnetLabs/Laddr

#python
11🔥4👍3
Утекли бенчмарки Gemini 3.0 Pro от taker_of_whizz —пока не можем подтвердить подлинность, но цифры просто безумные.

Результаты разрывают всё, что мы видели раньше:

🔥 HLE: 37,5%
🔥 MathArena Apex: 22,3%
(для сравнения — **GPT-5.1 всего 1,0%**)

Если утечка реальна, Gemini 3.0 Pro именно такой, каким все его и хотели видеть — мощный, продвинутый и с невероятным ростом математических и логических способностей.

Ждём официального подтверждения, но выглядит *очень* многообещающе.

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
11🔥6🤣3👍2👌1
⚡️ Helion - новый высокоуровневый DSL для быстрых и переносимых ML-ядер

Helion - это DSL внутри Python, который компилируется в оптимизированные Triton-ядра. Он сочетает привычный стиль PyTorch с автоматическим тюнингом, давая разработчикам производительные и переносимые ядра под разные архитектуры.

Что делает Helion полезным:
- Автоматически обрабатывает индексацию тензоров
- Управляет памятью и оптимальными доступами
- Подбирает настройки под конкретное железо
- Позволяет писать ядра на уровне «как в PyTorch», а получать код уровня Triton

Итог: разработчик пишет минимум — Helion делает максимум, превращая простое описание вычислений в эффективно оптимизированное ядро.

Подробнее в блоге PyTorch: pytorch.org/blog/helion/
9🔥4👍3
5 ФАТАЛЬНЫХ ОШИБОК В ГРАФИКАХ, КОТОРЫЕ ПОДРЫВАЮТ ДОВЕРИЕ К ВАШЕМУ АНАЛИЗУ

Забирайте гайд с разбором основных ошибок в канале Сделай это красиво. Автор — Алексей Смагин, дата-журналист и аналитик Яндекса.

ГАЙД ПОДОЙДЁТ:

— аналитикам данных и продуктовым аналитикам
— научным сотрудникам и исследователям
— руководителям, которые работают с отчётностью
— всем, кто делает презентации с графиками

Умение анализировать — это круто. Но заказчики не видят вашу работу, они видят итоговые выводы. А от их оформления зависит, оценят ли результат.

Научиться делать графики — это быстро и легко. Достаточно исключить базовые ошибки — и ваша инфографика сразу будет выглядеть профессиональнее.

Подписывайтесь и забирайте гайд в закрепе:
https://news.1rj.ru/str/+MrupeY943_QwNzZi
🤣92