Data Science by ODS.ai 🦜 – Telegram
Data Science by ODS.ai 🦜
44.6K subscribers
836 photos
92 videos
7 files
1.9K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Большое сравнение производительности мобильных чипов

Китайцы собрали более 70 смартфонов с разными процессорами и протестировали их все, собрав в единую табличку.

Вышло довольно интересное сравнение!

За базу в 100 баллов принят Snapdragon 8+ gen 1.

За результат теста CPU взято соотношение 25% однопотока + 75% многопотока Geekbench 6.
GPU: 50% Wild Lige Extreme + 50% Aztec 1440P
Общий результат 65% CPU + 35% GPU

Итог таков:
За 10 лет производительность CPU увеличилась в 9 раз.
Производительность GPU в 22 раза!

Ещё из интересного:
Уже несколько лет подряд мобильные чипы от Apple не самые быстрые в текущем поколении.
Последние пару лет решения от MediaTek по графике чуть быстрее Snapdragon.

Источник

@HWvsSW
1🔥62👍1😢1🎉1🙏1
Forwarded from ODS Events
Всем привет!

Встречайте двадцать третий выпуск подкаста "Капитанский мостик". В этом эпизоде обсуждаются последние новости в области робототехники и автоматизации, а также рассматриваются вопросы безопасности смарт-контрактов и их уязвимости. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
1🔥1
Media is too big
VIEW IN TELEGRAM
Китайцы собрали своего терминатора

Гуманоид T800 от EngineAI пинает генерального директора Чжао Туняна.

Мой Компьютер
🔥2🤯1😱1😢1🙏1
Forwarded from Machinelearning
📌Адвент-календарь по ML и DL.

Towardsdatascience запустил декабрьский Адвент-календарь "Machine and Deep Learning", котором предлагает разобраться, что под капотом у ML-процессов.

Фреймворки, например scikit-learn, сделали нас ленивыми. Вызов model.fit стал настолько обыденным, что в эпоху Gen AI кажется, будто обучение модели -это просто подбор параметров.

ML-инженеры жонглируют моделями со сложностью, которая растет в геометрической прогрессии, но при этом они не всегда способны вручную пересчитать и объяснить результаты даже самых простых алгоритмов: линейной регрессии или классификатора.

Модели превратились в "черные ящики", и это огромная проблема, ведь знание, что стоит за каждой функцией, критически важно для понимания процесса.


Фишка в том, что весь материал разбирается в Excel. Звучит диковато, но в этом и есть гений. В отличие от кода, где операции скрыты за функциями, в Excel каждая формула, каждое число, каждый расчет - всё на виду. Никаких "черных ящиков".

Уже вышло 7 статей:

🟢День 1 : k-NN Regressor

🟢День 2 : k-NN Classifier

🟢День 4 : GNB, LDA и QDA

🟢День 5 : GMM (Gaussian Mixture Model)

🟢День 6 : Decision Tree Regressor

🟢День 7 : Decision Tree Classifier

Цикл поможет ответить на вопросы, которые часто остаются за кадром: как грамотно обрабатывать категориальные признаки, когда масштабирование не является правильным решением, и как измерять важность признаков, интерпретируя их напрямую с моделью, минуя модель-агностические пакеты LIME и SHAP.

Серия будет полезна студентам для осмысления формул, и менеджерам для понимания какой ML-метод необходим для бизнеса. А для разработчиков это шанс наконец-то понять теорию.

В общем, это маст-рид для тех, кто хочет перестать быть оператором библиотек и по-настоящему понять, как работает ML-движок.

🔜 Мониторить выход новых статей можно тут, обещают публикацию до конца декабря в формате "один день - одна статья".



@ai_machinelearning_big_data

#AI #ML #DL #Tutorial #Excel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥41🥰1🎉1
🧠 Продвинутая типизация Python, о которой почти никто не знает

Статья показывает, что Python уже давно вышел за рамки простых List[int] и Optional[str].

Главные идеи:

✔️ TypeGuard и новый TypeIs позволяют писать функции, которые доказательно сужают типы - например, проверка превращает Any в конкретный тип для дальнейшего кода.

✔️ assert_never из typing помогает ловить случаи, когда ты забыл обработать один из вариантов, что особенно важно в match и сложных условных ветках.

✔️ Python 3.13+ добавляет улучшенный вывод типов и строгие проверки, чтобы типизированный код стал надёжнее.

✔️ Поддержка typed function overloading - теперь можно описывать разные сигнатуры для одной функции, и анализаторы понимают их корректно.

📌 Вывод из статьи - Python типизация уже стала инструментом для архитектуры и предотвращения ошибок, особенно в больших проектах. Но большинство разработчиков использует только её простейший слой.

Кому полезно:
• работаешь с крупными кодовыми базами
• пишешь библиотеки
• хочешь меньше скрытых багов и более предсказуемые refactor-ы

Источник: martynassubonis.substack.com/p/advanced-overlooked-python-typing
6👍2🔥1
☁️ МГТУ и «Росатом» открыли доступ к облачной квантовой платформе

Специалисты МГТУ им. Баумана, ВНИИА им. Духова и «Росатома» запустили облачную платформу Bauman Octillion. Она позволяет удаленно проводить эксперименты на реальных квантовых сопроцессорах.

🔜Пользователям предоставляется круглосуточный доступ к квантовому сопроцессору SnowDrop 4Q на базе четырех сверхпроводниковых кубитов. Точность выполнения однокубитных операций на нем составляет 99,89%, двухкубитных — 99,1%.

☝️С 10 по 20 декабря будет открыт тестовый доступ к более мощному устройству — SnowDrop 8Q с восемью кубитами и повышенной точностью. Это позволит ученым тестировать более сложные алгоритмы.

Подпишитесь на Электричку
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1
Forwarded from Russian OSINT
🤖 Крах ИИ-стратегии ❗️ Microsoft и стремительный взлет ❗️Google Gemini

Microsoft столкнулась с критическим падением спроса на свои флагманские ИИ-решения и была вынуждена резко сократить внутренние планы продаж. Свежая аналитика FirstPageSage за декабрь 2025 года фиксирует квартальный рост аудитории Google Gemini на уровне 12% против стагнирующих 2% у продукта Copilot. Инсайдеры издания The Information сообщают, что менеджеры «изо всех сил пытаются» закрыть сделки на фоне очевидного технологического превосходства конкурентных больших языковых моделей.

Эксперты подчеркивают, что принятая генеральным директором Сатьей Наделлой стратегия «выпускай сейчас, чини потом» привела к появлению на рынке откровенно слабых продуктов с низкой отказоустойчивостью. В то время как конкуренты выстраивают полный стек собственных технологий, Microsoft рискует потерять статус инноватора и превратиться в обычного посредника на рынке вычислительных мощностей.

У корпорации есть всё еще солидные 14% рынка и огромный корпоративный сегмент, но если катастрофический тренд сохранится, то Copilot потеряет статус второй платформы мира в 2026, уступив место Google Gemini.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4😁32👍1
Forwarded from AI.Insaf
Недавно завершилось соревнование по памяти в LLM для диалогов – GigaMemory: global memory for LLM (хабр)

Основной метрикой выступала Accuracy.

1-е место (86,6%) Вместо классического RAG для каждого чанка текста модели отдельно задают вопрос: Релевантен ли этот текст заданному вопросу?. Модель должна ответить токеном Да или Нет. По logprobs этих токенов рассчитывается уровень уверенности. В итоге возвращается список чанков, где уверенность выше порога 0.5. На основе этой информации формируется первичный ответ, который затем используется для итогового решения.

2-е место (84,5%) Подход технически сложнее, но концептуально похож на решение победителя.

3-е место (74,5%) Классический RAG с энкодером bge-m3 – этого оказалось достаточно для призового места.

Решения звучат интересно, но кажется в топ 2 решениях, под каждый запрос все прошлые диалоги перечитываются заново, а не берутся из уже готовой краткой выжимки 🤔
👍3🤯2🥰1
в продолжение обсуждения ICLR: не знаю, кто это начал, может быть это был Грэхэм Ньюбиг (1 картинка), но люди из Pangram Labs засучили рукава и сделали анализ

они проанализировали рецензии от 2021 года, предсказуемо почти 100% было оценено, как написанные людьми (2 картинка); а вот в текущем году уже 21% полностью сгенерирован, и еще 4% почти полностью, то есть 1 из 4 рецензий написана LLM (3 картинка)

интересно, что в плане рейтинга модели предсказуемо завышают оценки; но разница всего в три десятых балла, думаю, что статистически это неотличимо (4 картинка)

рекомендую посмотреть полные результаты, там много чего еще есть; кстати, коллеги выпустили препринт по своей системе EditLens, c помощью которой анализ делали (из забавного, процитировали моих бывших коллег, Катя, Лаида, привет!)

на мой взгляд бороться с волной ИИ-рецензий бессмысленно, нужно это возглавить; Ян ЛеКун как раз недавно рекламировал специальный сайт, куда можно загрузить статью и получить сгенерированную рецензию

@valuableai
👍1
🚀 Вышел Qwen-Image-i2L от DiffSynth-Studio - первый open-source инструмент, который умеет делать LoRA-модель из одной картинки. 🖼️➡️🧠

Что можно извлекать из изображения:

🎨 Style — только стиль и эстетика
🧩 Coarse — стиль + содержание сцены
Fine — улучшение детализации 1024×1024 (используется вместе с Coarse)
⚖️ Bias — подстройка под фирменный визуальный почерк Qwen-Image

Модель построена на SigLIP2 + DINOv3 + Qwen-VL.

Итог — можно взять одну картинку и быстро натренировать под неё собственную LoRA, без больших датасетов.

🔗 ModelScope: modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary
💻 Код: github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_inference_low_vram/Qwen-Image-i2L.py
🔥1
Forwarded from Python/ django
🖥 Малоизвестный факт о Python random.seed(), который может поломать ваш код

Документация создаёт впечатление, что любое целое число просто используется как seed (это “начальная точка” для генератора случайных чисел.).

Но Python перед использованием просто берёт абсолютное значение.

То есть:

➡️ seed(3) и seed(-3) - порождают один и тот же поток случайных чисел.

Это значит, что разные seed не всегда дают разные последовательности -

Python гарантирует только обратное: одинаковый seed → одинаковые числа.

Почему так?
В исходниках CPython есть строка, которая буквально делает:

seed = abs(seed)

И знак просто теряется, хотя алгоритм случайных чисел мог бы учитывать его.

🧠 Вывод:

Не используйте небольшие вариации seed (например 5 и -5) как способ получить разные потоки случайностей — это небезопасно.
Если вам нужны независимые RNG — создавайте их явно, а не полагаясь на “умные” seed.

[1] https://docs.python.org/3/library/random.html
[2] https://github.com/python/cpython/blob/main/Modules/_randommodule.c#L321C13-L321C30

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1🥰1🙏1😈1
Forwarded from False Positive
Media is too big
VIEW IN TELEGRAM
28 ноября Андрей Яковлев разобрал статью от OpenAI  «Why Language Models Hallucinate?»

🎬Выкладываем запись встречи и делимся выводами:
🛑галлюцинации возникают из-за статистического обучения (модель учится «угадывать» токены);
🛑post-training не избавляют модель от галлюцинаций;
🛑бинарные метрики бенчмарков поощряют угадывание, из-за чего модели оптимизированы быть "хорошо сдающими экзамены", а не честными;
🛑решение — использование "честных" методов оценки и вознаграждения моделей.

#reading_group #recording #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kirill Malev
AI platform for generating online courses just announced a 16M round by a16z

The product looks good but it wasn’t what clicked for me. I couldn’t help to notice the new trend of providing refined videos in the posts to share key updates. That’s something which just entered our life with the spread of AI.

Website: oboe.com
Source: https://x.com/nirzicherman/status/1998770866809712839

#AI #AI_adoption
1
Forwarded from База знаний AI
«Норникель» выпустил открытую языковую модель MetalGPT-1 и бенчмарк Alloy-Bench для металлургии

MetalGPT-1 обучена на 10 Гб текстов по металлургии и горнодобывающей промышленности. Это больше чем 1 млн документов, недоступных в открытых источниках. Данные прошли очистку и анонимизацию, чтобы предотвратить раскрытие коммерческой тайны. При обучении также использовалось около 500 тыс. вопросно-ответных и инструктивных пар на основе производственных и научных задач.

Модель содержит 32 млрд параметров. Она спроектирована для работы с профессиональной терминологией, аббревиатурами и сложными технологическими цепочками. «Норникель» создает на базе MetalGPT-1 персональных ИИ-ассистентов и автономных агентов, которые внедряются в операционные процессы компании.

Промышленный бенчмарк Alloy-Bench состоит из набора вопросно-ответных пар, которые относятся к различным процессам горно-металлургической отрасли. Как утверждают разработчики, MetalGPT-1 в тестах превосходит открытые универсальные модели.

👉🏻MetalGPT-1 и Alloy-Bench на Hugging Face

🔗Источник: https://nornickel.ru/news-and-media/press-releases-and-news/metalgpt-1-nornikel-vypustil-bolshuyu-yazykovuyu-model-dlya-metallurgii/
👍2