NEW BOT Телеграм, страница

Aspiring Data Science

#ads #marketing #ai

"Система следит за тем, как посетители магазина задерживаются у витрин, наклоняются к ним, берут в руки товары, сравнивают их и совершают прочие действия. Данные с камер транслируются на платформу генеративного ИИ, которая в виде «консьержа-аватара» делает им персональные предложения. В Fujitsu считают, что эта технология способствует возвращению покупателей к прилавкам с намерением приобрести конкретный товар.

Компания разработала эту платформу при содействии группы учёных под руководством Наото Ондзо (Naoto Onzo), директора Института маркетинга и коммуникаций при университете Васэда. Исследователи выдвинули гипотезу, что «на решения потребителей о покупке влияют теплота и компетентность, индикаторы осведомлённости поставщика услуг о личности и знаниях потребителя, а также дизайн и функциональность продукта». На основе этой гипотезы была разработана модель, которая «оценивает вероятность перемен в поведении при обслуживании клиента и [показе ему] рекламного контента на основе данных о поведении и атрибутах отдельных потребителей, проанализированных технологией распознавания человека».

В Fujitsu согласились, что эта идея имеет перспективы, поскольку клиенты хотят «увлекательного клиентоориентированного опыта», но разработка соответствующего контента требует времени, денег и кадровых ресурсов. ИИ делает то же быстрее и дешевле. Технология будет тестироваться в супермаркете до 15 октября, и основанное на этом пилотном проекте решение будет подготовлено уже до конца 2023 финансового года — он завершится 31 марта 2024 календарного года."

https://3dnews.ru/1091057/kameri-v-yaponskom-supermarkete-stali-nablyudat-za-pokupatelyami-chtobi-pokazivat-im-tselevuyu-reklamu

3DNews - Daily Digital Digest

Таргетинг нового уровня: камеры в японском супермаркете стали наблюдать за покупателями для показа целевой рекламы

Супермаркет Aruk Mitajiri в японском городе Хофу при содействии Fujitsu запустил интеллектуальную систему наблюдения, которая следит за поведением посетителей, анализирует его при помощи искусственного интеллекта, чтобы демонстрировать им основанную на этих…

113 viewsAnatoly Alekseev, 17:38

Aspiring Data Science

#ml #labeling

https://www.youtube.com/watch?v=4zhJjqDt4WM

YouTube

Анастасия Беззубцева | Чистые метки для ML

В этом видео:
Расскажем про связь качества моделей и меток, на которых она обучена, про способы улучшить качество меток, полученных от крауда. Поделимся историями из жизни - плохими и хорошими примерами, как можно организовать сбор меток, и как их качество…

87 viewsAnatoly Alekseev, 18:31

Aspiring Data Science

#ml #bayesnetworks #bamt

Попытка потестировать Bamt провалилась. В руководстве они выкатили пример предсказания байесовской сетью наличия питомца по профилю vk юзера. Получили точность 94% и на том посчитали пример завершённым. При более детальном рассмотрении оказалось:
1) питомец был всего у 5% пользователей, и bamt ВСЕГДА предсказывала класс 0 (те ничему не училась)
2) из 80+ фичей авторы библы взяли лишь 8. я ещё удивлялся, почему. она работает ОЧЕНЬ МЕДЛЕННО. 30k примеров, 8 фичей обучается примерно секунд 50. с мультипроцессингом.
3) в примере они обучались на train set и потом предсказывали на ... sample(100) от того же train set.
4) катбуст и особенно xgboost обучались за доли секунды. но даже они не смогли ничему научиться, что было видно на CV, потому что.. отобранные авторами 8 фичей были нерелевантными.
5) предсказывать наличие питомца всё же было можно, и с хорошей точностью, надо было просто взять все фичи. доказано бустингами. но bamt над всеми фичами сожрал всю память на ноуте. а на компе питон младше 3.9, bamt не поставился. Махнул я на всё рукой, у кого много памяти (от 32gb) и новый питон, можете попробовать мой блокнотик в аттаче.
6) гауссовы смеси в bamt постоянно вылетали с

fitting the mixture model failed because some components have ill-defined empirical covariance (for instance caused by singleton or collapsed samples). Try to decrease the number of components, or increase reg_covar

. В MathUtils.py к вызовам GaussianMixture(n_components=i, random_state=0) пришлось добавить с потолка reg_covar=1e-1, чтобы оно просто запускалось. Хотя как это влияет на качество решения - вопрос.

Ну и зарепортил недочёты. Вдруг что-то исправят.

GitHub

BAMT/tutorials/example_socio.ipynb at master · aimclub/BAMT

Repository of a data modeling and analysis tool based on Bayesian networks - aimclub/BAMT

👍4

110 viewsAnatoly Alekseev, edited 20:32

Aspiring Data Science

#masters #ensembling #localaccuracy

Ещё одна оригинальная техника ансамблирования, с названием "по локальной точности". Для каждого экземпляра при выдаче прогноза участвует только одна из моделей ансамбля - "наиболее компетентная локально". в обучающем наборе ищется N (например, 10) примеров, наиболее похожих на прогнозный (по расстоянию в метрическом пространстве - например, евклидовом). Точность каждой модели ансамбля рассчитывается "локально" на этих N примерах, ответ позволяется дать победившей модели.

141 viewsAnatoly Alekseev, 22:31

Aspiring Data Science

#dask #coiled

Так смешно. Мэтт Роклин, глава Coiled (и создатель Dask), прислал мне емэйл, что, мол, я престал пользоваться их продуктом, не предоставлю ли обратную связь, почему так вышло? Не знаю, часть ли это стандартной практики контроля качества, или связано с нашей беседой по поводу отсутствия в койлед функциональности мультипотоков, которая есть в опенсорсном dask-distributed, на что я указал им в issue и они пытались мне помочь (но их советы не сработали). Я ответил на письмо, что детальный feedback предоставлю, но мне только нужно понять, насколько развитие dask-distributed создаёт конфликт интересов с развитием коммерческого Койлед, к примеру, что будет, если я предложу PR по добавлению в AWS dask-cloudporvider спотовых инстансов, которых там по странному стечению обстоятельств не завезли. В течение часа Мэтт ответил, что это не проблема, и парни из nvidia, которые тоже поддерживают dask, будут рады это принять. Ну хорошо, подумал я, люди открыты меняться в лучшую сторону, и честно изложил во втором письме свои мысли по поводу того, что Койлед берёт слишком много денег за весьма скромную функциональность, и не пытается даже решить актуальные проблемы: выбор серверов где нагрузка юзера будет считаться быстрее и дешевле, гетерогенные кластера в разных облаках, прогноз interruption rates, prices, perf scores с помощью ML и предоставление пользователю этих оценок. Я как-то думал, это приведёт к плодотворной дискуссии, но прошло уже несколько дней, а мой визави просто пропал )

В связи с этим вспомнился анекдот:

- Вы указали в резюме, что Вашим основным недостатком является привычка всегда говорить напрямик и только правду, верно?
- Да.
- Но, знаете, я думаю, это вовсе не недостаток, а даже преимущество.
- Да мне по*уй, что ты там думаешь.

😁2

100 viewsAnatoly Alekseev, edited 00:40

Aspiring Data Science

#physics #superconductors #lk99 #laidakushanreva99

https://www.youtube.com/watch?v=C5XeODX3wcY

YouTube

Высокотемпературная сверхпроводимость: мы на пороге новой технологической революции?

Учёные из Южной Кореи утверждают, что открыли вещество, становящееся сверхпроводником при комнатных условиях. Разбираемся, что вообще такое сверхпроводимость, почему она возникает и что может дать нам открытие корейских учёных, если их сообщения подтвердятся?…

97 viewsAnatoly Alekseev, edited 11:04

Aspiring Data Science

#selfdriving #yandex #taxi

"Компания «Яндекс» запустила в тестовом режиме сервис беспилотного такси в московском районе Ясенево в июне 2023 года. Стоимость любой поездки в роботакси составляет 100 рублей. В компании отмечали, что в тестировании могут поучаствовать пользователи от 18 лет. Заказать поездку можно в приложении «Яндекс Go».

Первые испытания роботакси «Яндекс» провёл в 2018 году в Иннополисе, после чего они были перенесены в Москву. К июню 2023 года беспилотные машины «Яндекса» наездили 24 млн км, а жители Иннополиса заказали более 60 тыс. поездок."

https://3dnews.ru/1091071/yandeks-pristupil-v-moskve-k-testirovaniyu-bespilotnih-avtomobiley-bez-voditelya-za-rulyom

3DNews - Daily Digital Digest

«Яндекс» выпустил на дороги Москвы беспилотные автомобили без водителя за рулём

«Яндекс» приступил к новому этапу тестирования технологии автономного вождения.

101 viewsAnatoly Alekseev, 13:38

Aspiring Data Science

#masters #ml #entropy #mutualinformation #featureselection #pld #fleuret

Читаю последние главы книги "Assessing and Improving Prediction and Classification" Тима Мастерса, и прямо хочется взять и самому реализовать расписанные там алгоритмы отбора предикторов на основе прямого последовательного включения (forward stepwise selection) и теории информации. Тем более что у меня же есть в планах большое сводное тестирование методов FS. Почему прямого - он самый быстрый, следовательно, в современных реалиях, когда предикторов десятки тысяч, самый практичный.

Самый простой вариант называется PLD, когда на каждом шаге в набор активных предикторов S выбирается фича, имеющая самую высокую взаимную информацию (ВИ/MI) с таргетом минус среднюю ВИ с уже зафиксированными переменными S.

Улучшенная версия Fleuret ещё более интеллектуальна, она смотрит на условную ВИ зафиксированных переменных и таргета при данном кандидате:

Suppose X is a candidate for inclusion and Z is a variable that is already in S, the set of predictors chosen so far. The conditional mutual information of X and Y given Z measures how much the candidate X contributes to predicting Y above and beyond what we already get from Z. A good candidate will have a large value of I(X;Y|Z) for every Z in S. If there is even one variable Z in S for which I(X;Y|Z) is small, there is little point in including this candidate X, because it contributes little beyond what is already contributed by that Z.

129 viewsAnatoly Alekseev, edited 17:44

Aspiring Data Science

#ml #featureselection #mrmr #uber

Оказывается, сотрудники Uber уже проводили сравнение методов FS на синтетике (70 фичей, смешно) и 3 реальных датасетах (upsell/crosssell, ~ тысяча фичей) в парадигме mRMR. Работа мне не понравилась:
1) хотелось бы видеть сравнение с другими парадигмами FS
2) что за странный выбор моделей? самой сильной из выбранных был случайный лес. в 2019м бустинги уже были.
3) не было HPT
4) не было ES
5) для синтетики не показали, угадал ли блок FS истинные предикторы
6) непонятно, как обработали категорийку

Самое главное: судя про графикам, отбором признаков вообще заниматься не надо, если модель достаточно мощная. Случайный лес на всех признаках практически всегда не уступал конвейеру с FS. А зачем тогда тратить время на FS?

Но скажу из своего опыта: когда фичей десятки тысяч, и одна из них чуть ли не прямо определяет таргет, + есть изрядно избыточных, сдыхают даже бустинги (а именно, катбуст) - показывают слабую зависимость, хотя по идее должны 100% выучить связь.

94 viewsAnatoly Alekseev, edited 22:09

Aspiring Data Science

#aws #amazon #cloud

"Компания Amazon отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 30 июня. По ключевым показателям зафиксирован рост. В частности, общая выручка увеличилась в годовом исчислении на 11 % — со $121,2 млрд до $134,4 млрд. По итогам II квартала Amazon продемонстрировала чистую прибыль в размере $6,7 млрд, или $0,65 в пересчёте на одну ценную бумагу. Годом ранее компания понесла чистые убытки около $2,0 млрд, что эквивалентно $0,20 на одну акцию."

https://servernews.ru/1091078

ServerNews - все из мира больших мощностей

Квартальная выручка AWS выросла на 12 %, превысив $22 млрд — деньги пойдут на развитие ИИ-инфраструктуры

Компания Amazon отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 30 июня. По ключевым показателям зафиксирован рост. В частности, общая выручка увеличилась в годовом исчислении на 11 % — со $121,2 млрд до $134,4 млрд. По итогам…

83 viewsAnatoly Alekseev, 22:41

Aspiring Data Science

#hardware #cpu #bergamo #genoax #avx512 #tensorflow

"Несмотря на то, что AVX-512 является детищем Intel, ситуация складывается довольно абсурдная: текущая серия Sapphire Rapids сильно отстаёт по количеству ядер от AMD Bergamo, а многоядерные (до 144 ядер) Xeon серии Sierra Forest, скорее всего, поддержки AVX-512/AVX10 не получат.

Таким образом, AMD Bergamo с ядрами Zen 4c являются единственными в мире 128-ядерными процессорами с поддержкой 512-битных расширений. На примере AMD EPYC 9754 видно, что несмотря на отсутствие полноценных регистров такой ширины, выгода от активации AVX-512 может быть весьма существенной, в некоторых случаях практически двукратной, а в TensorFlow — даже шести- или десятикратной.

А теперь перейдём к EPYC 9684X (Genoa-X) — также достаточно уникальному процессору, сочетающему в себе 96 ядер, AVX-512 и 3D V-Cache, доводящий общий объём кеша L3 до гигантского значения 1,1 Гбайт. В данном случае разница также сильно варьируется в зависимости от характера нагрузки, но в некоторых случаях может быть и двукратной.

В среднем эффект выражается в 12 % приросте производительности, что также весьма неплохо. На тактовую частоту и уровень энергопотребления отключение 3D V-Cache влияния не оказывает. Таким образом становится очевидно, что AMD EPYC 9684X — процессор специфический, уступающий по количеству ядер Bergamo и заточенный исключительно под нагрузки, могущие эффективно использовать огромный объём кеша, такие, как OpenFOAM или OpenVINO."

https://servernews.ru/1090769

ServerNews - все из мира больших мощностей

AVX-512 вдвое ускоряет AMD EPYC Bergamo, а Genoa-X выигрывают от большого кеша

Хотя реализация AVX-512 в процессорах AMD на базе микроархитектуры Zen 4 сомнительна — настоящих 512-битных регистров у этих процессоров нет и для этого в два этапа задействуются имеющиеся 256-битные, сама ситуация на рынке делает эти решения уникальными.

80 viewsAnatoly Alekseev, 22:44

Aspiring Data Science

#hardware #raspberry

"Дебютировал одноплатный компьютер Orange Pi 3B на аппаратной платформе Rockchip. Как сообщает ресурс CNX Software, новинка выполнена в форм-факторе Raspberry Pi 3B, но при этом предлагает более высокую производительность и расширенные возможности в плане хранения данных.

Изделие имеет габариты 85 × 56 мм и весит 49 г. Установлен процессор Rockchip RK3566, объединяющий четыре ядра Cortex-A55 с тактовой частотой до 1,8 ГГц и графический блок Arm Mali-G52 с поддержкой OpenGL ES 1.1/2.0/3.2, OpenCL 2.0, Vulkan 1.1. Есть NPU-модуль с быстродействием 0,8 TOPS для ускорения Caffe, TensorFlow, TFLite, ONNX, PyTorch, Keras, Darknet.

Мини-компьютер может нести на борту 2, 4 или 8 Гбайт оперативной памяти LPDDR4/4x. В оснащение входит eMMC-накопитель вместимостью от 16 до 256 Гбайт.

стройство оборудовано контроллером 1GbE (YT8531C; гнездо RJ-45), адаптерами Wi-Fi 5 (2,4/5 ГГц) и Bluetooth 5.0 (на базе CDTech 20U5622), интерфейсами HDMI 2.0 (до 4Kp60), MIPI DSI × 2 и eDP 1.3, одним портом USB 3.0 и тремя портами USB 2.0, аудиогнездом на 3,5 мм. Упомянуты также 40-контактная колодка, совместимая с Raspberry Pi (28× GPIO, UART, SPI, I2C, PWM), коннектор для вентилятора охлаждения (5 В) и порт USB Type-C для подачи питания (5 В / 3 A).

Говорится о поддержке Android 11, Ubuntu 22.04, Ubuntu 20.04, Debian 11, Debian 12, OpenHarmony 4.0 Beta1, Orange Pi OS (Arch), Orange Pi OS и пр. Цена варьируется от $35 до $68 в зависимости от размера памяти."

https://servernews.ru/1091098

👍1

84 viewsAnatoly Alekseev, 22:45

Aspiring Data Science

#sklearn #mlgems

Лучшие практики sklearn, для новичков и среднего уровня.

https://www.youtube.com/watch?v=WkqM0ndr42c

YouTube

My top 50 scikit-learn tips

If you already know the basics of scikit-learn, but you want to be more efficient and get up-to-date with the latest features, then THIS is the video for you.

My name is Kevin Markham, and I've been teaching Machine Learning in Python with scikit-learn for…

163 viewsAnatoly Alekseev, 00:00

Aspiring Data Science

#tradig #backtesting #starke

https://www.youtube.com/watch?v=gDG7OI3hbQg

YouTube

Micro-Alphas: Financial Geology | Algo Trading Conference

This session on Micro Alphas: Financial Geology by Dr. Thomas Starke introduces you to the concept and its relevance in current and future financial markets.

********
Learn more such concepts of Algorithmic trading from Dr. Thomas Starke through - Join EPAT…

106 viewsAnatoly Alekseev, 07:37

Aspiring Data Science

#trading #portfolios #clenow

https://www.youtube.com/watch?v=SalZFMDUMzA

YouTube

What Sets Professional and Retail Traders Apart

(Re-upload)

There is much mystique and lore around professional trading and how organizations like hedge funds and prob traders operate. Some misunderstandings and myths can lead to dangerous trading approaches and excess risk taking. This practical presentation…

127 viewsAnatoly Alekseev, 08:30

Aspiring Data Science

#wisdom #ecclesiastes

110 viewsAnatoly Alekseev, 09:14

Aspiring Data Science

#ml #classification #imblance #generation #synthetic #controlled #calibration

АНОНС

Работа с синтетическими данными - контролируемый эксперимент, позволяющий проникнуть мыслью в глубины DS процесса. У меня и раньше возникали подозрения, что общепринятые метрики оценки качества классификации в условиях дисбаланса классов нехороши. Сегодня я подкрепляю эти соображения численными экспериментами и предлагаю метрику классификации, хорошо дискриминирующую качественные модели от никчёмных, в том числе при несбалансированных классах и даже при слабой принципиальной прогнозируемости (например, когда львиная доля влияния на таргет осуществляется недоступными для наблюдения факторами из неизвестного домена).

✍2💅1

103 viewsAnatoly Alekseev, 16:37

Aspiring Data Science

#ml #classification #imblance #generation #synthetic #controlled #calibration

In this article I’d like to share with you my findings about inconsistency of traditional ML metrics when it comes to imbalanced binary classification, and propose a superior metric from calibration domain that works well and possesses high discriminative power not only in cases of class imbalance, but also when the predictability itself is fundamentally weak (i.e., when factors most predictive to the target are unknown or not reachable, and everything we can hope is to explain at least some part of target’s variation with help of modelling).

https://medium.com/@fingoldo/why-rp-roc-auc-should-not-be-your-first-choice-metrics-for-classification-tasks-8ed516cec1ee

Medium

Why PR/ROC AUC should NOT be your first choice metrics for classification tasks

In this article I’d like to share with you my findings about inconsistency of traditional ML metrics when it comes to imbalanced binary…

🔥1

121 viewsAnatoly Alekseev, 02:59

Aspiring Data Science

Forwarded from Время Валеры

Однажды я работал директором по моделированию и анализу данных в одной из крупнейших корпораций РФ - X5 Retail Group. Одновременно с этим я работал вице-президентом по машинному обучению в одной из крупнейших корпораций мира - Alibaba.

Преисполнившись чувством собственной важности, я решил что пора купить себе очки и направился в салон оптики. В салоне меня поджидал продавец. Он с энтузиазмом начал показывать и нахваливать свой товар, переходя от одной полки к другой. В какой-то момент он остановился, окинул меня взглядом и сказал: ну эти лизны дорогие, около чирика (10 тысяч рублей), поэтому выбирай из тех что уже тебе показал.

Так я и сделал лазерную коррецию зрения

😁1

78 viewsAnatoly Alekseev, 14:15

Aspiring Data Science

tmp = pd.DataFrame({"num_legs": [2, 4, 8, 0], "num_wings": [2, 0, 0, 0], index=["falcon", "dog", "spider", "fish"])
tmp["num_legs_shuffled"] = tmp.num_legs.sample(frac=1.0)
Что выдаст print((tmp["num_legs_shuffled"] == tmp["num_legs"]).all())?

Anonymous Quiz

13 voters94 viewsAnatoly Alekseev, 23:39

Aspiring Data Science

#hardware #cpu #security

"Сотрудник Google Дэниел Могими (Daniel Moghimi) обнаружил уязвимость процессоров Intel, которая позволяет похищать ключи шифрования, пароли, электронные письма и сообщения, а также банковские данные. Проблема затрагивает чипы от Skylake до настольных Alder Lake и серверных Ice Lake, то есть до решений предпоследнего поколения. Уязвимость Downfall (INTEL-SA-00828) эксплуатируется через инструкции AVX2 и AVX-512 посредством атаки, которую Intel назвала Gather Data Sampling (GDS).

Downfall будет частично нейтрализована программным методом — сейчас Intel координирует выпуск микрокода с партнёрами по прошивкам и ОС. Уязвимость имеет высокий приоритет, поэтому по умолчанию исправляющий её фрагмент будет активен, но администраторы систем при необходимости смогут его деактивировать — эта опция будет доступна в Windows, Linux и VMM. В облачных инфраструктурах вопрос придётся решать через поставщика услуг.

В большинстве рабочих нагрузок обновленный микрокод на производительность процессора влияния не оказывает, но если речь идёт о нагрузках, связанных с уязвимыми инструкциями AVX2 и AVX-512, то оно может быть ощутимым, признали в Intel — эти инструкции наиболее востребованы в сфере высокопроизводительных вычислений (HPC). Примечательно, что Intel позиционирует набор AVX-512 как важнейшее конкурентное преимущество, но теперь ей пришлось заявить, что в большинстве рабочих нагрузок эта функция интенсивно не используется, и значительной потери производительности не ожидается."

https://3dnews.ru/1091230/u-protsessorov-intel-obnarugena-uyazvimost-downfall-ona-ekspluatiruetsya-cherez-instruktsii-avx2-i-avx512

3DNews - Daily Digital Digest

У чипов Intel обнаружена уязвимость Downfall — она позволяет воровать пароли через инструкции AVX2 и AVX-512

Сотрудник Google Дэниел Могими (Daniel Moghimi) обнаружил уязвимость процессоров Intel, которая позволяет похищать ключи шифрования, пароли, электронные письма и сообщения, а также банковские данные.

80 viewsAnatoly Alekseev, edited 12:46

About

Blog

Apps

Platform