#boostings #mlgems
Подумал, жаль, что даже в лучших в современных библиотеках машинного обучения нет параметра timeout. В xgboost, catboost, lightgbm есть максимальное количество деревьев n_estimators, но вряд ли кому есть дело до точного количества деревьев в решении. Что на самом деле важно, так это максимальное время обучения модели, правда? Так почему бы не дать возможность его непосредственно задать параметром timeout?
Запостил feature requests. Мне, правда, указывают, что можно для этих целей приспособить коллбэк и отлавливать исключение, но в xgboost неясно, сохранится ли лучшая модель, если используется защита от оверфита. Да и гораздо удобнее, если такой простой параметр будет во всех либах без необходимости конструировать и тестировать свои коллбэки.
Если кто согласен с полезностью такой фичи, буду рад поддержке в гитхабовских ветках.
Подумал, жаль, что даже в лучших в современных библиотеках машинного обучения нет параметра timeout. В xgboost, catboost, lightgbm есть максимальное количество деревьев n_estimators, но вряд ли кому есть дело до точного количества деревьев в решении. Что на самом деле важно, так это максимальное время обучения модели, правда? Так почему бы не дать возможность его непосредственно задать параметром timeout?
Запостил feature requests. Мне, правда, указывают, что можно для этих целей приспособить коллбэк и отлавливать исключение, но в xgboost неясно, сохранится ли лучшая модель, если используется защита от оверфита. Да и гораздо удобнее, если такой простой параметр будет во всех либах без необходимости конструировать и тестировать свои коллбэки.
Если кто согласен с полезностью такой фичи, буду рад поддержке в гитхабовских ветках.
GitHub
Feature Request: add timeout parameter to the .fit() method · Issue #10684 · dmlc/xgboost
Adding the timeout parameter to the .fit() method, that should force the library to return best known solution found so far as soon as provided number of seconds since the start of training are pas...
❤1👍1
#gpt #openai #dating
"Как сообщает OpenAI, опубликовавшая в четверг отчёт по поводу безопасности использования расширенного голосового режима (Advanced Voice Mode, AVM) для сервиса ChatGPT, ставшего доступным для небольшого количества подписчиков ChatGPT Plus, голос чат-бота ChatGPT в режиме AVM звучит очень реалистично. Чат-бот реагирует в реальном времени, может подстраиваться под прерывание, воспроизводит звуки, которые люди издают во время разговора, например, посмеивается или хмыкает. Он также может судить об эмоциональном состоянии собеседника по тону его голоса.
После того, как OpenAI анонсировала эту функцию у мультимодальной модели генеративного ИИ GPT-4o, её начали сравнивать с цифровым помощником ИИ из вышедшего в 2013 году фильма «Она», в которого влюбляется главный герой.
Видимо у OpenAI вызывает опасения то, что вымышленная история оказалась близкой к реальности, после наблюдения за пользователями, которые разговаривают с ChatGPT в голосовом режиме на языке, «выражающем общие связи» с инструментом общения.
В итоге «пользователи могут формировать социальные отношения с ИИ, снижая свою потребность в человеческом взаимодействии — потенциально принося пользу одиноким людям, но, возможно, влияя на здоровые отношения», отметила OpenAI. В отчёте также указано, что получение информации от бота в голосовом режиме, звучащем как голос человека, может вызвать у пользователя больше доверия, чем следовало бы, учитывая склонность ИИ ошибаться."
https://3dnews.ru/1109278/openai-obshchenie-s-chatgpt-v-novom-golosovom-regime-moget-vizvat-u-polzovateley-privyazannost-k-chatbotu
"Как сообщает OpenAI, опубликовавшая в четверг отчёт по поводу безопасности использования расширенного голосового режима (Advanced Voice Mode, AVM) для сервиса ChatGPT, ставшего доступным для небольшого количества подписчиков ChatGPT Plus, голос чат-бота ChatGPT в режиме AVM звучит очень реалистично. Чат-бот реагирует в реальном времени, может подстраиваться под прерывание, воспроизводит звуки, которые люди издают во время разговора, например, посмеивается или хмыкает. Он также может судить об эмоциональном состоянии собеседника по тону его голоса.
После того, как OpenAI анонсировала эту функцию у мультимодальной модели генеративного ИИ GPT-4o, её начали сравнивать с цифровым помощником ИИ из вышедшего в 2013 году фильма «Она», в которого влюбляется главный герой.
Видимо у OpenAI вызывает опасения то, что вымышленная история оказалась близкой к реальности, после наблюдения за пользователями, которые разговаривают с ChatGPT в голосовом режиме на языке, «выражающем общие связи» с инструментом общения.
В итоге «пользователи могут формировать социальные отношения с ИИ, снижая свою потребность в человеческом взаимодействии — потенциально принося пользу одиноким людям, но, возможно, влияя на здоровые отношения», отметила OpenAI. В отчёте также указано, что получение информации от бота в голосовом режиме, звучащем как голос человека, может вызвать у пользователя больше доверия, чем следовало бы, учитывая склонность ИИ ошибаться."
https://3dnews.ru/1109278/openai-obshchenie-s-chatgpt-v-novom-golosovom-regime-moget-vizvat-u-polzovateley-privyazannost-k-chatbotu
3DNews - Daily Digital Digest
OpenAI забеспокоилась об отношениях людей с ChatGPT в новом голосовом режиме
Общение с ИИ-чат-ботом ChatGPT в новом голосовом режиме, когда его голос ничем не отличается от человеческого, может привести к появлению у пользователя зависимости от взаимодействия с ИИ, пишет ресурс CNN со ссылкой на отчёт OpenAI.
❤1
#sklearn
Продолжаем обзор новых интересных фичей, добавленных в sklearn за последние пар лет.
С версии 1.3 там есть TargetEncoder, т.е. можно по идее не тянуть в проект category_encoders. Сравнение с CE бы не помешало.
https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder.html#sphx-glr-auto-examples-preprocessing-plot-target-encoder-py
Продолжаем обзор новых интересных фичей, добавленных в sklearn за последние пар лет.
С версии 1.3 там есть TargetEncoder, т.е. можно по идее не тянуть в проект category_encoders. Сравнение с CE бы не помешало.
https://scikit-learn.org/stable/auto_examples/preprocessing/plot_target_encoder.html#sphx-glr-auto-examples-preprocessing-plot-target-encoder-py
scikit-learn
Comparing Target Encoder with Other Encoders
The TargetEncoder uses the value of the target to encode each categorical feature. In this example, we will compare three different approaches for handling categorical features: TargetEncoder, Ordi...
#sklearn
StackingRegressor/StackingClassifier. Можно самому не реализовывать стекинг,а взять готовый. Вопрос только в том, что не видно способа передавать fit_params,и, как следствие, валидационное множество для контроля переобучения. Зная подход авторов sklearn, я не удивлён такой лажей (хотя, возможно, это поддерживается через set_request?).
StackingRegressor/StackingClassifier. Можно самому не реализовывать стекинг,а взять готовый. Вопрос только в том, что не видно способа передавать fit_params,и, как следствие, валидационное множество для контроля переобучения. Зная подход авторов sklearn, я не удивлён такой лажей (хотя, возможно, это поддерживается через set_request?).
🤯1
#sklearn
TunedThresholdClassifierCV - тюнить порог решения классификатора теперь (с версии 1.5) можно элегантно. Открывает путь к удобному cost-sensitive learning.
"Classifier that post-tunes the decision threshold using cross-validation.
This estimator post-tunes the decision threshold (cut-off point) that is used for converting posterior probability estimates (i.e. output of predict_proba) or decision scores (i.e. output of decision_function) into a class label. The tuning is done by optimizing a binary metric, potentially constrained by a another metric."
Трейдерам на заметку: отличный пример, как использовать metadata routing, чтобы передать модели дополнительные параметры (здесь это величина транзакции в задаче обнаружения фрода).
TunedThresholdClassifierCV - тюнить порог решения классификатора теперь (с версии 1.5) можно элегантно. Открывает путь к удобному cost-sensitive learning.
"Classifier that post-tunes the decision threshold using cross-validation.
This estimator post-tunes the decision threshold (cut-off point) that is used for converting posterior probability estimates (i.e. output of predict_proba) or decision scores (i.e. output of decision_function) into a class label. The tuning is done by optimizing a binary metric, potentially constrained by a another metric."
from sklearn.model_selection import TunedThresholdClassifierCV
tuned_model = TunedThresholdClassifierCV(
estimator=model,
scoring=scoring["cost_gain"],
store_cv_results=True, # necessary to inspect all results
)
tuned_model.fit(X_train, y_train)
print(f"{tuned_model.best_threshold_=:0.2f}")
tuned_model.best_threshold_=0.02
Трейдерам на заметку: отличный пример, как использовать metadata routing, чтобы передать модели дополнительные параметры (здесь это величина транзакции в задаче обнаружения фрода).
👍1
#sklearn
Большой новый раздел, который я давно видел, но не вникал - роутинг метаданных. Видимо, с его помощью как раз можно передать валидационное множество объекту StackingClassifier, хотя там и нет такого явного параметра.
В примере ниже веса для скорера и для модельки передаются механизмом роутинга с более высокого уровня кросс-валидации. Удобно, что можно подписать разные компоненты на одни и те же метаданные, и всё это без parameters hell и всяких вложенных двойных подчёркиваний. Кажется очень перспективной новинкой, и придётся учитывать при разработке своих кастомных модулей, совместимых с sklearn.
Большой новый раздел, который я давно видел, но не вникал - роутинг метаданных. Видимо, с его помощью как раз можно передать валидационное множество объекту StackingClassifier, хотя там и нет такого явного параметра.
В примере ниже веса для скорера и для модельки передаются механизмом роутинга с более высокого уровня кросс-валидации. Удобно, что можно подписать разные компоненты на одни и те же метаданные, и всё это без parameters hell и всяких вложенных двойных подчёркиваний. Кажется очень перспективной новинкой, и придётся учитывать при разработке своих кастомных модулей, совместимых с sklearn.
weighted_acc = make_scorer(accuracy_score).set_score_request(
sample_weight="scoring_weight"
)
lr = LogisticRegressionCV(
cv=GroupKFold(), scoring=weighted_acc,
).set_fit_request(sample_weight="fitting_weight")
cv_results = cross_validate(
lr,
X,
y,
cv=GroupKFold(),
params={
"scoring_weight": my_weights,
"fitting_weight": my_other_weights,
"groups": my_groups,
},
scoring=weighted_acc,
)
scikit-learn
4. Metadata Routing
This guide demonstrates how metadata can be routed and passed between objects in scikit-learn. If you are developing a scikit-learn compatible estimator or meta-estimator, you can check our related...
#sklearn
GradientBoostingClassifier/HistGradientBoostingClassifier - реализация градиентного бустинга над деревьями, конкурент xgboost, lightgbm, catboost.
Смех смехом, а поддерживает автодетекцию категориальных признаков, чего команда катбуст не в силах сделать уже многие годы.
Также поддерживает раннюю остановку и validation_fraction - автосоздание валидационного множества, чего не могут сделать уже xgboost и lightgbm.
Завезены ограничения монотонности. Не завезена поддержка GPU.
GradientBoostingClassifier/HistGradientBoostingClassifier - реализация градиентного бустинга над деревьями, конкурент xgboost, lightgbm, catboost.
Смех смехом, а поддерживает автодетекцию категориальных признаков, чего команда катбуст не в силах сделать уже многие годы.
Также поддерживает раннюю остановку и validation_fraction - автосоздание валидационного множества, чего не могут сделать уже xgboost и lightgbm.
Завезены ограничения монотонности. Не завезена поддержка GPU.
✍1
#sklearn
set_output в схожей с set_request манере позволяет задать тип выходных данных компонента - массив numpy, фрейм pandas или polars. можно вызывать глобально, на уровне компонента и метакомпонента.
set_output в схожей с set_request манере позволяет задать тип выходных данных компонента - массив numpy, фрейм pandas или polars. можно вызывать глобально, на уровне компонента и метакомпонента.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().set_output(transform="pandas")
scaler.fit(X_train)
X_test_scaled = scaler.transform(X_test)
X_test_scaled.head()
scikit-learn
Introducing the set_output API
This example will demonstrate the set_output API to configure transformers to output pandas DataFrames. set_output can be configured per estimator by calling the set_output method or globally by se...
#aws #cloud
Повод подумать о достижимом эффекте+краткий обзор высокоуровневых ML-решений в AWS.
https://www.youtube.com/watch?v=l37J0pTWX9Q
Повод подумать о достижимом эффекте+краткий обзор высокоуровневых ML-решений в AWS.
https://www.youtube.com/watch?v=l37J0pTWX9Q
YouTube
Оценка эффекта от внедрения AI/ML решений
Главная сложность при решении бизнес-проблем с применением машинного обучения – это заранее понять, каким будет результат и будет ли решение успешным. В этом докладе мы обсудим как измерить эффект от внедрения ML и как убедиться, что результат соответствует…
#news #hpt #hpo #mbho #transferlearning #pmbho
Начинаю работу над одним из самых амбициозных своих ML проектов - оптимизатором гиперпараметров, основанном на моделях (PMBHO, Persistent Model Based Heuristic Optimizer).
Это следующий шаг в цепочке GridSearch->RandomSearch->HalvingRandomSearch->BayesianSearch.
BayesianSearch используется в оптимизаторах вроде optuna и hyperopt, которые вроде как считаются сейчас state of the art. На самом деле от Байесовского подхода там немного, по сути это скорее оптимизация "одноруких бандитов" поверх простенькой суррогатной модели, как правило, ГП - гауссова процесса (т.к. он позволяет учитывать неопределённость).
Недостатки BayesianSearch:
1) ГП откровенно слабоват как модель, часто бывает трудно подобрать подходящее ядро
2) не всё гладко с категорийками
3) никак не учитывается природа и структура данных - признаков и таргета
4) никак не учитываются знания, полученные при работе с другими датасетами
5) это уже недостаток конкретных реализаций - современные библиотеки подбора гиперпараметров обычно ни хрена не знают, какие собственно гиперпараметры есть у каких классов моделей. обычно юзеры сами задают поисковые пространства для 5-10 HP (при том что у современных бустингов их десятки)
6) библиотеки никак не отрабатывают конфликты гиперпараметров - юзерам предлагается разруливать всё вручную, из-за чего все и забивают на большинство HP и ограничиваются 5-6 самыми неконфликтными.
7) почти все известные мне оптимизаторы за оптимальный набор HP считают ту единственную точку в пространстве поиска, что достигает экстремума по нужной ML-метрике на CV. При этом никак не учитывается устойчивость в близких областях, что приводит к катастрофам на OOS (Out-of-Sample).
В результате десятки тысяч дата-сайентистов по всему миру для каждого нового проекта молотят сотни тысяч комбинаций гиперпараметров "каждый раз как в первый раз". There... There must be a better way! )
Гипотеза: есть мнение, что по некоторым базовым статистикам признаков и таргета (и их связей) уже можно определить перспективные наборы гиперпараметров.
А обучив несколько неглубоких моделек с фиксированными HP (назовём их "золотой стандарт") и изучив производные от их атрибутов (важностей признаков, кривых обучения и валидации по набору ML метрик), можно существенно повысить точность рекомендаций практически в реальном времени.
Решение: свой оптимизатор, основанный на принципе exploration-exploitation и на ранжировании кандидатов с помощью мета-модели, натренированной на разных датасетах и богатом наборе мета-данных. Периодически по мере проверки кандидатов на конкретной задаче можно основную модель подстраивать/файнтюнить (брать основной датасет с обычными весами+подмешивать актуальный датасет с большими весами). Оптимизатор интеллектуальный и будет учитывать значения и гладкость МЛ-метрик в ближайших окрестностях точек-кандидатов, знать, какие гиперпараметры есть у конкретного класса моделей и иметь таблицы конфликтов (например, будет знать, какие гиперпараметры недоступны на GPU).
В теории такой оптимизатор может быть эффективнее решений типа оптуны в разы. А может и не быть. При этом подход требует проведения огромного количества вычислений и экспериментов при подготовке мета-датасета, не говоря уже о программерской работе. Но, считаю, цель стоит усилий и риска.
Напомню, что у меня уже есть одномерный MBHO оптимизатор (сделанный для задачи #featureselection), и по результатам тестов мне удалось побить и оптуну, и гиперотпт, и эскаопт.
На самом деле, моя цель еще более амбициозная - в идеале я бы хотел для заданного датасета (сырые признаки+таргет+МЛ задача) быстро определять не только оптимальные классы МЛ моделей и их гиперпараметры, но и оптимальный препроцессинг (нейлинейные преобразования, PolynomialFeatures, сплайны, обработка категориальных входов, ядра, шкалирование, понижение размерности ) и трансформацию таргета (для задач регрессии). Пока неясно, можно ли эти 2 задачи эффективно увязать вместе.
Временные ряды в этой постановке - отдельная боль.
Как всегда, буду рад советам и конструктивной критике.
Начинаю работу над одним из самых амбициозных своих ML проектов - оптимизатором гиперпараметров, основанном на моделях (PMBHO, Persistent Model Based Heuristic Optimizer).
Это следующий шаг в цепочке GridSearch->RandomSearch->HalvingRandomSearch->BayesianSearch.
BayesianSearch используется в оптимизаторах вроде optuna и hyperopt, которые вроде как считаются сейчас state of the art. На самом деле от Байесовского подхода там немного, по сути это скорее оптимизация "одноруких бандитов" поверх простенькой суррогатной модели, как правило, ГП - гауссова процесса (т.к. он позволяет учитывать неопределённость).
Недостатки BayesianSearch:
1) ГП откровенно слабоват как модель, часто бывает трудно подобрать подходящее ядро
2) не всё гладко с категорийками
3) никак не учитывается природа и структура данных - признаков и таргета
4) никак не учитываются знания, полученные при работе с другими датасетами
5) это уже недостаток конкретных реализаций - современные библиотеки подбора гиперпараметров обычно ни хрена не знают, какие собственно гиперпараметры есть у каких классов моделей. обычно юзеры сами задают поисковые пространства для 5-10 HP (при том что у современных бустингов их десятки)
6) библиотеки никак не отрабатывают конфликты гиперпараметров - юзерам предлагается разруливать всё вручную, из-за чего все и забивают на большинство HP и ограничиваются 5-6 самыми неконфликтными.
7) почти все известные мне оптимизаторы за оптимальный набор HP считают ту единственную точку в пространстве поиска, что достигает экстремума по нужной ML-метрике на CV. При этом никак не учитывается устойчивость в близких областях, что приводит к катастрофам на OOS (Out-of-Sample).
В результате десятки тысяч дата-сайентистов по всему миру для каждого нового проекта молотят сотни тысяч комбинаций гиперпараметров "каждый раз как в первый раз". There... There must be a better way! )
Гипотеза: есть мнение, что по некоторым базовым статистикам признаков и таргета (и их связей) уже можно определить перспективные наборы гиперпараметров.
А обучив несколько неглубоких моделек с фиксированными HP (назовём их "золотой стандарт") и изучив производные от их атрибутов (важностей признаков, кривых обучения и валидации по набору ML метрик), можно существенно повысить точность рекомендаций практически в реальном времени.
Решение: свой оптимизатор, основанный на принципе exploration-exploitation и на ранжировании кандидатов с помощью мета-модели, натренированной на разных датасетах и богатом наборе мета-данных. Периодически по мере проверки кандидатов на конкретной задаче можно основную модель подстраивать/файнтюнить (брать основной датасет с обычными весами+подмешивать актуальный датасет с большими весами). Оптимизатор интеллектуальный и будет учитывать значения и гладкость МЛ-метрик в ближайших окрестностях точек-кандидатов, знать, какие гиперпараметры есть у конкретного класса моделей и иметь таблицы конфликтов (например, будет знать, какие гиперпараметры недоступны на GPU).
В теории такой оптимизатор может быть эффективнее решений типа оптуны в разы. А может и не быть. При этом подход требует проведения огромного количества вычислений и экспериментов при подготовке мета-датасета, не говоря уже о программерской работе. Но, считаю, цель стоит усилий и риска.
Напомню, что у меня уже есть одномерный MBHO оптимизатор (сделанный для задачи #featureselection), и по результатам тестов мне удалось побить и оптуну, и гиперотпт, и эскаопт.
На самом деле, моя цель еще более амбициозная - в идеале я бы хотел для заданного датасета (сырые признаки+таргет+МЛ задача) быстро определять не только оптимальные классы МЛ моделей и их гиперпараметры, но и оптимальный препроцессинг (нейлинейные преобразования, PolynomialFeatures, сплайны, обработка категориальных входов, ядра, шкалирование, понижение размерности ) и трансформацию таргета (для задач регрессии). Пока неясно, можно ли эти 2 задачи эффективно увязать вместе.
Временные ряды в этой постановке - отдельная боль.
Как всегда, буду рад советам и конструктивной критике.
⚡3🔥3
#surveys
DevCrowd проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:
- что входит в обязанности той или иной профессии;
- какие навыки наиболее важны и каких знаний не хватает;
- сколько зарабатывают специалисты в зависимости от опыта и грейда;
- какие каналы, курсы и книги полезны для профессионального роста.
Результаты (по заверениям авторов) появятся в открытом доступе в конце сентября, и "помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией".
Можете внести свой вклад в сбор статы, пройдя опрос.
DevCrowd проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:
- что входит в обязанности той или иной профессии;
- какие навыки наиболее важны и каких знаний не хватает;
- сколько зарабатывают специалисты в зависимости от опыта и грейда;
- какие каналы, курсы и книги полезны для профессионального роста.
Результаты (по заверениям авторов) появятся в открытом доступе в конце сентября, и "помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией".
Можете внести свой вклад в сбор статы, пройдя опрос.
DevCrowd
Недушные рисерчи российского IT. Мы опросили уже 10000+ айтишников
#astronomy #geology
"Марсианская автоматическая станция NASA InSight предоставила множество данных о внутреннем строении Красной планеты и её геологической и сейсмической активности. И хотя станция не работает с 2022 года, учёные продолжают разбирать полученные ею данные и делать открытия. В частности, новое исследование позволяет сделать вывод о чрезвычайно высокой насыщенности жидкой водой средней коры Марса в районе приземления станции. Её там — на океаны.
Оценочная глубина нахождения водоносных слоёв на Красной планете составляет 11–20 км. Впрочем, пока это только вероятность и данные моделирования. Проводившие исследование учёные подставили данные InSight в физическую модель земной коры.
Наличие водоносных слоёв в средней коре Марса даст больше материала для выводов о древнем климате Марса и понимания, куда эта вода делась после того, как Марс около 3 млрд лет назад потерял свою атмосферу. Предполагалось, что вода в основном после этого испарилась, но если моделирование верно отражает ситуацию — она просто просочилась глубоко в недра планеты. Если срединная кора Марса в этом плане одинакова по всей планете, то вода из этих запасов могла бы покрыть планету слоем глубиной до 1,6 км."
https://3dnews.ru/1109394/vodi-na-marse-na-okeani-no-ona-gluboko-pokazalo-issledovanie
"Марсианская автоматическая станция NASA InSight предоставила множество данных о внутреннем строении Красной планеты и её геологической и сейсмической активности. И хотя станция не работает с 2022 года, учёные продолжают разбирать полученные ею данные и делать открытия. В частности, новое исследование позволяет сделать вывод о чрезвычайно высокой насыщенности жидкой водой средней коры Марса в районе приземления станции. Её там — на океаны.
Оценочная глубина нахождения водоносных слоёв на Красной планете составляет 11–20 км. Впрочем, пока это только вероятность и данные моделирования. Проводившие исследование учёные подставили данные InSight в физическую модель земной коры.
Наличие водоносных слоёв в средней коре Марса даст больше материала для выводов о древнем климате Марса и понимания, куда эта вода делась после того, как Марс около 3 млрд лет назад потерял свою атмосферу. Предполагалось, что вода в основном после этого испарилась, но если моделирование верно отражает ситуацию — она просто просочилась глубоко в недра планеты. Если срединная кора Марса в этом плане одинакова по всей планете, то вода из этих запасов могла бы покрыть планету слоем глубиной до 1,6 км."
https://3dnews.ru/1109394/vodi-na-marse-na-okeani-no-ona-gluboko-pokazalo-issledovanie
3DNews - Daily Digital Digest
Анализ данных с зонда InSight позволил найти на Марсе невидимые океаны воды
Марсианская автоматическая станция NASA InSight предоставила множество данных о внутреннем строении Красной планеты и её геологической и сейсмической активности.
#cloud #gcp
"Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных. В уведомлении, которое на этой неделе стали получать пользователи платформы, сказано, что сервис перестанет работать 9 сентября. При этом другие сервисы Google, такие как Workspace и Cloud, продолжат работать в РФ.
До появления информации о скором прекращении работы сервиса BigQuery стало известно об уходе из России сервиса контекстной рекламы Google AdSense. Платформа полностью перестанет работать в стране, а все аккаунты российских пользователей будут деактивированы."
https://3dnews.ru/1109440/google-otklyuchit-oblachniy-servis-bigquery-v-rossii-9-sentyabrya
"Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных. В уведомлении, которое на этой неделе стали получать пользователи платформы, сказано, что сервис перестанет работать 9 сентября. При этом другие сервисы Google, такие как Workspace и Cloud, продолжат работать в РФ.
До появления информации о скором прекращении работы сервиса BigQuery стало известно об уходе из России сервиса контекстной рекламы Google AdSense. Платформа полностью перестанет работать в стране, а все аккаунты российских пользователей будут деактивированы."
https://3dnews.ru/1109440/google-otklyuchit-oblachniy-servis-bigquery-v-rossii-9-sentyabrya
3DNews - Daily Digital Digest
Google заблокирует для России облачный сервис анализа больших данных
Американская компания Google объявила о скором отключении в России облачного сервиса BigQuery, который предназначен для работы с большими массивами данных.
#ai #startups
"Статистика китайского сегмента стартапов показывает, что за предыдущие 600 дней закрылись почти 80 000 молодых компаний, связанных со сферой искусственного интеллекта.
После выхода нашумевшего чат-бота ChatGPT в конце ноября 2022 года и до 29 июля текущего года включительно, в Китае из 878 000 зарегистрированных компаний, так или иначе связанных с темой искусственного интеллекта, были закрыты 78 612 штук. По сути, из общего числа прошедших регистрацию в Китае за указанный период ИИ-стартапов закрылись примерно 8,9 %.
По мнению экспертов, столь высокий отток компаний с китайского рынка технологий искусственного интеллекта вызван не только ухудшением экономической ситуации, но и высоким порогом входа, поскольку инновационная деятельность в этой сфере требует колоссальных инвестиций. Объёмы венчурного финансирования в целом в Китае за это время сократились, так что это не только проблема сегмента искусственного интеллекта как такового.
За последние десять лет в КНР покинули рынок около 353 000 компаний, связанных с темой ИИ. Из них примерно 200 000 ушли с рынка за последние три года. Впрочем, наблюдается и стабильный приток участников в этот сегмент. С начала года до 7 августа в этой сфере были зарегистрированы 300 700 новых организаций, а общее количество действующих участников рынка в Китае достигает 1 804 300 компаний. Промышленных масштабов в своей деятельности достигли более 4500 организаций. Они эксплуатируют более 180 больших языковых моделей, которые связаны с предоставлением общественных услуг, а совокупная пользовательская база этих систем превышает 564 млн человек. Участники китайской ИИ-отрасли уже призывают соотечественников к консолидации с целью более разумного расходования средств и достижения скорейшего прогресса."
https://3dnews.ru/1109438/za-poslednie-600-dney-v-kitae-zakrilis-okolo-molodih-80-000-kompaniy-svyazannih-s-ii
"Статистика китайского сегмента стартапов показывает, что за предыдущие 600 дней закрылись почти 80 000 молодых компаний, связанных со сферой искусственного интеллекта.
После выхода нашумевшего чат-бота ChatGPT в конце ноября 2022 года и до 29 июля текущего года включительно, в Китае из 878 000 зарегистрированных компаний, так или иначе связанных с темой искусственного интеллекта, были закрыты 78 612 штук. По сути, из общего числа прошедших регистрацию в Китае за указанный период ИИ-стартапов закрылись примерно 8,9 %.
По мнению экспертов, столь высокий отток компаний с китайского рынка технологий искусственного интеллекта вызван не только ухудшением экономической ситуации, но и высоким порогом входа, поскольку инновационная деятельность в этой сфере требует колоссальных инвестиций. Объёмы венчурного финансирования в целом в Китае за это время сократились, так что это не только проблема сегмента искусственного интеллекта как такового.
За последние десять лет в КНР покинули рынок около 353 000 компаний, связанных с темой ИИ. Из них примерно 200 000 ушли с рынка за последние три года. Впрочем, наблюдается и стабильный приток участников в этот сегмент. С начала года до 7 августа в этой сфере были зарегистрированы 300 700 новых организаций, а общее количество действующих участников рынка в Китае достигает 1 804 300 компаний. Промышленных масштабов в своей деятельности достигли более 4500 организаций. Они эксплуатируют более 180 больших языковых моделей, которые связаны с предоставлением общественных услуг, а совокупная пользовательская база этих систем превышает 564 млн человек. Участники китайской ИИ-отрасли уже призывают соотечественников к консолидации с целью более разумного расходования средств и достижения скорейшего прогресса."
https://3dnews.ru/1109438/za-poslednie-600-dney-v-kitae-zakrilis-okolo-molodih-80-000-kompaniy-svyazannih-s-ii
3DNews - Daily Digital Digest
Китайский ИИ-пузырь сдувается: за последние 600 дней в стране закрылись 80 тысяч ИИ-стартапов
Коррекция американского фондового рынка, которая наблюдалась в начале месяца, заставила многих инвесторов задуматься, насколько эффективно сфера искусственного интеллекта способна возвращать вкладываемые в неё денежные средства. Статистика китайского сегмента…
#boostings #regression #trees #compositeregressor
В свете недавних разочарований по поводу неспособности деревянных моделей к хорошему прогнозу линейных комбинаций признаков сделал свою реализацию CompositeRegressor (совместимую с scikit-learn), которая призвана решать эту проблему (и решает) композицией сначала линейной, а на её невязках уже нелинейной "деревянной" модели.
Причём линейная может строиться не на всех исходных признаках, а лишь на их "устойчивом" подмножестве (чтобы не лезла в нелинейную часть, которую лучше оставить модельке верхнего уровня).
Сейчас пишу сопроводительную статью и (вопреки своей лени и дремучести) покрываю модуль тестами, т.к. хочу показать читателям не только полезный с точки зрения ds приём, но и грамотную программерскую реализацию, готовую к боевому внедрению, в т.ч. корпоративного уровня.
В свете недавних разочарований по поводу неспособности деревянных моделей к хорошему прогнозу линейных комбинаций признаков сделал свою реализацию CompositeRegressor (совместимую с scikit-learn), которая призвана решать эту проблему (и решает) композицией сначала линейной, а на её невязках уже нелинейной "деревянной" модели.
Причём линейная может строиться не на всех исходных признаках, а лишь на их "устойчивом" подмножестве (чтобы не лезла в нелинейную часть, которую лучше оставить модельке верхнего уровня).
Сейчас пишу сопроводительную статью и (вопреки своей лени и дремучести) покрываю модуль тестами, т.к. хочу показать читателям не только полезный с точки зрения ds приём, но и грамотную программерскую реализацию, готовую к боевому внедрению, в т.ч. корпоративного уровня.
🔥6👍5
#innovation #teamwork #yan
Понравилась идея. Показывайте консервативному начальству на работе )
"In data science—and more generally, technology—innovation is essential in order to create greater impact and add greater value.
Data science has a science component to it—and science involves experimentation and R&D. Thus, data science teams must be given leeway to experiment and fail, or no groundbreaking innovations can occur."
https://eugeneyan.com/writing/one-way-to-help-a-data-science-team-succeed/
Понравилась идея. Показывайте консервативному начальству на работе )
"In data science—and more generally, technology—innovation is essential in order to create greater impact and add greater value.
Data science has a science component to it—and science involves experimentation and R&D. Thus, data science teams must be given leeway to experiment and fail, or no groundbreaking innovations can occur."
https://eugeneyan.com/writing/one-way-to-help-a-data-science-team-succeed/
eugeneyan.com
One way to help a data science team innovate successfully
If things are not failing, you're not innovating enough. - Elon Musk
#trading #yan #balch
Юдж, оказывается, проходил курс Такера Балча "ML в трейдинге"! )
И особо ревностные студенты, кстати, написали по видосам курса лекции, что весьма удобно.
"Learning how to invest is a life skill, as essential as learning how to use a computer, and is one of the key pillars to retiring comfortably.
Specific to technical analysis, I learnt how people try to distill stock market movements (in price and volume) into technical indicators that can be traded upon automatically (e.g., Bollinger Bands, Moving Average Convergence Divergence, etc.). I’m still not fully convinced it works, but ¯(ツ)/¯. It was especially fun trying to frame stock market trading into a supervised learning problem for machine learning. What should the target be? Next day’s price (regression)? Whether or not to buy or sell (classification)? These are the key questions in machine learning that are seldom covered in most machine learning classes.
Well, I’m definitely NOT going to put my money on my self-developed trading algorithms, especially after seeing how they perform on the out-of-sample testing set. Nevertheless, the class was a good refresher on what I previously self-learnt on fundamental analysis and portfolio allocation—I will try to apply this to my own investment portfolio.
In addition, some of the techniques covered in sequential modelling are useful, and I will try applying them to the sequential healthcare data at work. Hope to share some positive results soon."
https://eugeneyan.com/writing/omscs-cs7646-machine-learning-for-trading/
Юдж, оказывается, проходил курс Такера Балча "ML в трейдинге"! )
И особо ревностные студенты, кстати, написали по видосам курса лекции, что весьма удобно.
"Learning how to invest is a life skill, as essential as learning how to use a computer, and is one of the key pillars to retiring comfortably.
Specific to technical analysis, I learnt how people try to distill stock market movements (in price and volume) into technical indicators that can be traded upon automatically (e.g., Bollinger Bands, Moving Average Convergence Divergence, etc.). I’m still not fully convinced it works, but ¯(ツ)/¯. It was especially fun trying to frame stock market trading into a supervised learning problem for machine learning. What should the target be? Next day’s price (regression)? Whether or not to buy or sell (classification)? These are the key questions in machine learning that are seldom covered in most machine learning classes.
Well, I’m definitely NOT going to put my money on my self-developed trading algorithms, especially after seeing how they perform on the out-of-sample testing set. Nevertheless, the class was a good refresher on what I previously self-learnt on fundamental analysis and portfolio allocation—I will try to apply this to my own investment portfolio.
In addition, some of the techniques covered in sequential modelling are useful, and I will try applying them to the sequential healthcare data at work. Hope to share some positive results soon."
https://eugeneyan.com/writing/omscs-cs7646-machine-learning-for-trading/
eugeneyan.com
OMSCS CS7646 (Machine Learning for Trading) Review and Tips
OMSCS CS7646 (Machine Learning for Trading) - Don't sell your house to trade algorithmically.
✍1