Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
637 photos
40 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​ИИ разработал более справедливую налоговую систему. Нейросеть, созданная компанией Salesforce, занимается тестированием и разработкой идеальной налоговой системы в моделируемой среде.
ИИ получил название AI Economist, в его основе лежит система обучения с подкреплением: она предполагает применение вознаграждения и наказания к машинным алгоритмам с целью максимизации желаемых результатов. По тому же принципу, например, созданы алгоритмы Google DeepMind AlphaGo и AlphaZero.
Цель эксперимента — помочь правительствам во всем мире создать более справедливую систему налогообложения, говорится в сообщении компании.
«Экономическое неравенство усиливается во всем мире и вызывает растущую обеспокоенность в связи с его негативным влиянием на экономические возможности, здоровье и социальное обеспечение. Налоги являются важным инструментом правительства для сокращения неравенства. Однако поиск налоговой политики, которая оптимизирует равенство и производительность, является нерешенной проблемой. С помощью AI Economist мы хотим выяснить, как новые налоговые системы могут уменьшить неравенство, повысить производительность и в конечном итоге сделать мир лучше» Ричард Сошер, Salesforce.
Исследователи отмечают, что такой подход позволит выявить нерациональное поведение, которое экономисты часто не учитывают в своих моделях. По их словам, ИИ уже предложил сценарии, которые на 16% эффективнее существующих.
video_1526900_2570605.gif
26.4 MB
Главное отличие дата-центров от других зданий — промышленных или офисных — состоит в том, что они работают круглый год, без остановки даже на одну-две минуты. А значит — нон-стоп потребляют энергию. По данным британского научного журнала Nature, на все центры обработки данных в мире уходит около 200 ТВт·ч электроэнергии в год. Это больше, чем национальное энергопотребление некоторых не самых маленьких стран и примерно половина электричества, которое используется для транспорта во всем мире. И, конечно, далеко не всегда эта энергия производится из чистых источников: например, Китай занимает второе место по объему рынка ЦОД, но около 73% электроэнергии для них в стране получают из угля и только 23% — из возобновляемых источников энергии
​​Новый ИИ генерирует голос за 500 миллисекунд.

Социальная сеть Facebook представила высокоэффективную систему на основе ИИ, которая быстро преобразовывает текст в речь. Ее можно использовать в режиме реального времени и с использованием обычных процессоров. Исследователи рассказали о новом подходе для сбора данных — он позволил производить секунду звука за 500 миллисекунд.
Система Facebook сможет производить высококачественные голоса без необходимости использования специализированного оборудования. Специалисты компании отмечают, что система достигла 160-кратного ускорения по сравнению с аналогами. Это сделает его пригодным даже для устройств с ограниченными вычислительными возможностями.
Система Facebook состоит из четырех частей, каждая из которых фокусируется на различных аспектах речи: лингвистической, особенностях произношения, акустической модели и нейронной кодировке голоса.
ИИ преобразовывает текст в последовательность лингвистических цепочек — предложения и единицы звука, которые отличаются друг от друга в зависимости от того, в каком слове они используется. Модель также отвечает за особенности происхождения и стиль — ИИ может интерпретировать и прогнозировать ритмы речи, предложения и частоты.
Встраивание стилей позволяет системе создавать новые голоса — «мягкие», «быстрые», «формальные», при этом для их изменений требуется лишь небольшое количество данных. Для каждого стиля требуется всего 30 до 60 минут, утверждает Facebook — на порядок меньше, чем несколько часов записей, которые нужны для аналогичной системы Amazon.
This media is not supported in your browser
VIEW IN TELEGRAM
Неполное понимание целевой функции

Аналитики хотят создать «лучшую» модель. Но красота в глазах видящего. Если вы не знаете, в чем заключается основная задача и целевая функция, не знаете, как модель себя ведёт, то вряд ли построите «лучшую» модель. Кроме того, задача может заключаться в улучшении бизнес-метрики, а не в построении математической функции.
Решение:  У большинства победителей Kaggle уходит много времени на понимание целевой функции и того, как с ней связаны модель и данные. Необходимо оптимизировать бизнес-метрику, сопоставьте её с соответствующей целевой функцией.
Пример: для оценки моделей классификации используется F-мера. Однажды была построена модель классификации, успех которой зависел от того, в каком проценте случаев она была правильной. Как выяснилось, F-мера вводит в заблуждение, потому что показывает, что модель была правильной примерно 60% времени, а на самом деле — только 40%.
Программировать = зарабатывать.
И почему круто быть IT специалистом. 

Uno. Ты сможешь применить свои знания в любой сфере деятельности, ведь в развивающемся мире информационщики нужны везде. 

Dos. У твоего заработка не будет верхней границы, потому что число нулей прямо пропорционально твоим навыкам. 

Tres. Абсолютно каждый сможет научиться программированию и закрепиться в сфере IT. 

Подпишись на Life in code и прокачивай свой скилл вместе с нами. Здесь тебе расскажут азы и помогут протоптать дорогу в мир IT.

Сделай первый шаг вместе с Life in code
​​Мужчина в 55 лет стал программистом

Коллега искала программистов в ит отдел, и к ней на собеседование пришел кандидат. Мужчина 60 лет, имел 5-ти летний опыт работы, и сертификаты подтверждающие его квалификацию.
Собеседование прошло стандартно, мужчина был приятным, рассказал, что раньше работал сантехником, в принципе зарабатывал неплохо, но так как уже возраст и он стал неинтересен компаниям на рынке труда, он решил сменить специальность.
А сын у него программист и предложил отцу учится. Тот сначала отнекивался мол, старый уже и все такое, но сын оказался настойчивым и стал потихоньку отцу подкидывать всякие интересные статьи по этой тематике.
По итогу он решил попробовать, рассказывал что первое время вообще ничего не понимал и были мысли бросить это дело, но сын настоял и сам подключился к обучению отца.
По итогу через некоторое время он стал что то понимать и конечно появился интерес. А когда у него получился первый его проект, то он был вне себя от счастья.
В общем по итогу стал более усердно заниматься и потом устроился на работу, удаленную. и работал только по проектам, но уже есть работы, которые он может показать.
На самом деле я восхищаюсь такими людьми, и не важно на что человек переучился, главное, что даже в таком уважаемом возрасте он не считает себя стариком и двигается дальше. мне хочется верить, что я тоже такой же буду и не буду боятся что то менять в своей жизни, причем так кардинально.
И да, его взяли в штат, потому что он хорошо сделал тестовое задание, и прошел техническое интервью, сами ребята из ит отдела были в шоке, потому что ранее не сталкивались с таким кандидатами.
Начальник отдела доволен работой, и рассказывает, что когда у Павла Сергеевича, получается, то у него прям глаза горят. Такого он давно уже не видел, чтобы сотрудники были так увлечены работой и получали истинное удовольствие от работы..
This media is not supported in your browser
VIEW IN TELEGRAM
Это работает, но почему?
Аналитики хотят строить «модели». Они слышали, что xgboost и алгоритм “случайный лес” работают лучше всего и просто используют их. Они читают о глубоком обучении и думают, что, возможно, оно улучшит результат. Они бросают модели в проблему, не глядя на данные и не выдвигая гипотезы, какая модель лучше всего отражает особенности данных. Это сильно усложняет объяснение вашей работы хотя бы потому, что вы сами её не понимаете.
Решение: смотрите на данные! Поймите их характеристики и сформулируйте гипотезы о том, какие модели лучше всего их отражают.
Пример: посмотрев на данные на графике даже без запуска модели, вы увидите: x1 линейно связан с y, а x2 не имеет с ним сильно выраженной связи.
​​Распространенные мифы, которых следует опасаться в Data Science и машинном обучении

Начинающих пользователей волнует, как стать специалистом по обработке и анализу данных; руководители задаются вопросом, насколько важное влияние оказывает Data Science на бизнес. Люди, работающие в этой сфере, не могут определиться, как себя называть: Data Scientist, Data Engineer или Data Analyst.
Читать...
This media is not supported in your browser
VIEW IN TELEGRAM
Вы не смотрите на данные до интерпретации

Ещё одна подобная проблема: ваши результаты могут быть обусловлены выбросами и другими артефактами. Это особенно актуально для моделей, минимизирующих суммы квадратов. Даже без выбросов возникают проблемы с балансом, отброшенными или отсутствующими значениями и другими аномалиями реальных данных, которые вы не разбирали в университете.
Решение: повторяю, смотрите на данные — это очень важно! Поймите, как их природа влияет на результат.
Пример: с выбросами наклон x1 изменился с 0,906 до -0,375!
Сделки, аналитика, персоны, анонсы - в мире технологий ежедневно происходят интересные события. 

Не утонуть в море продуктов потребления поможет канал @topit_media. Только важное, интересное и актуальное. Про бизнес, производства, стартапы, игры и людей, которые за этим стоят.

Читаем, думаем, обсуждаем в чате.

Подписываемся -> https://news.1rj.ru/str/topit_media
​​ИИ научился обнаруживать далекие галактики на нечетких снимках. Программа под названием Morpheus создана учеными из Калифорнийского университета, их работа опубликована в журнале Astrophysical Journal.
Морфология галактик от вращающихся дисковых галактик, подобных нашему Млечному пути, до аморфных эллиптических и сфероидальных галактик, может рассказать астрономам о том, как они образуются и развиваются со временем.
Крупномасштабные исследования, такие как проект LSST, который будет проводиться в обсерватории Вера-Рубина в Чили, позволят получить огромные объемы данных. В сутки LSST будет снимать более 800 панорамных снимков с помощью камеры с разрешением 3,2 млрд пикселей, захватывая все видимое небо Южного полушария два раза в неделю.
Хотя разрешение у телескопа будет довольно большим, снимки не будут очень четкими, — а на их ручной анализ уйдут десятилетия. Для автоматизации поиска объектов на снимках таких крупномасштабных исследований ученые создали ИИ Morpheus.
Для обучения нейросети ученые загрузили в нее данные крупномасштабного исследования 2015 года — снимки, на которых астрономы уже нашли более 10 тыс. галактик. Затем ИИ тренировался на поиск галактик на снимках, сделанных телескопом Hubble.
В результате система научилась анализировать объекты на снимках, отделяя их от фона и проверяя, соответствует ли их размер, форма и другие параметры предмету поиска — в данном случае далеким галактикам. Затем система сама проводит проверку на достоверность полученных данных.
This media is not supported in your browser
VIEW IN TELEGRAM
У вас нет простейшей базовой модели

Современные библиотеки ML упрощают задачу. Почти. Просто измените одну строчку кода и запускайте модель. И другую. И ещё одну. Метрики ошибок уменьшаются, ещё настройка. Великолепно — они снижаются ещё… При всей изощрённости модели вы можете забыть о глупом способе прогнозирования. Без этого примитивного теста у вас нет абсолютного показателя качества моделей, а они могут быть плохими в абсолютном выражении.
Решение: какой простейший способ, предсказывающий значения? Создайте модель, используя последнее известное значение, (скользящее) среднее или постоянную вроде 0. Сравните производительность с прогнозом какой-нибудь обезьяны!
Пример: с этим набором временных рядов первая модель должна быть лучше второй: среднеквадратичная ошибка (далее — СКО) 0,21 и 0,45. Но подождите! Принимая во внимание только последнее известное значение, СКО падает до 0,003!
ols CV mse 0.215rf CV mse 0.428last out-sample mse 0.003
video_1551532_2613115.gif
19.1 MB
Искусственный интеллект может делать личностные суждения на основе фотографий

Российские исследователи из Университета НИУ ВШЭ и Открытого гуманитарного и экономического университета продемонстрировали, что искусственный интеллект способен выводить личность человека из фотографий «селфи» лучше, чем люди-оценщики. Сознательность оказалась легче узнаваемой, чем другие четыре черты. Предсказания личности, основанные на женских лицах, оказались более надежными, чем предсказания для мужских лиц. Эта технология может быть использована для поиска «лучших совпадений» в сфере обслуживания клиентов, знакомства или онлайн-обучения.
Читать...
This media is not supported in your browser
VIEW IN TELEGRAM
 Неправильное тестирование вне выборки

Это может разрушить карьеру! Модель выглядела великолепно в исследованиях и разработках, но ужасно проявила себя на реальных данных. Такая модель приводит к очень плохим результатам, она может стоить компании миллионов. Это самая грубая ошибка из всех!
Решение: убедитесь, что работаете с моделью в реалистичных условиях и понимаете, когда она будет работать, а когда — нет.
Пример: внутри выборки случайный лес работает намного лучше линейной регрессии: СКО 0,048 в сравнении с 0,183, но вне выборки случайный лес намного хуже: 0,259 против 0,187. Случайный лес переобучен и провалится в реальных условиях!
in-samplerf mse 0.04 ols mse 0.183out-samplerf mse 0.261 ols mse 0.187
This media is not supported in your browser
VIEW IN TELEGRAM
Приемы Python Pandas, которые сделают вашу работу более эффективной.

Pandas - это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными. 

 read_csv
Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить...
This media is not supported in your browser
VIEW IN TELEGRAM
Предварительная обработка всего набора
Вы уже знаете, что мощная модель может переобучиться. Это означает, что она хорошо работает в выборке, но плохо вне выборки. То есть нужно знать об утечках обучающих данных в тестовые. Если не будете внимательны...
This media is not supported in your browser
VIEW IN TELEGRAM
Перекрёстная проверка и панельный анализ

Вас учили, что перекрёстная проверка — всё, что нужно. Sklearn даже предоставляет несколько удобных функций для неё, поэтому вы думаете, что сделали всё. Но большинство методов перекрёстной проверки используют случайную выборку, а значит, можно получить смешение наборов с завышением производительности.
​​Мастерская инноваций Liquid Studio компании Accenture в России представила голосового помощника «Аня» для онлайн-покупок в продуктовых магазинах.
Голосовой ассистент «Аня» позволит подбирать товары в продуктовых интернет-магазинах непосредственно для каждого пользователя, учитывая его предпочтения. Если на вопрос ассистента «Какие продукты вы хотите заказать?», будет озвучен ответ: «Мне как обычно», «Аня» добавит в корзину товары, наиболее часто приобретаемые пользователем.
​​Искусственный интеллект для оптимизированной мобильной связи

В то время как многие европейские государства в настоящее время создают 5-е поколение мобильной связи, ученые уже работают над ее оптимизацией. Хотя 5G намного превосходит своих предшественников, даже в самом последнем стандарте мобильной связи все еще есть возможности для улучшения: особенно в городских районах, где прямая видимость между излучателем и приемопередатчиком затруднена, радиосвязь еще не работает надежно. В рамках недавно запущенного в ЕС проекта ARIADNE одиннадцать европейских партнеров изучают, как можно разработать передовую системную архитектуру «за пределами 5G» с использованием высокочастотных полос и искусственного интеллекта...