Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
637 photos
40 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
apply or not apply?
Если нужно создать новый столбец с несколькими другими столбцами в качестве входных данных, функция apply была бы весьма полезна.
video_1585362_2671676.gif
13.1 MB
Компания Microsoft уволила 70 сотрудников и заменила их на ИИ. Алгоритм будет писать, отбирать и курировать новости.
Издания The Seattle Times и The Guardian сообщили, что компания Microsoft сократила около семидесяти журналистов и заменила их на ИИ. Они работали в новостном агрегаторе MSN и отвечали за выбор, редактирование и кураторство сюжетов. Сотрудники, которые работают в Microsoft полный день, останутся в компании.
This media is not supported in your browser
VIEW IN TELEGRAM
value counts
Это команда для проверки распределения значений. Например, если вы хотите проверить возможные значения и частоту для каждого отдельного значения в столбце «c», вы можете применить

df[‘c’].value_counts()
Есть несколько полезных приемов / функций:
A. normalize = True : если вы хотите проверить частоту вместо подсчетов.
B. dropna = False : если вы хотите включить пропущенные значения в статистику.
C. sort = False : показать статистику, отсортированную по значениям, а не по количеству.
D. df[‘c].value_counts().reset_index().: если вы хотите преобразовать таблицу статистики в датафрейм Pandas и управлять ими.
This media is not supported in your browser
VIEW IN TELEGRAM
Что такое Scikit Learn - гайд по популярной библиотеке Python для начинающих
Scikit-learn основан на NumPy и SciPy, поэтому необходимо понять хотя бы азы этих двух библиотек, чтобы эффективно применять Scikit-learn.
Scikit-learn - это пакет с открытым исходным кодом. Как и большинство материалов из экосистемы Python, он бесплатный даже для коммерческого использования. Он лицензирован под лицензией BSD.
This media is not supported in your browser
VIEW IN TELEGRAM
Количество пропущенных значений

При построении моделей может потребоваться исключить строку со слишком большим количеством пропущенных значений / строки со всеми пропущенными значениями. Вы можете использовать .isnull () и .sum () для подсчета количества пропущенных значений в указанных столбцах.
 

import pandas as pd
import numpy as np

df = pd.DataFrame({ ‘id’: [1,2,3], ‘c1’:[0,0,np.nan], ‘c2’: [np.nan,1,1]})
df = df[[‘id’, ‘c1’, ‘c2’]]
df[‘num_nulls’] = df[[‘c1’, ‘c2’]].isnull().sum(axis=1)
df.head()
video_1593823_2685554.gif
18.4 MB
6 лучших библиотек машинного обучения

Развитие искусственного интеллекта привело к активной разработке различных фреймворков и библиотек, которые помогут вам внедрить технологию.
Давайте взглянем на некоторые из этих новейших библиотек и сред разработки с открытым исходным кодом ИИ и машинного обучения.
This media is not supported in your browser
VIEW IN TELEGRAM
Оконные функции PostgreSQL
Многие разработчики, давно использующие postgresql, не понимают оконные функции, считая их какой-то особой магией для избранных. Ну или в лучшем случае «копипастят» со StackOverflow выражения типа «row_number() OVER ()», не вдаваясь в детали. А ведь оконные функции — полезнейший функционал PostgreSQL.
Сначала вы должны понять, что оконные функции не изменяют выборку, а только добавляют некоторую дополнительную информацию о ней. Т.е. для простоты понимания можно считать, что postgres сначала выполняет весь запрос (кроме сортировки и limit), а потом только просчитывает оконные выражения.
This media is not supported in your browser
VIEW IN TELEGRAM
Выбрать строки с конкретными идентификаторами.

В SQL мы можем сделать это, используя SELECT * FROM… WHERE ID в («A001», «C022»,…), чтобы получить записи с конкретными идентификаторами. Если вы хотите сделать то же самое с pandas, вы можете использовать:

df_filter = df ['ID']. isin (['A001', 'C022', ...]) 
df [df_filter]
video_1602554_2700027.gif
15.7 MB
Появилась первая европейская платформа для облачных вычислений. Власти стран ЕС заявили, что они не хотят зависеть от платформ, которые работают в США и Китая.
Власти Германии и Франции заявили о создании первой европейской платформы для облачных вычислений Gaia-X. Ее создатели отмечают, что они хотят создать конкурента для таких же сервисов из других стран –– США и Китая. Впервые о том, что платформа появится, они говорили еще в 2019 году. Однако теперь власти представили коммерческих партнеров –– это 22 немецкие и французские компании...
This media is not supported in your browser
VIEW IN TELEGRAM
HackerEarth: Go снова назван самым востребованным языком среди программистов

Больше всего студенты и профессиональные разработчики хотели бы выучить Go. К такому выводу пришли аналитики HackerEarth — разработчика корпоративных продуктов, которые помогают рекрутерам дистанционно оценивать навыки программирования соискателей, — по результатам опроса 16,655 респондентов из 76 стран...
This media is not supported in your browser
VIEW IN TELEGRAM
Percentile groups

Допустим, у вас есть столбец с числовыми значениями, и вы хотите классифицировать значения в этом столбце по группам, скажем, топ 5% в группу 1, 5–20% в группу 2, 20–50% в группу 3, нижние 50% в группу 4. Конечно, вы можете сделать это с помощью pandas.cut, но мы бы хотели представить другую функцию:

import numpy as np
cut_points = [np.percentile(df[‘c’], i) for i in [50, 80, 95]]
df[‘group’] = 1
for i in range(3):
    df[‘group’] = df[‘group’] + (df[‘c’] < cut_points[i])
# or <= cut_points[i]
Которая быстро запускается (не применяется функция apply).
video_1608127_2709374.gif
10.7 MB
Топ 5 лучших IT компаний для работы программистом в Москве
5-ое место. Лаборатория Касперского
Крутой работодатель известный всем, особенно тем, кому близка тема компьютерной безопасности. Лучшие студенты университетов России пытаются получить здесь работу. А посмотрите какой у них крутой офис - https://www.the-village.ru/village/business/office/175125-kak-rabotayut-v-kasperskom. Компания растет, появляется много вакансий, зарплаты платят в соответствии с рынком.
This media is not supported in your browser
VIEW IN TELEGRAM
to_csv
Опять-таки, это команда, которую используют все. Отметим пару полезных приемов. Первый:

print(df[:5].to_csv())
Вы можете использовать эту команду, чтобы напечатать первые пять строк того, что будет записано непосредственно в файл.
 
Еще один прием касается смешанных вместе целых чисел и пропущенных значений. Если столбец содержит как пропущенные значения, так и целые числа, тип данных по-прежнему будет float, а не int. Когда вы экспортируете таблицу, вы можете добавить float_format = '%. 0f', чтобы округлить все числа типа float до целых чисел. Используйте этот прием, если вам нужны только целочисленные выходные данные для всех столбцов – так вы избавитесь от всех назойливых нулей ‘.0’.
video_1610536_2713406.gif
14.9 MB
Выяснилось, как работает мозг программистов

Профессор Свен Апель из Университета Саара вместе с командой нейробиологов и специалистов по информатике исследовал работу отделов мозга программистов во время осуществления ими профессиональной деятельности.
Достойных вакансий на удалёнку в IT & Digital много, если знать, где их искать!

Всё еще в поисках работы мечты? Уверены, информация на нашем канале вас заинтересует. У вас мечты – у нас возможности!

Каждый день мы публикуем самые свежие вакансии на удалёнку в сфере IT & Digital на нашем канале @hiddengurus. С опытом и без. Работа найдётся для каждого!

Хочешь удалённо работать в крутых проектах из CША, Европы, РФ и Латинской Америки?

Тогда рекомендуем подписаться на @hiddengurus
video_1614000_2719390.gif
14.1 MB
Создан инвестиционный алгоритм
Один из крупнейших финансовых конгломератов в мире HSBC совместно с сервисом для инвесторов EquBot и IBM создал ИИ-алгоритм и индекс AiPEX для поиска оптимальных возможностей вложения среди публичных американских компаний, пишет TechHQ.
Новый алгоритм способен обрабатывать миллионы единиц вводных данных о тысяче крупнейших компаний США, акции которых торгуются на бирже. Для расчётов используются мощности суперкомпьютера IBM Watson.
ИИ автоматически отбирает компании, чьи акции, по его прогнозу, в ближайшие месяцы будут показывать рост.
Примерно 250 таких компаний формируют индекс AiPEX. Он пересматривается каждый месяц и с учётом волатильности рынка корректируется ежедневно.
Алгоритм HSBC способен проанализировать и соотнести несравнимо больший объём информации за считанные часы: в человеческом эквиваленте это команда из тысяч экспертов, которой пришлось бы работать круглосуточно, утверждает разработчик.
Будущее рядом — освой профессию Data Scientist

Раньше мы с огромным интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам, ведь так не бывает. Зачастую в этих увлекательных блокбастерах человек становился не нужен — роль «главной скрипки» приходилась именно носителю искусственного интеллекта. В кинематографе это были и роботы, и специальные компьютеры либо устройства, похожие на пылесос (кстати, последние очень даже неплохо убирают).

Но в реалиях настоящей жизни искусственный интеллект — это не фантазии американских сценаристов-выдумщиков. Это реальность, которая стремительно врывается в нашу жизнь. Но с одной поправкой. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.

И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist».

На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
Skillbox даёт возможность сначала уделить время обучению, а заботы с оплатой можно отложить на полгода. Также доступна рассрочка — и никакой переплаты по процентам!

После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.

Открой мир будущего — переходи по ссылке ▶️ https://clc.to/njhvUg и бронируй место на курсе со скидкой 40%.
video_1618336_2726720.gif
10.2 MB
IBM отказалась разрабатывать технологии распознавания лиц
Американская технологическая компания IBM заявила об отказе от дальнейших разработок программного обеспечения для распознавания лиц. Сделать шаг назад IBM решила из-за обострения ситуации с протестами против полицейского произвола.
Об изменении стратегии сообщил генеральный директор компании Арвинд Кришна. По его словам, в IBM отказались работать с любыми технологиями, которые используются «для массового наблюдения и нарушения базовых прав и свобод человека», а также продавать продукты на их основе. Это противоречит ценностям и принципам компании, подчеркнул Кришна.
IBM также призвала начать международный диалог о том, как именно можно применять современные технологии распознавания лиц в работе правоохранительных органов. Ранее о прекращении инвестиций в такие системы объявила компания Microsoft.
video_1618618_2727259.gif
19.2 MB
5 лучших веб-сайтов для изучения языка программирования Python
Python — это высокоуровневый и объектно-ориентированный язык сценариев, популярность которого постоянно растет. Вам точно стоит попробовать Python, если вы никогда не писали код, но хотите получить первую работающую программу как можно быстрее.
This media is not supported in your browser
VIEW IN TELEGRAM
Инженеры MIT разработали чип, который не уступает нейронам человеческого мозга.
Самый перспективный искусственный синапс на сегодняшний день.
Для тех, кто работает на передовой в области искусственного интеллекта, компьютер для имитации мозговой деятельности — большая задача. Некоторые ученые смекнули, что дело не сдвинется с места, если не сделать этот компьютер максимально похожим на мозг, поэтому они изобрели нейроморфные вычисления.
И теперь инженеры MIT, возможно, преодолели значительную ступень — разработку чипа с искусственными синапсами.
This media is not supported in your browser
VIEW IN TELEGRAM
Израильский ИИ-стартап Sightbit помогает спасать тонущих людей
Спасатели делают все возможное для обеспечения безопасности, но они могут контролировать только ограниченное пространство. Особенно сложно следить за ситуацией на больших пляжах, где ежедневно собирается более 10 тысяч человек. Решение этой проблемы придумал израильский ИИ-стартап Sightbit.