Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
Графы (Graphs)
Если следовать общепринятой логике, с графов следует начинать любой разговор о деревьях, ведь эта категория включает в себя абсолютно все такие структуры. Как гласит определение, дерево — это граф, в котором любые две вершины можно связать простой цепью, не проходя дважды по одному узлу.
А в целом любая структура с точками, соединенными между собой линиями, это и есть граф. Каждая вершина графа имеет свой вес, который влияет на результат проводимых вычислений. Карта метро, схема отношений внутри группы людей, модель внутрикорпоративных хранилищ данных — все это примеры подобных структур. На их основе работают навигаторы и системы управления перевозками, средства управления сетевыми ресурсами и множество других решений для вычисления оптимальных вариантов, что бы они собой ни представляли.
Соответственно, понимание графов позволяет вам вычислить минимальное время выполнения операции, посчитать экстремумы для заданных операций или количество циклов в рамках той или иной функции.
Эта книга расскажет вам, как работать с командами и инструкциями SQL, создавать и настраивать реляционные базы данных, загружать и модифицировать объекты баз данных, выполнять мощные запросы, повышать производительность и выстраивать систему безопасности.
Какова функция команды GRANT в SQL?

Передача прав для выполнения определенных действий над таблицей - 48
👍👍👍👍👍👍👍👍 96%
Оставить все изменения в БД, до тех пор пока не закончится старая транзакция и не начнется новая - 1
👍 2%
Для смены логина и пароля пользователей
▫️ 0%
Отмечает начало блока в котором описаны команды другого языка - 1
👍 2%
👥 50 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Передача прав для выполнения определенных действий над таблицей
​​Появились два аватара на основе ИИ, которые могут поддерживать разговор
Исследователи из США представили две модели на основе ИИ, которые могут вести повседневные разговоры с людьми. Инженеры хотят поддержать людей, пока они переживают жесткие карантинные меры из-за пандемии коронавируса.
Компания Fable Studio представила двух цифровых аватаров на основе ИИ, которые имитируют настоящих собеседников. Инженеры стартапа назвали их Чарли и Бек — исследователи утверждают, что они ведут такие же разговоры, как и обычные люди. Компания рассчитывает на то, что их персонажи будут коммерчески успешны на рынке, так как люди ищут развлечения во время пандемии коронавируса.
Компания Fable Studio начала свою деятельность как стартап, занимающийся развлечениями в виртуальной реальности (VR), и даже получила премию «Эмми» за проект Wolves in the Walls. Однако теперь компания вышла за пределы виртуальной реальности и сосредоточилась на существах на основе ИИ.
Протестировать аватаров можно на сайте компании. Персонажи работают с помощью технологии создания меток — инструмента на основе ИИ, который позволяет оживить персонажей с помощью визуальных эффектов, диалогов, голоса и анимации.
Пользователи смогут вести полноценные разговоры с Беком и Чарли. Специально для этого Fable Studio обучали модели на основе написанных и расшифрованных диалогов с людьми, также модель слушала тысячи разговоров обычных людей по телефону. Внутри модели работает система GPT3 — языковая модель, которая не переставая обучает модель правильным ответам и тематическим диалогам.
«Во время разработки мы думали о том, что у каждого человека есть свои маски, когда они вступают во взрослую жизнь. У всех есть профессиональная личность, семья и образ для друзей. В этом случае у моделей есть только общественное «я»», — отметили ученые.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
 Хеш-таблицы
Хеширование позволяет привязать к объектам уникальные идентификаторы и компактно держать их в защищённом виде. Для поиска нужного элемента применяется специальный ключ, по которому функция определяет нужную ячейку в хеш-таблице. Этот метод напоминает массивы данных: хеш-ключ выполняет роль индекса.
Производительность этой структуры данных зависит от хеш-функции, размера таблицы и эффективности борьбы с так называемыми коллизиями. Так называется ситуация, в которой два объекта получают одинаковый ключ. Фактически хеш-функция представляет собой вычислительную операцию. Коллизию можно сравнить с совпадением значений x в 2*6=x и 3*4=х. С этим явлением также связан известный парадокс, согласно которому в любой группе из более чем 23 участников, скорее всего, будут двое с совпадающим днём рождения (разумеется, в разные годы).
Следовательно, такие задачи могут упоминаться в ходе интервью на вакансию в data science. Разбейте список на пары с неким совпадающим параметром. Напишите скрипт для борьбы со списыванием на экзамене. Предложите способ для определения нежелательных лиц по видео.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google.
Не исключено что и в российских компаниях могут задать такие же questions.

Расскажите о функции потерь деревьев решений.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое центральная предельная теорема? В чем заключается ее практический смысл?

Введение в центральную предельную теорему
Центральная предельная теорема — Википедия
Примеры использования ЦПТ
Герд Леонгард: «Через 10 лет все программисты станут безработными»
#мнение
Известный футуролог Герд Леонгард рассказал, какие навыки окажутся востребованы на рынке труда в будущем, отчего детей бесполезно учить точным наукам, и почему традиционный капитализм обречен
This media is not supported in your browser
VIEW IN TELEGRAM
Повышаем градус киберпанка уходящего года: в 2020 прошло первое нейросетевое Евровидение, AI Song Contest. Выступления участников можно посмотреть на youtube; местами они прокляты и это смешно. Смешнее, необычнее и криповее, чем Uno от Little Big. Отсюда вопрос: что будет с музыкой, если в нее уже пришли роботы?

Первая мысль, конечно: мы все умрем, мир захватят Grimes x Endel. На деле: и нет, и да. Нет — ИИ отлично дописывает, но сочиняет посредственно. Новый Боуи или новые Queen вряд ли будут на 100% цифровыми. Зато эмбиент для йоги и медитаций он пишет, как Брайан Ино, и каверы создает из чего угодно.

Здесь можно посмотреть на прогнозы от SberCloud. От ожидаемого: ТЦ перестанут приглашать на праздники кавер-группы, до экзотики вроде юридических тонкостей работы лейблов и ИИ. Последнее, если подумать, задел на целый раздел авторского права со своими спецами, судами, скандалами. Юристы, выдыхайте. Без работы вы не останетесь.
Какие 5 встроенных функций существуют в SQL?

AVG, MAX, SUM, MIN, MULT - 2
👍 2%
SUM, AVG, MULT, MIN, DIV - 1
👍 1%
COUNT, SUM, AVG, MAX, MIN - 124
👍👍👍👍👍👍👍👍 96%
MIN, SUM, MAX, AVG, NAME - 2
👍 2%
👥 129 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
COUNT, SUM, AVG, MAX, MIN
Утечка данных в Machine learning: как обнаружить и избежать ее

Утечка данных происходит, когда данные, используемые в процессе обучения, содержат информацию о том, что модель пытается предсказать. Это похоже скорее на «обман», но мы не знаем, так ли это, поэтому лучше назвать это «утечка». Утечка данных является серьезной и широко распространенной проблемой в области data mining и machine learning, которую необходимо решать для получения надежной и обобщенной прогностической модели. 
Существуют разные причины утечки данных. Некоторые из них очень очевидны, но некоторые сложно заметить с первого взгляда. В этой статье я объясню причины утечки данных, как она вводит в заблуждение, а также способы обнаружения и ее предотвращения.
​​Облачные технологии развиваются очень быстро и умеющих с ними работать айтишников компании отрывают вместе с руками. 

Если вы junior- или middle-специалист, хотите карьерного роста и думаете о повышении квалификации — приходите в GeekBrains учиться на инженера облачных сервисов.

Будете работать с микросервисными архитектурами, управлять каталогами медиаданных, использовать ML-модели. Преподаватели курса — опытные эксперты из платформы Mail.ru Cloud Solutions. Научитесь настраивать облачное окружение для любой бизнес-задачи, а практика на курсе зачтется в портфолио готовым кейсом. Получите диплом о профессиональной переподготовке, а эйчары из GeekBrains помогут вам найти работу!

Записывайтесь прямо сейчас и получите востребованную специальность со скидкой 50%https://geekbrains.ru/link/eZJn0e
Авторы системы на ИИ заявили, что она смогла решить уравнение Шредингера

Группа ученых из Freie Universit?t в Берлине разработала метод на основе искусственного интеллекта для вычисления основного состояния уравнения Шредингера в квантовой химии. Данное научное направление занимается предсказанием химических и физических свойств молекул, основываясь исключительно на расположении их атомов в пространстве, без ресурсоемких и трудоемких лабораторных экспериментов. Решение уравнения Шредингера может значительно упростить задачу предсказания.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое сэмплирование? Сколько методов выборки вы знаете?

Материалы для ответа:
habr.com
Семплирование (математическая статистика) Вики
ebooks.grsu.by
Алгоритмы сэмплирования
Методы сэмплирования
На VC.ru вышла интересная колонка руководителя Яндекс.Толоки Ольги Мегорской. В ней Ольга рассказала про самые распространенные гипотезы о разметке для машинного обучения и опровергла их на наглядных примерах из опыта команды Толоки.

Ключевые поинты:
качество модели зависит от количества и качества данных, на которых она тренируется. Разметка данных заслуживает и внимания, и ресурсов.
разметку данных можно и нужно делегировать. Это освободит время и ресурсы на разработку
в зависимости от задач и объёмов данных, заказчик может выбрать аутсорсинговое или краудсорсинговое решение. Разметку с помощью краудсорсинга можно организовать самостоятельно, а можно использовать автоматизированные процессы или обратиться к опытным специалистам.

Основной вывод: Не пренебрегайте разметкой данных. Не бойтесь делегировать. Пробуйте, ищите подходы, которые устроят именно вас.
Что такое первичный ключ (primary key)? Укажите наиболее точное определение.

#SQL_задачи

Это синоним внешнего ключа (foreign key) - 2
👍 2%
Одна колонка, которая однозначно идентифицирует запись в таблице и может быть описана как автоинкремент - 26
👍👍👍👍 26%
Колонка, в которую можно писать только уникальные значения - 3
👍 3%
Одна или несколько колонок, которые однозначно идентифицируют запись в таблице - 63
👍👍👍👍👍👍👍👍 64%
Первая колонка в таблице - 5
👍👍 5%
👥 99 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
 Одна или несколько колонок, котрые однозначно идентифицируют запись в таблице
Чего ждать в сфере ИИ и машинного обучения в 2021 году?

Нейросети в этом году продолжали развиваться: они научились определять COVID-19 по кашлю, нашли применение в рекламе, спели голосом Эминема. Рассказываем о том, чего ждать в сфере ИИ и машинного обучения в 2021 году.
Какой алгоритм сортировки (до 10 элементов) на практике является самым быстрым (при этом используется генератор случайных чисел и производится не менее 100 тестов для более объективной оценки)?
#Алгоритмы

Шейкерная сортировка - 4
👍👍 5%
Сортировка вставками - 37
👍👍👍👍👍👍👍 43%
Гномья сортировка - 3
👍 3%
Сортировка Шелла - 43
👍👍👍👍👍👍👍👍 49%
👥 87 человек уже проголосовало.