Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Появились два аватара на основе ИИ, которые могут поддерживать разговор
Исследователи из США представили две модели на основе ИИ, которые могут вести повседневные разговоры с людьми. Инженеры хотят поддержать людей, пока они переживают жесткие карантинные меры из-за пандемии коронавируса.
Компания Fable Studio представила двух цифровых аватаров на основе ИИ, которые имитируют настоящих собеседников. Инженеры стартапа назвали их Чарли и Бек — исследователи утверждают, что они ведут такие же разговоры, как и обычные люди. Компания рассчитывает на то, что их персонажи будут коммерчески успешны на рынке, так как люди ищут развлечения во время пандемии коронавируса.
Компания Fable Studio начала свою деятельность как стартап, занимающийся развлечениями в виртуальной реальности (VR), и даже получила премию «Эмми» за проект Wolves in the Walls. Однако теперь компания вышла за пределы виртуальной реальности и сосредоточилась на существах на основе ИИ.
Протестировать аватаров можно на сайте компании. Персонажи работают с помощью технологии создания меток — инструмента на основе ИИ, который позволяет оживить персонажей с помощью визуальных эффектов, диалогов, голоса и анимации.
Пользователи смогут вести полноценные разговоры с Беком и Чарли. Специально для этого Fable Studio обучали модели на основе написанных и расшифрованных диалогов с людьми, также модель слушала тысячи разговоров обычных людей по телефону. Внутри модели работает система GPT3 — языковая модель, которая не переставая обучает модель правильным ответам и тематическим диалогам.
«Во время разработки мы думали о том, что у каждого человека есть свои маски, когда они вступают во взрослую жизнь. У всех есть профессиональная личность, семья и образ для друзей. В этом случае у моделей есть только общественное «я»», — отметили ученые.
Эти знания будут полезны любому, кого интересует область Data Science.
#data_scientist
#data_structures
 Хеш-таблицы
Хеширование позволяет привязать к объектам уникальные идентификаторы и компактно держать их в защищённом виде. Для поиска нужного элемента применяется специальный ключ, по которому функция определяет нужную ячейку в хеш-таблице. Этот метод напоминает массивы данных: хеш-ключ выполняет роль индекса.
Производительность этой структуры данных зависит от хеш-функции, размера таблицы и эффективности борьбы с так называемыми коллизиями. Так называется ситуация, в которой два объекта получают одинаковый ключ. Фактически хеш-функция представляет собой вычислительную операцию. Коллизию можно сравнить с совпадением значений x в 2*6=x и 3*4=х. С этим явлением также связан известный парадокс, согласно которому в любой группе из более чем 23 участников, скорее всего, будут двое с совпадающим днём рождения (разумеется, в разные годы).
Следовательно, такие задачи могут упоминаться в ходе интервью на вакансию в data science. Разбейте список на пары с неким совпадающим параметром. Напишите скрипт для борьбы со списыванием на экзамене. Предложите способ для определения нежелательных лиц по видео.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google.
Не исключено что и в российских компаниях могут задать такие же questions.

Расскажите о функции потерь деревьев решений.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое центральная предельная теорема? В чем заключается ее практический смысл?

Введение в центральную предельную теорему
Центральная предельная теорема — Википедия
Примеры использования ЦПТ
Герд Леонгард: «Через 10 лет все программисты станут безработными»
#мнение
Известный футуролог Герд Леонгард рассказал, какие навыки окажутся востребованы на рынке труда в будущем, отчего детей бесполезно учить точным наукам, и почему традиционный капитализм обречен
This media is not supported in your browser
VIEW IN TELEGRAM
Повышаем градус киберпанка уходящего года: в 2020 прошло первое нейросетевое Евровидение, AI Song Contest. Выступления участников можно посмотреть на youtube; местами они прокляты и это смешно. Смешнее, необычнее и криповее, чем Uno от Little Big. Отсюда вопрос: что будет с музыкой, если в нее уже пришли роботы?

Первая мысль, конечно: мы все умрем, мир захватят Grimes x Endel. На деле: и нет, и да. Нет — ИИ отлично дописывает, но сочиняет посредственно. Новый Боуи или новые Queen вряд ли будут на 100% цифровыми. Зато эмбиент для йоги и медитаций он пишет, как Брайан Ино, и каверы создает из чего угодно.

Здесь можно посмотреть на прогнозы от SberCloud. От ожидаемого: ТЦ перестанут приглашать на праздники кавер-группы, до экзотики вроде юридических тонкостей работы лейблов и ИИ. Последнее, если подумать, задел на целый раздел авторского права со своими спецами, судами, скандалами. Юристы, выдыхайте. Без работы вы не останетесь.
Какие 5 встроенных функций существуют в SQL?

AVG, MAX, SUM, MIN, MULT - 2
👍 2%
SUM, AVG, MULT, MIN, DIV - 1
👍 1%
COUNT, SUM, AVG, MAX, MIN - 124
👍👍👍👍👍👍👍👍 96%
MIN, SUM, MAX, AVG, NAME - 2
👍 2%
👥 129 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
COUNT, SUM, AVG, MAX, MIN
Утечка данных в Machine learning: как обнаружить и избежать ее

Утечка данных происходит, когда данные, используемые в процессе обучения, содержат информацию о том, что модель пытается предсказать. Это похоже скорее на «обман», но мы не знаем, так ли это, поэтому лучше назвать это «утечка». Утечка данных является серьезной и широко распространенной проблемой в области data mining и machine learning, которую необходимо решать для получения надежной и обобщенной прогностической модели. 
Существуют разные причины утечки данных. Некоторые из них очень очевидны, но некоторые сложно заметить с первого взгляда. В этой статье я объясню причины утечки данных, как она вводит в заблуждение, а также способы обнаружения и ее предотвращения.
​​Облачные технологии развиваются очень быстро и умеющих с ними работать айтишников компании отрывают вместе с руками. 

Если вы junior- или middle-специалист, хотите карьерного роста и думаете о повышении квалификации — приходите в GeekBrains учиться на инженера облачных сервисов.

Будете работать с микросервисными архитектурами, управлять каталогами медиаданных, использовать ML-модели. Преподаватели курса — опытные эксперты из платформы Mail.ru Cloud Solutions. Научитесь настраивать облачное окружение для любой бизнес-задачи, а практика на курсе зачтется в портфолио готовым кейсом. Получите диплом о профессиональной переподготовке, а эйчары из GeekBrains помогут вам найти работу!

Записывайтесь прямо сейчас и получите востребованную специальность со скидкой 50%https://geekbrains.ru/link/eZJn0e
Авторы системы на ИИ заявили, что она смогла решить уравнение Шредингера

Группа ученых из Freie Universit?t в Берлине разработала метод на основе искусственного интеллекта для вычисления основного состояния уравнения Шредингера в квантовой химии. Данное научное направление занимается предсказанием химических и физических свойств молекул, основываясь исключительно на расположении их атомов в пространстве, без ресурсоемких и трудоемких лабораторных экспериментов. Решение уравнения Шредингера может значительно упростить задачу предсказания.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое сэмплирование? Сколько методов выборки вы знаете?

Материалы для ответа:
habr.com
Семплирование (математическая статистика) Вики
ebooks.grsu.by
Алгоритмы сэмплирования
Методы сэмплирования
На VC.ru вышла интересная колонка руководителя Яндекс.Толоки Ольги Мегорской. В ней Ольга рассказала про самые распространенные гипотезы о разметке для машинного обучения и опровергла их на наглядных примерах из опыта команды Толоки.

Ключевые поинты:
качество модели зависит от количества и качества данных, на которых она тренируется. Разметка данных заслуживает и внимания, и ресурсов.
разметку данных можно и нужно делегировать. Это освободит время и ресурсы на разработку
в зависимости от задач и объёмов данных, заказчик может выбрать аутсорсинговое или краудсорсинговое решение. Разметку с помощью краудсорсинга можно организовать самостоятельно, а можно использовать автоматизированные процессы или обратиться к опытным специалистам.

Основной вывод: Не пренебрегайте разметкой данных. Не бойтесь делегировать. Пробуйте, ищите подходы, которые устроят именно вас.
Что такое первичный ключ (primary key)? Укажите наиболее точное определение.

#SQL_задачи

Это синоним внешнего ключа (foreign key) - 2
👍 2%
Одна колонка, которая однозначно идентифицирует запись в таблице и может быть описана как автоинкремент - 26
👍👍👍👍 26%
Колонка, в которую можно писать только уникальные значения - 3
👍 3%
Одна или несколько колонок, которые однозначно идентифицируют запись в таблице - 63
👍👍👍👍👍👍👍👍 64%
Первая колонка в таблице - 5
👍👍 5%
👥 99 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
 Одна или несколько колонок, котрые однозначно идентифицируют запись в таблице
Чего ждать в сфере ИИ и машинного обучения в 2021 году?

Нейросети в этом году продолжали развиваться: они научились определять COVID-19 по кашлю, нашли применение в рекламе, спели голосом Эминема. Рассказываем о том, чего ждать в сфере ИИ и машинного обучения в 2021 году.
Какой алгоритм сортировки (до 10 элементов) на практике является самым быстрым (при этом используется генератор случайных чисел и производится не менее 100 тестов для более объективной оценки)?
#Алгоритмы

Шейкерная сортировка - 4
👍👍 5%
Сортировка вставками - 37
👍👍👍👍👍👍👍 43%
Гномья сортировка - 3
👍 3%
Сортировка Шелла - 43
👍👍👍👍👍👍👍👍 49%
👥 87 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Сортировка вставками
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
В чем разница между ошибками типа I и типа II?

Материалы для ответа:
Ошибки первого и второго рода
greelane.com
statistica.ru
ru.gadget-info.com
ru.qaz.wiki
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
Гиперграф это?
#Алгоритмы

Такого понятия не существует - 5
👍👍 10%
Обобщенный вид графа, в котором вершины могут быть инцидентными, не соединяясь при этом ребром - 3
👍👍 6%
Обобщенный вид графа, который содержит одновременно ориентированные и неориентированные ребра - 6
👍👍 12%
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин - 35
👍👍👍👍👍👍👍👍 71%
👥 49 человек уже проголосовало.