Data Science и все такое – Telegram
Data Science и все такое
2.91K subscribers
7 photos
1 video
41 links
Даже если вы совсем "блондинка", подписавшиcь на канал вы станете разбираться в Data Science - науке о данных.
С юмором и простым языком - анализ данных, машинное обучение, нейросети, искусственный интеллект, обо всем таком.

по всем ?: @virusandy
Download Telegram
Где еще используются нейросети. В закрытых сообществах ходят слухи о двух историях.

1. сделали чат бота-попрошайку, который общается, а потом просит немного денег. Результат - за 2 дня собрали $15 тыс.

2. сделали бота, который общался с девушками с сайта знакомств и постепенно раскручивал на интим фото. Провели эксперимент на выборке из 2000 девушек. Успех - в 43% случаев!
Если ваш муж последние пару дней стал разговаривать с какой то Алисой - не ревнуйте. Так называется выпущенный на днях Яндексом голосовой помощник. Конкурентка Siri от Apple, но гораздо более разговорчивая.

Новость вроде и рядовая, но для Data Science это очередное большое достижение. Дело в том, что очень сложно генерировать адекватные ответы на человеческие вопросы. А набивать базу заранее приготовленными ответами - это уже пройденный этап, которым никого не удивишь.

Яндекс эту проблему решил - и теперь Алиса довольно осмысленно отвечает на самые неожиданные вопросы. Да что там, она даже разбирается в мемах и сленге лучше, чем вы! Как этого добились? Путем долго обучения нейросети (о них я писал в предыдущих 3 постах, и напишу еще, не сомневайтесь). Какие-то ответы конечно же выдают, что с вами общается машина, но вот закосить под капризную тинейджершу - Алиса может запросто.

Другая сложность - реалистичность звучания речи. Компьютерные имитаторы голоса были и раньше, но вот речь была безжизненной как на Марсе ночью. Яндекс давно и упорно разрабатывает пакет имитации голоса, его и взяли для генерации голоса Алисы. В качестве основы взят голос актрисы Татьяны Шитовой, которая озвучивает Скарлет Йохансон в русских переводах ее фильмов.
This media is not supported in your browser
VIEW IN TELEGRAM
А сегодня у нас на канале мордобой! Но не во имя битья ближнего своего, а как наглядная иллюстрация самообучения нейросетей.

Подрбности - пост ниже.
#нейросети #AI #игры #видео
Что это было, на видео выше?!

Две программы, имитирующих борцов сумо, каждая управляет своей фигуркой. Цель каждой - вытолкнуть другого из круга. Как? А хз! Отцы-программисты не обучали их никаким навыкам боя. Просто внедрили в каждую из них нейросеть и отправили обучаться на месте. После каждого боя каждая из программ получает какой то опыт: если она проиграла в прошлый раунд - в следующей такой ситуации она попробует вести себя иначе, если выиграла - "копает" дальше в этом направлении. Вот так работают нейросети!

Тысячи боев пройдено, из отдельных смонтирован короткий (всего 45 сек вашего времени!) ролик.

Разберу его по боям.
Первые пару боев - обе программы топтались и не могли понять, куда они вообще попали? Случайно столкнув другого, они догадались, что надо делать, чтобы победить.
Бой Cahrging into opponent - нейросеть освоила правило: резко толкни противника изподтишка - и победишь. Следующий бой - противник догадался, что надо от такого удара защищаться, и проиграл не сразу.
Бои Stable fighting stance - программы научились двигаться как настоящие сумоисты! Упираются головами, не дают проотивнику подлезть под себя. Соперники отчаяно сопротивляются спихиванию.
Fooling Opponent - нейросеть "вычислила", что противник реагирует определенным образом на ее движения. И "догадалась", что можно одурачить его ложным движением, в результате чего он по инерции улетает "за борт".

Примерно так обучается любая нейросеть. Сначала она крайне "тупая", тыкается как слепой котёнок. Постепенно она запоминает, что ее приводит к успеху, а что - к неудаче. И через какое то время становится умнее своего создателя 🙂

#нейросети #AI #игры #видео
Нейросеть: "Они заставляли меня смотреть тысячи часов порно!"

#нейросети #взрослое
Злые дядьки-датасайентисты с сайта PornHub натренировали невинную нейросеть на 500 тысячах видеороликов. Теперь этот программный код, некогда бывший чистым как слеза, превратился в проженного опытного циника, узнающего в лицо 10 тысяч порноактеров.

Как этого добились? А все так же, как в постах выше: "показывали" видеоролики нейросети и давали имена учавствующих в них актеров. Затем - показывали видеоролики, и нейросеть должна была "угадать", кто в них снялся, а потом смотрела правильный ответ. Сначала у нейросети, как обычно, получалось очень плохо. И не потому что она краснела и стеснялась - все же не забываем, что это всего лишь компьютерный код, лишенный чувств. А потому, что первые этапы обучения всегда очень неуклюжие. Но чем дальше - тем "догадливее" становился алгоритм.

Как нейросеть научилась "догадываться"? Примерно как и человек - через какое-то количество итераций обучения она вычислила, что наиболее успешно узнает актера, если сравнивает вот этот вот овал - лицо. А еще точность повышается, если брать в расчет вот эту родинку на попе, или забавного вытатуированного дельфинчика на руке. И все эти выводы нейросеть делает сама, просто в процессе самообучения.

"Зачем они это сделали?!", спросят некоторые возмущенные читатели. Отвечаю: для лучшего обслуживания посетителей сайта, теперь они могут найти все ролики своего любимого актера. И, если касаться исключительно технической стороны вопроса, порноиндустрия вместе с военными и финансистами - самые основные двигатели современного технического прогресса, в том числе и в дата сайнс. Хорошо это или нет - вопрос отдельный.

#нейросети #взрослое
А вот и иллюстрация, что НЕ могут нейросети. Нейросети торгуют очень и очень неважно. Но чел этого не знал. Обучил нейронку, собрал бабла с инвесторов, и вот теперь чешет репу.

#нейросети #трейдинг
Тут опять я, со своими нейросетями. Уж так оно получилось, что именно с ними связаны самые громкие новости Data Science.

Что у меня на этот раз?
Спешу рассказать о том, что Большой Брат все ближе и ближе. Прочитал про случай из Китая, где опять не обошлось без нейронки, делюсь.

В Китае украли 3 летнюю девочку. Убитый горем папаша пришел в полицию. Копы попросили фото дочери. Фото скормили угадайте кому? Правильно, нейросетке! Эта нейронка подключена к базе видеокамер. И вот она, даром что китайская, качественно сделала свою работу - нашла лицо этой девочки в базе видео. Оказалось, девочку увела какая то тётка. Лицо тётки тут же распознали, получили паспортные данные. Ну а дальше уже скучно, без нейронок, зато с хэппи эндом: тётку пробили по базе, увидели что она купила билет на поезд, и в городе назначения её встретили с "хлебом-солью". Девочку благополучно вернули в семью. На всё про всё ушло 15 часов.

Какие выводы? Вот такой вот инь и янь. С одной стороны - жить будет безопаснее. С другой - забываем слово "приватность", это что-то из прошлого века.

#нейросети #криминал #большойбрат
Как дела у машин с переводами между языками?

Думаю на этот вопрос может правильно ответить любой, кто пробовал перевести через Google Translate. И ответ этот таков: так себе дела.

Сейчас наткнулся на очередную новость иллюстрирующую эту тему. Вкратце: в Израиле палестинец написал «Доброе утро» в фейсбуке. Алгоритм перевел ее как «Атакуйте их!», настучал в полицию. Ну а полицейские - ребята простые, сначала винтят, потом разбираются. Так же поступили и на этот раз. Уже в полицейском участке на допросе выяснилось, что на арабском фраза «Доброе утро всем вам» и слова «Атакуйте их» отличаются одной буквой, что копам подтвердил арабоязычный эксперт. Вот об эту букву и споткнулся робот фейсбука, следящий за потенциально террористическими постами. Парня отпустили, и вроде как даже почки не успели отбить, бывает и такое. А машину чуток подправят, и снова в бой - до следующей серьезной ошибки.

Ну а с синхронным переводом речи все еще хуже. Там машине нужно не только понимать нюансы написания, но еще и нюансы звучания, учитывать контекст. То что мозг человека делает на лету - машины пока не умеют делать даже с задержкой. Так что каждый раз, когда читайте чепуху вида "Микрософт встроила переводчик в скайп" или "Гугл выпустил наушники, переводящие речь на лету" - можете возмущенно фыркать: это просто писали маркетологи, которые хотят ваших денег и готовы ради этого впарить вам нерабочую туфту.

Отмечу, что благодаря развитию нейросетей, в ближайшие годы ситуация с переводами должна значительно улучшиться.

#машинныйперевод
Дорогие читатели, в голове "аффтара" висят заготовки статей на следующие темы:
🔧 Обзор основных методов машинного обучения. Ранее писал про нейросети, но есть и куча других алгоритмов.
🎨 Обзор про визуализацию данных. Всякие там графики, гистограммы, карты - как в них запихать тыщщи цифр.
🎩 Очередная история из жизни, связанная с DataScience.
🚗 Про беспилотные автомобили.
🎲 Машинное обучение и лотереи, ставки на спорт.
Объявляю голосование. Что из этого добра бы хотели прочитать раньше?
Естественно, без зауми, все по формату канала. На уровне, чтоб поддержать беседу с собутыльником-аналитиком. Выбирайте!
#голосование
Спасибо всем проголосовавшим, благодаря вам - приоритеты расставлены!

Начинаю разъяснять термины, необходимые для понимания методов машинного обучения. Сегодня - Регрессия и Классификация.

Спойлер в одно предложение. Если на вопрос "Миша, можно денег в твоем кошельке взять?" он ответил жене "Да" - значит Миша решил в уме задачу классификации, а если ответил "Только 1500 рублей!" - значит задчу регрессии.

Хочется чуть подробнее? ⬇️ читаем статью ⬇️
Минута оффтопика.

Почитал на канале @tainynet интересную статью "Роботы станут причиной гибели человечества". Букв много, но точки зрения очень интересные. Сначала, прочитав название статьи, подумал: "Да-да, Скайнет на подходе, роботы воюют с людьми, все дела". Но статья оказалась не об этом. В числе прочего, автор считает, что роботы приведут к тому, что работники-люди окажутся ненужными - ведь роботы дешевле. Всюду будут работать роботы, а людям будет нечем заняться. Давать им деньги за просто так никто не захочет, поэтому правительства их сгонят в человечьи гетто. Отличный сюжет для фильма по типу "Район №9" (кстати, рекомендую), особенно если Скайнетом приправить.

Лично мое мнение по этому вопросу: роботы действительно полным ходом заменяют людей на фабриках, но только на рутинных однотипных задачах. Ну там, одну детальку прижать к другой, щёлк - готово. Если же в работе нужен хоть малейший элемент интеллекта - то пока дешевле нанять обычного двуногого. Всегда ли так будет? В целом - да. Нормальный Искуственный Интеллект до сих пор делать не научились, только алгоритмы заточенные под конкретные задачи. И научатся наверное не раньше 2040 годов, оцениваю на глаз.
Что касается социальной стороны вопроса, то на Земле и без всяких роботов полно гетто. Перенаселение из-за неконтролируемой рождаемости - вот причина этого. Нравится людям это дело - перенаселяться, вместо того чтоб подумать о нехватке ресурсов для потомства. Но это совсем уже оффтоп.

Какие выводы? Старайтесь, чтобы ваша работа требовала использовование мозга. Довольно полезный орган, я вам скажу. И пользоваться им прикольно, и ваш шеф роботами вас не сможет заменить, и много других плюсов 😉

А на @tainynet советую подписаться, там много и других годных статей.
#роботы #ии #будущее
5 вариантов как поднять денег на Data Science

Вы меркантильны, и не знаете, чему бы обучиться ради денег? Советую подумать над Data Science. Такой спец имеет следующие возможности:

1. Работает по найму - самое очевидное, зп хорошие. В Москве вакансии висят незакрытыми месяцами - спецов мало, и уже имеющиеся отделы постоянно расширяются.
Чем занимается? От построения отчетиков и запросиков в базу данных, до разработки машинного зрения и автопилотов. Чаще всего - околофинансовая тематика.

2. Становится фрилансером/открывает фирму по аналитике данных. Спрос на услуги пока небольшой, но явно будет расти. Подобный аутсорсинг практикуется с бухгалтерами, юристами, программистами 1С.
Чем занимается? Один пример, для торговой компании. Можно проанализировать закупки, продажи, построить модель зависимости продаж от всего остального. А с ней - дать прогноз на будущее, рекомендации.

3. Обучает Data Science. Везде открываются платные курсы. Нужны спецы, способные обучить, а не просто выдать грамоту.
Чем занимается? Составляет учебный план (или пользуется готовым), и старается от него не сильно отходить.

4. Подается в трейдинг/ставки/покер и т.п.. Потенциально - безграничный по прибыли вариант. А на практике, любой рынок - это не только сухой анализ данных, но и... Тут наберется еще несколько статей, так что оставлю тему нераскрытой.
Чем занимается? Варианта как правило три. Самый частый: балансирует на грани слива, сидит на валидоле. Второй по частоте: живет от продаж бота-"Грааля" (или от инвестиций в него), который на самом деле сливает. И самый редкий: сидит в тишине и прибыли.

5. Побеждает в соревнованиях. Не получится использовать как регулярный доход. Учавствуют сотни-тысячи, а приз только один. Многие крупные компании выкладывают свои задачи на конкурс. Даже если у них есть свои data science отделы, но они хотят получить решение еще лучше. Поэтому бывает денежный приз за лучшее решение.
Чем занимается? Сидит бессонные ночи. Нередко - платит $$$ за аренду кластера для лучшего решения задачи. Получает чувство удовлетворения от участия.

Ну а если профессионально изучать Data Science не интересно, а денег хочется, то просто учите китайский. Без дела точно не останетесь.
Наивный Байесовский классификатор
Продолжаю цикл статей про алгоритмы машинного обучения.

Спойлер: Вчера были тучи и пошел дождь, сегодня были тучи и идет дождь? Значит, если завтра будут тучи - расскажите всем, что согласно Теореме Байеса, скорее всего будет дождь.

#алгоритмы #байес

⬇️ читаем статью ⬇️
Доброго времени суток!

Чтобы разбавить поток лекций про алгоритмы машинного обучения, следующая статья будет про визуализацию данных. Но это так, лирическое отступление.

Теперь к делу 🙂 На канале уже полторы тысячи читателей - это радует! Но пугает, что это - полторы тысячи неизвестных. Хочется узнать - кто все эти люди, ой, т.е. вы, дорогие читатели? Поэтому хочу время от времени устраивать опросы. А полученные данные можно будет визуализировать 😉 Начнем с самого простого. Какого вы пола?
💂 М
👸 Ж
😤 автор, статьи пиши, а не собирай разведданные!
#опрос