Forwarded from Small Data Science for Russian Adventurers
#мысли
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
Ответ "
А вот ответ "
Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
- Вы любите кофе?Ответ "
зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.Ответ "
Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.А вот ответ "
Только африканский, он более полезен, как выяснили учёные из Калифорнии" небанальный, т.к. параллельно сообщает интересный факт.Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
Хабр
Мечтает ли нейросеть LaMDA об отмене законов робототехники?
В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...
Forwarded from Data Science by REBRAIN
Открытый практикум Data Analyst by Rebrain: Построение модели оценки кредитных рисков
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
6 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Узнаем, почему важно банкам строить такие модели и на 100% ли доверяют им банки
🔹Рассмотрим процесс подготовки данных
🔹Обучим модель машинного обучения для прогноза
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
6 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Узнаем, почему важно банкам строить такие модели и на 100% ли доверяют им банки
🔹Рассмотрим процесс подготовки данных
🔹Обучим модель машинного обучения для прогноза
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Ведет свой проект, со своей командой создает проекты в области машинного обучения и анализа данных.
🔥2
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Что такое тезаурус и как определить семантическое сходство слов.
https://habr.com/ru/company/unistar_digital/blog/687148/
https://habr.com/ru/company/unistar_digital/blog/687148/
Хабр
Что такое тезаурус и как определить семантическое сходство слов
При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений....
Безусловно, за VR будущее.
Не скажу, что настоящее, потому что не так доступна эта технология для каждого, но это вопрос времени 😉
Весьма интересные опыты с восприятием, которые полезно наблюдать. Заметно, как много иллюзорного мы можем воспринимать за действительность 🤷🏼♂️
Не скажу, что настоящее, потому что не так доступна эта технология для каждого, но это вопрос времени 😉
Весьма интересные опыты с восприятием, которые полезно наблюдать. Заметно, как много иллюзорного мы можем воспринимать за действительность 🤷🏼♂️
Forwarded from N + 1
Инженеры обманули людей в VR-шлеме с помощью вибромоторов на руках. Известно, что если двигать виртуальные предметы чуть быстрее, чем двигается рука, они кажутся легкими (это работает и в обратную сторону). Оказалось, что вибрирующие ремешки на руках позволяют увеличить вклад визуального восприятия в оценку массы предметов и усилить эту иллюзию
https://nplus1.ru/news/2022/09/10/tendon-vibration
https://nplus1.ru/news/2022/09/10/tendon-vibration
nplus1.ru
Вибрация в руках сделала виртуальные объекты тяжелее
Вибрация в руках позволяет менять восприятие веса предметов в виртуальной реальности, выяснили японские и французские инженеры. Известно, что если замедлять движение виртуальных объектов, они кажутся людям тяжелее, но это работает лишь в небольшой степени…
Forwarded from Data Science | Machinelearning [ru]
RuLeanALBERT — крупнейшая BERT-like нейросеть в опенсорсе для русского языка
Это разработка Yandex Research, исследовательской группы в Яндексе, которая занимается фундаментальным ML. Модель обучали на большой вычислительной платформе, но запустить её можно даже дома на мощном компьютере. RuLeanALBERT справляется с множеством NLP-задач, не требущих генерации, и показывает результаты, близкие к state-of-the-art (или даже более высокие — в зависимости от задачи).
Читать…
Это разработка Yandex Research, исследовательской группы в Яндексе, которая занимается фундаментальным ML. Модель обучали на большой вычислительной платформе, но запустить её можно даже дома на мощном компьютере. RuLeanALBERT справляется с множеством NLP-задач, не требущих генерации, и показывает результаты, близкие к state-of-the-art (или даже более высокие — в зависимости от задачи).
Читать…
👍2
Немного новостей на фоне «замены ИИ человека».
Спойлер:спите спокойно, возможно, эволюция ИИ будет благодаря вам
Спойлер:
Forwarded from Robotics Channel
Тучи над головой Илона Маска
На Tesla снова подали в суд за враньё относительно возможностей автопилота. В этот раз, к счастью, с компанией судятся не из-за фатального инцидента. Производитель вызвал недовольство жителя Сан Франциско, который в 2018 году переплатил $5000 за Tesla Model X, чтобы получить доступ к технологии усовершенствованного автопилотирования. Он обвиняет Tesla в том, что компания годами давала обманчивые обещания относительно безопасности и надёжности технологии и вводила в заблуждение покупателей ради увеличения продаж. Это коллективный иск, к которому присоединились и другие владельцы автомобилей компании.
В июле этого года Калифорнийский департамент транспортных средств (DMV) подал жалобу на Tesla по этой же причине — за введение в заблуждение относительно возможностей автономного вождения. Чиновники пытаются добиться отзыва лицензии автодилера или релокации в другой штат.
В Германии суд Мюнхена заставил компанию вернуть покупательнице полную стоимость кроссовера Model X (€112 000), потому что автопилот оказался неспособен к навигации по улицам города.
По данным Национальной службы безопасности дорожного движения США (National Highway Traffic Safety Administration), с 2018 года водители Tesla, которые пользовались Tesla Autopilot или функцией Traffic Aware Cruise Control, сообщили об 11 случаях столкновения с припаркованными и движущимися автомобилями. В прошлом году департамент начал расследование этих инцидентов.
Одно из давних судебных разбирательств, о котором широко известно, также ещё не закончено. В 2018 году по виде автопилота компании погиб инженер Apple Уолтер Хуанг, отец двух детей. Компания утверждает, что водитель убрал руки с руля, что категорически запрещено делать даже при использовании автопилота. Также известно, что Уолтер несколько раз ловил баг системы и сообщил об этом родственникам: в одном и том же месте автопилот пытался повернуть влево и съехать с дороги. Именно там и произошла фатальная авария. Не очень ясно, почему Уолтер проигнорировал опасность, о которой знал. Одна из версий — включённая в момент аварии игра Three Kingdoms на айфоне.
В 2020 году Кристофер Хинз из Вашингтона получил катастрофические травмы во время аварии, случившийся под управлением автопилота Tesla. Он также пытается отсудить неизвестную сумму у компании.
Летом этого года Tesla закрыла свой офис по разработке автопилота в Сан Матео, уволив 200 специалистов. Андрей Карпаты, главныйпо тарелочкам по ИИ в Tesla, подал в отставку. Кстати, Андрей до сих пор в свободном плавании. Ну, может себе позволить и вовсе на пенсию уйти после стольких лет на топовой должности в Кремниевой Долине. Если, конечно, Tesla вдруг не решит повесить на него всех набросившихся на автопилот собак.
На фоне всего этого Илан Макс надеется, что его инженеры смогут создать то, что он называет Real World AI уже в этом году. Именно эта система должна стать “мозгами” будущего робота компании.
Источники
🧑⚖️Про нынешнее судебное разбирательство
🧠Илон Маск даёт интервью TED
На Tesla снова подали в суд за враньё относительно возможностей автопилота. В этот раз, к счастью, с компанией судятся не из-за фатального инцидента. Производитель вызвал недовольство жителя Сан Франциско, который в 2018 году переплатил $5000 за Tesla Model X, чтобы получить доступ к технологии усовершенствованного автопилотирования. Он обвиняет Tesla в том, что компания годами давала обманчивые обещания относительно безопасности и надёжности технологии и вводила в заблуждение покупателей ради увеличения продаж. Это коллективный иск, к которому присоединились и другие владельцы автомобилей компании.
В июле этого года Калифорнийский департамент транспортных средств (DMV) подал жалобу на Tesla по этой же причине — за введение в заблуждение относительно возможностей автономного вождения. Чиновники пытаются добиться отзыва лицензии автодилера или релокации в другой штат.
В Германии суд Мюнхена заставил компанию вернуть покупательнице полную стоимость кроссовера Model X (€112 000), потому что автопилот оказался неспособен к навигации по улицам города.
По данным Национальной службы безопасности дорожного движения США (National Highway Traffic Safety Administration), с 2018 года водители Tesla, которые пользовались Tesla Autopilot или функцией Traffic Aware Cruise Control, сообщили об 11 случаях столкновения с припаркованными и движущимися автомобилями. В прошлом году департамент начал расследование этих инцидентов.
Одно из давних судебных разбирательств, о котором широко известно, также ещё не закончено. В 2018 году по виде автопилота компании погиб инженер Apple Уолтер Хуанг, отец двух детей. Компания утверждает, что водитель убрал руки с руля, что категорически запрещено делать даже при использовании автопилота. Также известно, что Уолтер несколько раз ловил баг системы и сообщил об этом родственникам: в одном и том же месте автопилот пытался повернуть влево и съехать с дороги. Именно там и произошла фатальная авария. Не очень ясно, почему Уолтер проигнорировал опасность, о которой знал. Одна из версий — включённая в момент аварии игра Three Kingdoms на айфоне.
В 2020 году Кристофер Хинз из Вашингтона получил катастрофические травмы во время аварии, случившийся под управлением автопилота Tesla. Он также пытается отсудить неизвестную сумму у компании.
Летом этого года Tesla закрыла свой офис по разработке автопилота в Сан Матео, уволив 200 специалистов. Андрей Карпаты, главный
На фоне всего этого Илан Макс надеется, что его инженеры смогут создать то, что он называет Real World AI уже в этом году. Именно эта система должна стать “мозгами” будущего робота компании.
Источники
🧑⚖️Про нынешнее судебное разбирательство
☠Про судебную тяжбу семьи убитого Уолтера Хуанга🧠Илон Маск даёт интервью TED
USA TODAY
Elon Musk's Tesla accused of fraud, false advertising of 'autopilot' technology in lawsuit
A Tesla customer filed a class-action suit against Tesla, alleging the company and CEO Elon Musk misrepresented its \
Forwarded from Data Science by REBRAIN
Открытый практикум Data Analyst by Rebrain: Рекомендательные системы и их реализация
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
20 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Где мы встречаем рекомендательные системы, их роль в нашей жизни
🔹Какие виды их бывают
🔹Построим несколько разных моделей рекомендательных систем на данных просмотра кино
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Веду свой проект, со своей командой создаём проекты в области машинного обучения и анализа данных.
Успевайте зарегистрироваться. Количество мест строго ограничено!
👉Регистрация
Время проведения:
20 Сентября (Вторник) в 19:00 по МСК
Программа практикума:
🔹Где мы встречаем рекомендательные системы, их роль в нашей жизни
🔹Какие виды их бывают
🔹Построим несколько разных моделей рекомендательных систем на данных просмотра кино
Кто ведет?
Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель. 6 лет в Data Science, 9 лет в IT. Работал в государственной компании, исследуя математические средства моделирования процессов принятия решения. Занимался DS в стартапах и крупных компаниях. Веду свой проект, со своей командой создаём проекты в области машинного обучения и анализа данных.
👍1
Периодически задают вопросы про выбор СУБД.
Их много, и каждая из них со своими плюсами и минусами.
Вот здесь небольшая статья, которая коротко поясняет про каждую из популярных СУБД.
Их много, и каждая из них со своими плюсами и минусами.
Вот здесь небольшая статья, которая коротко поясняет про каждую из популярных СУБД.
Medium
Top Databases to Use in 2022: What is The Right Database for Your Use Case?
Here’s everything you need to know about databases
Forwarded from N + 1
Если в вашу жизнь ворвался стихийный потоп, от которого не убежать и не спрятаться, можно запаниковать. Но красные муравьи в этой ситуации не паникуют: они держатся рядом, карабкаются друг дружке на плечи и плывут единой конструкцией. Ученые выяснили, что слипаться им помогает еще и физика — ради их спасения работает тот же эффект, что слепляет хлопья в молочном завтраке
https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable
https://nplus1.ru/news/2022/09/23/fire-ants-raft-stable
N + 1 — главное издание о науке, технике и технологиях
Для строительства надежного живого плота хватило 10 муравьев
Физики выяснили, что живой плот будет стабильным, если состоит из 10 и более муравьев
Тем, кто нейросетки обучает, может пригодиться. Пользуйтесь на здоровье 🙏🏼
Forwarded from DL in NLP (Vlad Lialin)
Ускоряем нейросетки с помощью PyTorch 1.2 и nvFuser
Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm
Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).
А вот тут официальный туториал от PyTorch
Кто такой этот ваш nvFuser? Это новый компилятор который заменяет/дополняет TorchScript и позволяет фьюзить несколько GPU операций в одну. Это особенно хорошо работает с последовательностями поэлементных операций, таких как сложные функции активации или последовательность простых операций как bias->dropout->layerNorm
Чем это отличается от гугловского XLA? Неплохо умеет работать с dynamic shapes, например если у вас у разных батчей разная длина последовательности, XLA придётся всё перекомпилировать, а nvFuser будет работать нормально. Замедление по сравнению со статическими шейпами есть но оно небольшое (сравните столбики Composite Definition и Random Sizes).
А вот тут официальный туториал от PyTorch
Если вас интересуют датасеты на всякий случай жизни, то гляньте сюда 👇🏼
Пожалуйста 🙂
Пожалуйста 🙂
Forwarded from RU Dataset | Датасеты
↕️↘️ Содержание
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология
Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com
0️⃣1️⃣ Адреса
0️⃣2️⃣ Анализ сцен
0️⃣3️⃣ Видеозаписи
0️⃣4️⃣ Выборы
0️⃣5️⃣ Еда | Продукты питания
0️⃣6️⃣ Здравоохранение
0️⃣7️⃣ Лингвистические датасеты
0️⃣8️⃣ Литература
0️⃣9️⃣ Мода
1️⃣0️⃣ Музыка
1️⃣1️⃣ Муниципальные порталы открытых данных
1️⃣2️⃣ Недвижимость
1️⃣3️⃣ Образование
1️⃣4️⃣ Региональные порталы открытых данных
1️⃣5️⃣ Рецензии | Отзывы
1️⃣6️⃣ Рынок труда и занятость
1️⃣7️⃣ Социальные сети
1️⃣8️⃣ Токсичность, троллинг, эмоции
1️⃣9️⃣ Текстовые данные
2️⃣0️⃣ Устная речь
2️⃣1️⃣ Федеральные порталы открытых данных
2️⃣2️⃣ Финансы
2️⃣3️⃣ Фотографии людей
2️⃣4️⃣ Фотографии с высоты
2️⃣5️⃣ Экология
Не нашли, что искали, а нужно очень срочно?
datacatalogs.ru
datasetsearch.research.google.com
👍2
Один щедрый участник NLP-комьюнити поделился классным корпусом параллельного перевода.
Если вам не пригодится, то себе оставлю 😝
Если вам не пригодится, то себе оставлю 😝