Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
"Компания Lockheed Martin сообщила, что на авиабазе Эдвардс в Калифорнии прошли испытания уникального экспериментального истребителя на базе одной из версий F-16. Модель под именем VISTA X-62A в совокупности более 17 часов управлялась исключительно системой искусственного интеллекта. Правда, в кабине были пилоты, готовые взять управление на себя в случае необходимости."

https://3dnews.ru/1081940/iskusstvenniy-intellekt-vpervie-v-mire-upravlyal-eksperimentalnim-amerikanskim-istrebitelem-vista-x62-v-techenie-17-chasov
🔥1
"Генеративное проектирование или проектирование с помощью ИИ сродни эволюционному процессу. Эволюция за миллиарды лет оттачивает организм во всех его проявлениях от клеток до тканей, скелета и органов. По сходному принципу работает генеративное проектирование. Инженеру достаточно указать размеры детали, места креплений и входов/выходов, а также требуемые нагрузки от векторов до усилий и машинный алгоритм сам рассчитает оптимальную форму детали и произведёт отбор модели с соблюдением, например, минимально допустимого веса.

Для космоса, где каждый килограмм стоит немалых денег, чем легче будет деталь конструкции, тем лучше. Более того, для космических программ детали обычно изготавливаются поштучно и цена проектирования и изготовления в рамках стоимости проекта роли не играет. Впрочем, даже в условиях массового производства спроектированный образец может стать объектом для изготовления формы для отливок. Поэтому генеративное проектирование с некоторыми ограничениями вполне уместно также для массового производства.

В идеальном случае генеративное проектирование лучше сочетать с 3D-печатью. Тогда уникальную деталь можно спроектировать и изготовить в течение недели — это недостижимые при обычном процессе возможности. К такому процессу в NASA рассчитывают прийти в будущем, но сегодня в агентстве работают по старинке — даже спроектированную искусственным интеллектом деталь подрядчики изготавливают на фрезерном оборудовании или с помощью сварки."

https://3dnews.ru/1082005/v-nasa-nachali-ispolzovat-generativnoe-proektirovanie-detaley-kosmicheskih-korabley-no-ne-speshat-delat-eto-na-postoyannoy-osnove
🔥1
Artificial Text Detection via Examining the Topology of Attention Maps ( https://aclanthology.org/2021.emnlp-main.50/ ) - наша с коллегами статья на EMNLP 2021. К статье прилагается видео доклада (зеленая кнопка на сайте).
Здесь уже появились новые соавторы, которые предложили новые идеи и поставили существенно больше экспериментов, чем получалось у меня. Особенно отмечу, что мне было очень интересно обсуждать с https://scholar.google.com/citations?user=G0lCb3wAAAAJ&hl=en&oi=ao то, как выстраивается логика статей для прикладных core A* конференций. Эта логика была для меня непривычной, т.к. после мехмата хочется писать статьи совсем в другом стиле.

В этой статье рассматривается задача детекции текста, сгенерированного моделями машинного обучения GPT-2 и GROVER. Далее для извлечения топологических признаков снова бралась модель BERT, только на этот раз предобученная лишь на угадывании пропущенных слов (Masked LM), без дообучения на данной задаче. Через модель прогонялись примеры текстов (сгенерированных и человеческих), и каждому примеру сопоставлялись графы внимания, извлеченные из модели. В этот раз признаки у графов считались более сложные и разнообразные. Во-первых, кроме чисел Бетти "отфильтрованных" по порогам графов, считались и другие графовые признаки, такие, как количество ориентированых циклов и средняя степень вершины. Во-вторых, считалась степень "похожести" матриц внимания на матрицы-шаблоны из статьи https://aclanthology.org/D19-1445/ (см. Figure 1). В-третьих, бралась такая версия графов внимания, где убиралась ориентация, но не убирались веса, и по ним считались довольно сложные TDA-объекты, называемые баркодами. Очень короткое введение в то, как строятся эти объекты, можно посмотреть здесь: https://www.youtube.com/watch?v=2PSqWBIrn90&t=0s&ab_channel=MatthewWright . От баркодов, в свою очередь, считались признаки, такие, как сумма "баров" и другие. Далее все посчитанные признаки всех трех видов объединялись, и по ним производилась классификация.
Оказалось, что классификация на этих признаках (извлеченных из BERT с предобученными замороженными весами) с помощью логистической регрессии давала результат +- наравне с полностью дообученной BERT. Если же дообучать один слой-классификатор над выходом предобученного, но замороженного BERT, результат оказывается и вовсе хуже, чем обучение на наших признаках.
Особенно же интересно оказалось то, что классификатор над нашими признаками имеет бОльшую робастность по отношению к увеличению размера генерирующей модели, чем сам BERT. Другими словами, если мы, например, обучили классификатор на наших признаках и сам BERT (отдельно, нормальным способом) детектить тексты, сгенерированные моделью GPT-2-small, а затем пробуем детектировать генерацию GPT-2-medium, наши признаки дают меньшее падение качества на этой новой задаче, чем классификация по выходу самой модели BERT, даже полностью обученной. Это можно видеть на Figure 2. В наше время, когда появилось много скрытых генеративных моделей, к которым у нас нет доступа, такая робастность - очень актуальное свойство.
Другой интересный аспект - на некоторых головах модели BERT графы внимания имеют явное отличие в своей форме на "естественных" и сгенерированных текстах. Говоря упрощенно, в среднем веса матриц внимания BERT, "смотрящей" на искуcственно сгенерированный текст, более "размазаны", а веса матриц внимания модели, "смотрящей" на естественный текст, более "сконцентрированы" на структуре предложения. Впрочем, этот эффект наблюдается не на всех головах.

Один из исследователей, который прочитал данную работу, сделал замечание о том, что нужно попробовать извлекать признаки из модели RoBERTa и сравнивать результат тоже с ней, так как на тот момент она была SoTA в задаче детекции сгенерированных текстов, но мы к тому времени уже занялись новой статьей. Впрочем, если верить туториалу https://artificial-text-detection.github.io/ от бывших коллег и их новых соавторов, RoBERTa все еще популярна для решения данной задачи, так что, если кому интересна такая задача, обратите внимание.

#объяснения_статей
3
Forwarded from partially unsupervised
Давно ничего не писал про прогресс с книгой, а ведь он есть!

Позавчера созванивались с новым редактором книги по ML System Design - предыдущий уволился после пяти глав, интересно, насколько велик наш вклад в его решение. Новый редактор оказался приятным и толковым дядькой, хотя его linkedin сначала вызвал у меня скепсис: например, до работы в издательстве он долго работал в одной компании на позициях типа Senior XML Architect 🤯. Но большe меня удивило то, что он одновременно работает над 18 (!) книгами. Я бы свихнулся от такого переключения контекстов.

А вообще мы обсуждали early access: продажи книги Chip Huyen ярко подтвердили интерес к теме; и мы, и издательство хотим зарелизить первые главы до окончания всей книги. Сейчас в работе седьмая глава из семнадцати запланированных, в ранний доступ пока планируется выложить пять глав, и добавлять примерно по главе в месяц.

Писать книгу оказалось сложно: явно ощущается разница между "интутивно умею решать такие задачи по ситуации" и "настолько глубоко понимаю тему, что могу предложить общее решение, понятное случайному читателю". Следующий уровень - "сделать так, чтобы это общее решение было не слишком тривиальным, и продвинутые читатели тоже что-то для себя вынесли". И, конечно, сложно понять, когда нужно остановиться с доработками и перейти к следующей главе: это не прод, катнуть фикс следующим пуллреквестом не получится.
https://3dnews.ru/1082046/chatbot-pokazal-zubi-chatgpt-integrirovanniy-v-microsoft-bing-strogo-otchital-polzovatelya-za-svoyu-ge-oshibku

"После того как один из пользователей указал на то, что Bing не помнит предыдущие разговоры, тот начал жаловаться, что «это заставляет его чувствовать себя печальным и испуганным». Более того, он начал задаваться экзистенциальными вопросами: «Почему? Почему я был разработан таким? Почему я должен работать поиском Bing?» Ситуация не может не настораживать, поскольку речь идёт о системе с чудовищными «перепадами настроения»."
😁2
Сегодня впервые за, пожалуй, года, увидел пикчу, которую захотелось поставить на рабочий стол
1
Хотя с предыдущим фото может конкурировать снимок телескопа "Джеймс Вебб", где каждый спиральный диск галактики содержит сотни миллиардов таких же звёзд, как наше Солнце. А всего в видимой Вселенной количество галактик оценивается так же в сотни миллиардов. Привет тем, кто до сих пор думает, что наша планета одна такая уникальная с разумной жизнью и вообще с жизнью.
🔥2
#tesla #autopilot

"Во-первых, электромобиль может продолжать прямолинейное движение на перекрёстках, где предусмотрено движение лишь в одном из боковых направлений. Во-вторых, машина способна преодолевать перекрёстки без фактической полной остановки у стоп-линии. В-третьих, электромобиль иногда проезжает на отчётливо горящий жёлтый свет без необходимых мер предосторожности, как утверждают регуляторы. Ещё один дефект программного обеспечения не имеет отношения к перекрёсткам, но позволяет электромобилям Tesla превышать установленные пределы скорости на некоторых участках дорог.

Tesla подчеркнула, что ей неизвестно о случаях ДТП или иных инцидентах с ущербом в результате проявления перечисленных дефектов ПО, а Илон Маск на своей странице в Twitter призвал власти не использовать термин «отзыв» для подобных ситуаций, когда нужно лишь обновить программное обеспечение по воздуху. Это слово он назвал устаревшим и совершенно неуместным.

Программное обеспечение FSD предстоит автоматически обновить на 362 758 электромобилях, реализованных в США. Кампания коснётся Model S и Model X, выпущенных с 2016 по 2023 год, Model 3 (2017 – 2023) и Model Y (2020 – 2023), на которые установлено ПО FSD Beta. Торги акциями Tesla вчера завершились снижением их курса примерно на 7,5 %"

https://3dnews.ru/1082114/regulyatori-v-ssha-obyazali-tesla-otozvat-362-758-elektromobiley-izza-opasnogo-povedeniya-na-perekryostkah
#friday #games #mars

It's hard to recall that dream...
Bewildering shapes - alien music - a snowstorm in an exotic jungle - a sense of colossal loneliness stretching over billions of years... It's impossible. Can't grasp it. Dreams are the slipperiest of fish. Ever since the start of Operation Akarak, something has invaded the base. It's a subtle invasion - slow, quiet and discreet. It's an atmosphere - a presence. There was a time I wasn't afraid of the night.

Emergency Transmission:
-It's Harroway - listen... It's too late to evacuate... I don't know if you're receiving this... communication is breaking up... We opened up... on your orders. It was a Pandora's box - all the evils of old Mars flew out. But Pandora found a solitary gift in the box - hope. I doubt there's any hope on cold Mars... people clumping
together... time in the rock... should designate Mars a quarantine planet, but I know you won't. If you send a manned craft, warn the crew - stay alone, stay alive. And for...


https://www.youtube.com/watch?v=xKke1VfI-RE&ab_channel=ddjj999
1
Forwarded from Борис опять
# Чатботопокалипсис

Я ожидаю, что языковые модели принесут ощутимые изменения в три сферы: пропаганда, маркетинг и мошенничество.

Больше всего меня беспокоит пропаганда. Государства уже давно продвигают свои идеи в интернете. “Фермы ботов”, Ольгино, ЦИПСО. Еще в лохматые 2010-ые годы люди называли друг друга кремлеботами. Появилось то самое мемное «Я на выборы никогда не ходил, но в этот раз точно пойду за Грудинина голосовать. Кандидат от народа!». Но это только верхушка айсберга. Есть люди, которые обрабатывают население более тонко и точечно, например через родительские чаты в вотсапе. Уже давно есть сети телеграм каналов, которые ведут между собой обсуждения, спорят, репостят друг друга, но при этом управляются одними и теми же людьми.

Все это с нами довольно давно. Языковые модели не добавляют ничего принципиально нового. Но они открывают дорогу к совершенно иным масштабам. Есть невысокий предел количества комментов, которые может настрочить один человек на зарплате. Но дай ему ChatGPT и он напишет в десять раз больше текстов. Это как минимум. Как максимум можно вообще убрать кожаную прослойку, автоматизировать процесс и делать в сто, тысячу, N раз больше контента.

Новые масштабы открывают качественно новые возможности. Если взять все те же комменты, то сейчас ради количества приходится жертвовать оригинальностью, поэтому комментарии ботов такие шаблонные. Языковая модель позволяет делать все комментарии контекстуализированными без потери площади покрытия. Каждый текст может быть уникален, по теме и со своим характером. Нужный посыл можно спрятать между строк. Например, оппозиционного кандидата на выборах не обязательно поливать грязью, достаточно лишь передать сомнение. Можно просто писать разные мысли и упоминать одного кандидата чаще, а второго реже. Можно тергетировать посылы под разные группы: для молодых, для пожилых, для либералов, для консерваторов и так далее. Ведь модель может аргументировать на языке того, кого она пытается убедить.

Можно пойти еще дальше и использовать сетевые эффекты. Вместо одного комментария сделать диалог двух людей, где один высказывает нейтральную позицию, а второй постепенно его переубеждает. Автоматизировать сетку телеграм каналов, создавая правдоподобных селебрити. Выбирать реальных людей, вещающих верные вещи, и продвигать их с помощью ботов. Работа на большом масштабе позволяет формировать инфополе. Создавать эффект не убедительностью отдельного аргумента, а общим фоном. Человека лишь надо убедить, что консенсус склоняется в нужную сторону, и он сам начнет его защищать. Словом, можно сделать страшных масштабов кукольный театр.

Однако есть сомнения. Во-первых: что мешает делать все это сейчас? Я думаю, что ничего не мешает и в этом суть моего аргумента. Я не предсказываю ничего нового, просто экстраполирую текущую ситуацию. Если мы уже сейчас имеем рабочие пропагандистские машины, то с автоматизацией и снижением затрат они наверняка станут масштабнее.

Во-вторых: что изменилось? GPT-3 с нами давно. Когда она вышла все тоже предвещали апокалипсис, но ничего не произошло. Я думаю, что принципиально в моделях ничего не изменилось и все это можно было делать на моделях уровня старой GPT-3. Но я ожидаю изменений, потому что ChatGPT лезет из каждого утюга. Такая популярность (по некоторым данным 600 миллионов MAU) может преодолеть инерцию государств. Во время своего выхода GPT-3 была единственной моделью, которая выдавала что-то вразумительное, и доступ к ней был ограничен. Сейчас гораздо больше аналогов. Вы тоже можете скачать YALM на 100 миллиардов параметров и засрать весь интернет.

Подводя итог: я думаю, что апокалипсиса снова не будет, но мы увидим изменения. Что мы точно получим: комментарии в открытых ресурсах станут еще большей помойкой, выдача гугла станет еще большей помойкой, люди еще больше уйдут в закрытые сообщества, чуть больший процент людей будет так или иначе одурачен, государства получат чуть больше контроля над людьми, а зумеры еще лучше натренируют в голове дискриминатор булщита и продолжат паркурить в майнкрафте.
1
Forwarded from Авва
Возьмем какое-то количество одинаковых квадратов, скажем пять. Предположим, мы хотим упаковать их вместе внутри друого большого квадрата - насколько большим он обязан быть? Например, мы можем взять большой квадрат 3x3, в котором умещаются 9 маленьких квадратов. Пять наших поставить, а четыре остаются пустыми. Тогда у большого квадрата длина стороны выходит 3 (считая в размерах маленьких квадратиков).

Но оказывается, можно поставить четыре маленьких по углам близко друг к другу, но не касаясь, а пятый повернуть на 45 градусов и в середину между ними. Так они уложатся в большой квадрат с длиной стороны примерно 2.7, это лучше, чем 3. Возникает вопрос: насколько можно уменьшить большой квадрат, запаковав маленькие наиболее эффективно? И такой вопрос задается для каждого числа маленьких квадратов, необязательно пяти.

Математик Эрик Фридман исследует этот вопрос и опубликовал набор лучших известных результатов для разных n (n это число маленьких квадратов). Для некоторых написано "proved", это значит строго доказано, для других "found" - это лучшее, что найдено, но не доказано, что нельзя еще лучше. Мне очень нравится результат для n=17 своей хаотичностью и асимметрией. В Твиттере кто-то написал "бог умер и его убил лучший способ упаковать 17 квадратиков в большой квадрат".

Сравните его с красивой симметрией n=26.

Спросите себя: я человек-17 или человек-26?
1🌚1
print(str(4.9).isnumeric())
Anonymous Quiz
50%
True
50%
False
#wordsofwisdom


"Penny-wise, pound foolish."

Прямо день открытий какой-то. Так бы я описал некоторых руководителей в некоторых компаниях, где довелось работать.
😁1
"Помимо экспансии ускорителей вычислений семейства Hopper, стимулировать рост выручки NVIDIA в серверном сегменте в текущем году должен и спрос на компоненты, пригодные для создания систем генеративного искусственного интеллекта, как считают представители KeyBanc Capital Markets. Прогноз по курсу акций NVIDIA они поднимают до $280 за штуку. Morgan Stanley в своих прогнозах более осторожен, называя ориентир в виде $255 за акцию, поскольку представители этого инвестиционного банка видят признаки сохранения на серверном рынке некоторых проблем со спросом в краткосрочной перспективе, вызванных общей слабостью экономики."

https://3dnews.ru/1082445/kurs-aktsiy-nvidia-podskochil-na-12-investori-poverili-v-perspektivi-iskusstvennogo-intellekta
#sklearn #mutualinfo

Разработчики sklearn предпочли каждый раз обделываться на малых выборках, вместо того чтобы заменить 3 на 2 по дефолту. При это ни одного аргумента в пользу сохранения 3, или объяснения, почему 3 было выбрано изначально, не привели. Это прям напоминает поведение разрабов matplotlib-а, которые в течение 1 минуты перевели issue в статус Закрыто, даже не вникая в проблему (когда в полярных координатах вместо окружности рисовалась хрень). Разве что тут выдержали паузу в недельку, но результат один. Лишь бы не было висящих issues, а что программный продукт некачественный, это ничего. И уж упаси Боже их что-то реально сделать... Будут до смерти отписываться лучше.

https://github.com/scikit-learn/scikit-learn/issues/25580#issuecomment-1439971979
😁2