NEW BOT Телеграм, страница

Системный Блокъ

Бот ChatGPT против человека и других роботов

Новости о развитии искусственного интеллекта попадают на первые полосы различных медиа, а про ChatGPT слышно из каждого утюга. При этом, различным моделям ИИ приходится конкурировать по степени «разумности» не только с человеком, но и между собой. Разбираемся с конкуренцией между моделями ИИ, между ИИ и человеком, преимуществами и недостатками бота ChatGPT и его аналогов, а также моральной ответственностью и человеческим снобизмом.

Кратко: о чем статья?

Сегодня умение нейросетей писать бизнес-планы, тексты для копирайтеров и коды для программистов большинство воспринимает как невероятный прорыв в технологиях. При этом голосовые помощники, которые 12 лет назад вызывали не меньший восторг, уже не кажутся такими революционными: ChatGPT способен написать книгу о ядерной физике, а Siri даже не может переключить трек. Правда, даже у самых современных нейросетей есть свои недостатки: например, основная проблема GPT-4 (подробнее об этой модели — в нашем материале) в том, что она не подключена к интернету и, соответственно, оперирует только информацией, которую получила до сентября 2021 года. И пока Google экстренно дорабатывает свой бот Bard с доступом к сети, Microsoft уже опередил всех своих конкурентов и интегрировал технологию ChatGPT в поисковик Bing, встроенный в браузер Microsoft Edge.

Что же касается сравнения возможностей искусственного и естественного (человеческого) интеллектов, по мнению когнитивного лингвиста Ноама Хомского, самым большим недостатком ИИ является отсутствие способности не только описывать настоящее, но также говорить о том, чего нет, что могло и не могло бы произойти. Машина все еще не справляется с теми задачами, которые требуют человеческого жизненного опыта — разговаривать на любые темы (тест Тьюринга), ориентироваться в пространстве и решать бытовые задачи (кофе-тест Уозняка), а также реализовывать сенсомоторные навыки (парадокс Моравека).

О мнениях специалистов на счет развития ИИ и желании пользователей спровоцировать нейросети — в полной версии статьи (а ещё в ней есть мемы).

Время чтения: 12,5 минут.

Системный Блокъ

Бот ChatGPT против человека и других роботов

Новости о развитии искусственного интеллекта попадают на первые полосы различных медиа, а про ChatGPT слышно из каждого утюга. При этом, различным моделям ИИ приходится конкурировать по степени «разумности» не только с человеком, но и между собой. Разбираемся…

🔥14❤4👍4👾3

2.16K views12:01

Системный Блокъ

Цифровые архивы и базы данных по истории ХМАО–Югры для школьных уроков и проектов

Как увлечь школьников историей страны? Лучше всего — с помощью настоящих свидетельств из прошлого: писем с фронта, фотографий, музейных предметов и реальных архивных документов. Пойти в музей можно не всегда — но сегодня множество музеев оцифрованы. Об использовании цифровых архивов и электронных баз по истории Ханты-Мансийского автономного округа на уроках рассказывает учитель и блогер «Системного Блока» Юлия Папанова.

🏛️ Сводная база музеев ХМАО-Югры

В каталоге можно найти 283 783 экспоната из 32-х музеев округа. Среди них — оцифрованные документы, фотографии, картины, предметы прикладного искусства, быта и этнографии, предметы археологии и нумизматики.

Эта база дает большие возможности для «визуализации» прошлого: можно предложить ученикам определить, что это и как использовалось, классифицировать предметы, расположить их в правильной хронологии, подготовить описание выставки и т.п. А ещё — проанализировать материалы, из которых сделаны предметы одежды, быта и культа, и сделать выводы о том, с кем торговали жители средневековой Югры.

🗺️ Виртуальный музей «История ссылки и спецпереселений в Ханты-Мансийском автономном округе – Югре. 1920-1950-е гг»

На сайте проекта представлены предметы быта, документы, фотографии, письма и интерактивная карта. Благодаря отдельным разделам можно узнать больше о жизни в ссылке и вкладе спецпереселенцев в развитие округа.

Автор блога использовала для урока, посвященного теме «Большого террора», архивно-следственное дело Куриковых, манси по национальности, приговоренных к смертной казни в 1937 году. А один из её учеников сделал исследование, в рамках которого привел доказательства, что это дело было сфабриковано.

👨‍👩‍👧‍👦 Генеалогический портал «Связь поколений Югры»
Этот портал — один из проектов Службы по делам архивов Югры. Его цель – помочь всем желающим в изучении своей родословной. На портал загружено более 280 метрических книг в период с 1730 по 1928 годы, в которых содержатся 704 308 записей о рождении, браке и смерти жителей автономного округа.

Ученики, чьи предки жили в автономном округе более ста лет назад, могут составить свое генеалогические древо на основе материалов портала.

О других базах данных и вариантах их использования узнаете из полного текста на сайте.

Системный Блокъ

Цифровые архивы и базы данных по истории ХМАО–Югры для школьных уроков и проектов - Системный Блокъ

В статье представлен обзор основных цифровых баз данных по истории Ханты-Мансийского автономного округа - Югры и предложены идеи, как их можно использовать учителю для проведения уроков и организации исследовательской деятельности школьников

🔥11👍7❤3

1.99K viewsedited 07:01

Системный Блокъ

Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?

Сегодня День Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Предлагаем вам посмотреть на историю ВОВ через историю призыва и архивных документов.

Кратко: о чём статья?

В 2020 году «Системный Блокъ» исследовал большую базу записей о перемещениях солдат в журналах военно-пересыльных пунктов. Оказалось, что у каждой республики была своя история участия в войне и свой портрет призыва.

Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Турменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.

❤15👍8🕊5👏1😱1

12.8K views12:31

Системный Блокъ

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем новом материале.

Кратко: о чем статья?

За последние пару лет в НКРЯ появились не только новые тексты, но и новые корпуса. Один из наиболее важных — панхронический, позволяющий находить тексты от средневековых до современных. В другом новом корпусе, «Русская классика», собраны не только основные тексты, но также черновики и редакционные варианты произведений. Наконец, для корпуса «От 2 до 15» был проведен масштабный опрос о самых популярных произведениях среди детей разных возрастов. В итоге в корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов от «Гарри Поттера» до «Денискиных рассказов».

Среди других изменений — новые функции: поиск коллокаций, частотность выдачи и автоматическое снятие омонимии. А ещё — портреты слова и корпуса. Узнать о них больше, посмотреть портрет слова «чипсы» и познакомиться с другими обновлениями можно благодаря полному тексту статьи.

Время чтения: 10,5 минут.

Системный Блокъ

НКРЯ 2.0: главное в Национальном корпусе русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали…

🔥20👍10❤4

2.37K viewsedited 13:00

Системный Блокъ

Лермонтов или Толстой?

Сегодня снова предлагаем вам угадать, в стиле какого писателя нейросеть сгенерировала текст. А ещё — скоро выложим материал с подробной инструкцией о том, как самостоятельно научить ruGPT3 такому трюку.

«Я вышел за хлебом к булочнику. Я помню, как он схватил меня сзади и потащил куда-то; но я не хотел идти туда... И вдруг мы очутились на площади: это был тот самый сквер с фонтаном в саду у Марфы Петровны (там теперь ее дом). Вот этот сад! Это то самое место было тогда здесь во время пожара вместе со мною под судом? Так ты помнишь его?»

😁14❤8👍3

1.88K views07:00

Системный Блокъ

«Чей» текст сгенерировала нейросеть?

Anonymous Quiz

🤔17😁5❤1

386 voters1.87K views07:00

Системный Блокъ

Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Кратко: о чем статья?

Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.

При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.

Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.

Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.

Время чтения: 19 минут.

Системный Блокъ

Как дообучить языковую модель писать в стиле Достоевского - Системный Блокъ

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

👍22🔥9❤3

2.28K views15:02

Системный Блокъ

Русско-китайский параллельный корпус

Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.

Кратко: о чем статья?

Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.

На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.

Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».

О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.

Время чтения: 12 минут.

Системный Блокъ

Русско-китайский корпус НКРЯ, или Как превратить ботвинью в гаспачо - Системный Блокъ

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом…

🔥13❤5❤‍🔥3

2.29K views12:30

Системный Блокъ

Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда»

«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.

Кратко: о чем статья?

Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.

Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.

Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».

О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.

Время чтения: 8 минут.

Системный Блокъ

Уникальные книжные памятники теперь доступны онлайн

Благодаря проекту «Книжные памятники» в сети впервые появились уникальные книжные материалы.

❤‍🔥15❤6👍5🤓1

1.91K views16:00

Системный Блокъ

«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.

Системный Блокъ

«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским - Системный Блокъ

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что…

👍11❤6🔥3🕊3👏1

3.03K views15:01

Системный Блокъ

Как дети учатся читать и что нам говорит об этом наука?

Большинство детей начинает говорить и понимать устную речь в течение первых лет жизни, не прикладывая к этому никаких видимых усилий. Умение читать – другое дело. Чтение не «приходит само», ему нужно научить. Анастасия Лопухина рассказывает в новом материале своего блога, как дети учатся читать и что знают об этом современные когнитивные науки.

💼 Что и откуда мы знаем?

Многие исследования, на которых строятся выводы о процессах чтения, были проведены на материале английского языка, что неудивительно, но важно для работы с их данными. Научение чтению, особенно на ранних этапах, связано с тем, как устроена орфография языка. Орфография английского не похожа на орфографию многих других языков, поскольку она непрозрачна. Например, сочетание —ough имеет разные прочтения в английских словах tough – though – through. Первоклассники, которые учатся читать на языках с прозрачной орфографией могут обогнать сверстников, знакомящихся с чтением на английском, на первом этапе обучения.

👞 Шаг первый: «взлом» орфографического кода

Первый этап научения связан с формированием навыка устанавливать соответствия между буквами и звуками. Это позволяет узнать знакомое из устной речи слово в письменном виде. Когда орфографическая система хорошо освоена, дети способны читать как знакомые, так и незнакомые слова. На практике получается, что в самом начале необходимо систематическое обучение звуковому методу (phonics).

👟 Шаг второй: эффективное чтение отдельных слов

Чтобы читающий не тратил много усилий на восприятие отдельных слов и сохранил ресурсы для понимания текста, ему нужно многократного прочитать слово в разных контекстах. Ещё больше опыта появляется с чтением слов из нескольких морфем (например, бодр-ость или dark-ness). Это позволяет создавать орфографические представления не только для каждого слова отдельно, но и для морфем, совпадающих у разных слов. На практике на этом этапе рекомендуется сфокусироваться на двух задачах: во-первых, помочь детям разобраться, из каких морфем состоит слово; во-вторых, сформировать мотивацию к самостоятельному чтению.

⛸️ Шаг третий: понимание текста

У детей навык понимания текста в большой степени базируется на уже имеющемся навыке понимания устной речи, но для развития понимания текста при чтении особенно важны три компонента:
• знание (орфографической системы, слов, жизненный опыт),
• обработка информации, или использование знаний в процессе чтения,
• общие когнитивные ресурсы, в частности, рабочая память.

Чтобы развивать этот навык, исследователи рекомендуют проводить оценку понимания текста, чтобы вовремя выявлять трудности, обсуждать тексты с одноклассниками и учителем, помогать детям увеличивать их словарный запас и обучать детей делать логические выводы из прочитанного.

О том, что такое ‘sight words’, как развить у ребенка внутреннюю мотивацию к чтению и какую роль в понимании текста играет знание грамматических конструкций и союзов — узнаете из полного текста статьи.

Системный Блокъ

Как дети учатся читать и что нам говорит об этом наука? - Системный Блокъ

Наука о чтении выделяет три ключевых шага от начинающего читателя к опытному: взлом орфографического кода, чтение слов и понимание текста.

🔥11❤10👍5🤩3😁1

2.36K views13:01

Системный Блокъ

Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона»

Сегодня с помощью технологии цифровой реставрации можно восстановить утраченные картины, сохранившиеся, например, лишь на фотографиях плохого качества. «Системный Блокъ» рассказывает о деятельности мастерской из Мадрида и истории воссоздания портрета Черчилля.

Кратко: о чем статья?

Благодаря бесконтактной технологии 3D-оцифровки стало возможным создать цифровые копии музейных коллекций и исторических памятников. 3D-сканеры используют, например, для снятия с поверхности картин информации о нюансах — трещинах и тонких отметинах — что позволяет создавать более точные реплики.

Команда реставрации из Мадрида, работавшая над портретом Уинстона Черчилля, состоит из 50 человек: архитекторов, инженеров-электриков, механиков, программистов, дизайнеров, сварщиков и т. д. Для восстановления уничтоженного портрета эксперты обратились к наброскам полотна и некоторым фотографиям. Портретисты изучили материалы, которые мог использовать художник, а чтобы добиться точности реплики, реставраторы исследовали даже образцы материала брюк Черчилля и выяснили, в каком кармане он носил наручные часы.

Созданный файл распечатали на холсте с использованием гипса, чтобы передать ощущение текстуры сырого материала. Репродукция смогла отразить всю психологическую глубину и энергию впечатляющего портрета Черчилля.

О других проектах реставрации с помощью цифрового исследования, а также более подробно о воссоздании портрета Уинстона Черчилля, узнаете из полной версии статьи.

Время чтения: 7 минут.

Системный Блокъ

Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона» - Системный Блокъ

Эксперты по реставрации картин из Мадрида восстановили портрет Черчилля Сазерленда.

👍6❤‍🔥5🔥5👎1

1.99K views06:01

Системный Блокъ

Как провести стилометрический эксперимент с помощью stylo? Исследуем сценарии «Черного зеркала»

Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

Кратко: о чем статья?

Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.

Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.

Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.

Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.

Время чтения: 16 минут.

Системный Блокъ

Гайд по проведению стилометрического анализа с помощью Stylo на языке R

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

❤15🔥7👨‍💻5👍3

2.39K views16:01

Системный Блокъ

Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.

Кратко: о чём статья?

Мы сталкиваемся с работой языковой модели каждый раз, когда вводим что-то с помощью клавиатуры смартфона — языковая модель предлагает следующее слово или, говоря научно, моделирует наш язык. Большие нейросети вроде GPT, умеющие поддерживать диалог, писать код и многое другое тоже предсказывают наиболее вероятное слово на основе предыдущих. Главное отличие — они делает это намного точнее.

Учиться моделировать язык можно разными способами. Существует два принципиально разных подхода: каузальное моделирование (Causal Language Modeling) и моделирование путем восстановления исходного текста по его «искаженной» версии (Masked Language Modeling и UL2). В первом подходе текст моделируется последовательно, слово за словом. К таким моделям, например, относятся все модели семейства GPT, а также модель PaLM. Во втором подходе исходный текст модифицируется: например, часть слов заменяется на специальное слово «[MASK]», которое затем должна отгадать модель. К таким моделям относится BERT.

Качество языковой модели зависит от её размера, размера обучающей выборки и количества вычислительных ресурсов, доступных для её обучения. Про размер модели и обучающую выборку мы рассказывали в наших материалах про машинное и глубинное обучение. А узнать подробнее о том, как получить оптимальную языковую модель, с какими задачами она обычно справляется и почему именно языковые модели стали главными претендентами на роль сильного искусственного интеллекта можно из полного текста статьи.

Время чтения: 12 минут.

Системный Блокъ

Как работают языковые модели и как их обучать

В этой статье рассказываем, что такое языковая модель, как она работает; чем отличаются разные языковые модели — с примерами, и существует ли оптимальный метод обучить языковую модель.

👍13❤9🤓3

2.22K views17:00

Системный Блокъ

Три взгляда на визуализации: сделать смысл вещей и явлений (не)видимым

Какой может быть «хорошая визуализация» и почему это не всегда нечто «красивое»? В новом тексте блога «Системного Блока» специалисты по Digital Humanities из ИТМО поговорили с культурологом Ольгой Давыдовой, медиафилософом Алиной Латыповой и дизайнером Трофимом Поповым об эстетических критериях и социальных аспектах визуального представления данных и роли визуализации в научном поиске.

🖼️ Три режима искусства

Философ Жак Рансьер утверждал, что существует три режима искусства: репрезентативный, эстетический и этический. Каждый из них задает правила того, как строятся художественные объекты и образы, какие чувства они должны вызывать. Репрезентативный режим помогает ответить на ставший мемом вопрос «Что хотел сказать автор?», а эстетический — на вопрос «Что я чувствую, когда я сталкиваюсь с тем или иным объектом? Что в этом объекте есть такого, что запускает во мне это переживание?»

🎨 Учёные и художники: соперничество и сотрудничество

На протяжении истории развития визуализации науки отношения между художниками и учёными менялись. Изначально художник-иллюстратор — помощник в научном познании, он изображает то, что ученый-натуралист ему предлагает. По мере того, как художники более активно включаются в процесс, они хотят быть полноправными авторами научных атласов, творцами научных объектов. В XIX веке роли жестко разграничиваются, вторая половина XX века вновь сближает художника и учёного, а современность предлагает их любопытный союз.

👁️ Видимое и невидимое

Когда мы делаем нечто видимым, мы имеем дело с репрезентацией (образ, картинка, изображение). Современная наука движется в сторону презентации (актуализации перформативного опыта). Сегодня учёные создают симуляции объектов, смотрят, как эти симуляции работают, и на основе того, что происходит, делают научные выводы. Познание превращается в перформативную практику, выходящую за границы созерцания.

✍🏼 Поэзия и визуализация

Отдельный случай — визуализация данных в гуманитарных науках, поскольку они зачастую многозначны, субъективны и противоречивы. Зато графический язык тоже имеет лексику — это стиль, мотив, текстура, цвет, материалы; и синтаксис — соотношения, композиция, порядок.

Подробнее о том, как можно выстроить взаимодействие между текстом и визуализацией, о том, как с представлением данных связана «Поэтика» Аристотеля и о проектах, в которых ученые и визуализаторы буквально вторгаются в свои объекты, — в полной версии статьи на сайте.

Системный Блокъ

Три взгляда на визуализации: сделать смысл вещей и явлений (не)видимым - Системный Блокъ

Критика, теория, чувственность, визуальное мышление, превращение в изображения и почти художественное эссе о визуализациях.

❤12👍9🔥5

2.65K views15:30

Системный Блокъ

Анализ персонажей из песен «Короля и Шута» цифровыми методами: нужный, живой, веселый, пьяный, хороший

Наверняка вы когда-нибудь слышали о группе «Король и Шут» и сможете подхватить мотив, услышав «Разбежавшись, прыгну со скалы». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный Блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество группы.

Кратко: о чем статья?

Мы собрали корпус текстов песен «КиШ» за весь период их творчества до смерти Михаила Горшенева (1996-2013). Разбив корпус на отдельные токены (слова), мы и их лемматизировали (привели к начальной форме), отобрали самые смысловые части речи и посмотрели на частотность их употребления по всему корпусу.

Выяснилось, что в центре творчества «КиШ» стоит человек, важную роль также играет дом, а многие события разворачиваются ночью в лесу. Среди глаголов лидируют хотеть (118 раз), любить (46 раз) и желать (45 раз), а герои группы обычно оказываются нужными, живыми, странными, хорошими, веселыми, пьяными. Интерес представляет не только мир персонажей-людей «КиШ», но и мир животных. Чаще всего в нем встречаются представители домашнего скота и лесные обитатели. Сказочные драконы, например, встречаются реже.

Среди междометий почетное первое место заняло «Хо», которое, впрочем, не возвращалось в песни после 2000 года, а «Ах», оказавшееся вторым по популярности, стабильно использовалось на протяжении 10 лет.

Чтобы посмотреть, как выглядит мир песен «Короля и Шута» в разные периоды творчества, к какой тональности (негативной, позитивной или нейтральной) относит песни группы библиотека Dostoevsky и какой этап творчества «КиШ» оказался приближен к реальности, а какой — связан с возвышенными образами, переходите к полному тексту статьи. Там можно найти ещё больше классных визуализаций!

Время чтения: 8,5 минут.

🔥42👍11❤6🤩3

4.56K views07:01

Системный Блокъ

Старинные открытки о культуре: «Иду на Шаляпина в оперу “Фауст”»

В каждой старинной почтовой открытке можно найти что-то новое, необычное и интересное, начиная с фотографии или рисунка на лицевой стороне, заканчивая текстом или почтовой маркой. Благодаря открыткам мы можем представить себя в роли зрителя на театральных постановках вековой давности, узнать, какие спектакли и оперные выступления были популярны в разное время. Делимся здесь двумя текстами открыток из новой подборки «Пишу тебе».

🎫 Надо дежурить

«Милая Юля! Ты хочешь, во что бы то ни стало, слушать Шаляпина? На так поставленный вопрос существует один ответ: узнай, где он, поезжай туда и там возьми билет. Я по крайней мере не слышала, чтоб он был в Питере. Но, если он здесь и поет в Мариинке, надо дежурить, других средств достать билет нет. Дежурят по вторн[икам] и субботам. Если он в частн[ом] театре, надо, проследив по газетным объявлениям начало продажи билетов, сейчас-же ехать и купить их. Это все, что я знаю. Привет от нас! {Застать нас можно по воскресеньям.}»

🎥 Для ценителя фильм

«Зная Вас как любителя и ценителя художественных фильм Дирекция кинотеатров «Титан»(пр. 25 октября, 47) и «Павильон»(ул. 3 июня, 12) приглашает Вас на премьеру последней новинки Парижа мировой картины [нрзб.] {Кин} с уч[астием] «Ивана Мозжухина»При предъявлении сего письма Вам вне очереди выдадут в кассе театра два билета».

Открытки об опере «Фауст», Китайском и Александровском театрах, а заодно и комментарии волонтеров проекта «Пишу тебе» с небольшой исторической справкой ищите в полной подборке на сайте.

❤7🐳5👍2

2.46K views14:01

Системный Блокъ

6 июня — день рождения А. С. Пушкина. Сегодня Пушкин — не только главный поэт школьной программы и «наше все», но и вдохновение для тех, кто любит соединять литературу и информационные технологии. В честь дня рождения классика предлагаем проверить, насколько хорошо вы помните его сказки. Мы изменили один из текстов с помощью модели word2vec, которая умеет работать со значениями слов — находить для них ближайшие синонимы, складывать и вычитать векторы смыслов.

Если захотите угадать цитаты из текстов других авторов — проходите наш тест, а пока попробуйте вспомнить, как звучит в оригинале этот фрагмент:

В столовой сердится судомойка,
Рыдает у полуавтомата прядильщица
И любят оне
Государской супруге

❤11👍3😁1

3.56K views06:46

Системный Блокъ

Какую сказку Пушкина преоборазовала word2vec?

Anonymous Quiz

21%

«Сказка о рыбаке и рыбке», давайте следующую загадку

63%

Конечно, это «Сказка о царе Салтане»

«Сказка о золотом петушке», естественно

10%

Ха, это не сказка, а «Евгений Онегин»!