Брюхоногие моллюски, эндоскопия и Пушкин: как сделать языковой корпус репрезентативным
Языковой корпус в современном понимании — это сообрание текстов в электронном виде, которое позволяет исследовать язык или группу текстов с помощью поиска и статистического анализа. Рассказываем, что важно учитывать при создании такого корпуса и как в заголовок проникли моллюски и эндоскопия.
Как собирают корпус?
Корпусы бывают очень разные по своему размеру, содержанию, целям существования и инструментарию, Корпуса радиопередач Бостонского университета до Подкорпуса берестяных грамот. При этом вне зависимости от целей и инструментария корпуса важно, чтобы он был репрезентативным, так что важно изначально отобрать оптимальные тексты в оптимальном объеме.
Допустим, мы хотим добавить в корпус естественнонаучные тексты. Интуитивно кажется, что надо просто собрать полные тексты всех подходящих по тематике публикаций, но всё не так просто. Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается название одного из них — букцинум. И вот частотность этого слова в нашем корпусе уже взлетает в разы относительно «реальной» частотности букцинумов в языке. Поэтому принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги.
Значит, надо равняться на Британский национальный корпус?
Почти… при его составлении «проблема моллюсков» всё равно настигла лексикографов. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии»… 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.
Каким же должен быть корпус?
В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.
Подробнее о том, какие корпуса существуют, как они разрабатывались и почему, однажды встретив Пушкина в тексте, вы вероятнее всего встретите его снова(помните, вы уже виделись с ним в заголовке?) , узнаете из полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Языковой корпус в современном понимании — это сообрание текстов в электронном виде, которое позволяет исследовать язык или группу текстов с помощью поиска и статистического анализа. Рассказываем, что важно учитывать при создании такого корпуса и как в заголовок проникли моллюски и эндоскопия.
Как собирают корпус?
Корпусы бывают очень разные по своему размеру, содержанию, целям существования и инструментарию, Корпуса радиопередач Бостонского университета до Подкорпуса берестяных грамот. При этом вне зависимости от целей и инструментария корпуса важно, чтобы он был репрезентативным, так что важно изначально отобрать оптимальные тексты в оптимальном объеме.
Допустим, мы хотим добавить в корпус естественнонаучные тексты. Интуитивно кажется, что надо просто собрать полные тексты всех подходящих по тематике публикаций, но всё не так просто. Представим, что в выборке нам попадается монография о брюхоногих моллюсках. В этой монографии сотни раз встречается название одного из них — букцинум. И вот частотность этого слова в нашем корпусе уже взлетает в разы относительно «реальной» частотности букцинумов в языке. Поэтому принято брать из каждого конкретного текста какое-то абсолютное число слов: например, при создании Британского национального корпуса брали по 40 000 слов из каждой книги.
Значит, надо равняться на Британский национальный корпус?
Почти… при его составлении «проблема моллюсков» всё равно настигла лексикографов. Для периодических изданий, в отличие от книг, они не стали ставить ограничение объема в 40 000 слов, посчитав, что журналы состоят из неоднородных текстов и в них не так много повторяющейся лексики. Одним из выбранных для включения в корпус стал научный «Журнал гастроэнтерологии и гепатологии»… 713 000 слов из журнала составили 0,7% корпуса и обеспечили словам пептид и эндоскопия места в топе-3000 по частотности в английском языке. Решение, впрочем, было несложным: их удалили из рассмотрения вручную.
Каким же должен быть корпус?
В общем случае в корпусе должно быть много разных жанров и стилей. Корпус должен учитывать особенности разных модальностей использования языка и существование разных групп говорящих и представлять самую широкую возможную картину. Для этого нужно определить интересующие нас типы текстов, распределить их по категориям и отобрать в каждую нужное количество данных. Внутри этих категорий должен быть баланс между связностью выбранных фрагментов, их максимальным разнообразием и минимальным объемом.
Подробнее о том, какие корпуса существуют, как они разрабатывались и почему, однажды встретив Пушкина в тексте, вы вероятнее всего встретите его снова
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Брюхоногие моллюски, гастрит и редкие фамилии: как сделать языковой корпус репрезентативным - Системный Блокъ Как собрать репрезентативный…
Чтобы грамотно составить корпус текстов, который помогал бы отвечать на вопросы о выбранном языке, недостаточно просто взять все книги, которые нам нравятся. Из этой статьи вы узнаете, чем опасны трубачи, которые даже не трубят, почему первое правило клуба…
🔥19🤓8🐳7🦄2😁1
О дивный «Новый мир»: что показывает сетевой анализ советских толстых журналов
Эпоха оттепели была временем расцвета журналов — «Знамя», «Молодая гвардия», «Новый мир» и «Юность» стали голосом времени. Как так вышло? Кто и где печатался? И в каком журнале важное место занимали темы России и… хлеба? Выясняем в новой статье.
📚 Почему все взялись за журналы?
Во-первых, в условиях командной экономики и отсутствия свободного книжного рынка именно толстые журналы стали главным источником новых произведений и идей. Во-вторых, смягчилась цензура и журналы получили относительную автономию. Публикация «Одного дня Ивана Денисовича» в «Новом мире», например, стала символом нового исторического периода, сделав тему репрессий предметом открытой дискуссии.
А стартовый тираж «Юности» в 100 тысяч означал фактически полмиллиона или даже миллион читателей, поскольку каждый экземпляр журнала передавался из рук в руки и его читали несколько человек.
🔍 А что в них изучать цифровыми методами?
Благодаря контент-анализу, например, можно отследить, как менялась идеологическая и эстетическая направленность журналов. Например, в «Нашем современнике» с 1968 по 1972 особое место занимали слова «Россия», «мать» и «хлеб».
Сетевой анализ толстых журналов позволяет обнаружить неочевидные связи в литературной среде. Скажем, можно выяснить, что тот, кто печатался в «Молодой гвардии», обычно был принят и редакцией «Юности», и наоборот. Именно в «Юности», кстати, регулярно встречались тексты Евтушенко, а вот Солженицына можно было почитать только в «Новом мире».
Подробнее об этих и других наблюдениях, сделанных благодаря цифровым методам, а еще о том, почему «Наш современник» меньше прочих пересекался по авторам с другими журналами, узнаете из полной версии статьи.
Время чтения: 13,5 минут
🤖 «Системный Блокъ» @sysblok
Эпоха оттепели была временем расцвета журналов — «Знамя», «Молодая гвардия», «Новый мир» и «Юность» стали голосом времени. Как так вышло? Кто и где печатался? И в каком журнале важное место занимали темы России и… хлеба? Выясняем в новой статье.
📚 Почему все взялись за журналы?
Во-первых, в условиях командной экономики и отсутствия свободного книжного рынка именно толстые журналы стали главным источником новых произведений и идей. Во-вторых, смягчилась цензура и журналы получили относительную автономию. Публикация «Одного дня Ивана Денисовича» в «Новом мире», например, стала символом нового исторического периода, сделав тему репрессий предметом открытой дискуссии.
А стартовый тираж «Юности» в 100 тысяч означал фактически полмиллиона или даже миллион читателей, поскольку каждый экземпляр журнала передавался из рук в руки и его читали несколько человек.
🔍 А что в них изучать цифровыми методами?
Благодаря контент-анализу, например, можно отследить, как менялась идеологическая и эстетическая направленность журналов. Например, в «Нашем современнике» с 1968 по 1972 особое место занимали слова «Россия», «мать» и «хлеб».
Сетевой анализ толстых журналов позволяет обнаружить неочевидные связи в литературной среде. Скажем, можно выяснить, что тот, кто печатался в «Молодой гвардии», обычно был принят и редакцией «Юности», и наоборот. Именно в «Юности», кстати, регулярно встречались тексты Евтушенко, а вот Солженицына можно было почитать только в «Новом мире».
Подробнее об этих и других наблюдениях, сделанных благодаря цифровым методам, а еще о том, почему «Наш современник» меньше прочих пересекался по авторам с другими журналами, узнаете из полной версии статьи.
Время чтения: 13,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
О дивный «Новый мир»: что показывает сетевой анализ советских толстых журналов - Системный Блокъ DH-анализ советских толстых журналов:…
Журналы «Новый мир», «Юность» и «Наш современник» стали символами эпохи оттепели. Как развивалось издательское дело в этот период? Как советские толстые журналы конкурировали за внимание читателей? И почему стихи Евтушенко скорее встретятся на страницах «Юности»…
❤30❤🔥13🔥13👍1🥴1
ИИ для студентов, исследователей (и Татьян)
Сегодня — День студента, а значит самое время поговорить о том, что действительно помогает учиться, исследовать и не утонуть в дедлайнах. «Системный Блокъ» собрал шпаргалку по ИИ для исследователей — понятный гайд о том, как использовать языковые модели в учебе и науке.
Если вы студент, аспирант или просто человек, который пишет тексты, анализирует данные и задаетслишком много вопросов миру — это хороший повод заглянуть в раздел нашего спецпроекта про ИИ и разобраться, как нейросети могут стать друзьями, а не врагами в таких задачах.
Кратко: о чем раздел?
ИИ-инструменты ускоряют работу на всех этапах: от формулировки темы и поиска литературы до анализа данных и подготовки публикаций.
В гайде рассказываем о нейросетях, которые оптимальны для задач на разных этапах исследования, и помогаем разобраться, как в них ориентироваться.
Например:
— с помощью Elicit можно выбрать тему и найти самые релевантные исследования;
— Litmaps, Connectedpapers и Zotero полезны для поиска и систематизации литературы (спойлер:да, они сэкономият очень много времени и сил );
— собственную базу знаний можно собрать с Meetcody.ai и Typeset.io;
— Perplexity и Consensus подойдут для чтения и анализа научных источников;
— ещё несколько нейросетей помогут оформить библиографию и даже писать код для анализа данных.
Этот раздел — часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии». В нем мы рассказываем, как применять нейросети в реальных рабочих задачах.
🤖 «Системный Блокъ» @sysblok
Сегодня — День студента, а значит самое время поговорить о том, что действительно помогает учиться, исследовать и не утонуть в дедлайнах. «Системный Блокъ» собрал шпаргалку по ИИ для исследователей — понятный гайд о том, как использовать языковые модели в учебе и науке.
Если вы студент, аспирант или просто человек, который пишет тексты, анализирует данные и задает
Кратко: о чем раздел?
ИИ-инструменты ускоряют работу на всех этапах: от формулировки темы и поиска литературы до анализа данных и подготовки публикаций.
В гайде рассказываем о нейросетях, которые оптимальны для задач на разных этапах исследования, и помогаем разобраться, как в них ориентироваться.
Например:
— с помощью Elicit можно выбрать тему и найти самые релевантные исследования;
— Litmaps, Connectedpapers и Zotero полезны для поиска и систематизации литературы (спойлер:
— собственную базу знаний можно собрать с Meetcody.ai и Typeset.io;
— Perplexity и Consensus подойдут для чтения и анализа научных источников;
— ещё несколько нейросетей помогут оформить библиографию и даже писать код для анализа данных.
Этот раздел — часть нашего спецпроекта «ИИ-лайфхаки для вашей профессии». В нем мы рассказываем, как применять нейросети в реальных рабочих задачах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
ИИ для исследователей: как заниматься наукой по-новому
ИИ для исследователей: составляем систематические обзоры, ищем статьи, строим базы знаний и визуализируем данные. Готовые кейсы и инструкции.
🔥37❤31👍13
ИИ-компании взялись за медицину, а OpenAI запускает рекламу в ChatGPT
Рассказываем, то произошло в мире ИИ за последнее время.
Интеграция LLM в систему здравоохранения
Два лидера в сфере ИИ, OpenAI и Anthropic, анонсировали внедрение больших языковых моделей в систему здравоохранения.
Обе компании предоставили своим моделям доступ к базам данных и реестрам с информацией о страховом покрытии, кодами диагнозов и научными публикациями. Еще они разработали шаблоны, позволяющие автоматизировать рабочие процессы — составление выписок, инструкций для пациентов, клинических писем и т. д.
OpenAI представила версию ChatGPT (ChatGPT Health) (ChatGPT Health), специально обученную для медицинских целей. Врачи могут использовать ее для консультаций при составлении дифференциальных диагнозов, протоколов лечения и написания направлений.
Помимо этого, обе компании добавили возможность загружать данные о здоровье в свои чат-боты: показания с фитнес-трекеров и умных часов, результаты анализов, цифровые медкарты из соответствующих сервисов (например, приложение «Здоровье» на iOS). На основе этих данных модели смогут составлять персонализированные рекомендации. Пользователи смогут предоставлять и отзывать доступ к чувствительной информации по своему усмотрению.
Реклама в ChatGPT
Компания OpenAI начнёт тестировать показ рекламы в сервисе ChatGPT.
Запуск рекламной модели позволил компании предложить дешёвую подписку ChatGPT Go стоимостью 8 долларов в месяц, что должно увеличить пользовательскую базу. Также реклама позволит зарабатывать на пользователях без подписки. Владельцам дорогих тарифных планов реклама показываться не будет.
По словам OpenAI, реклама не повлияет на ответы чат-бота. Рекламодатели также не получат доступа к перепискам пользователей.
Рекламные объявления будут отображаться после ответов ChatGPT и иметь чёткую маркировку. На этапе тестирования реклама не будет показываться пользователям младше 18 лет. Кроме того, объявления не будут затрагивать чувствительные и регулируемые сферы: здравоохранение, ментальное здоровье и политику.
Ещё одну новость — о модели Claude от Anthropic — найдёте в полной версии дайджеста на сайте.
🤖 «Системный Блокъ» @sysblok
Рассказываем, то произошло в мире ИИ за последнее время.
Интеграция LLM в систему здравоохранения
Два лидера в сфере ИИ, OpenAI и Anthropic, анонсировали внедрение больших языковых моделей в систему здравоохранения.
Обе компании предоставили своим моделям доступ к базам данных и реестрам с информацией о страховом покрытии, кодами диагнозов и научными публикациями. Еще они разработали шаблоны, позволяющие автоматизировать рабочие процессы — составление выписок, инструкций для пациентов, клинических писем и т. д.
OpenAI представила версию ChatGPT (ChatGPT Health) (ChatGPT Health), специально обученную для медицинских целей. Врачи могут использовать ее для консультаций при составлении дифференциальных диагнозов, протоколов лечения и написания направлений.
Помимо этого, обе компании добавили возможность загружать данные о здоровье в свои чат-боты: показания с фитнес-трекеров и умных часов, результаты анализов, цифровые медкарты из соответствующих сервисов (например, приложение «Здоровье» на iOS). На основе этих данных модели смогут составлять персонализированные рекомендации. Пользователи смогут предоставлять и отзывать доступ к чувствительной информации по своему усмотрению.
Почему это важно?
Во-первых, медицинские данные пациентов — конфиденциальны. ИИ-продукты, совместимые с существующими законами, упростят интеграцию технологий в работу медицинских учреждений и снимут часть нагрузки с персонала.
Во-вторых, пользователи уже активно обращаются к чат-ботам за медицинскими консультациями, а модели общего назначения не всегда корректно обрабатывают такие запросы. Ранее разработчики LLM не акцентировали внимание на этом сценарии использования. Запуск специализированных медицинских решений означает, что компании официально признают его допустимым и берут на себя ответственность за качество предоставляемой информации.
Анонсы подобных решений от лидирующий компаний свидетельствуют о готовности общества к интеграции ИИ в критически важные сферы.
Реклама в ChatGPT
Компания OpenAI начнёт тестировать показ рекламы в сервисе ChatGPT.
Запуск рекламной модели позволил компании предложить дешёвую подписку ChatGPT Go стоимостью 8 долларов в месяц, что должно увеличить пользовательскую базу. Также реклама позволит зарабатывать на пользователях без подписки. Владельцам дорогих тарифных планов реклама показываться не будет.
По словам OpenAI, реклама не повлияет на ответы чат-бота. Рекламодатели также не получат доступа к перепискам пользователей.
Рекламные объявления будут отображаться после ответов ChatGPT и иметь чёткую маркировку. На этапе тестирования реклама не будет показываться пользователям младше 18 лет. Кроме того, объявления не будут затрагивать чувствительные и регулируемые сферы: здравоохранение, ментальное здоровье и политику.
Почему это важно?
Чат-ботами ежедневно пользуются сотни миллионов людей. Однако ни один крупный провайдер LLM пока не внедрил рекламу в свой сервис.
Сценарии использования чат-ботов и интерфейс переписки предоставляют рекламодателям больше возможностей, чем простой показ баннеров и размещение ссылок на продукт. Например, пользователь может расспросить чат-бота о рекламируемом товаре, не выходя из приложения.
Велик шанс, что сервисы с чат-ботами в будущем могут стать столь же прибыльными рекламными площадками, как поисковики после массового распространения интернета.
Демис Хассабис, генеральный директор лаборатории Google DeepMind, разрабатывающей Gemini, заявил, что на данный момент у компании нет планов по добавлению рекламы в этот сервис.
Ещё одну новость — о модели Claude от Anthropic — найдёте в полной версии дайджеста на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
ИИ-компании взялись за медицину, Anthropic выложила конституцию Claude, OpenAI запускает рекламу в ChatGPT - Системный Блокъ
OpenAI и Anthropic выпустили ИИ-продукты для сферы здравоохранения, Anthropic опубликовала документ, определяющий идентичность и поведение её LLM, а в ChatGPT скоро появится реклама — что произошло в мире ИИ за последнее время
❤18🔥9🤔5❤🔥4👍3
Поэт! не дорожи любовию народной: как ChatGPT пишет стихи
Если вы когда-то просили ChatGPT сгенерировать стихотворение, вероятнее всего, вы остались… не в восторге. Но исследователи задались вопросом не о качестве стихов, а об их стиле. Есть ли у ChatGPT своя поэтика? Разбираемся в новой статье.
🤔 Как определяли черты стиля?
Чтобы изучить тенденции в творчестве нейросети, авторы исследования Does ChatGPT Have a Poetic Style? собрали корпус текстов. Они включили в него стихотворения, сгенерированные GPT-3.5 Turbo и GPT-4 и тексты реальных людей из архива Академии американских поэтов. Как вы уже догадались, исследование проводилось только на англоязычном материале.
Во всех стихах их интересовали жанры, темы, количество строк, лексика, лица глаголов и рифмы.
🧐 И что выяснилось?
Во-первых, что говорить о самостоятельном поэтическом стиле ИИ действительно можно. Во-вторых, что ChatGPT особенно любит слова heart, embrace, echoes и whispers, а из служебных частей речи предпочитает in, upon, beneath, behold и within. Если вы читали наши посты про стилометрию, то помните, что служебные части речи — важнейший маркер авторского стиля.
Ещё нейросеть предпочитает писать стихотворения объемом от 32 до 36 строк, часто делит текст на четверостишия, постепенно начинает отказываться от ямба и старается рифмовать четко и регулярно.
В комплексе это напоминает стиль… англоязычной поэзии XIX века. Что, впрочем, вполне закономерно.
Если хотите узнать про исследование Мелани Уолш, Анны Прейус и Элизабет Гронски подробнее, читайте полную версию материала.
А если вы когда-то генерировали стихи с помощью нейросетей, можете поделиться ими в комментариях. Может быть, обнаружим закономерности в русскоязычных стихах нейропоэтов!
Время чтения: 9 минут
🌞 «Системный Блокъ» @sysblok
Если вы когда-то просили ChatGPT сгенерировать стихотворение, вероятнее всего, вы остались… не в восторге. Но исследователи задались вопросом не о качестве стихов, а об их стиле. Есть ли у ChatGPT своя поэтика? Разбираемся в новой статье.
🤔 Как определяли черты стиля?
Чтобы изучить тенденции в творчестве нейросети, авторы исследования Does ChatGPT Have a Poetic Style? собрали корпус текстов. Они включили в него стихотворения, сгенерированные GPT-3.5 Turbo и GPT-4 и тексты реальных людей из архива Академии американских поэтов. Как вы уже догадались, исследование проводилось только на англоязычном материале.
Во всех стихах их интересовали жанры, темы, количество строк, лексика, лица глаголов и рифмы.
🧐 И что выяснилось?
Во-первых, что говорить о самостоятельном поэтическом стиле ИИ действительно можно. Во-вторых, что ChatGPT особенно любит слова heart, embrace, echoes и whispers, а из служебных частей речи предпочитает in, upon, beneath, behold и within. Если вы читали наши посты про стилометрию, то помните, что служебные части речи — важнейший маркер авторского стиля.
Ещё нейросеть предпочитает писать стихотворения объемом от 32 до 36 строк, часто делит текст на четверостишия, постепенно начинает отказываться от ямба и старается рифмовать четко и регулярно.
В комплексе это напоминает стиль… англоязычной поэзии XIX века. Что, впрочем, вполне закономерно.
Если хотите узнать про исследование Мелани Уолш, Анны Прейус и Элизабет Гронски подробнее, читайте полную версию материала.
А если вы когда-то генерировали стихи с помощью нейросетей, можете поделиться ими в комментариях. Может быть, обнаружим закономерности в русскоязычных стихах нейропоэтов!
Время чтения: 9 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Есть ли поэтический стиль у ChatGPT? - Системный Блокъ Есть ли поэтический стиль у ChatGPT?
Развитие ИИ продолжается: теперь он способен писать тексты, напоминающие своей формой стихотворения. Но можем ли мы назвать рифмованные строки на заданную тему поэзией? В этом материале вместо жарких дискуссий в области эстетики предлагаем читателям обратиться…
🔥22❤19👍9😁5
Галопом по Европам: куда ездили герои «Войны и мира»
Цифровое картографирование позволяет исследователям восстанавливать маршруты героев фильмов, книг и легенд и, конечно, сделать неожиданные выводы о произведениях. Сегодня расскажем, чем интересны маршруты персонажей «Войны и мира» Толстого.
Так что там с «Войной и миром»?
Толстоведка Ани Кокобобо и её студенты в Канзасском университете изучили маршруты героев с помощью сервиса StoryMap JS. Благодаря нему они выяснили, что Толстой, например, не сосредотачивается ни на нескольких выдающихся персонажах, ни на нескольких выдающихся местах: «обычные» локации в романе противопоставляются культурным и экономическим центрам, Москве и Санкт-Петербургу.
Композиция «Войны и мира» отражает эту же идею: роман лишен любых центров, в нем нет главного героя, нет одной главной мысли и нет главного места действия.
Кто куда двигался?
Пьер за время романа проходит большой путь не только метафорически, но и буквально: линия его передвижений тянется от Петербурга до Киева. А в финале он постоянно перемещается между центром (Петербургом), занимаясь общественной и политической деятельностью, и новой периферией — домом, семьей.
Элен и Наполеон — пожалуй, наименее располагающее к себе персонажи романа — всегда стремятся к культурным, экономическим, политическим центрам. При этом в романах XIX века женщины обычно остаются привязанными к дому, в то время как мужчины, наоборот, оставляют его в поисках своего места в мире. Так что Элен Курагина перемещается меньше других, тогда как Наполеон — один из самых мобильных персонажей.
При этом Наташа Ростова и Марья Болконская всё-таки путешествуют. Правда, конечно, вынужденно: они покидают дом из-за вторжения армии Наполеона.
Какие ещё маршруты можно найти в романе и что они говорят о героях, узнаете из полной версии статьи. А ещё можете почитать про карты с приведениями, лепреконами и античными героями, о которых мы писали раньше!
Время чтения: 11 минут
😎 «Системный Блокъ» @sysblok
Цифровое картографирование позволяет исследователям восстанавливать маршруты героев фильмов, книг и легенд и, конечно, сделать неожиданные выводы о произведениях. Сегодня расскажем, чем интересны маршруты персонажей «Войны и мира» Толстого.
Так что там с «Войной и миром»?
Толстоведка Ани Кокобобо и её студенты в Канзасском университете изучили маршруты героев с помощью сервиса StoryMap JS. Благодаря нему они выяснили, что Толстой, например, не сосредотачивается ни на нескольких выдающихся персонажах, ни на нескольких выдающихся местах: «обычные» локации в романе противопоставляются культурным и экономическим центрам, Москве и Санкт-Петербургу.
Композиция «Войны и мира» отражает эту же идею: роман лишен любых центров, в нем нет главного героя, нет одной главной мысли и нет главного места действия.
Кто куда двигался?
Пьер за время романа проходит большой путь не только метафорически, но и буквально: линия его передвижений тянется от Петербурга до Киева. А в финале он постоянно перемещается между центром (Петербургом), занимаясь общественной и политической деятельностью, и новой периферией — домом, семьей.
Элен и Наполеон — пожалуй, наименее располагающее к себе персонажи романа — всегда стремятся к культурным, экономическим, политическим центрам. При этом в романах XIX века женщины обычно остаются привязанными к дому, в то время как мужчины, наоборот, оставляют его в поисках своего места в мире. Так что Элен Курагина перемещается меньше других, тогда как Наполеон — один из самых мобильных персонажей.
При этом Наташа Ростова и Марья Болконская всё-таки путешествуют. Правда, конечно, вынужденно: они покидают дом из-за вторжения армии Наполеона.
Какие ещё маршруты можно найти в романе и что они говорят о героях, узнаете из полной версии статьи. А ещё можете почитать про карты с приведениями, лепреконами и античными героями, о которых мы писали раньше!
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Галопом по Европам: путешествуем с героями «Войны и мира» - Системный Блокъ Галопом по Европам: путешествуем с героями «Войны и…
Ранее мы рассказывали про то, как с помощью сетевого анализа можно разобраться в системе персонажей «Войны и мира», проследить их взаимоотношения и определить, кто «главнее». В этом материале, используя метод цифрового картографирования, отправляемся в путешествие…
❤23🔥23👀9
От Пугачева до Шекспира: исторические личности в русской прозе
Кого классическая литература упоминает чаще — полководцев, писателей или царей? И кто из литераторов увлекается такими упоминаниями больше всех? Разбираемся в новой статье.
Наполеон Наполеону рознь
Дарья Герасименко исследовала упоминания исторических личностей в русской прозе XIX века, в котором учитывала имена в разных вариантах написания (например, «Буонапарт», «Буонапарте» и др.), а авторские намеки и иносказательные формы — нет. Иначе обработать огромный корпус русской литературы XIX века было бы просто невозможно — пришлось бы перечитать ее всю.
Кроме того, в выборку не вошли исторические лица, которые стали полноценными персонажами произведений, как у Толстого. Во-первых, в таком случае они начинают подчиняться воле автора, а во-вторых, конечно, количество их упоминаний немедленно возрастает в разы. Поэтому Наполеон из теории Раскольникова в исследовании есть, а вот Наполеон из «Войны и мира» прошел мимо этой выборки (куда он прошел, кстати, можете почитать вот тут).
Кто появляется в текстах чаще всего?
Восемь из десяти самых упоминаемых персоналий в произведениях 1860–1890-х годов — литераторы. Оставшиеся двое — полководец Александр Суворов и бунтовщик Емельян Пугачев. Ещё один явно особенный случай — Пушкин, которого начали упоминать в литературе еще при жизни, отсылая к его произведениям, так что он лидирует с огромным отрывом.
А кто из писателей частит с упоминаниями?
Если вы сделали ставку на Достоевского или Толстого, увы, их нет даже в пятерке лидеров. Самые большие любители исторических личностей в русской литературе революционер-народоволец П. Ф. Якубович, автор рассказов и фельетонов И. А. Кущевский и писатель-этнограф С. В. Максимов. Следом за ними идёт И. А. Гончаров.
Кто и кого ещё упоминает, на какое десятилетие приходится пик исторических романов и кого русские писатели XIX века называли чаще — Шексипра или Байрона — узнаете из полной версии статьи.
Время чтения: 7,5 минут
P. S. да-да, в «Системном Блоке» неделя Наполеона. По возможности съешьте за это кусочек торта!
🤖 «Системный Блокъ» @sysblok
Кого классическая литература упоминает чаще — полководцев, писателей или царей? И кто из литераторов увлекается такими упоминаниями больше всех? Разбираемся в новой статье.
Наполеон Наполеону рознь
Дарья Герасименко исследовала упоминания исторических личностей в русской прозе XIX века, в котором учитывала имена в разных вариантах написания (например, «Буонапарт», «Буонапарте» и др.), а авторские намеки и иносказательные формы — нет. Иначе обработать огромный корпус русской литературы XIX века было бы просто невозможно — пришлось бы перечитать ее всю.
Кроме того, в выборку не вошли исторические лица, которые стали полноценными персонажами произведений, как у Толстого. Во-первых, в таком случае они начинают подчиняться воле автора, а во-вторых, конечно, количество их упоминаний немедленно возрастает в разы. Поэтому Наполеон из теории Раскольникова в исследовании есть, а вот Наполеон из «Войны и мира» прошел мимо этой выборки (куда он прошел, кстати, можете почитать вот тут).
Кто появляется в текстах чаще всего?
Восемь из десяти самых упоминаемых персоналий в произведениях 1860–1890-х годов — литераторы. Оставшиеся двое — полководец Александр Суворов и бунтовщик Емельян Пугачев. Ещё один явно особенный случай — Пушкин, которого начали упоминать в литературе еще при жизни, отсылая к его произведениям, так что он лидирует с огромным отрывом.
А кто из писателей частит с упоминаниями?
Если вы сделали ставку на Достоевского или Толстого, увы, их нет даже в пятерке лидеров. Самые большие любители исторических личностей в русской литературе революционер-народоволец П. Ф. Якубович, автор рассказов и фельетонов И. А. Кущевский и писатель-этнограф С. В. Максимов. Следом за ними идёт И. А. Гончаров.
Кто и кого ещё упоминает, на какое десятилетие приходится пик исторических романов и кого русские писатели XIX века называли чаще — Шексипра или Байрона — узнаете из полной версии статьи.
Время чтения: 7,5 минут
P. S. да-да, в «Системном Блоке» неделя Наполеона. По возможности съешьте за это кусочек торта!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Исторические личности в русской прозе: кто, почему и где упоминается чаще всех? - Системный Блокъ Исторические личности в русской…
В художественных произведениях часто упоминаются исторические личности. Что будет, если посмотреть на русскую литературу XIX века через упоминания реальных людей? Кем являются главные «герои» этой эпохи? Возможно, вы удивитесь, но это далеко не императоры…
🔥20❤🔥10👍10
НЛО, беглые заключенные или лавина: загадка Перевала Дятлова и 3D-анимация
Гибель туристов из группы Дятлова — одна из самых обсуждаемых тайн советской эпохи: о ней пишут книги и снимают сериалы, пытаясь понять, что же случилось с туристами в районе горы Холатчахль в феврале 1959 года.
В преддверии годовщины трагедии вспоминаем наш материал о том, какую теорию произошедшего предлагают компьютерные методы, и рассказываем, как с этим связан мультфильм «Холодное сердце».
🗻 Ученые, наверное, за лавину?
Логично предположить, что ученые не склоняются к причастности инопланетян к гибели туристов, а идею о том, что экспедиция повстречалась с группой сбежавших преступников, сегодня едва ли докажешь. Зато с природной версией вполне можно разобраться.
Этим и занялись исследователи из Лаборатории моделирования снежных лавин в Лозанне. Они разработали модель движения снега после консультаций со специалистами по эффектам в «Холодном сердце», а данные о силе и давлении на человеческое тело команда получила из тестов General Motors. В 70-е гг. компания разными ударами ломала ребра 100 трупам, чтобы улучшить ремни безопасности.
🌨️ И что показала модель?
Что на склоне горы Холатчахль и правда могла быть лавина длиной около 5 метров. Создатели, конечно, учли самые важные обстоятельства: отчёты экспертов о крутом наклоне в 30 градусов, скользкой поверхности и том факте, что туристы подрезали склон для палаток. Ситуацию ухудшили сильные ветры и большое количество снега над лагерем.
Согласен с этой версией и Джорди Хендрикс, бывший директор Лаборатории снега и лавин в Университете штата Монтана, который заявил, что симуляция демонстрирует «смертельную ночь с новой точностью».
Но, разумеется, эта версия событий остается вероятной, а не единственной.
Своими любимыми теориями можете поделиться в комментариях или в нашем опросе!
🤖 «Системный Блокъ» @sysblok
Гибель туристов из группы Дятлова — одна из самых обсуждаемых тайн советской эпохи: о ней пишут книги и снимают сериалы, пытаясь понять, что же случилось с туристами в районе горы Холатчахль в феврале 1959 года.
В преддверии годовщины трагедии вспоминаем наш материал о том, какую теорию произошедшего предлагают компьютерные методы, и рассказываем, как с этим связан мультфильм «Холодное сердце».
🗻 Ученые, наверное, за лавину?
Логично предположить, что ученые не склоняются к причастности инопланетян к гибели туристов, а идею о том, что экспедиция повстречалась с группой сбежавших преступников, сегодня едва ли докажешь. Зато с природной версией вполне можно разобраться.
Этим и занялись исследователи из Лаборатории моделирования снежных лавин в Лозанне. Они разработали модель движения снега после консультаций со специалистами по эффектам в «Холодном сердце», а данные о силе и давлении на человеческое тело команда получила из тестов General Motors. В 70-е гг. компания разными ударами ломала ребра 100 трупам, чтобы улучшить ремни безопасности.
🌨️ И что показала модель?
Что на склоне горы Холатчахль и правда могла быть лавина длиной около 5 метров. Создатели, конечно, учли самые важные обстоятельства: отчёты экспертов о крутом наклоне в 30 градусов, скользкой поверхности и том факте, что туристы подрезали склон для палаток. Ситуацию ухудшили сильные ветры и большое количество снега над лагерем.
Согласен с этой версией и Джорди Хендрикс, бывший директор Лаборатории снега и лавин в Университете штата Монтана, который заявил, что симуляция демонстрирует «смертельную ночь с новой точностью».
Но, разумеется, эта версия событий остается вероятной, а не единственной.
Своими любимыми теориями можете поделиться в комментариях или в нашем опросе!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Компьютерная модель попыталась раскрыть тайну перевала Дятлова
Команда из Швейцарии создала компьютерную модель, которая попыталась раскрыть тайну перевала Дятлова
😱16🔥9👍6✍5❤1
Что случилось с тургруппой Дятлова?
Anonymous Poll
53%
Увы, просто лавина — швейцарские ученые правы.
9%
Точно что-то сверхъестественное — вы вообще видели их последние фото?
29%
Я за криминальную версию — иначе зачем засекретили дело?
2%
У меня есть своя версия и я расскажу о ней в комментариях
19%
Я никогда об этом не думал и не планирую!
😇11❤3
Цифровой Джойс: подборка проектов об «Улиссе»
Огромный и полный загадок текст «модернистской Одиссеи» Джойса часто привлекает внимание цифровых литературоведов. В день рождения Джойса и его великого романа мы собрали подборку проектов, которые попытались сочетать «Улисса» и цифру.
Dislocating Ulysses
Dislocating Ulysses — проект по созданию 3D карты романа «Улисс». Реконструкция пространства книги производилась на основе архивных карт Дублина начала XX векаю
Joycestick
Рассказ об игровом VR-проекте бостонского колледжа под названием Joycestick (Джойс + джойстик). С помощью VR-сета и Joycestick человек может оказаться в том самом «блумсдее» 16 июня 1904 года — и попытаться ощутить атмосферу Дублина из «Улисса» на себе.
Numbering Ulysses
Большой и немного философский материал о проекте по созданию базы данных вокруг текста «Улисса». Здесь много рассуждений о том, как именно можно уложить роман в табличную структуру, какие есть способы делить его на части иерархически, и какие сложности представляет текучий модернистский текст для цифровых методов, требующих формализации и дискретности.
Infinite Ulysses
Краудсорсинговое издание «Улисса», которое размечали сотни людей. А автор издания в это время изучала поведение пользователей: как люди читают Джойса и взаимодействуют с его текстом. Аннотированный текст романа на сайте уже недоступен, но все аннотации выгружены на гитхаб. А еще тут есть комикс по «Улиссу».
The Ulysses Project
Проект с исследованием аллюзий, сделанных Джойсом в «Улиссе». Опирается на XML-разметку текста и геокодирование.
🤖 «Системный Блокъ» @sysblok
Огромный и полный загадок текст «модернистской Одиссеи» Джойса часто привлекает внимание цифровых литературоведов. В день рождения Джойса и его великого романа мы собрали подборку проектов, которые попытались сочетать «Улисса» и цифру.
Dislocating Ulysses
Dislocating Ulysses — проект по созданию 3D карты романа «Улисс». Реконструкция пространства книги производилась на основе архивных карт Дублина начала XX векаю
Joycestick
Рассказ об игровом VR-проекте бостонского колледжа под названием Joycestick (Джойс + джойстик). С помощью VR-сета и Joycestick человек может оказаться в том самом «блумсдее» 16 июня 1904 года — и попытаться ощутить атмосферу Дублина из «Улисса» на себе.
Numbering Ulysses
Большой и немного философский материал о проекте по созданию базы данных вокруг текста «Улисса». Здесь много рассуждений о том, как именно можно уложить роман в табличную структуру, какие есть способы делить его на части иерархически, и какие сложности представляет текучий модернистский текст для цифровых методов, требующих формализации и дискретности.
Infinite Ulysses
Краудсорсинговое издание «Улисса», которое размечали сотни людей. А автор издания в это время изучала поведение пользователей: как люди читают Джойса и взаимодействуют с его текстом. Аннотированный текст романа на сайте уже недоступен, но все аннотации выгружены на гитхаб. А еще тут есть комикс по «Улиссу».
The Ulysses Project
Проект с исследованием аллюзий, сделанных Джойсом в «Улиссе». Опирается на XML-разметку текста и геокодирование.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍13🥰12❤11
«Стыдные» вопросы про нейросети
Как ИИ понимает мои русско-английские запросы? Почему его не смущают опечатки? Как чат-бот догадывается, что мне предложить?
«Системный Блокъ» собрал «стыдные» и сложные вопросы про LLM и задал их своим специалистам. О том, почему модели не могут посчитать буквы, но могут написать код, есть ли у них самосознание и что будет, когда данные закончатся, — читайте в наших карточках.
А о том, причем тут эмодзи морского конька — на сайте!
🤖 «Системный Блокъ» @sysblok
Как ИИ понимает мои русско-английские запросы? Почему его не смущают опечатки? Как чат-бот догадывается, что мне предложить?
«Системный Блокъ» собрал «стыдные» и сложные вопросы про LLM и задал их своим специалистам. О том, почему модели не могут посчитать буквы, но могут написать код, есть ли у них самосознание и что будет, когда данные закончатся, — читайте в наших карточках.
А о том, причем тут эмодзи морского конька — на сайте!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35❤20👏14👍3🥰3
Как сделать свой DH-проект: гайд от «Системного Блока»
🚀 В новом проекте «Системного Блока» разобрали удачные кейсы и собрали пошаговый гайд для создания своего DH-проекта: от идеи и данных до команды, MVP и публичного запуска.
Показали реальные примеры, разобрали типичные ошибки, и поделились калькулятором зрелости проекта, который поможет честно оценить, насколько хорошо продумана идея.
Если вы давно думали «а не сделать ли…» — это знак, что пора начинать. А если просто интересно как создавались знакомые вам проекты, заходите почитать про «Прожито» @prozhito, «Пишу тебе» @pishuteberu и «Слово Толстого» @slovo_tolstogo — с разбором и комментариями создателей.
❓ Что вообще такое цифровой гуманитарный проект?
Это исследование или веб-инструмент, который решает задачи гуманитарных наук с помощью цифровых технологий. Его основа — данные, а результат должен быть доступен в цифровом виде, будь то сайт или архив на GitHub.
Данными могут быть тексты, архивы, изображения или любые другие объекты гуманитарного исследования. Вы можете собрать их самостоятельно или использовать открытые репозитории.
Так как же создать свой DH-проект?
1️⃣ С чего начать
Начинать проект нужно с идеи: понять, что, зачем и для кого вы делаете. Это определит его цель и аудиторию. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Также сразу решите, создаете ли вы разовое исследование или долгосрочный ресурс — от этого зависит масштаб работ.
2️⃣ Соберите данные
Определите, что уже есть для реализации вашей идеи. В некоторых случаях можно использовать готовые наборы, в других — потребуется самостоятельная работа по оцифровке архивов или формированию корпуса материалов.
3️⃣ Наберите команду
Определите масштаб проекта и наберите команду. Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики. Помните, что самые важные люди в команде — руководитель (идея и управление), исследователи (анализ) и IT-специалисты (для сайта или приложения).
4️⃣ Составьте план
Разбейте общую идею на конкретные задачи: что именно нужно сделать с данными, какая разметка требуется, где нужна автоматизация, а где — ручная работа. Затем создайте реалистичный график: определите сроки, этапы и результаты каждого шага. Для наглядности используйте таблицу или диаграмму Ганта.
Отлично, теперь у вас есть фундамент для старта вашего DH-проекта! Но чтобы не заблудиться на пути от идеи к результату, изучите полный гайд, который позволяет преодолеть первые трудности в проекте и предлагает лайфхаки от опытных исследователей.
А пока предлагаем вам поделиться своими первыми идеями!
🤖 «Системный Блокъ» @sysblok
🚀 В новом проекте «Системного Блока» разобрали удачные кейсы и собрали пошаговый гайд для создания своего DH-проекта: от идеи и данных до команды, MVP и публичного запуска.
Показали реальные примеры, разобрали типичные ошибки, и поделились калькулятором зрелости проекта, который поможет честно оценить, насколько хорошо продумана идея.
Если вы давно думали «а не сделать ли…» — это знак, что пора начинать. А если просто интересно как создавались знакомые вам проекты, заходите почитать про «Прожито» @prozhito, «Пишу тебе» @pishuteberu и «Слово Толстого» @slovo_tolstogo — с разбором и комментариями создателей.
Это исследование или веб-инструмент, который решает задачи гуманитарных наук с помощью цифровых технологий. Его основа — данные, а результат должен быть доступен в цифровом виде, будь то сайт или архив на GitHub.
Данными могут быть тексты, архивы, изображения или любые другие объекты гуманитарного исследования. Вы можете собрать их самостоятельно или использовать открытые репозитории.
Так как же создать свой DH-проект?
Начинать проект нужно с идеи: понять, что, зачем и для кого вы делаете. Это определит его цель и аудиторию. Вы должны понимать, кому эта работа нужна и как она может быть полезна. Также сразу решите, создаете ли вы разовое исследование или долгосрочный ресурс — от этого зависит масштаб работ.
Определите, что уже есть для реализации вашей идеи. В некоторых случаях можно использовать готовые наборы, в других — потребуется самостоятельная работа по оцифровке архивов или формированию корпуса материалов.
Определите масштаб проекта и наберите команду. Для небольшого учебного проекта хватит и пары студентов, но для проектов, предполагающих, например, ручное комментирование или оценку, потребуются разметчики. Помните, что самые важные люди в команде — руководитель (идея и управление), исследователи (анализ) и IT-специалисты (для сайта или приложения).
Разбейте общую идею на конкретные задачи: что именно нужно сделать с данными, какая разметка требуется, где нужна автоматизация, а где — ручная работа. Затем создайте реалистичный график: определите сроки, этапы и результаты каждого шага. Для наглядности используйте таблицу или диаграмму Ганта.
Отлично, теперь у вас есть фундамент для старта вашего DH-проекта! Но чтобы не заблудиться на пути от идеи к результату, изучите полный гайд, который позволяет преодолеть первые трудности в проекте и предлагает лайфхаки от опытных исследователей.
А пока предлагаем вам поделиться своими первыми идеями!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Создание DH-проекта: руководство для новичков
Как создать свой собственный цифровой гуманитарный проект, от идеи до реализации. В гайде разбираем каждый шаг процесса, проблемы и способы их решения.