Диджитал-гуманитарии с Урала – Telegram
Диджитал-гуманитарии с Урала
400 subscribers
241 photos
7 files
119 links
Download Telegram
Технари vs гуманитарии: время для цифрового перемирия?

Первый выпуск нового сезона подкаста «Пища для ума» — и какой гость!

Андрей Володин, доцент кафедры исторической информатики МГУ, ведущий научный сотрудник лаборатории Digital Humanities СФУ

В выпуске разбираемся с гуманитариями — зачем это они вдруг стали цифровыми:

📌 Что такое Digital Humanities?
📌 Как цифровые технологии влияют на качество гуманитарных исследований? Меняют ли они наше понимание прошлого?
📌 На какие навыки и цифровые инструменты полезно обратить внимание гуманитарию любой специальности?
📌 Можно ли доверять большим данным в гуманитарных науках?

Послушать выпуск можно ВКонтакте или на Яндекс.Музыке 🔥
2👍1
🗣 Казалось бы, при чём тут Кавказ?

А вот вам пример настоящей диджитал-магия! Знакомьтесь — проект «Кавказский фольклор» в немецкой базе данных, который превращает старинные сказки и легенды в современные цифровые коллекции.

🤓 Что делает этот проект увлекательным?

🔻 Собирает фольклорные тексты со всего Кавказа
🔻 Хранит их по всем правилам цифрового этикета (привет, FAIR-данные!)
🔻 Связывает тексты с мультимедиа — фото, аудио и видео
🔻 Использует умные системы классификации

⚙️ Как это работает?

Представьте: берёте аварскую сказку, переводите её на русский, загружаете в систему — и вуаля! Она получает свой уникальный код, например, cc_ava_rus_1. Теперь любой исследователь может найти её в пару кликов.

За проектом стоят учёные из Института славистики и кавказоведения Йенского университета. И это не просто архив — коллекция постоянно растёт благодаря сотрудничеству с исследователями.

🔥 Теперь фольклор не пылится в архивах, а живёт в цифровом пространстве, доступный всем желающим.

#ДГМир
6
PastVu и Sepiatown: два проекта визуальной городской истории

PastVu — российская платформа, запущенная в 2009 году. Её цель проста: собрать исторические фотографии городов и привязать их к точным координатам. Пользователи загружают снимки, указывают год и место съёмки, корректируют данные других участников. В итоге формируется крупная база визуальных источников по градостроительной истории России и стран бывшего СССР. Sepiatown (основан в 2010 году в США) работает по тому же принципу.

Благодаря этим проектам формируется масштабная цифровая коллекция визуальной городской памяти, в которой:
фотографии привязаны к конкретным координатам,
дополнены пользовательскими комментариями,
проходят уточнение дат, адресов и контекста,
создаются «истории места», видимые через сотни снимков разных лет.

Оба сервиса полезны диджитал-гуманитариям: дают точные координаты, метаданные, позволяют отслеживать изменения городской среды и использовать фотографии как источник для пространственного анализа.

#ДГИсточники
3👍2
Voyant Tools: удобный no-code инструмент для быстрой текстовой аналитики

Если нужен анализ текста без кода и установки программ — попробуйте Voyant Tools. Это веб-платформа, которая позволяет загружать корпуса и сразу получать основные метрики: частотность, ключевые слова, контекстные вхождения, распределение терминов по документам.

Инструменты внутри сервиса:
Cirrus — облако наиболее частотных слов;
Trends — динамика употребления терминов;
Context — KWIC-анализ;
TermsBerry — визуализация связей между словами;
Summary — сводка по плотности, объёму и лексике.


Преимущество Voyant в том, что он полностью no-code: загрузил — получил визуализации и метаданные, экспортировал результаты. Подходит для корпусной лингвистики, работы с историческими текстами, письмами, СМИ и большими документами.

Для быстрых DH-исследований — идеальный стартовый инструмент.

Подробный гайд по работе с сервисом написали в издании "Системный Блокъ"

#ДГИнструменты
👍52👨‍💻2
Forwarded from Хабр
Как перевести документ 1704 года без ChatGPT: история одного расследования

В 2011 году, задолго до эпохи LLM, автор статьи взялся за, казалось бы, невыполнимую задачу: перевести английский юридический документ от 1704 года. Проблема была не в языке, а в почти нечитаемом рукописном шрифте, полном архаизмов и без единой запятой.

Он подошёл к задаче, как к взлому шифра: выделил известные слова, восстановил по ним начертание букв, а затем, буква за буквой, расшифровал весь текст. Это была кропотливая работа с историческими словарями и примерами почерков, которая заняла около месяца.

Недавно автор в качестве эксперимента дал тот же документ ChatGPT. Нейросеть справилась за 9 минут. Посмотрим на эти старинные документы, разберёмся в особенностях рукописного английского XVII века и сравним результаты.
4
В цифровой гуманитаристике принято говорить о «междисциплинарности», но мало кто показывает, как именно команды делят работу.

Исследователи Пекинского университета провели фокус-интервью с 19 командами DH-проектов.

Исследование DH-проектов показало, что внутри команд формируются три чётких режима взаимодействия.

Гуманитарно-ведомый режим.
Гуманитарии определяют корпус, исследовательские цели и структуру данных.

Технически-ведомый режим.
Разработчики и data-специалисты выбирают форматы, инструменты, пайплайны обработки и анализ.

Сбалансированный режим.
Гуманитарии и тех.специалисты совместно моделируют данные, а интерпретации проверяются обеими сторонами.


Но без «мостов» (участников умеющих переводить язык гуманитариев на язык программистов и наоборот) проект начинает буксовать.

Статья показывает, что успешный DH-проект — это не «учёный + программист», а цепочка поддерживающих друг друга компетенций.

#ДГМир
👍5🔥3👨‍💻2
Университет Калифорнии в Санта-Барбаре (UCSB) представил грандиозный проект — оцифрованную коллекцию американской музыки в партнерстве с Dust-to-Digital.

Огромный массив исторических аудиозаписей (более 50000 треков!) размещен на портале Discography of American Historical Recordings (DAHR).

Что ценно для Digital Humanities?

📍Геопривязка данных: Отдельный модуль Places позволяет анализировать распространение музыки через географию. Идеально для картографических визуализаций и изучения региональных культурных сцен.

🔎Глубокий поиск: Детализированная фильтрация по:
Names (имена исполнителей, композиторов)
Titles (названия записей)
Places (места записи, издания)
Matrix/Catalog numbers (технические номера) — ключ для точной атрибуции и анализа производственных цепочек.

#ДГИсточники #ДГМир
4🔥2🥰2👏2
Научный проект старшего научного сотрудника нашей лаборатории Ивана Валерьевича Зыкина "Советская целлюлозно-бумажная промышленность в 1930-х гг.: международное сотрудничество, заимствование и производство технологий" стал победителем конкурса Российского научного фонда «Поддержка проведения научных исследований и развития научных коллективов, занимающих лидирующие позиции в определенных областях науки».

📚В проекте анализируется опыт международного сотрудничества, разработки и производства технологий в целлюлозно-бумажной отрасли в годы первых пятилеток по реализации индустриального проекта и формированию отечественной научно-технической базы.

Иван Валерьевич так прокомментировал основную задачу проекта:

Одна из задач — оцифровка и публикация архивных источников, характеризующих впечатления сотрудников Всесоюзного научно-исследовательского института целлюлозно-бумажной промышленности от знакомства с европейскими и североамериканскими предприятиями и технологиями.


#ДГПроект@DH_UrFU #ДГИнструменты@DH_UrFU
7👍5🥰4
Сегодня на канале SciencePub вышло видео, посвященное искусственному интеллекту.

Руководитель программ магистратуры ИРИТ-РТФ Дмитрий Денисов и член научного коллектива Молодежной лаборатории Женя Потапова обсудили Бажова, нейронные сети и опасения гуманитариев в период бурно развивающихся технологий❤️
3👍3
Forwarded from SciencePub
Готов новый выпуск — и в этот раз он с гостем

С Женей Потаповой, филологом и сотрудницей Музея Бажова, поговорили о том, что волнует многих, кто работает с текстами: может ли искусственный интеллект заменить гуманитариев?

Женя посмотрела на вопрос со стороны филологии: как нейросети работают с текстом, что они действительно понимают, а что только имитируют, могут ли конкурировать с писателями и исследователями. Разобрали реальные примеры, в том числе связанные с творчеством Павла Бажова.

Я со своей стороны рассказал о технической части: как ИИ генерирует тексты, почему он ошибается и где его возможности часто переоценивают.

Плюс есть рекомендации книг, если хотите заглянуть глубже в тему.

📺 Видео уже в ВК и на YT-канале — включайте!
🎧 Аудио-версия появится позже на Яндекс Музыке, ВК Музыке и других платформах.

И заодно интересно: кого бы вы хотели видеть гостем подкаста в следующих выпусках?
3👏3
Привет, диджитал-гуманитарии! Делимся новостями из мира цифровой филологии.

📈 Сегодня расскажем о крутой технологии, которая превращает эмоциональность текста в график!

Sentiment Analysis — это процесс автоматического определения эмоциональной окраски содержания текста. Загружаете книгу, статью или даже переписку, а система нарисует график её эмоционального состояния (ни один токсичный комментарий не ускользнёт из-под глаз SA 💯).

⚙️ Как это работает?

• Нейросети анализируют каждое предложение
• Далее следует определить эмоциональную окраску каждой единицы (через RuBERT)
• А затем появится график настроения

💡Где применять?


• Анализ отзывов и комментариев
• Мониторинг соцсетей
• Изучение литературных произведений
• Оценка тональности переписки

🎯 А ещё можно:

• Отслеживать изменения настроения в текстах
• Сравнивать эмоциональную динамику разных авторов
• Находить ключевые эмоциональные точки

Подробный гайд по работе с тональностями написали в издании "Системный Блокъ"

#ДГИнструменты
🥰41🔥1
🍔 Вкусно или грустно? Компьютер оценил страдания по Макдоналдсу

Помните, когда вместо буквы «M» появились «две палочки и точка»? Студентки направления «Цифровая гуманитаристика» Альтах Анастасия, Татьяна Науменко и Дарья Пономарева с помощью ML проанализировали, что именно люди писали об этом в соцсетях.

🌟Студентки загрузили тысячи комментариев в машинные модели, чтобы понять реальный «градус» восприятия этих перемен. Как пишут наши молодые исследователи, они

не только выявили, кто из новых брендов смог завоевать сердца, но и предприняли попытку научить бездушный алгоритм понимать тонкую русскую иронию. Отличать искреннюю радость от саркастичного «ну, спасибо, теперь заживем» для машины – задачка со звездочкой

☕️Как оказалось, современные инструменты анализа тональности часто не справляются с богатством русского языка. Гадание на кофейной гуще иногда работает даже точнее, чем некоторые алгоритмы.

#ДГПроекты #ДГИсследования
🔥52👍1
🧠 CLARIN — мощный инструмент для диджитал-лингвистов! 🧠

Сегодня хотим рассказать вам о портале CLARIN — настоящей находке для лингвистов.

🔍 Что предлагает CLARIN:
* доступ к цифровым архивам (репозиториям) с языковыми ресурсами
* широкий спектр сервисов для работы с данными
* поисковую систему для языковых ресурсов
* приложения для аннотирования и анализа данных
* обзор языковых ресурсов по типам данных и языкам

📚 На портале вы найдёте:
* разные корпусы текстов (исторические, литературные, научные)
* лексические и концептуальные ресурсы (словари, глоссарии)
* инструменты для анализа тональности, распознавания именованных сущностей, лемматизации и не только

💡 Особенно нам приглянулось семейство ресурсов CLARIN, облегчающее проведение сравнительных исследований. Тут есть:
* метаданные и краткие описания разных европейских ресурсов
* ссылки на страницы для скачивания
* гиперссылки на семинары, учебные пособия, видеолекции и ключевые публикации
* и огромное количество корпусов!!!

#ДГРесурсы #ДГМир
4👍2
Вы не знали, как можно соединить письма Ван Гога, DNS и биографию Бажова? А мы знаем!

На связи команда студентов проекта «Бажовский словарь». Мы продолжаем изучение наследия Бажова, и на этот раз взялись за хронологию его жизни.

Проект призван показать жизнь самого автора. Без мифов и предвзятости. Сделать таймлайн для личности, жизнь которой более удивительна, чем многие могли бы представить — нетривиальная задача.

Жизнь Бажова часто преподносят «под разным соусом», акцентируя внимание на одних событиях и замалчивая другие. Мы хотим создать объективный цифровой ресурс, который наглядно покажет ключевые вехи его биографии.

Дизайнер проекта, Ирина Шульгина, признается:

Для меня Бажов всегда был "уральским сказочником". Но когда мы начали работу с хронологией, я была удивлена! Оказывается, он побывал в 21 населенном пункте, сменил множество профессий и был в эпицентре ключевых событий своей эпохи. Это настоящий человек-оркестр, а не просто "дедушка с сказками"!


#ДГПроект@DH_UrFU #ДГИнструменты@DH_UrFU
5👍3🥰2
Как совместить научную работу и бизнес при помощи ЦГ?

Любая компания, особенно такая, как «ЖизньМарт», оставляет в интернете мощный цифровой след — тысячи отзывов, постов и комментариев. Это не просто набор данных, а архив публичного восприятия и реального отношения аудитории к бренду.

Есть упоминания, есть охваты, но что делать с этим массивом информации?

Читать вручную — невозможно. Мы превратили эту проблему в основу для нашей магистерской диссертации.

Чем поможет ЦГ?

✔️Читать архив количественными методами: при помощи NLP мы анализируем тысячи комментариев, выявляя общие паттерны и тренды.

✔️Визуализировать культуру бренда: дашборд — это инструмент для интерпретации, который позволяет по-новому взглянуть на то, как формируется репутация.

Итогом работы будет система метрик эффективности PR-деятельности «ЖизньМарта» и прототипа дашборда для отображения информации в сжатом и понятном виде.

Авторы: Шашкова Полина, Щербакова Виктория, Олейник Юлия

#ДГПроект@DH_UrFU #ДГИнструменты@DH_UrFU
5👍2🔥2
Как компьютер учится читать?

Технология OCR превращает сканы и фото текста в редактируемый формат. Как это работает?

Принцип работы:
1. Предобработка: картинка «чистится» (убирается шум, выравнивается).
2. Сегментация: текст делится на строки, слова и символы.
3. Распознавание: нейросеть классифицирует каждый символ.
4. Постобработка: исправляются ошибки с помощью проверки по словарю.

С чего начать?
• Для машинописи: ABBYY FineReader или бесплатный Tesseract OCR, также хорошо справляется DeepSeek.
• Для рукописей: Transkribus (для точности требует обучения модели - минимум 100 листов).

Важно: результат зависит от качества скана (минимум 300 DPI). Всегда проверяйте результат вручную.

Используете OCR в своих проектах/квалификационных работах? Если да ставьте 👾

На изображении: сегментация в программе CVAT🧑‍💻

#ДГИнструменты@DH_UrFU
7👾5🔥1
Цифровой гуманитарий в поле👾

Пока все подводят итоги 2025 года, наш коллега и партнёр Музей П. П. Бажова — делится отличной мыслью о сущности DH-проектов. Речь идет о работе над проектом «Великое слово Урала: Бажовский словарь» (реализуется при поддержке Президентского фонда культурных инициатив)❤️‍🔥

несмотря на то что словарь и сайт еще ждут своего звездного часа, уже сейчас мы можем сказать, что музей Бажова наконец-то врывается в медиаполе, и это, я думаю, один из важных результатов нашей работы.


Для нас, цифровых гуманитариев, это важное напоминание: иногда главный продукт — не только артефакт (сайт/бд/реконструкция), но и новые связи, смыслы и нарративы, которые проект порождает по дороге.

Яркий пример: городское медиа «о’смысле.екб», вдохновившись проектом, вместе с музеем и сетью USTA Hotels создало «диалектный путеводитель» по Екатеринбургу. Этого бы не случилось без сообщества вокруг.

P.S. Подробнее о цифровых проектах музея и размышлениях читайте в тг Бажова.
🥰4👍1👏1