Журналистика данных – Telegram
Журналистика данных
4.38K subscribers
1K photos
32 videos
16 files
1.29K links
Инструменты современных медиа, массивы информации, наблюдения и тренды
Download Telegram
Прецедент: в топе Яндекса сегодня тема (про дедолларизацию), поднятая медийным проектом The Bell, не имеющим лицензии СМИ — в реестре Роскомнадзора BellyDance есть, а Bell нет. Поэтому в топе Яндекса нет и ссылки на сам материал в The Bell. Но многочисленные ссылки в зарегистрированных СМИ, которые The Bell доверяют и без лицензии, вывели тему в топ.

Собственно, это аналог того, как в топ иногда выходит тема, например, с сайта госзакупок или ЕГРЮЛ, если ее подхватывают лицензированные СМИ. Просто сайт закупок и ЕГРЮЛ не называют себя медийными проектами, хотя и похожи на них
Иной раз и Википедию похвалишь, когда есть за что. Простой, но наглядный таймлайн по премьер-министрам России за без малого триста лет — кто был на посту, когда и как долго
https://upload.wikimedia.org/wikipedia/ru/timeline/538ca1e9d6ac3e1746485273eedd51bb.png
#обложкадня Канадский журнал Maclean’s вышел с 66349 разными обложками. На каждой — данные об одной из канадских жертв Первой Мировой. Вот база данных, прилагающаяся к журналу
К вопросу о Кокорине с Мамаевым. База данных ГАС "Правосудие" по запросу "стул кафе" выдает 150+ тыс. дел. Мы выбрали случайным образом пять таких, где удар стулом не причинил потерпевшему серьезных повреждений, чтобы понять, что примерно за это бывает

Самара: 1 год исправительных работ + 5% заработка в доход государства
Вологда: одному 60 тыс. руб. штрафа, другому 2 года условно
Похвистнево: 2 года условно
Новочебоксарск: 1 год исправительных работ + 10% заработка в доход государства
Москва: штраф 15 тыс. руб. + компенсация ущерба

https://bsr.sudrf.ru/bigs/portal.html
Forbes стал вторым после Associated Press крупнейшим медийным игроком, решившим поработать с блокчейн-платформой для журналистов Civil. По замыслу создателей, платформа должна решить две проблемы, стоящие перед современными медиа: микроплатежи и сохранность архивов. Многие издатели смотрят на проект скептически, но AP и Forbes, судя по всему, рассудили так, что пока не попробуешь, все равно не поймешь, как оно на самом деле
https://www.axios.com/forbes-major-media-company-publish-blockchain-b101f809-7c43-4f68-9b2a-cdb1e81de753.html
Дэниел Уэйнрайт, дата-журналист BBC News, рассказал, как он добыл данные для смешной заметки про лондонский аэропорт Хитроу, которую он написал два года назад. В заметке сообщалось, что с января по октябрь 2016 аэропорт получил 84 тыс. жалоб на шум — по одной каждые 5 минут. Причем летом половина жалоб шла всего от 10 человек. Заметка получила обильное цитирование.

Насладившись славой, Уэйнрайт подробно расписал в Online Journalism Blog, как он получил необходимые данные при помощи электронных таблиц Google Spreadsheets. Данные в принципе открытые — но собирать их руками было бы чрезвычайно муторно

https://onlinejournalismblog.com/2016/11/29/how-the-bbc-england-data-unit-scraped-airport-noise-complaints
Впечатление, что в современной России "английский знают все", не просто обманчиво, а чрезвычайно обманчиво. В ходе переписи населения в 2002 году владение инглишем указали 6,96 млн россиян, к 2010 году это количество оценочно приросло на 0,62 млн. Итого 7,58 млн, то есть английским владеет только каждый 19-й.

С другими иностранными языками ситуация еще печальнее. Более или менее заметны немецкий (2,09 млн) и французский (0,62 млн) языки, а вот следующими за ними испанским и турецким владеет только примерно каждый тысячный россиянин — всего по 140-150 тыс. чел.
Автоматизированная система подбора талантливых кадров в Amazon дискриминирует женщин, сообщает Reuters. Сексизм ни при чём — просто систему обучали на некорректных входных данных. Большинство резюме поступали от мужчин, вот система и решила, что "мужской стиль" этих документов предпочтительнее.
https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
Большие городские данные: какие возникают задачи, где брать информацию и как её обрабатывать
http://www.sncmedia.ru/stars/kak-izmenilas-moskva-pogovorili-s-annoy-barinovoy/
В начале 2019 стартует некоммерческое медиа Markup. Оно будет посвящено технологиям и рассчитывает возбудить в обществе дискуссию о них, которой сейчас нет, потому что, в отличие от политики и спорта, как считают стартаперы, в технологиях никто не разбирается. В проект наберут 20 чел., в том числе дата-журналистов. Квоты в штате для женщин и небелых: по 30%. Инвестиции в $20 млн обещал Крейг Ньюмарк, владелец сервиса объявлений Craiglist
https://themarkup.org/
The New York Times делать-то нечего — так взяли нанесли на карту все дома Соединенных Штатов. Мы, кстати, тоже можем сделать нечто подобное без колоссальных усилий, воспользовавшись открытой базой Реформа ЖКХ
https://www.nytimes.com/interactive/2018/10/12/us/map-of-every-building-in-the-united-states.html
Карта политической ангажированности американских СМИ. Невооруженным глазом видно: чем больше у СМИ собственных невыдуманных фактов, тем его позиция нейтральнее и центричнее. За фейками — к радикалам
Картина "Искусственный интеллект", нарисованная самим искусственным интеллектом в лаборатории IBM Research. Как видим, ИИ протягивает руку человеческому креативу. Небось нашу бдительность усыпляет
Своим опытом визуализации данных поделился Йен Кристенсен, иллюстратор Scientific American. Огромный, но интересный и кстати хорошо иллюстрированный материал

"Мои любимые работы — результат объединения разных художников, чтобы создать окончательный образ, который опирается на сильные стороны каждого мастера, Например, привлекаю художника, который хорошо видит цветовую гамму, вместе с художником, который умеет технически грамотно визуализировать данные"
https://blogs.scientificamerican.com/sa-visual/visualizing-science-illustration-and-beyond/
Данные International Federation of Robotics о промышленных роботах, приобретённых разными странами в 2017 году (в тыс. штук). Что-то обидное есть в этой инфографике, не правда ли
Масштабы работы с данными в таксомоторном агрегаторе Uber : информация от 2+ млн водителей в 700+ городах из 70+ стран собирается и обрабатывается в почти-реальном времени, то есть с задержкой 5-10 минут, причем в компании утверждают, что быстрее уже и не надо. Общий объем данных на серверах Uber — более 100 петабайт. Страшно подумать, сколько там тем для заметок
https://conferences.oreilly.com/strata/strata-ny-2018/public/schedule/detail/70937
Многие боятся, что искусственный интеллект скоро станет таким умным, что замыслит неладное, и тогда нам крышка. Между тем бояться нечего, ну или бояться нужно другого — что сама идея ИИ сойдет на нет от излишней популяризации и профанации. Сначала нейросети напрягли рисовать аватарки, ну а теперь появилось совместное творчество людей и ИИ в области модной одежды

https://medium.com/@howtogeneratealmostanything/human-ai-collaborated-fashion-4b2ab94453ed?stream=future
Качественный расклад по памятникам в Москве на основе данных Яндекса
Суммарные доходы поставщиков бигдаты в 2018 году по всему миру составят $65 млрд, а в 2021 году — $96 млрд, говорится в отчете The Big Data Market. Судя по тому, что этот 549-страничный документ продается за 8,880 евро, рынок обзоров рынка бигдаты тоже чувствует себя неплохо
https://www.researchandmarkets.com/research/6qgjf8/big_data_market?w=5