Андрей Дорожный. Даже честные данные не отражают реальность

Андрей Дорожный Даже честные данные не отражают реальность

Преподаватель НИУ ВШЭ и дата-журналист рассказал, как строятся истории на основе данных, какие источники можно считать достоверными и как распознать манипуляции данными.

Кто такой дата-журналист?

Дата-журналист пишет о людях, событиях и проблемах. Его основной инструмент — данные. Задача дата-журналиста — искать истории в данных, анализировать их, а после интерпретировать так, чтобы читатель заинтересовался и понял суть.

В каких российских и зарубежных изданиях публикуют работы дата-журналистов?

В России дата-журналисты ведут свои проекты и готовят материалы для «Новой газеты», «Проекта», «Важных историй», «Тинькофф Журнала», РБК, ТАССа, РИА. В «Новой газете» и «Важных историях» над дата-материалами работают отдельные редакции. Раньше такая редакция была и в РБК, но её закрыли.

Почему в России цены на бензин не зависят от стоимости нефти, показывает график из статьи в «Тинькофф Журнале»

Если у нас дата-журналистика пока что-то новое и не совсем понятное, то в западных изданиях она востребована давно. Дата-редакции есть во всех крупных изданиях, например в «Нью-Йорк Таймс», «Файнэншл Таймс», «Вашингтон Пост», «Блумберг», «Нэшнл Джеографик». Ещё приведу в пример издание «Паддинг» — это дата-панки индустрии, они могут позволить себе исследовать самые безумные идеи.

Словарный запас англоязычных хип-хоп исполнителей от «Паддинг». Эминем и Джей-Зи — в середине рейтинга, Фифти Сент и Снуп Дог — ниже среднего

Популярность национальных брендов кроссовок Китая по сравнению с мировыми, например Адидасом и Найком. Визуализация редакции «Блумберг». Китайская компания «Ли-Нин» — в топе рейтинга

Хронология полётов животных в космос c 1947 по 2021 год от «Нэшнл Джеографик». Ярким контуром светятся портреты тех, кто вернулся на Землю живым

Какими профессиональными навыками владеет дата-журналист?

Прежде всего он умеет находить закономерности в данных и понятно рассказывать о них аудитории. Мало найти и показать данные — нужно объяснить, что они означают.

В западных изданиях считают, что дата-журналисту нужно уметь программировать. Но я думаю, много крутых историй можно рассказать и без кода. Программирование — это всего лишь один из инструментов анализа.

Ещё дата-журналист должен уметь визуализировать информацию на базовом уровне: накидать скетч в редакторе, найти подходящий референс. Но отрисовывать графики и поправлять проект в Фигме ему не нужно. Для этого он обращается к информационному дизайнеру, который помогает показать историю наглядно.

Какой алгоритм работы у дата-журналиста?

Есть несколько точек входа, назову две основных: двигаться от идеи или от данных. Например, у меня появилось предположение, что молодёжь массово переезжает из маленьких городов в Москву и Санкт-Петербург. Сначала можно спросить у знакомых, откуда они переехали. Однако точечные интервью не дадут полной картины. Можно обратиться в Росстат, но если вы прописаны у родителей, а живете в Москве, то с точки зрения Росстата вы никуда не переезжали.

А можно использовать данные в социальных сетях, в которых люди добровольно делятся информацией о том, где живут. Если проанализировать анкеты пользователей ВК, мы узнаем, как много людей переезжает в Москву и Питер, из каких городов они уезжают. Точные цифры назвать не сможем, потому что не все сидят в социальных сетях, но эти данные будут ближе к реальности, чем цифры Росстата.

«Из каких городов чаще всего переезжают жить в Москву» — материал Андрея Дорожного для издания «Стрелка Маг». По данным на 2018 год, чаще всего в столицу переезжают жители Санкт-Петербурга, Екатеринбурга и Нижнего Новгорода

Другой пример движения от идеи — мой проект о популярности айфонов и андроидов в регионах России.

Айфоны чаще покупают жители Карачаево-Черкесии, Ненецкого автономного округа и Дагестана, Москва — на восьмом месте

Второй вариант — двигаться от данных. Для этого я сначала узнаю цифры, замечаю в них закономерности, а затем решаю, какие выводы из этой информации можно сделать. Пример работы, которая началась с данных, — это анализ поисковых запросов на Озоне.

Компания «Озон» открыто предоставляет данные, поэтому проследить тенденции не составило труда. Маркетплейсы знают о вас больше, чем вы думаете

Другой пример движения от данных. Изучая данные Росстата, я заметил: общее число пользователей стационарных телефонов снижается, а в некоторых регионах России их количество растёт, один из таких — Чеченская Республика. Если углубиться в тему, можно прийти к интересным выводам.

К похожей идее пришла редакция «Тинькофф Журнала», которая рассказала, какое устройство россияне выбирают для общения и как долго длятся их разговоры

Из каких ещё источников вы получаете данные?

Данные можно добывать откуда угодно: из государственных источников, социальных сетей, частных компаний, финансовых структур. Какие-то данные открытые, к каким-то есть доступ по запросу, а какие-то закрыты.

Кто может запросить данные у государственных структур?

Любой гражданин России может получить доступ к данным. Это право закреплено законом об информации. Госструктуры обязаны ответить на запрос в течение тридцати суток. Но есть информация, доступ к которой ограничен, например сведения из категорий государственной или коммерческой тайны. Поэтому, если вы запросите информацию от Минобороны, вам вряд ли её предоставят. Ещё учитывайте, что предоставлять информацию обязаны госструктуры, у коммерческих организаций таких обязательств нет.

От каких государственных организаций информацию получить сложнее?

Медицинские данные в России почти всегда закрытая информация. Это связано с врачебной тайной, которую медработники обязаны соблюдать по закону. Вообще медицинская статистика не отражает реальность. Взять хотя бы пример из жизни: раньше я часто болел гриппом, но в больничном участковый терапевт всегда писал ОРВИ. Так делают, чтобы не провоцировать разговоры об эпидемии.

Странно, но почему-то сложно добиться информации от Министерства образования или загсов. И те и другие пишут пресс-релизы, публикуют статистику на сайте Росстата, но не отвечают на запросы о более детальной информации.

Что вы делаете, если госструктуры игнорируют запрос?

Когда не отвечают, есть вариант пригрозить прокуратурой. Но тогда они могут обидеться и отправить какую-то отписку, которая никак не ответит на вопрос. В целом качество ответа зависит от ответственности конкретного работника в конкретной организации. Ещё есть такое понятие, как «социальный капитал», поэтому РБК, например, получит более развёрнутый ответ, чем менее известное издание. Чем больше и авторитетнее издание, тем выше шанс получить нужную информацию.

С какими типами данных вы работаете?

Я обращаюсь к агрегированным данным, изучаю микроданные и учитываю статистику. Агрегированные данные — это информация, сведённая по какому-то признаку, а микроданные — это мельчайшие наблюдения за человеком, явлением или событием. Допустим, в прошлом году в России совершено 1000 убийств, а в этом — 1200. Это пример агрегированных данных. Если вам доступна информация о подозреваемых и потерпевших, подробности судебных разбирательств — перед вами микроданные.

В одном и том же проекте можно работать с разными типами информации, но интереснее исследовать микроданные. Пример про миграцию, который я привёл выше, это как раз работа с такими точечными данными о человеке. Если погрузиться глубже, можно исследовать интересы человека, узнать, в какие заведения он ходит, и в результате сделать вывод: те, кто переезжает в Москву, слушают Светлану Лободу, например, а те, кто выбирает Питер, предпочитают группу «Рамштайн». Такие данные интереснее сухих агрегированных данных Росстата.

Изучая микроданные, можно детальнее узнать запросы человека, персонализировать информацию. Если вы пользуетесь банком «Тинькофф», то в конце года вам придёт отчёт, на что вы тратили деньги. Вы бы не обратили на него внимание, если бы вам просто сказали, что в сумме клиенты банка потратили три миллиарда рублей. Но вы увидели информацию о себе, возможно, ужаснулись своим нерациональным тратам, вспомнили о совершённых покупках. В дата-журналистике, как и во многих других сферах, персонализация помогает привлекать внимание читателя.

В чём разница между данными и статистикой?

Статистика — это уже обработанные и формализованные данные, например средний ВВП по России за 2022 год или количество зарегистрированных браков в августе 2021 года. Тогда как данные — это мельчайшие единицы наблюдения за объектом и его свойствами. Например, вы купили кофе в кофейне и оплатили его картой. Информация о вас, вашей покупке и ваших тратах улетела в кассовый аппарат, налоговую, оператору фискальных данных, в банковское приложение. Потом такую информацию можно получать, анализировать и приходить к интересным выводам.

У государства есть монополия на ряд данных, например на статистику рождения и смерти, информацию о заключении и расторжении браков, сведения о количестве жителей в стране и миграции, данные о банковских транзакциях. Какие-то данные мы можем попробовать перепроверить, но общую картину возможно получить только от государства. Поэтому дата-журналисты используют всё — от микроданных до государственной статистики.

Как вы перепроверяете данные от государственных структур?

Одними государственными данными можно проверить другие. Например, губернаторы в России любят хвастаться турпотоком в свой регион. Но можно сравнить цифры, что приводят главы регионов, с данными так называемых коллективных средств размещения, то есть отелей. Вы увидите, что за год в отелях разместили 500 тысяч туристов, а губернатор говорит, что регион посетили три миллиона. Возникает вопрос: куда делись ещё 2,5 миллиона людей? Да, они могут жить у родственников или снимать квартиры на Авито, но это уже другая история, которую нужно исследовать.

Вам приходилось получать данные за деньги?

Такой вариант возможен, но журналисты редко готовы платить за информацию. Всё потому, что у медиа обычно нет денег. Нужно уметь договариваться, например предлагать бартер: вам предоставляют информацию, а вы упоминаете о компании в лиде или тексте статьи. Пример такой договорённости — моя работа для «Вилладж» о том, где в Москве дешевле всего есть. За информацию мы не платили ни копейки, но в тексте упоминали источник — картографическую компанию «2ГИС».

Найти дешёвое заведение легче жителям Басманного и Тверского районов Москвы

В Тверском районе легко попасть и в дорогой ресторан

Какой срок годности у данных?

Зависит от самих данных и отношения к ним читателя. Например, информация о ковиде устаревает быстро, а данные о рождаемости остаются актуальными дольше. Информация о выезде россиян за рубеж обновляется раз в квартал.

Как вы решаете, каким данным верить, а каким нет?

Я доверяю данным, если понимаю, как источник их получил, как с ними работал. Например, когда после переписи населения сказали, что в ней поучаствовало 99 процентов граждан, я не поверил этому. Я знаю, что в ней не участвовали многие мои родственники и друзья. Я сделал вывод, что данные отразили не всю картину или были собраны пассивным путём: просто переписали доступную информацию о человеке.

Ещё важно, чтобы автор указывал методологию, по которой собирал данные. Идеальной методологии нет, к любой можно придраться. Но ссылка на источники и методы работы с ними вызывает доверие к публикации, её отсутствие — наоборот.

Каким дата-редакциям, на ваш взгляд, стоит доверять?

Я доверяю редакциям РБК, «Коммерсанта», «Ведомостей», но не по всем темам: проектам об экономике доверяю, а политическим — не всегда. Есть исследователи, которым я доверяю как профессионалам. Например, Алексей Ракша — авторитет в вопросах демографии, Никита Мкртчян — специалист по внутренней миграции, Наталья Зубаревич разбирается в вопросах социально-экономического развития регионов. Это эксперты, которые не только владеют данными, но и умеют их анализировать.

В целом нужно понимать, что данные — это всегда абстракция. Есть настоящий мир с реальными процессами и явлениями, а есть мир данных. Между данными и реальностью нет знака равенства. Данные — это некая проекция мира.

Конечно, есть однозначные данные. Например, смерть сложно спрятать: если человек пропал, его объявят в розыск. Поэтому статистика убийств — это наиболее приближённая метрика преступности во многих странах. Во всех остальных темах нужно понимать, что журналист раскрывает их через призму своего восприятия мира, поэтому даже в данных правда может быть разной.

Как читателю понять, какие перед ним данные — честные или ложные?

Обращайте внимание на то, указана ли методология и что она из себя представляет. Например, вы заходите на сайт автолюбителей. Там видите такие результаты опроса: большинство водителей переобувают машины в апреле. Откуда они получили такие данные? Оказывается, утверждение строится лишь на опросе нескольких сотен пользователей сайта. Но эта выборка не имеет ничего общего с реальностью, это просто голосование на определённом сайте.

Хороший тон, которому следуют западные издания, — публиковать исходные данные исследования и объяснять метод сбора информации. Когда журналисты рассказывают, как собирали данные, это признак того, что люди ответственно относятся к работе.

В статье о популярности национальных брендов кроссовок в Китае авторы не забыли рассказать, по какой методологии работали. Исходные данные представила аналитическая компания Taosj.com. Отечественными брендами в работе считают только те, что были созданы в материковом Китае. Международные бренды, приобретённые китайскими компаниями, относятся к категории иностранных

В проекте о словарном запасе хип-хоп артистов методология тоже указана. Автор пишет, что полученные им данные вышли не идеально точными: хип-хоп полон сленга, который трудно транскрибировать, например shorty и shawty, сложных слов, например king shit, и припевов

Почему не все издания считают нужным объяснить методологию читателям?

Во-первых, это ресурсоёмко, на такой подход уходит много времени. Чтобы описать методологию, нужно изначально чётко ей следовать, а затем понятным языком описать последовательность шагов.

Во-вторых, не все заинтересованы в том, чтобы данные перепроверили.

В-третьих, такого запроса нет от читателей. Большинство людей слепо доверяют данным, не вникают в их суть и ассоциируют их с научным знанием. Лишь небольшой процент аудитории следит за достоверностью данных. Но этот процент важно учитывать, потому что именно эти люди влияют на имидж и доверие к изданию.

Как часто читатели замечают ошибки в ваших работах? Как реагируете на критику?

Конструктивной критикой проектов мы часто обмениваемся с коллегами. Если выложить работу в социальную сеть, то можно прочитать шквал критики от пользователей. Реальные ошибки находят редко, и я благодарен читателям, которые их замечают. Но, если замечания ограничиваются критикой методологии или идеи, я предлагаю читателю посчитать по-своему и поделиться ссылкой на работу. Ещё никто из критикующих не присылал свой вариант проекта.

Если данных недостаточно, как вы работаете?

Нет данных — нет истории. Если историю можно рассказать без данных, это надо принять. 95 процентов всех тем, которые я придумываю, невозможно подкрепить данными. Например, я хочу узнать, какой кофе предпочитают россияне, в какие города звёзды не ездят на гастроли, сколько в России продано аудио- и видеокассет, какие сериалы смотрят на российских стриминговых сервисах. Но таких данных нет, их просто не собирают.

Некоторые данные становятся недоступными: недавно Росавиация закрыла информацию про пассажиропоток. Также невозможно подсчитать, сколько россиян переехало, например, в Грузию, если одни улетают через Азербайджан, а другие — через Армению.

Если в процессе работы оказывается, что данных не хватает, значит, автор не потратил время на подготовку. Плохо, если ты начинаешь работу, но не знаешь, есть в природе такие данные или нет. Я выработал хорошую привычку — проводить предварительное исследование перед началом проекта. Когда я предлагаю редакциям темы материалов, то рассказываю, какие данные у меня есть и к каким выводам я могу прийти. Разведка — наше всё.

Как вы проводите предварительное исследование?

Как бы сказали дата-инженеры и аналитики, сбор и анализ данных — это неструктурированный процесс. Я не смогу поделиться точным рецептом дата-истории. Если бы был готовый алгоритм, все бы издательства ежедневно публиковали такие истории. Но этого не происходит.

Как вы перепроверяете данные? Что делаете, если находите ошибки?

Ошибиться можно на любом этапе: во время сбора данных, анализа или уже на финальной стадии повествования. Я следую привычному алгоритму: сравниваю и складываю цифры, отдаю на вычитку нескольким редакторам.

Нужно учитывать, что дата-редакция — это не научно-исследовательский институт, у которого есть годы на изучение одного процесса. У дата-журналиста на один материал уходит в среднем неделя, максимум три, поэтому ошибки случаются. Благо я работаю не в печатной газете и всегда можно вернуться к материалу, чтобы его исправить.

Как редакторы проверяют работу, если не знают методологии и цифр, которые собирали вы? Проверяет ли редактор исходные данные?

К сожалению, далеко не во всех издательствах есть редакторы, которые умеют разбираться в данных. Как правило, работу читают так же, как и любой другой журналистский текст. Могут спросить, откуда взялась какая-то цифра, как я пришёл к конкретному выводу. Исходные данные редко кто проверяет.

Можете привести примеры работ, которые редактор вам возвращал из-за ошибок в данных?

С моими проектами такого не было, но, как преподаватель и редактор, я периодически возвращаю авторам работы. Многие ошибки связаны с когнитивным желанием человека найти данные под ту гипотезу, которую он выстроил в своей голове.

Как научиться читать данные?

Это сложный навык. Большинство людей плохо понимают данные и воспринимают их как сухую статистику или сложную абстракцию. Научиться понимать данные можно благодаря насмотренности, вдумчивому изучению. Но это интересно далеко не всем.

Недавно ко мне обратился приятель с просьбой помочь открыть таблицу с некими данными. Я поинтересовался, что за таблица. Оказалось, та самая база Яндекс Еды, которую в марте слили в сеть.

База есть, а многие пользователи даже открыть её не могут, что говорить о том, чтобы прочитать. Из этой базы группа специалистов сделала нелегальный сервис, где можно пробить информацию о человеке. Сервис стал популярным.

Получается, пока данные лежат в сыром виде, мало кто может ими воспользоваться, как только им придают понятную форму, охват возрастает. Отмечу, что это персональные данные, которые получены незаконно, работать с ними также незаконно. Но история очень показательная: без удобного сервиса и визуальной подачи люди плохо считывают массивные объёмы данных.

Как визуально подать данные, чтобы привлечь внимание читателя? Можете дать пошаговую инструкцию?

Визуализировать данные — непростая задача. Данные — это уже абстракция, которую нужно наглядно показать и сделать так, чтобы читатель её понял и запомнил. Украшательства уместны, но они не должны искажать восприятие.

Здесь важно сохранить баланс: очистить данные от лишнего информационного мусора и подать материал так, чтобы читатель его запомнил.

Сейчас есть запрос на короткие и понятные графики, в которых нет ничего лишнего и точно расставлены акценты. Чем проще подана информация, тем достовернее она кажется читателю. Аудитория быстро считывает такую визуализацию и не путается в лишних деталях.

Но в медиа есть место для заигрывания с читателем, поэтому не стоит скупиться на чернила и забывать, что материал должен запомниться, вызвать ассоциацию и желание им поделиться. Чёткого пошагового алгоритма нет — всё зависит от данных и задачи.

Андрей Дорожный привёл пример неэстетичного, но запоминающегося дизайна карты про шаверму

Как большие данные могут помочь в поиске партнёра. Проект Андрея Мовчана. Данные сопровождают узнаваемые персонажи с наклеек жвачки «Лов из»

Как, по вашему мнению, читатели воспринимают данные в графиках?

Большинство людей плохо читают графики, хотя мало кто в этом признаётся. Я почти уверен, что все прочитают карту, поймут линейный график, столбиковую и круговую диаграммы, а какую-нибудь диаграмму рассеивания — не факт.

Сложность графиков в том, что это абстракция. Текст или иллюстрацию считать гораздо легче, чем график. И это важно учитывать как в дата-журналистике, так и в других сферах, где данные объясняют в графиках.

Когда я проектирую дата-историю, всегда думаю о том, разгадает ли читатель мой визуальный язык. Ясно подать информацию — это моя ответственность. Дата-история должна быть так же понятна читателю, как хороший интерфейс, который пользователь понимает интуитивно.

Мы можем развивать визуальную грамотность аудитории. Например, лет пять назад наше датавиз-сообщество впервые представило плиточную карту. Сначала люди её плохо считывали, но потом такую карту стали отлично читать и воспринимать.

Пример плиточной карты. Видно, что в Ингушетии женщин больше, чем мужчин, а в Мурманске — наоборот

Как различить манипуляции в графиках?

Графики — непаханое поле для манипуляций. Ввести читателя в заблуждение можно специально, а можно и случайно.

Несколько лет назад я опубликовал работу, за которую мне до сих пор стыдно. Мой материал основывался на статье журналиста, который написал о бандитизме девяностых в Петербурге и привел список заказных убийств, упоминаемых в медиа. Я отсортировал этот список, нарисовал карту Санкт-Петербурга и указал на ней места преступлений. Карта разлетелась по сети, несколько каналов даже предлагали мне дать интервью на эту тему.

Моя глобальная ошибка в том, что в Уголовном кодексе России нет такого понятия, как «заказное убийство». Однако есть статья об умышленном убийстве, в которой упоминается «убийство по найму». Тогда я не выяснил, какие убийства автор статьи посчитал заказными — умышленные в целом или конкретно по найму. Получилось, что я нарисовал ложную карту, квалифицируя преступления не по материалам уголовных дел, а по упоминаниям в СМИ.

«Заказные убийства бизнесменов в Петербурге в 1992—2005 годах» — работа, которую Андрей считает ошибкой

Каким этическим нормам следуют дата-журналисты?

Это очень сложный вопрос. Отвечу на примерах. В сети лежит слитая база Яндекс Еды, это интересный источник историй об огромном количестве людей — база имён, фамилий, адресов, заказов и трат тридцати миллионов жителей России. Или есть слитая база Гемотеста: сейчас любой пользователь может купить информацию о заболеваниях клиентов компании и даже узнать ВИЧ-статус. Зная предпочтения и проблемы граждан, маркетологи легко настроят таргетированную рекламу и сделают клиентам адресные предложения.

С точки зрения законодательства, это незаконная работа с персональными данными, но технически эти данные уже утекли в сеть, закон нарушен. Этично ли с ними работать? Нет. Но их будут использовать и мошенники, и бизнес. Мир такой, что этические нормы уже никого не волнуют.

Каким принципам вы лично следуете в работе?

Я не раскрываю персональные данные и не использую данные, полученные преступным путём. Например, не стану работать со слитой базой Гемотеста, хотя, признаюсь, истории могли бы получиться интересными.

Ещё я всегда исхожу из принципа, что жизнь — это высшая ценность, поэтому не публикую материалы, которые могут угрожать жизни и здоровью человека.