Преподаватель НИУ ВШЭ и
Кто такой дата-журналист ?
В каких российских и зарубежных изданиях публикуют работы дата-журналистов?
В России
Если у нас
Какими профессиональными навыками владеет дата-журналист?
Прежде всего он умеет находить закономерности в данных и понятно рассказывать о них аудитории. Мало найти и показать данные — нужно объяснить, что они означают.
В западных изданиях считают, что
Ещё
Какой алгоритм работы у дата-журналиста?
Есть несколько точек входа, назову две основных: двигаться от идеи или от данных. Например, у меня появилось предположение, что молодёжь массово переезжает из маленьких городов в Москву и
А можно использовать данные в социальных сетях, в которых люди добровольно делятся информацией о том, где живут. Если проанализировать анкеты пользователей ВК, мы узнаем, как много людей переезжает в Москву и Питер, из каких городов они уезжают. Точные цифры назвать не сможем, потому что не все сидят в социальных сетях, но эти данные будут ближе к реальности, чем цифры Росстата.
Другой пример движения от идеи — мой проект о популярности айфонов и андроидов в регионах России.
Второй вариант — двигаться от данных. Для этого я сначала узнаю цифры, замечаю в них закономерности, а затем решаю, какие выводы из этой информации можно сделать. Пример работы, которая началась с данных, — это анализ поисковых запросов на Озоне.
Другой пример движения от данных. Изучая данные Росстата, я заметил: общее число пользователей стационарных телефонов снижается, а в некоторых регионах России их количество растёт, один из таких — Чеченская Республика. Если углубиться в тему, можно прийти к интересным выводам.
Из каких ещё источников вы получаете данные?
Данные можно добывать откуда угодно: из государственных источников, социальных сетей, частных компаний, финансовых структур.
Кто может запросить данные у государственных структур?
Любой гражданин России может получить доступ к данным. Это право закреплено законом об информации. Госструктуры обязаны ответить на запрос в течение тридцати суток. Но есть информация, доступ к которой ограничен, например сведения из категорий государственной или коммерческой тайны. Поэтому, если вы запросите информацию от Минобороны, вам вряд ли её предоставят. Ещё учитывайте, что предоставлять информацию обязаны госструктуры, у коммерческих организаций таких обязательств нет.
От каких государственных организаций информацию получить сложнее?
Медицинские данные в России почти всегда закрытая информация. Это связано с врачебной тайной, которую медработники обязаны соблюдать по закону. Вообще медицинская статистика не отражает реальность. Взять хотя бы пример из жизни: раньше я часто болел гриппом, но в больничном участковый терапевт всегда писал ОРВИ. Так делают,
Странно, но
Что вы делаете, если госструктуры игнорируют запрос?
Когда не отвечают, есть вариант пригрозить прокуратурой. Но тогда они могут обидеться и отправить
С какими типами данных вы работаете?
Я обращаюсь к агрегированным данным, изучаю микроданные и учитываю статистику. Агрегированные данные — это информация, сведённая по
В одном и том же проекте можно работать с разными типами информации, но интереснее исследовать микроданные. Пример про миграцию, который я привёл выше, это как раз работа с такими точечными данными о человеке. Если погрузиться глубже, можно исследовать интересы человека, узнать, в какие заведения он ходит, и в результате сделать вывод: те, кто переезжает в Москву, слушают Светлану Лободу, например, а те, кто выбирает Питер, предпочитают группу «Рамштайн». Такие данные интереснее сухих агрегированных данных Росстата.
Изучая микроданные, можно детальнее узнать запросы человека, персонализировать информацию. Если вы пользуетесь банком «Тинькофф», то в конце года вам придёт отчёт, на что вы тратили деньги. Вы бы не обратили на него внимание, если бы вам просто сказали, что в сумме клиенты банка потратили три миллиарда рублей. Но вы увидели информацию о себе, возможно, ужаснулись своим нерациональным тратам, вспомнили о совершённых покупках.
В чём разница между данными и статистикой?
Статистика — это уже обработанные и формализованные данные, например средний ВВП по России за 2022 год или количество зарегистрированных браков в августе 2021 года. Тогда как данные — это мельчайшие единицы наблюдения за объектом и его свойствами. Например, вы купили кофе в кофейне и оплатили его картой. Информация о вас, вашей покупке и ваших тратах улетела в кассовый аппарат, налоговую, оператору фискальных данных, в банковское приложение. Потом такую информацию можно получать, анализировать и приходить к интересным выводам.
У государства есть монополия на ряд данных, например на статистику рождения и смерти, информацию о заключении и расторжении браков, сведения о количестве жителей в стране и миграции, данные о банковских транзакциях.
Как вы перепроверяете данные от государственных структур?
Одними государственными данными можно проверить другие. Например, губернаторы в России любят хвастаться турпотоком в свой регион. Но можно сравнить цифры, что приводят главы регионов, с данными так называемых коллективных средств размещения, то есть отелей. Вы увидите, что за год в отелях разместили 500 тысяч туристов, а губернатор говорит, что регион посетили три миллиона. Возникает вопрос: куда делись ещё 2,5 миллиона людей? Да, они могут жить у родственников или снимать квартиры на Авито, но это уже другая история, которую нужно исследовать.
Вам приходилось получать данные за деньги?
Такой вариант возможен, но журналисты редко готовы платить за информацию. Всё потому, что у медиа обычно нет денег. Нужно уметь договариваться, например предлагать бартер: вам предоставляют информацию, а вы упоминаете о компании в лиде или тексте статьи. Пример такой договорённости — моя работа для «Вилладж» о том, где в Москве дешевле всего есть. За информацию мы не платили ни копейки, но в тексте упоминали источник — картографическую компанию «2ГИС».
Какой срок годности у данных?
Зависит от самих данных и отношения к ним читателя. Например, информация о ковиде устаревает быстро, а данные о рождаемости остаются актуальными дольше. Информация о выезде россиян за рубеж обновляется раз в квартал.
Как вы решаете, каким данным верить, а каким нет?
Я доверяю данным, если понимаю, как источник их получил, как с ними работал. Например, когда после переписи населения сказали, что в ней поучаствовало 99 процентов граждан, я не поверил этому. Я знаю, что в ней не участвовали многие мои родственники и друзья. Я сделал вывод, что данные отразили не всю картину или были собраны пассивным путём: просто переписали доступную информацию о человеке.
Ещё важно, чтобы автор указывал методологию, по которой собирал данные. Идеальной методологии нет, к любой можно придраться. Но ссылка на источники и методы работы с ними вызывает доверие к публикации, её отсутствие — наоборот.
Каким дата-редакциям, на ваш взгляд, стоит доверять?
Я доверяю редакциям РБК, «Коммерсанта», «Ведомостей», но не по всем темам: проектам об экономике доверяю, а политическим — не всегда. Есть исследователи, которым я доверяю как профессионалам. Например,
В целом нужно понимать, что данные — это всегда абстракция. Есть настоящий мир с реальными процессами и явлениями, а есть мир данных. Между данными и реальностью нет знака равенства. Данные — это некая проекция мира.
Конечно, есть однозначные данные. Например, смерть сложно спрятать: если человек пропал, его объявят в розыск. Поэтому статистика убийств — это наиболее приближённая метрика преступности во многих странах. Во всех остальных темах нужно понимать, что журналист раскрывает их через призму своего восприятия мира, поэтому даже в данных правда может быть разной.
Как читателю понять, какие перед ним данные — честные или ложные?
Обращайте внимание на то, указана ли методология и что она из себя представляет. Например, вы заходите на сайт автолюбителей. Там видите такие результаты опроса: большинство водителей переобувают машины в апреле. Откуда они получили такие данные? Оказывается, утверждение строится лишь на опросе нескольких сотен пользователей сайта. Но эта выборка не имеет ничего общего с реальностью, это просто голосование на определённом сайте.
Хороший тон, которому следуют западные издания, — публиковать исходные данные исследования и объяснять метод сбора информации. Когда журналисты рассказывают, как собирали данные, это признак того, что люди ответственно относятся к работе.
Почему не все издания считают нужным объяснить методологию читателям?
Как часто читатели замечают ошибки в ваших работах? Как реагируете на критику?
Конструктивной критикой проектов мы часто обмениваемся с коллегами. Если выложить работу в социальную сеть, то можно прочитать шквал критики от пользователей. Реальные ошибки находят редко, и я благодарен читателям, которые их замечают. Но, если замечания ограничиваются критикой методологии или идеи, я предлагаю читателю посчитать
Если данных недостаточно, как вы работаете?
Нет данных — нет истории. Если историю можно рассказать без данных, это надо принять.
Некоторые данные становятся недоступными: недавно Росавиация закрыла информацию
Если в процессе работы оказывается, что данных не хватает, значит, автор не потратил время на подготовку. Плохо, если ты начинаешь работу, но не знаешь, есть в природе такие данные или нет. Я выработал хорошую привычку — проводить предварительное исследование перед началом проекта. Когда я предлагаю редакциям темы материалов, то рассказываю, какие данные у меня есть и к каким выводам я могу прийти. Разведка — наше всё.
Как вы проводите предварительное исследование?
Как бы сказали
Как вы перепроверяете данные? Что делаете, если находите ошибки?
Ошибиться можно на любом этапе: во время сбора данных, анализа или уже на финальной стадии повествования. Я следую привычному алгоритму: сравниваю и складываю цифры, отдаю на вычитку нескольким редакторам.
Нужно учитывать, что
Как редакторы проверяют работу, если не знают методологии и цифр, которые собирали вы? Проверяет ли редактор исходные данные?
К сожалению, далеко не во всех издательствах есть редакторы, которые умеют разбираться в данных. Как правило, работу читают так же, как и любой другой журналистский текст. Могут спросить, откуда взялась
Можете привести примеры работ, которые редактор вам возвращал из-за ошибок в данных?
С моими проектами такого не было, но, как преподаватель и редактор, я периодически возвращаю авторам работы. Многие ошибки связаны с когнитивным желанием человека найти данные под ту гипотезу, которую он выстроил в своей голове.
Как научиться читать данные?
Это сложный навык. Большинство людей плохо понимают данные и воспринимают их как сухую статистику или сложную абстракцию. Научиться понимать данные можно благодаря насмотренности, вдумчивому изучению. Но это интересно далеко не всем.
Недавно ко мне обратился приятель с просьбой помочь открыть таблицу с некими данными. Я поинтересовался, что за таблица. Оказалось, та самая база Яндекс Еды, которую в марте слили в сеть.
База есть, а многие пользователи даже открыть её не могут, что говорить о том,
Получается, пока данные лежат в сыром виде, мало кто может ими воспользоваться,
Как визуально подать данные, чтобы привлечь внимание читателя? Можете дать пошаговую инструкцию?
Визуализировать данные — непростая задача. Данные — это уже абстракция, которую нужно наглядно показать и сделать так, чтобы читатель её понял и запомнил. Украшательства уместны, но они не должны искажать восприятие.
Здесь важно сохранить баланс: очистить данные от лишнего информационного мусора и подать материал так, чтобы читатель его запомнил.
Сейчас есть запрос на короткие и понятные графики, в которых нет ничего лишнего и точно расставлены акценты. Чем проще подана информация, тем достовернее она кажется читателю. Аудитория быстро считывает такую визуализацию и не путается в лишних деталях.
Но в медиа есть место для заигрывания с читателем, поэтому не стоит скупиться на чернила и забывать, что материал должен запомниться, вызвать ассоциацию и желание им поделиться. Чёткого пошагового алгоритма нет — всё зависит от данных и задачи.
Как, по вашему мнению, читатели воспринимают данные в графиках?
Большинство людей плохо читают графики, хотя мало кто в этом признаётся. Я почти уверен, что все прочитают карту, поймут линейный график, столбиковую и круговую диаграммы,
Сложность графиков в том, что это абстракция. Текст или иллюстрацию считать гораздо легче, чем график. И это важно учитывать как
Когда я проектирую
Мы можем развивать визуальную грамотность аудитории. Например, лет пять назад наше
Как различить манипуляции в графиках?
Графики — непаханое поле для манипуляций. Ввести читателя в заблуждение можно специально, а можно и случайно.
Несколько лет назад я опубликовал работу, за которую мне до сих пор стыдно. Мой материал основывался на статье журналиста, который написал о бандитизме девяностых в Петербурге и привел список заказных убийств, упоминаемых в медиа. Я отсортировал этот список, нарисовал карту
Моя глобальная ошибка в том, что в Уголовном кодексе России нет такого понятия, как «заказное убийство». Однако есть статья об умышленном убийстве, в которой упоминается «убийство по найму». Тогда я не выяснил, какие убийства автор статьи посчитал заказными — умышленные в целом или конкретно по найму. Получилось, что я нарисовал ложную карту, квалифицируя преступления не по материалам уголовных дел, а по упоминаниям в СМИ.
Каким этическим нормам следуют дата-журналисты?
Это очень сложный вопрос. Отвечу на примерах. В сети лежит слитая база Яндекс Еды, это интересный источник историй об огромном количестве людей — база имён, фамилий, адресов, заказов и трат тридцати миллионов жителей России. Или есть слитая база Гемотеста: сейчас любой пользователь может купить информацию о заболеваниях клиентов компании и даже узнать
С точки зрения законодательства, это незаконная работа с персональными данными, но технически эти данные уже утекли в сеть, закон нарушен. Этично ли с ними работать? Нет. Но их будут использовать и мошенники, и бизнес. Мир такой, что этические нормы уже никого не волнуют.
Каким принципам вы лично следуете в работе?
Я не раскрываю персональные данные и не использую данные, полученные преступным путём. Например, не стану работать со слитой базой Гемотеста, хотя, признаюсь, истории могли бы получиться интересными.
Ещё я всегда исхожу из принципа, что жизнь — это высшая ценность, поэтому не публикую материалы, которые могут угрожать жизни и здоровью человека.