Графики и жизнь

Все новости — в ВК = ФБ. Компактные трансляции в Телеграм, Твиттер, Дзен. Самая компактная — в  Ютуб.

Регионы России

Сделали удобную карту-справочник регионов России. Все ключевые социально-политическо-экономические показатели на одной понятной странице. Инджой!

Особенно люблю карту дотаций на человека в месяц и рост количества чиновников. В программе также зарплаты, демографический состав, условия жизни и ещё куча всего. Об обновлениях буду писать в пабликах: ВК, ФБ, Твиттер, Телеграм, Дзен.

8 февраля   done   interactive   map   russia

Гуманизация данных

Неделю назад известный дата-дизайнер Джорджия Лупи опубликовала манифест «Data Humanism».

Она пишет, что картиночки с циферками уже стали привычной частью медиа, хоть самой идее, что графическое изображение данных может иметь ценность для широкой аудитории, всего пара десятилетий. Спасибо интернету и другим технологиям, которые позволили обществу так быстро освоить новый язык коммуникации.

Теперь начинается вторая стадия дата-революции. Становится ясно, что визуализация данных — это не только способ сделать сложность съедобной. В мире больших данных и переизбытка информации это вообще единственный способ не сойти с ума. Рисовать данными, думать данными — и вдохнуть в данные нормальную человеческую жизнь.

Вот и я о том же! Интересно, сколько шагов было от названия «Графики и жизнь» до названия «Data Humanism».

7 февраля   meta
3 января   area chart   business   cars   column chart   done   russia   scatter chart   treemap

Average Elo Rating of major European football leagues

Спарсил базу http://clubelo.com. Узнал, что такое JOIN и SELECT, подсчитал средний Эло высших дивизионов на выбранные даты. Хотелось сделать horserace chart топ-клубов, но не смог. Визуальные материалы получились такие.

Video

Interactive Chart

1 января   done   europe   football   history   interactive   line chart   sports   video

Статистика проката российского кино (2004—2017)

Услышал новость, что самым кассовым российским фильмом недавно стал мультик «Последний богатырь». А с учётом инфляции? Что вообще происходит с российским кино?

С помощью ParseHub собрал данные из «Бюллетеня кинопрокатчика».

С помощью «Статбюро» выровнял кассовые сборы по инфляции. Понял, что цифры получаются неточные, билеты ведь не единоразово продаются. И вообще, количество проданных билетов точнее показывает, на какой фильм люди больше ходили.

Интересней всего — что изменилось за прошедшие с 2004-го года 13 лет. Без промышленного анализа или, на худой конец, визуализации, действительно непонятно что. Картинку сделал просто в новом (прекрасном) Экселе. Стала понятней сезонность, но что происходит с кино — по-прежнему не ясно.

Параллельно прочитал детальнейший доклад Фонда кино «Российская киноиндустрия — 2016. Цифры и мнения». Стал понятен масштаб вопросов и то, что имеющихся данных для объяснения общей картины сильно недостаточно.

Дорисовал на график подписи, на этом пока всё. По количеству зрителей «Последний богатырь» — второй, «Девятая рота» — пятая, а первое место — у «Иронии судьбы-2».

Таблицу с данными выложил в папочку, если что-то из неё сделаете путное — пришлите посмотреть, интересно!

23 декабря   cinema   column chart   done   excel   histogram   russia   static

Карта России с регионами, пропорциональными населению

Что это?

Для изображения социально-экономической статистики России я использую карту с площадью регионов, пропорциональной населению. Новые карты я публикую ВКонтакте и в Фейсбуке под хэштегом #картапролюдей. Вот любимые (2018-01-05):

Это приспособленная для повседневного использования анаморфоза Дмитрия Скугаревского. По ссылке — интерактивная версия и описание картографического алгоритма.

Почему?

Россия в силу своей своеобразной географии плохо получается на обычных картах. Плохо — значит, что картинка не адекватна реальности. Сравним две карты на одном наборе данных.

Это фрагмент карты «РИА Новости».

Это карта, анаморфированная по населению.

Первая карта говорит: на Севере — зарабатывают. Вторая карта говорит: ага, пара человек.

Зарплаты зарабатывают люди, а не гектары. И мы делаем карту про людей, а не про административно-территориальные границы.

Классическая карта подходит для социально-экономической статистики в одном случае: если вы имеете дело с регионами как статистическими единицами. Допустим, вы чиновник, которому нужно, чтобы не больше, чем в 10 регионах смертность была больше 20 у.е., а сколько там людей живет — дело другого департамента.

Планы и сотрудничество

  1. Я считаю, что карта, анаморфированная по населению, даёт верное представление о России, и что большая ошибка, что её не используют начиная со школьных атласов, и что это необходимо исправить.
  2. Когда одно из крупных медиа начнет использовать анаморфированную по населению карту — тогда я буду считать проект законченным.
  3. Следует сделать очень много карт. Если есть наборы данных — присылайте.
  4. Следует перерисовать карту, сейчас она довольно небрежная.
  5. Следует улучшить макет карты: подписи, географические объекты, верстка.
  6. Следует сделать интерфейс, с помощью которого любой пользователь мог бы создать карту на основе своего набора данных.
  7. Однажды кто-нибудь сделает аналогичный глобальный проект, возможно, на основе таких или таких карт.

Известные ошибки карты

  1. На карте некоторые анклавы физически анклавами не являются.
  2. В Хакасии 100 тыс. населения вместо 536 тыс.
  3. Астраханская область ошибочно граничит с Дагестаном.
  4. В Санкт-Петербурге лишние 50 тыс. населения, которые образовались при переносе Ладожского озера на границу между ЛО и Карелией.
  5. Около 200 тыс. человек пририсовано ЯНАО вместо ХМАО.

История версий

Версия 1.0.1.

  1. Добавлена версия со шкалой, где посередине — ноль.
  2. Косметические изменения (подписи ярче, источник данных тусклее).

Версия 1.0.

  1. Отрисована и настроена для быстрого креатива карта Дмитрия Скугаревского.
  2. Цветовую схему взял у ColorBrewer. Отказался от градиента, чтобы нейтральным цветом отображалось более-менее медианное значение, светофорными красным и зелёным — отклонения.
  3. Цвета распределены по принципу equal intervals area. В общем случае — пять интервалов. В случае больших выбросов отдельных регионов добавляется шестой (синий), объединяющий экстремальные значения.
  4. Ладожское озеро перенесено на границу между ЛО и Карелией. Внесена ошибка №4.
  5. Добавлены границы автономных округов (НАО, ХМАО, ЯНАО). Внесена ошибка №5.
  6. Добавлены избранные моря.
  7. Подписаны избранные водоемы.
  8. Подписаны избранные регионы.
22 декабря   done   map   principles   review   ria novosti   russia

Россия — не большая

Меня давно мучает мысль, что Россия кажется нам намного больше (и важнее), чем она есть на самом деле. И скопилось миллион разных карт. Подумал, ну, поэкспериментирую с их анимацией. И таблиц заодно. Первый ролик, показалось, был скучноватым, во втором безумия, пожалуй, многовато.

Источники

  1. Тема разных проекций раскрыта в миллионе разных видосов. Есть классные сайты: главный сайт антимеркаторовского движения, каталоги проекций раз и два.
  2. Источники карт почти не сохранялись, потому что обычно непонятно кто автор. Что осталось: великолепный tilegram российских регионов, ночные фотки Земли с сайта НАСЫ.
  3. Статистика по EEZ — ссылка уже битая, не знаю куда переехало.
  4. Статистика орошаемых земель — при фактчекинге нагуглил, что есть и другие цифры, но не стал сопоставлять, как что считается. Принципиально это картину бы не изменило, думаю.
  5. Статистика мясо- и рыбопроизводства: раз, два.

Процесс

  1. Туториал по склейке карт. Это вообще лучший, похоже, обучающий ресурс по Афтер Эффектсу. Общий принцип — что если нужно работать с огромным детализованным изображением, то нужно просто склеить нужные фрагменты, типа так
  1. Совершенно необходимый плагин для работы с anchor points, непонятно как без него вообще раньше жил.
2017   done   geography   map   russia   video

История России в демографических пирамидах (1897 — 2036)

Мне не хватает содержательных видео в Ютубе. Мне кажется перспективным сочетание анимации, инфографики и обычного нарратива. Мне теперь сложно объясняться словами, всё мыслится теперь видосами. Короче, первая проба — про демографию.

Источники данных

Переписи 1897 — 2010. Пришлось кое-что собирать руками, например, суммировать перепись 1897-го года по губерниям. Можно было заморочиться с подсчетом населения в границах РФ, но не. Итоговую таблицу выложил, ссылка будет.

2017.

2026 — 2036. Здесь есть прогноз на каждый год, но было не так сильно нужно. Потому что непонятно, как из такой страницы собрать данные.

Сколько рожают женщины, в зависимости от возраста.

Прогноз по смертности.

Выложил итоговую таблицу с использованными данными.

UPD. Данные, которые тоже надо было использовать

Обзорный пост, который дает сразу несколько направлений движения.

«Демографическая модернизация России» — монументальный труд по современной демографии

Коэффициенты рождаемости в России и по миру

The Human Mortality Database

Здесь разбор фактологии нашего ролика от настоящего демографа. Я думал, будет больше ошибок :)

Источники остального

Fallen: павшие во Второй мировой войне — это вообще величайшее видео на свете. В нём нравится огромный пакет данных, программирование данных на веб (многие говорят, что данные хотелось бы в удобном для себя темпе изучать), мощный посыл, который становится очевиден только благодаря данным, не говоря уж просто про исполнение. Хотелось бы однажды сделать что-то такое. Но при этом мистер Хэллоран полтора года ничего не выпускал, а когда выпустил — получилось как-то вторично.

Статья «Эволюция рождаемости за полвека»

Исследование РБК: как власти впустую потратили 1 трлн рублей на материнский капитал

Коллекция старых документов. Здесь есть полиграфия со всех переписей, но она в конечном счете не вошла в видео.

Свидетели Иеговы заморачиваются насчет генеалогии. Здесь нашел сканы переписных листов 1897-го года. Прям целой Тобольской губернией — фантастика.

Процесс

Пирамиды делал в Афтер Эффектсе. Помог вот этот туториал. Каждая пирамида состоит из двух композиций. В одной 101 столбик мужчин, в другой 101 столбик женщин. Масштаб столбиков смотрит в файл. В файле переменные. Значения переменных из Экселя. Композиции я обводил кривыми и анимировал кривые. Это абсолютно конский способ, не делайте так никогда. Если уж устраивает такой результат, то проще было бы нарисовать графики в том же Экселе или Табле, а потом обвести кривыми. Ну, зато научился брать данные из файла.

Как, видимо, НАДО было сделать: каждому столбику задавать ряд значений 1897 — 2036 в зависимости от времени T1 — T12. Время вешается на слайдер-контрол. Неочевидно только, как этим потом управлять, например, скоростью анимации. Непонятно. Если знаете как — пожалуйста, подскажите.

Можно было бы собрать данные не по переписям раз в 10 лет, а по каждому году (но только с 1950), и тогда получится намного более крутая анимация. Еще можно было бы сделать видео хоть про каждую страну мира, только подавай данные, но, что удивительно, не нашел источников! У нас вообще не так все плохо с открытостью данных.

В любом случае, пора уже выпускать, поэтому всё так как есть. В целом, смысл даже не конкретно в этом видео, а в том, что делать не тупые видео — очень кайфово и, вероятно, будет востребовано. Если интересно поработать вместе — пишите.

Конкурс видео «Тинькофф-банка»

Мне нравится «Тинькофф-журнал», поэтому очень хотелось поучаствовать в конкурсе. Пытался выделить из большого ранее задуманного материала про классы российского общества то, что можно успеть сделать до дедлайна. Занял 31-е место из 101-го участника.

Неплохо:

  • Краткость.

Плохо:

  • Не иметь тезиса (вступление, основная часть, выводы). Просто дать какие-то данные — это непонятно. Как будто пассивно-агрессивно тыкаешь какими-то таблицами людям в лицо.
  • Данные пришлось чересчур упростить.

Надеюсь выпустить толковое видео про работы и зарплаты, это вообще очень удивительная тема.

2017   done   economics   tinkoff bank   video

Статистика книгоиздания (Российская империя, СССР, Россия)

Российская книжная палата публикует ежегодную статистику книгоиздания в виде таблицы, которая вставлена в Ворд, который лежит в папке, которая заархивирована, и ссылка на архив лежит на сайте. Но это не главное.

Например, нашёл, ты данные за 2016-й год, а много это? Мало? Непонятно.

Источники

  1. 1901 — Баренбаум И. История книги, 1984. Ссылки на первоисточник нет;
  2. 1908—1913 — Дойникова Л. П. Книги, печать и периодика в Российской Империи. Первоисточник — первые «Книжные летописи»;
  3. 1940—1990 — РКП;
  4. С 1992 — Госстат, на основе данных РКП.

Сводная таблица

Комментарии

  1. Непонятно, как лучше изображать дырки в данных;
  2. Сравниваются разные территории, разное население, разные языки;
  3. Сейчас РКП собирает точно не 100%-корректную статистику. Они основываются на обязательных экземплярах, а все больше издательств их в Палату не отправляет;
  4. И чтобы не забыть: данные были с разной размерностью (миллионы, тысячи, штуки). Вот не следует округлять данные без лишней надобности.
Ctrl + ↓ Ранее