21 заметка с тегом

done

Позднее Ctrl + ↑

Статистика регионов России в картах

Сделали удобную справочник статистики регионов России в картах. Все ключевые социально-политическо-экономические показатели на одной понятной странице. Инджой!

Особенно люблю карту дотаций на человека в месяц и рост количества чиновников. В программе также зарплаты, демографический состав, условия жизни и ещё куча всего. Об обновлениях буду писать в пабликах: ВК, ФБ, Твиттер, Телеграм, Дзен.

 2 комментария    977   2018   done   interactive   maps   russia
 536   2018   area chart   business   cars   column chart   done   russia   scatter chart   treemap

Average Elo Rating of major European football leagues

Спарсил базу http://clubelo.com. Узнал, что такое JOIN и SELECT, подсчитал средний Эло высших дивизионов на выбранные даты. Хотелось сделать horserace chart топ-клубов, но не смог. Визуальные материалы получились такие.

Video

Interactive Chart

 672   2018   done   europe   football   history   interactive   line chart   sports   video

Статистика проката российского кино (2004—2017)

Услышал новость, что самым кассовым российским фильмом недавно стал мультик «Последний богатырь». А с учётом инфляции? Что вообще происходит с российским кино?

С помощью ParseHub собрал данные из «Бюллетеня кинопрокатчика».

С помощью «Статбюро» выровнял кассовые сборы по инфляции. Понял, что цифры получаются неточные, билеты ведь не единоразово продаются. И вообще, количество проданных билетов точнее показывает, на какой фильм люди больше ходили.

Интересней всего — что изменилось за прошедшие с 2004-го года 13 лет. Без промышленного анализа или, на худой конец, визуализации, действительно непонятно что. Картинку сделал просто в новом (прекрасном) Экселе. Стала понятней сезонность, но что происходит с кино — по-прежнему не ясно.

Параллельно прочитал детальнейший доклад Фонда кино «Российская киноиндустрия — 2016. Цифры и мнения». Стал понятен масштаб вопросов и то, что имеющихся данных для объяснения общей картины сильно недостаточно.

Дорисовал на график подписи, на этом пока всё. По количеству зрителей «Последний богатырь» — второй, «Девятая рота» — пятая, а первое место — у «Иронии судьбы-2».

Таблицу с данными выложил в папочку, если что-то из неё сделаете путное — пришлите посмотреть, интересно!

 676   2017   cinema   column chart   done   excel   histogram   russia   static

Карта России с регионами, пропорциональными населению

Что это?

Для изображения социально-экономической статистики России я использую карту с площадью регионов, пропорциональной населению. Новые карты я публикую ВКонтакте и в Фейсбуке под хэштегом #картапролюдей. Вот любимые (2018-01-05):

Медианная зарплата в прожиточных минимумах по регионам. Карта-анаморфоза Валовый региональный продукт на душу населения по регионам. Карта-анаморфоза Коэффициент Джини (показатель неравенства доходов) по регионам. Карта-анаморфоза Динамика бедности по регионам. Карта-анаморфоза Рейтинг роста зарплат по регионам. Карта-анаморфоза Рейтинг изменения качества жизни по регионам. Карта-анаморфоза

Это приспособленная для повседневного использования анаморфоза Дмитрия Скугаревского. По ссылке — интерактивная версия и описание картографического алгоритма.

Почему?

Россия в силу своей своеобразной географии плохо получается на обычных картах. Плохо — значит, что картинка не адекватна реальности. Сравним две карты на одном наборе данных.

Это фрагмент карты «РИА Новости».

Это карта, анаморфированная по населению.

Сколько людей получают зарплаты выше 100 тысяч. Анаморфированная карта.

Первая карта говорит: на Севере — зарабатывают. Вторая карта говорит: ага, пара человек.

Зарплаты зарабатывают люди, а не гектары. И мы делаем карту про людей, а не про административно-территориальные границы.

Классическая карта подходит для социально-экономической статистики в одном случае: если вы имеете дело с регионами как статистическими единицами. Допустим, вы чиновник, которому нужно, чтобы не больше, чем в 10 регионах смертность была больше 20 у.е., а сколько там людей живет — дело другого департамента.

Планы и сотрудничество

  1. Я считаю, что карта, анаморфированная по населению, даёт верное представление о России, и что большая ошибка, что её не используют начиная со школьных атласов, и что это необходимо исправить.
  2. Когда одно из крупных медиа начнет использовать анаморфированную по населению карту — тогда я буду считать проект законченным.
  3. Следует сделать очень много карт. Если есть наборы данных — присылайте.
  4. Следует перерисовать карту, сейчас она довольно небрежная.
  5. Следует улучшить макет карты: подписи, географические объекты, верстка.
  6. Следует сделать интерфейс, с помощью которого любой пользователь мог бы создать карту на основе своего набора данных.
  7. Однажды кто-нибудь сделает аналогичный глобальный проект, возможно, на основе таких или таких карт.

История версий

Версия 1.2

Карта процент жителей, имеющих доступ в интернет
  1. Шрифт поменял на более узкий и более читаемый.
  2. Подписал все регионы
  3. В этот момент проект свернул в интерактивные, но не анаморфированные, карты. Потом от него отпочковалась еще плиточная карта — ну, к анаморфам вернемся попозже.

Версия 1.0.

  1. Отрисована и настроена для быстрого креатива карта Дмитрия Скугаревского.
  2. Цветовую схему взял у ColorBrewer. Отказался от градиента, чтобы нейтральным цветом отображалось более-менее медианное значение, светофорными красным и зелёным — отклонения.
  3. Цвета распределены по принципу equal intervals area. В общем случае — пять интервалов. В случае больших выбросов отдельных регионов добавляется шестой (синий), объединяющий экстремальные значения.
  4. Ладожское озеро перенес на границу между ЛО и Карелией.
  5. Добавил границы автономных округов (НАО, ХМАО, ЯНАО).
  6. Добавил избранные моря.
 1 комментарий    6185   2017   done   maps   review   ria novosti   russia

Россия — не большая

Меня давно мучает мысль, что Россия кажется нам намного больше (и важнее), чем она есть на самом деле. И скопилось миллион разных карт. Подумал, ну, поэкспериментирую с их анимацией. И таблиц заодно. Первый ролик, показалось, был скучноватым, во втором безумия, пожалуй, многовато.

Источники

  1. Тема разных проекций раскрыта в миллионе разных видосов. Есть классные сайты: главный сайт антимеркаторовского движения, каталоги проекций раз и два.
  2. Источники карт почти не сохранялись, потому что обычно непонятно кто автор. Что осталось: великолепный tilegram российских регионов, ночные фотки Земли с сайта НАСЫ.
  3. Статистика по EEZ — ссылка уже битая, не знаю куда переехало.
  4. Статистика орошаемых земель — при фактчекинге нагуглил, что есть и другие цифры, но не стал сопоставлять, как что считается. Принципиально это картину бы не изменило, думаю.
  5. Статистика мясо- и рыбопроизводства: раз, два.

Процесс

  1. Туториал по склейке карт. Это вообще лучший, похоже, обучающий ресурс по Афтер Эффектсу. Общий принцип — что если нужно работать с огромным детализованным изображением, то нужно просто склеить нужные фрагменты, типа так
  1. Совершенно необходимый плагин для работы с anchor points, непонятно как без него вообще раньше жил.
 952   2017   done   geography   maps   russia   video

История России в демографических пирамидах (1897 — 2036)

Мне не хватает содержательных видео в Ютубе. Мне кажется перспективным сочетание анимации, инфографики и обычного нарратива. Мне теперь сложно объясняться словами, всё мыслится теперь видосами. Короче, первая проба — про демографию.

Источники данных

Переписи 1897 — 2010. Пришлось кое-что собирать руками, например, суммировать перепись 1897-го года по губерниям. Можно было заморочиться с подсчетом населения в границах РФ, но не. Итоговую таблицу выложил, ссылка будет.

2017.

2026 — 2036. Здесь есть прогноз на каждый год, но было не так сильно нужно. Потому что непонятно, как из такой страницы собрать данные.

Сколько рожают женщины, в зависимости от возраста.

Прогноз по смертности.

Выложил итоговую таблицу с использованными данными.

UPD. Данные, которые тоже надо было использовать

Обзорный пост, который дает сразу несколько направлений движения.

«Демографическая модернизация России» — монументальный труд по современной демографии

Коэффициенты рождаемости в России и по миру

The Human Mortality Database

Здесь разбор фактологии нашего ролика от настоящего демографа. Я думал, будет больше ошибок :)

Источники остального

Fallen: павшие во Второй мировой войне — это вообще величайшее видео на свете. В нём нравится огромный пакет данных, программирование данных на веб (многие говорят, что данные хотелось бы в удобном для себя темпе изучать), мощный посыл, который становится очевиден только благодаря данным, не говоря уж просто про исполнение. Хотелось бы однажды сделать что-то такое. Но при этом мистер Хэллоран полтора года ничего не выпускал, а когда выпустил — получилось как-то вторично.

Статья «Эволюция рождаемости за полвека»

Исследование РБК: как власти впустую потратили 1 трлн рублей на материнский капитал

Коллекция старых документов. Здесь есть полиграфия со всех переписей, но она в конечном счете не вошла в видео.

Мормоны заморачиваются насчет генеалогии. Здесь нашел сканы переписных листов 1897-го года. Прям целой Тобольской губернией — фантастика. .

Процесс

Пирамиды делал в Афтер Эффектсе. Помог вот этот туториал. Каждая пирамида состоит из двух композиций. В одной 101 столбик мужчин, в другой 101 столбик женщин. Масштаб столбиков смотрит в файл. В файле переменные. Значения переменных из Экселя. Композиции я обводил кривыми и анимировал кривые. Это абсолютно конский способ, не делайте так никогда. Если уж устраивает такой результат, то проще было бы нарисовать графики в том же Экселе или Табле, а потом обвести кривыми. Ну, зато научился брать данные из файла.

Как, видимо, НАДО было сделать: каждому столбику задавать ряд значений 1897 — 2036 в зависимости от времени T1 — T12. Время вешается на слайдер-контрол. Неочевидно только, как этим потом управлять, например, скоростью анимации. Непонятно. Если знаете как — пожалуйста, подскажите.

Можно было бы собрать данные не по переписям раз в 10 лет, а по каждому году (но только с 1950), и тогда получится намного более крутая анимация. Еще можно было бы сделать видео хоть про каждую страну мира, только подавай данные, но, что удивительно, не нашел источников! У нас вообще не так все плохо с открытостью данных.

В любом случае, пора уже выпускать, поэтому всё так как есть. В целом, смысл даже не конкретно в этом видео, а в том, что делать не тупые видео — очень кайфово и, вероятно, будет востребовано. Если интересно поработать вместе — пишите.

 1 комментарий    3206   2017   demography   done   history   population pyramid   russia   video

Конкурс видео «Тинькофф-банка»

Мне нравится «Тинькофф-журнал», поэтому очень хотелось поучаствовать в конкурсе. Пытался выделить из большого ранее задуманного материала про классы российского общества то, что можно успеть сделать до дедлайна. Занял 31-е место из 101-го участника.

Неплохо:

  • Краткость.

Плохо:

  • Не иметь тезиса (вступление, основная часть, выводы). Просто дать какие-то данные — это непонятно. Как будто пассивно-агрессивно тыкаешь какими-то таблицами людям в лицо.
  • Данные пришлось чересчур упростить.

Надеюсь выпустить толковое видео про работы и зарплаты, это вообще очень удивительная тема.

 318   2017   done   economics   tinkoff bank   video

Статистика книгоиздания (Российская империя, СССР, Россия)

Российская книжная палата публикует ежегодную статистику книгоиздания в виде таблицы, которая вставлена в Ворд, который лежит в папке, которая заархивирована, и ссылка на архив лежит на сайте. Но это не главное.

Например, нашёл, ты данные за 2016-й год, а много это? Мало? Непонятно.

Источники

  1. 1901 — Баренбаум И. История книги, 1984. Ссылки на первоисточник нет;
  2. 1908—1913 — Дойникова Л. П. Книги, печать и периодика в Российской Империи. Первоисточник — первые «Книжные летописи»;
  3. 1940—1990 — РКП;
  4. С 1992 — Госстат, на основе данных РКП.

Сводная таблица

Комментарии

  1. Непонятно, как лучше изображать дырки в данных;
  2. Сравниваются разные территории, разное население, разные языки;
  3. Сейчас РКП собирает точно не 100%-корректную статистику. Они основываются на обязательных экземплярах, а все больше издательств их в Палату не отправляет;
  4. И чтобы не забыть: данные были с разной размерностью (миллионы, тысячи, штуки). Вот не следует округлять данные без лишней надобности.
 727   2017   business   column chart   done   history   interactive   publishing   scatter chart

«Школа злословия»: время выхода в эфир

Люблю программу «Школа злословия». Но вот этот текст из Википедии вообще не понимаю.

Данные

Переписываю данные руками в таблицу. Чувствую себя идиотом, но другого решения не вижу.

Пока переписываю, вижу что время выхода в эфир иногда указывается как «в 0:55/1:00». Ну, запишем среднее на глазок, — подумал я. Ближе к концу появляются монстры типа «0:55/1:00/1:30/1:35/1:50/1:55/2:30». Что это значит? Полез в программу телепередач, проверил последние 14 выпусков (на сайте НТВ есть архив телепрограммы). Выяснилось, что правда. Сегодня эфир в 2.30, а на прошлой неделе был в час ночи. Данные из телепрограммы запишем в таблицу для очистки совести, но в целом учитывать не будем, потому что может сложиться впечатление, что прыгать время эфира стало только в конце жизненного пути программы, а это нифига не факт. Но ведь в Википедии время эфиров уже изначально указано с разной точностью? Эх, полный фейл. Будем считать, что для наших целей (понять, как именно программа уплывала в ночной эфир) это не сильно важно.

Вики пишет, что снят был 431 выпуск, у меня количество выпусков получилось на 20% больше. Ну, учел перерывы между сезонами, осталось 485. Добрый человек сделал машиночитаемый список, в какой программе какой гость был, пытаемся соединить таблицы. Остается много смутных мест. Пытаюсь прояснить ситуацию по косвенным уликам (блоги, новости, программы телепередач). Потратил час на выяснение, грубо говоря, выходил ли выпуск передачи 2 июня 2003 года и кто там был. Понял, что в интернете просто нет достоверных данных, а ошибки копируются и еще больше путают. Помогли бы архивы телеканалов, конечно, но добывать их — уже чересчур.

Итоговую таблицу с данными выложил, может кому-то понадобится.

Картинка

Время: если программа переехала с 23:50 на 01:10, как это показать на одной оси? Формат данных задаем как [HH] :MM:SS (в двух квадратных скобках), считаем абсолютное количество часов. «01:10» превращается в «25:10». Уродски, но понятно.

Дни недели: за 12 лет существования программа ездила по сетке от вечера среды до поздней ночи понедельника. Если брать 15-минутные интервалы, в промежутке получится больше 500 делений. Ничего не видно. Может, выбрать только значимые промежутки? Сделать отклонение от прайм-тайма? Думаю, достаточно было бы раскрасить дни недели разными цветами, но как это сделать в Опен.Офисе, непонятно.

И что в итоге? Имеем время начало эфира и длительность, получаем время конца эфира. Отображаем начало и конец биржевой свечкой. Что-нибудь подписать в Фотошопе? Попробуем. Ну и, в принципе, всё, тупик.

Итого

Данные не слишком корректны. На графике плохо видно динамику сползания в ночной эфир из-за масштаба. Плоховато видны сезоны и длительность программы. Совсем не видны дни недели.

Ставим себе трояк за старание, публикуем, потому что отрицательный результат — это тоже результат.

 415   2016   candlestick   done   static   tv
Ранее Ctrl + ↓