вторник, 12 мая 2020 г.

Как трое ученых случайно за день создали сайт популярнее еBay

Как трое ученых случайно за день создали сайт популярнее еBay

Онлайн-карта распространения коронавируса, созданная в университете Джонса Хопкинса, стала одним из главных информационных ресурсов о пандемии. Сайт создали доцент университета и двое ее аспирантов в надежде на аудиторию максимум в сотню человек. В марте число визитов на сайт приблизилось к миллиарду. Как разрабатывали сайт и что его создатели думают об официальной статистике?
В январе Лорен Гарднер, доцент инженерного факультета университета Джонса Хопкинса, общалась в университетской кофейне со своими аспирантами, описывает The Wall Street Journal. Разговор зашел о новом вирусе, вызвавшем эпидемию в Китае и начинавшем распространяться по миру. Один из учеников Гарднер, выходец из Китая Эньшэн Дун признался, что переживает за родных, оставшихся на родине.
Аспиранты предложили создать онлайн-карту заражений. Гарднер, которая исследует влияние транспортных систем на распространение болезней, их поддержала. Всего за день Гарднер и двое ее учеников разработали сайт, на котором разместили черную карту с красными точками, обновляющуюся в режиме реального времени. Сайт был запущен 22 января. Дун, будучи специалистом по географии и картографии, вручную вводил в систему данные, тратя на это от 13 до 15 часов в сутки после занятий.
«Мы думали, что будет очень круто, если несколько десятков или, к примеру, сто исследователей когда-нибудь захотят им [сайтом] воспользоваться», — рассказала Гарднер WSJ. Дун также надеялся, что впоследствии сможет использовать этот опыт для диссертации.
В марте, по данным SimilarWeb, сайт, созданный учеными, вошел в сотню самых посещаемых в мире. За месяц он набрал около 1 миллиарда визитов — больше, чем сайты социальной сети LinkedIn, телеканала CNN и крупнейшего в мире интернет-аукциона eBay.

4000 точек на экране

Изначально для сбора данных создатели проекта использовали другие агрегаторы данных, новости и Twitter. Основным источником информации в первое время был сайт DXY.cn — сообщество китайских медиков.
По мере того, как вирус распространялся за пределами Китая и росло число посетителей сайта, процесс работы стал более сложным. Помимо подсчетов по странам, исследователи начали отдельно собирать официальные данные о заболевших и умерших в городах и штатах США. По словам Гарднер, данные отслеживаются примерно по 7000 точек. Команду пришлось расширить — для этого привлекли других людей из университета.
Процесс по максимуму автоматизировали — теперь команда проекта, работающая удаленно, большую часть времени просто следит за поступающими данными. Информация на сайт поступает из десятков источников. Для выявления сомнительных данных используется «система обнаружения аномалий», говорит Гарднер.
Сбор данных усложняет то, что в некоторых странах мира стали менять официальные данные постфактум. В начале апреля Франция увеличила число зафиксированных летальных случаев более чем на 40%, указав ранее не учтенные смерти от вируса в домах престарелых. Менять данные об умерших также пришлось после того, как их пересчитали китайские власти.
Разная ситуация складывается и в разных штатах США. По данным университета, в Нью-Йорке проводится 6464 теста на 100 000 человек. А в Аризоне, например, только 1526 на 100 000. Когда речь идет о летальных исходах, некоторые штаты указывают в качестве предположительных смертей от вируса те, в случае с которыми умершие проявляли характерные симптомы, хотя так и не сдали тест. Другие штаты такие смерти в публичные доклады не включают.
Гарднер подчеркивает, что разрешение таких спорных вопросов — не задача ее команды. «Как я должна узнать, сколько предполагаемых случаев смерти среди всех 4000 точек на моем экране? Для меня это невозможно. Просто собирать данные, которые были опубликованы, — это уже достаточно сложно», — поясняет она.

«Бесценные» данные

Онлайн-карта, созданная Гарднер и ее коллегами, стала незаменимой для всех, кто следит за пандемией, и центральным элементом работы оперативных штабов по всему миру, пишет The Wall Street Journal. Счетчики на этой сайте «не идеальны», но дают «бесценные» данные в сравнении с тем, чтобы не иметь вообще никаких данных, заявил газете профессор экономики в университета Вайоминга Дэвид Финоф, изучающий патогены и пандемии. «Я смотрю на данные этого сайта или же на новости в СМИ по их данным много раз в день», — подчеркнул он.
Гарднер считает, что официальные данные о зараженных в США, Китае и других странах ниже реальных. Она подчеркнула, что не знает, результат ли это «злого умысла» или того, что власти плохо справляются с быстро распространяющимся новым заболеванием.
Сейчас она заканчивает работать над исследованием о том, что социальное дистанцирование помогло замедлить распространение вируса. «Это точно работает. У нас есть четкие доказательства», — заявила Гарднер. По ее словам, исследователи изучили данные об уровне социального дистанцирования и темпах распространения вируса, обнаружив между двумя этими показателями тесную связь.
По последним данным университета Джонса Хопкинса, во всем мире зафиксировано больше 3,9 млн случаев заражения коронавирусом и более 275 000 летальных исходов.
Александр Пятин

Комментариев нет:

Отправить комментарий