Иван Моисеев

ivan_moiseyev

Проблемы межзвездных перелетов

Иван Моисеев


Previous Entry Share Next Entry
Иван Моисеев
ivan_moiseyev

Небо над головой. Оценка "космического интереса".

Время от времени, чтобы посмотреть, где сейчас космические аппараты, покидающие Солнечную систему, я заглядываю на страничкуЗаглянув на эту страницу сегодня, я несколько секунд смотрел на нее с недоумением, а потом понял, что страницу перевели на русский язык. Что приятно.
И не только эту страницу перевели, но и все основные страницы очень полезного/интересного сайта

название которого я вольно перевел, как "Небо над головой".
Просматривая сайт, обратил на весьма подробный  раздел статистики посещений, и подумал, что приведенные данные можно использовать для оценки уровня интереса к космонавтике в разных странах, который меня давно интересует.
После простенькой обработки данных у меня получился такой график:
heaven
Выводы делать – дело читателя, но отмечу, что пусть не удивляет повышенный интерес к космосу австралийцев, это действительно так, по ряду причин. А низкий интерес китайцев – это явно следствие языкового барьера.
На сайте приведена и карта посещений:
map_h
Tags:

  • 1
Так надо еще ЕС посмотреть по отдельным странам - невооруженным глазом видно что максимум Италия-Германия-Франция-Северная Европа, а Испания-Португалия и Восточная Европа стремятся намного меньше.

Если слишком мельчить, трудно интерпретировать. По Европе первая десятка выглядит так:
Гибралтар,
О-в Св. Елены,
Великобритания,
Лихтенштейн,
Ирландия,
Чехия,
Словакия,
Норвегия,
Германия,
Финляндия

Я немного другое имел в виду - я думаю что нужно данные нормировать по некоторому закону (ИМХО, вполне прилично подойдет нормальное распределение), определить какие данные достаточно интересны, а какие ниже погрешности.
Возможно график есть смысл сделать с логарифмической шкалой - если конечно наша модель позволяет эту вольность.

Да, и еще желательно учесть, или хотя-бы указать на карте, где наличествуют космические производства, а также, где ввиду технологических особенностей, пользователи приписываются не к своему региону (я имею в виду спутниковую связь, которая действует через узлы ЕМНИП в Германии, даже если пользователь физически находится в совсем другой стране - конкретно, вполне можно использовать спутниковый пакет с адресом в Германии, физически находясь в России).

Я так и сделал. Отобрал "надежные" страны, с большим числом посещений, а такие, как Гиблартар - игнорировал.
Точность результата невысока, но качественную картину отражает. Если идти по пути уточнения - надо взять группу популярных сайтов с учетом языка. (на графике низкий результат Японии и Китая - явно следствие языкового барьера).

Я имею в виду, что есть два метода работы с групой ненадежных данных в выборке.
- Первый, который простой и понятный даже школьнику - взять и приравнять эти данные какой-то константе - например если у нас почасовой график температуры, в котором по каким-то часам нет надежных данных - мы можем считать что в эти часы температура была скажем ноль или что-то среднее из других суток. Суть в том, что ненадежные данные будут мешать аггрегировать информацию.
Второй метод - сделать особое значение - "нет данных", и просто вырезать часы с ненадежными данными из базы данных, то есть в этих сутках будет не 24 часа, а меньше на число "ненадежных" часов.
В нашем случае это означает - считать что условный Гибралтар не является частью ЕС, то есть мы вычитаем его территорию и население из территории и населения ЕС.

Кстати, тут возникает интересный момент - Китай (как и Россия, которая состит из Москвы с Питером и областей и всей остальной территории), ведь очень разнороден и намного более разнороден чем ЕС - фактически Китай состоит из двух стран - это более-менее модерновая южная часть, и это практически дикая отсталая северная часть.

Несколько лет не заходил на эту страничку. Сейчас добавил свою точку

Re: Статистика

И, кстати, от того, что можно прочитать ее на русском языке, страничка только выиграла. Я не настолько хорошознаю английский.

  • 1
?

Log in

No account? Create an account