К сожалению, методы подсчета книг, используемые специалистами, не особо афишируются. Известно только, что использовались различные каталоги, подавались запросы в университетские библиотеки, общественные библиотеки, частные коллекции, музеи и другие организации. Создание надежного алгоритма для отделения «зерен от плевел» — сложная задача, но похоже, что Google справился ис этим. Конечно, нужно было продумать алгоритмы для сортировки, классификации и анализа количества книг — это сложная, комплексная система алгоритмов, о которой хотелось бы узнать побольше.
Вообще говоря, подсчет был
произведен не из праздного любопытства, а для того, чтобы оценить
реальные масштабы проделанной работы в рамках проекта, плюс оценить
усилия, которые придется приложить для продолжения и (если это вообще
возможно) завершения проекта.
При подсчетах количества книг
корпорация чаще всего использовала в качестве источника информации
разнообразные ISBN каталоги, которые существуют примерно с начала 60-х
годов прошлого века. Интересно, что при анализе были найдены
погрешности в наименованиях каталога — около полутора тысяч книг
получили одинаковый идентификатор, о чем сотрудники Google уже
известили библиотеки, в чьи каталоги закралась ошибка.
Интересно,
что вначале у Google при подсчете получилась цифра, близкая к
миллиарду. Однако после удаления всех копий и дубликатов, число книг
сократилось до 600 миллионов. После проведения еще более тщательного
анализа конечная цифра достигла значения 129864880. Интересно было бы
узнать, сколько информации содержится в подобной массе книг, в
количественном выражении. В общем и целом, интереснейшее исследование
команды разработчиков Google, которое успешно окончилось. Кто там
книголюб — можно уже начать собирать полную коллекцию в печатном
варианте