А существуют ли «ненужные слова», которые не индексируют поисковики?
Представляет собой поисковый индекс максимально сжатую, хорошо упакованную, вывернутую «наизнанку», но копию всех страниц в интернете, которые известны поисковику. Поисковики стремятся получать данные о большем максимально количестве страниц – в идеале поисковый индекс собой должен представлять копию интернета всего, а это великий объем данных.
Из-за этого раньше машины для поиска старались на дисках экономить место, а также время работы сервера и отбрасывали некоторые служебные, неважные слова при индексации, так называемые стоп-слова, к примеру, сокращения, числа, союзы, предлоги и тому подобное. Также они отбрасывали и цифры.
Оказалось в дальнейшем, что все-таки пользователи очень часто запрашивают такие слова, поэтому лучше их хранить. А к настоящему времени стоимость хранения мегабайта данных заметно снизились – стали дешевы жесткие диски. Поэтому в настоящее время большинство очень популярных поисковиков все слова индексируют в текстах, в их числе и стоп-слова – междометия, союзы, предлоги.
|