Как устроена поисковая система

Как устроена поисковая система

Поисковые системы появились еще на заре становления интернета. В какой-то момент стало ясно, что ориентироваться по большим спискам интернет-страниц уже невозможно, поэтому были запущены первые поисковики. Считается, что первыми поисковиками стали Wandex и ALIWEB, запущенные ещё в 1993 году. Конечно с современными Яндексом и Гуглом их даже рядом не поставить, а уровень тогдашних сайтов был такой, что это даже трудно назвать сайтами. В течение еще 10-12 лет будут котироваться ftp-хранилища файлов, а сайты будут представлять из себя наборы txt-документов и статических html-страниц, с каждым годом обрастая все новыми типами контента.

Что такое поисковик?

Поисковая система или поисковик - это сайт для поиска других сайтов. В интернете миллионы сайтов, поэтому нужны специальные сервисы, которые ведут учет и каталогизируют web-страницы по определенным критериям. Современный поиск может быть голосовым и текстовым. Второй тип поиска распространен больше.

Как работает поисковая система

Современный поисковик состоит из:
а) краулера (crawler) - сканирующего и индексирующего механизма, робота или бота (например, googlebot и yandexbot), который считывает web-страницы сайтов и добавляет их в определенную базу.
б) индекса (index) - той самой базы, в которой хранится и анализируется информация о содержимом страниц.
Как работает поисковая система

На примере Google:
Как только робот Googlebot отсканирует новую страницу, он "визуализирует" (rendering, рендеринг) страницу в эмуляции браузера, загружая весь HTML, сторонний код, JavaScript и CSS на свои сервера. Этот процесс называется индексированием, а проиндексированный контент попадает в Google Index - сверхогромную базу данных Google:
как работает гугл

Результаты поиска на профессиональном языке веб-оптимизаторов называются "выдачей" (SERP от Search Engine Result Page, страница результатов поиска). Процесс отбора именно нужной пользователю информации в выдаче называется "ранжированием" (Ranking Algorythm, алгоритм ранжирования). См. схему.

Ранжирование сайта в современной поисковой системе зависит:
а) от релевантности контента (насколько содержимое страницы отвечает на запрос пользователя)
б) от ссылочной массы страниц сайта (от количества и качества ссылающихся на ранжируемый сайт других сайтов)
в) от степени оптимизации сайта (соответствие базовым ключевым метрикам требований поисковых систем, в основном, это скорость загрузки контента и правильная семантическая вёрстка/разметка страниц)
г) от возраста сайта и его актуальности

Стоит понимать, что поисковая система уровня Yandex, Bing и особенно Google - это множество дата-центров и тысячи серверов, которые используются для обеспечения функциональности поиска и хранения кэшируемых данных.

Современные поисковики работают на основе самообучающегося машинного интелекта, нейронных сетей и сложного многоуровнего программирования. Над постоянным улучшением результатов поиска и глубоким пониманием контента машинами работают лучшие умы человечества.

Функции поиска

На данный момент поисковики не просто выдают ранжированные данные, но и самостоятельно умеют агрегировать полученную информацию в свои внутренние сервисы - продажа билетов, расписания концертов, панели блоков знаний, информация об учреждения и многое другое.

Например, Google умеет отображать курс доллара, который он получает на одной из валютных бирж:
курс доллара в google

Яндекс продает билеты на самолёт прямо через поиск:
Продажа билетов на самолёт в яндексе

Как зарабатывают поисковики

Многие пользователи задаются вопросом: на чем поисковые системы зарабатывают?
Google и Яндекс зарабатывают на рекламе. Реклама есть в поиске и отображается на самых вакантных местах. Кроме того, поисковики получают доход с сопутствующих поиску услуг. Например, продажа товаров через Google Покупки.

Вышеупомянутые поисковики имеют собственные рекламные биржи - РСЯ (рекламная сеть Яндекса) и Ads/Adsense. К тому же Google владеет агентствами по сбору пользовательских данных для рекламы - гео, возраст, пол, предпочтения. И всё это используется для того, чтобы персонализировать рекламу и органично вписать в свои сервисы. Например, в приложения через магазин приложений GooglePlay.

Данный материал разрешается использовать в учебных целях для написания докладов, сообщений и рефератов.

Полезные ссылки:
Google. Как работает Google.
How Google Crawler Works: SEO Starter-Pack Guide.
Google-Index, Google-Bot and the Crawling Process.
Яндекс. Индексирование интернета.