Arama Motorlarının Çalışma Prensibi

Nisan 2013 | Pınarnur Öz, Araştırma Geliştirme
Google

Temel olarak crawling adı verilen, web sitelerdeki içerikler taranarak ve veriler analiz edilerek büyük veritabanlarında depolanmasıyla oluşuyor.

Crawling; Arama motorlarının çalışma prensiplerinde sıkça kullanılan bir terimdir. Crawling denilen işlem arama motorunun web sitelerini ziyaret ederek orada bulduğu her şeyin listesini kaydetmesi işlemidir. Bazı arama motorları tüm web sayfasını kendi üzerinde depolayabiliyor. Bağlantıların, reklamların sayfanın neresinde olduğunu tarayabiliyor. Crawling;
  • otomatik bir sistemle çalışmakta. Web siteleri tek tek ziyaret edilmesi çok hızlı bir şekilde gerçekleşmektedir.
  • Sonu olmayan bir işlemdir. Belirli aralıklarla web siteleri tekrar tekrar taranır.
  • işlemin sıklığı ve derinliği siteden siteye değişmektedir.
İndeksleme; Bir kitaplık düşünün ve bu kitaplıktaki tüm kitapların sahibini, sayfa numarasını bir listeye kaydetmeye benzetilebilir. Google'ın ise indeksleme için çok daha büyük binlerce petabaytlık verilerle uğraştığını söyleyebiliriz. Ayrıca sadece sayfa ve başlık değil içerdiği bilgilerde indekslerde yer almaktadır.

Sıralama( ranking) ve geri getirme; Bir motorda arama yaptığınızda önünüze aradığınız şeyle en alakalı verilerin gelmesi gerekir. Bu da arama motorları için en karmaşık adımdır. Arama hizmetleri bu alanda farklılaşmaktadır çünkü.
Ranking( sıralama) algoritması aradığınız şeyi milyonlarca sayfa ile karşılaştırarak hangisinin daha uygun sonuç olduğunu bulmaya çalışır. Çok karmaşık bir sistem olduğundan genellikle şirketler kendi algoritmalarını bir endüstri sırrı olarak patentletirler.
Şirketlerin bunu yapmalarında ki amaç;
  1. kendi aralarında en iyi sonucu vererek lider olmak,
  2. algoritmayı bilmeyen siteler, onu 'kandırarak' birbirlerine haksız bir üstünlük sağlayamazlar..

Google