“Canonical queries”. Məlumat və Dublikat Məzmun Müəyyənləşdirilməsi

“Canonical queries”. Məlumat və Dublikat Məzmun Müəyyənləşdirilməsi

Yəqin ki, bəzən axtarış motorlarında axtarış edərkən sistemin axtarış sorğunuzu tam anlamadığını, axtarış nəticələrinizin tam olaraq axtardığınız mövzuya uyğun olmadığını müşahidə etmisiniz. Bu hal bir çox amildən qaynaqlansa da, əsas səbəblərdən biri qeyri-müəyyən açar sözlərin işlənməsidir. Çünki konkret olmayan açar sözləri axtarış motoru tərəfindən tam anlaşılmır və həmin sözlə bağlı axtarış edildikdə sistem özündə olan məlumatlardakı açar sözü anlamadığı üçün nəticələri də düzgün vermir.  

 

“Canonical queries” bu boşluğu aradan qaldırmaq və axtarış nəticələrinin axtarışa uyğun təqdim edilməsini təmin edən sistemdir.

 

Bu sistem iki yanaşmaya xidmət edir:

1.Məlumat axtarışında “canonicalization”

2.Dublikat məzmunu aydınlaşdırmağa

 

“Canonical queries” məlumat axtarışı “canonicalization”

 

Axtarış motoru alqoritmlərinin bu əsas komponentinin işləməsi bir neçə əsas addımı əhatə edir:

 

İstifadəçi girişi. İstifadəçi axtarış sisteminə xüsusi açar sözlər və ya ifadələr daxil etməklə axtarışa başlayır.

 

İlkin sorğunun emalı. Axtarış motoru istifadəçinin məlumatını alır və ilkin emal etməyə başlayır. Bu mərhələdə axtarış motoru sorğunun əsas açar sözlərini və strukturlarını müəyyən edə bilər.

 

“Canonicalization”. Kanonikləşdirmə ilkin istifadəçi sorğusunun standartlaşdırılmış, kanonik formaya çevrilməsi prosesidir. Bu prosesdə alqoritm, sorğunu onun əsas komponentlərinə ayırmaq üçün sinonimlərin və aidiyyatsız elementlərin çıxarılmasını nəzərdə tutur. 

 

Yaranan kanonik sorğu istifadəçinin axtarış girişinin kök versiyası kimi xidmət edir. Yəni sözün kökünə uyğun açar sözlərə sahib məlumatlar axtarılır.

 

Sorğu kontekstinin təhlili. Axtarış sistemi, istifadəçinin yeri, dil seçimləri, axtarış tarixçəsi və cihaz növü kimi amilləri ehtiva edən “query context” nəzərə alır. Bu təhlil kanonik sorğunu istifadəçinin xüsusi kontekstinə uyğunlaşdırmağa kömək edir.

 

Nəticələrin yaradılması. Uyğunlaşdırılmış kanonik sorğu daha sonra axtarış sisteminin indeksindən müvafiq nəticələri əldə etmək üçün istifadə olunur. Bu nəticələr müxtəlif amillərə, o cümlədən kanonik sorğuya uyğunluq, sayt səlahiyyəti və istifadəçi cəlbetmə göstəricilərinə əsasən sıralanır.

 

Gəlin bir də belə baxaq mövzuya. Tutuq ki, istifadəçi "ən yaxşı yeməkləri olan restoranlar" adlı axtarış edir. Bu zaman alqoritm sorğunu bu addımlardan keçirərək nəticə verir:

 

  • Kanonik sorğu. Axtarış motoru bu girişi emal edir və onu kanonik sorğuya çevirir, məsələn, "ən yaxşı restoran" kimi dəqiq və konkret mənanı ayırır.
  • Kontekstual uyğunlaşma. Alqoritm xəritəni analiz edərək cihazın Bakıda olduğunu və axtarışın Bakıda axtarıldığını müəyyənləşdirir. Bu səbəbdən də sorğunu “Bakıdakı ən yaxşı restoran” olaraq anlayır. 
  • İstifadəçi niyyətinin tanınması. Tutaq ki, Bakıdakı başqa bir istifadəçi eyni axtarışı etdikdə “Bakıdakı ən yaxşı restoran” nəticəsinə yox, başqa bir nəticəyə daxil olubsa, bu zaman axtarış sistemi sizin də niyyətinizin fərqli ola biləcəyini başa düşür. Nəticədə isə həm Bakıda, həm də digər istifadəçilərin bu axtarış ilə daxil olduqları yerlərdəki restoranları təqdim edir. 
  • Tarixə əsaslanan fərdiləşdirmə. Eyni zamanda nəticə verilmədən öncə istifadəçinin öz axtarış tarixçəsindəki data analiz olunur. Əgər axtarış datasında Bakı yox, məsələn, Sumqayıt şəhəri üzrə axtarış çoxdursa, nəticədə Sumqayıtdakı restoranlar əsas yer alacaq. 

 

Bu alqoritm dublikat məzmunu necə ayırır?

 

Axtarış motorları dublikat məzmunu effektiv şəkildə müəyyən etmək və idarə etmək üçün mürəkkəb alqoritmlərdən istifadə edir ki, onlardan biri “canonical queries”dir. Bu alqoritmin dublikat məzmun müəyyən etmə prinsipi qapalı olsa da, aşağıda qeyd etdiyim ümumi yanaşmalardan istifadə olunduğu bizə məlumdur.

 

“Canonicalization”. Kanonikləşdirmə, dublikat məzmun aşkar edildikdə axtarış motorlarının səhifənin üstünlük verdiyi və ya kanonik versiyasını müəyyən etdiyi bir prosesdir. Kanonik URL-i göstərmək üçün HTML başlığında kanonik teqlərdən (rel="canonical") istifadə etmək də mümkündür. Bu sistem, axtarış motorlarına məzmunun hansı versiyasının əsas versiya kimi, yəni dublikat olmamasının qəbul edilməsi lazım olduğunu anlamağa kömək edir.

 

URL uyğunluğu və parametrlər. Dublikat məzmun eyni səhifənin birdən çox versiyasını yaradan parametrləri və ya sorğu sətirləri olan URL-lərdə müşahidə oluna bilər. “Google Search Console” kimi alətlərlər hesabına biz də URL parametrlərini analiz edə və eyni məzmunları müəyyənləşdirə bilərik. Lakin biz etməsək belə, alqoritm eyni URL-ləri olan məzmunları analiz edir və dublikat kontenti müəyyənləşdirir. Hansı URL ilk yaradılıbsa, o axtarış nəticələrində ilk sıralarda yer alır, hansılarsa sonra yaranıbsa, onlar dublikat olduğu üçün sistem tərəfindən geri salınır. 

 

Metadata və “markup examination”. Alqoritmlər meta teqlər və meta təsvirləri daxil olmaqla metadata, həmçinin başlıq teqləri və sxem işarələməsi kimi struktur işarələmələri təhlil edir. Bu elementlər içərisində olan nümunələr müxtəlif səhifələr arasındakı əlaqəni başa düşmək üçün qiymətləndirilir. Eynilə URL-dəki kimi, əgər eynilik olarsa, daha sonra yarananlar dublikat sayılır.

 

Tarixi daha və skanlama. Axtarış motorları veb saytların tarama tarixini izləyir. Dublikat məzmunun ardıcıl nümunələri aşkar edilərsə, axtarış motorları onların skanlama tezliyini tənzimləyə və məzmunun kanonik versiyasının indeksləşdirilməsinə üstünlük verə bilər.

 

İstifadəçi siqnalları. Klikləmə dərəcələri, sıçrayış dərəcələri və istifadəçilərin səhifədə keçirdikləri vaxt kimi istifadəçi cəlbetmə göstəriciləri axtarış motorlarına dəyərli siqnallar verir. İstifadəçilər ardıcıl olaraq məzmunun bir versiyasına üstünlük verirlərsə, bu, axtarış motorlarının axtarış nəticələrində səhifələri necə sıralamasına və göstərməsinə təsir edir. İstifadəçilər tərəfindən dublikat olmayan məzmun daha çox göründüyündən, dublikatlar istifadəsiz qalaraq, sıralamada daha da geriləyi.

 

“Backlink” analizi. Fərqli domenlərdə dublikat məzmunun olması “backlink” analizi vasitəsilə müəyyən edilə bilər. Alqoritmlər əlaqələri anlamaq və nüfuzlu mənbələri müəyyən etmək üçün səhifələrin keçid profilini qiymətləndirir.

 

Maşın öyrənməsi. Maşın öyrənmə alqoritmləri getdikcə daha da təkmilləşdirilərək məlumat daxilində mürəkkəb nümunələri və əlaqələri müəyyən edir. Bunun nəticəsində isə axtarış motorlarına kontekst və struktur ipuçları əsasında dublikat məzmunu tanımağa kömək edir

Muzaffar Garakhanli

Other articles

Sorğu Təsnifatının Axtarış Sistemindəki Üstünlükləri

Sorğu Təsnifatının Axtarış Sistemindəki Üstünlükləri

"Google"un IBM Patenti Bizə Nə Qazandırır?

"Google"un IBM Patenti Bizə Nə Qazandırır?

Çox Mənalı Sözlərin Fərqləndirilməsi. “Context Vectors”

Çox Mənalı Sözlərin Fərqləndirilməsi. “Context Vectors”