"Inverted Index of the Web" Necə Çeşidləmə Edir?

"Inverted Index of the Web" Necə Çeşidləmə Edir?

"Inverted Index of the Web" internetdə məlumatlara sürətli və səmərəli çıxışı təmin edən və axtarış sistemləri tərəfindən istifadə edilən fundamental texnologiyadır. Bu sistem veb-saytlar olan bütün açar sözlərin (söz və ya ifadələrin) siyahısını yaradır və hər bir sözün keçdiyi bütün səhifələrə istinadları saxlayır. 

 

Ənənəvi indeksdən fərqli olaraq, tərs indeks şərtlərin hansı sənədlərdə göründüyünü göstərir, beləliklə, axtarış sorğularına daha sürətli cavab verilə bilər.

 

Sadə işləmə prinsipi olan “Reverse Index”, veb brauzer internetdəki səhifələri skan edir, onların tərkibində olan açar sözləri müəyyənləşdirir və bu şərtləri verilənlər bazasında saxlayır. Hər bir söz işləndiyi veb-saytın siyahısına istinad edir.

 

İstifadəçi axtarış sorğusu edərkən, axtarış sistemi sorğuda qeyd olunan sözləri ehtiva edən bütün səhifələri tez tapmaq və istifadəçiyə təqdim etmək üçün bu əks indeksdən istifadə edir.

 

Bu sistem axtarış sistemlərinə milyardlarla veb-səhifə arasında müvafiq məlumatları saniyələr ərzində tapmağa imkan verən çox mühüm mexanizmdir.

 

Məsələn, "Bu gün Bakıda hava necə olacaq" sözünü axtardığınız zaman axtarış sistemi bu terminlərin əks indeksdə göründüyü bütün səhifələri tez tapır və sizə ən uyğun nəticələri təqdim edir.

 

Əks indeksin xüsusiyyətləri

 

  • Sürətli axtarış imkanı. Əks indeks axtarış sorğularına cavab vermə vaxtını əhəmiyyətli dərəcədə azaldır. İstifadəçilər bir və ya bir neçə sözlə axtarış etdikdə, sistem saniyələr ərzində milyardlarla sənəd arasında müvafiq nəticələri tapır və axtarış nəticəsi olaraq təqdim edir.
  • Effektiv məlumat saxlama. Əks indeks hər sözün hansı sənədlərə aid olduğunu müəyyənləşdirdikdə onu həmin sənəddə saxlayır. Bu struktur məlumatların lazımsız təkrarlanmasının qarşısını alır və yaddaşa qənaət edir.
  • Sorğu çevikliyi. İstifadəçilər tərəfindən edilən müxtəlif növ sorğuları (söz, cümlə, ifadələr) dəstəklənir. Əks indeks bu sorğuları effektiv şəkildə emal edir və geniş axtarış diapazonunda yüksək dəqiqlikli nəticələr verir.
  • Dinamik yeniləmə. İnternet daim dəyişir və genişlənir. Əks indeks yeni əlavə edilmiş səhifələri və ya mövcud səhifələrə edilən dəyişiklikləri müntəzəm indeksləşdirməklə yenilənir.
  • “Relevance Ranking”. “Reverse index”, həmçinin axtarış nəticələrini sıralamaq üçün istifadə olunur. Açar sözlərin saytın hansı blokunda və nə qədər tez-tez görünməsi kimi faktorlar səhifənin sorğuya nə dərəcədə uyğun olduğunu müəyyən etmək üçün istifadə edilə bilər.
  • Dil emalı imkanları. Əks indeks strukturu, köklənmə, sinonimin tanınması və təbii dil emalı kimi qabaqcıl dil emal üsullarını dəstəkləyir. Bu, axtarış nəticələrinin dəqiqliyini və istifadəçinin niyyətinə uyğunluğunu artırır.
  • Əlçatanlıq və istifadəçi təcrübəsi. O, istifadəçilərə sürətli və dəqiq nəticələr əldə etmək imkanı verməklə internetdə məlumat axtarışı təcrübəsini yaxşılaşdırır. Bu, istifadəçi məmnuniyyətini artırır və axtarış motorlarından istifadə edən istifadəçilərin davamlılığını qoruyur.

 

“Inverted Index of the Web” necə çalışır?

 

Sadə formada düşüncək, əks indekslənmənin fəaliyyətin kitabxanada kitabları müəyyən mövzulara görə çeşidləməyə bənzəyir. Əsas fərqi isə burada çeşidlənənlər kitablar yox, açar sözlərdir.

 

Gəlin çeşidlənmə prosesinin gedişatı ilə tanış olaq.

 

Veb-saytların skanlanması 

 

Prosesin ilk addımı veb skanların interneti skanlaması və veb-saytları toplamasıdır. Bu zaman saytın məzmunu, o cümlədən saytdakı mətnlər, başlıqlar, alt başlıqlar və digər müvafiq məlumatlar təhlil edilir.

 

Şərtlərin təhlili

 

Birləşdirilmiş səhifələrdəki məzmun fərdi şərtlərə ayrılır. Bu proses zamanı axtarış nəticələri üçün əhəmiyyətsiz sayılan sözlər, yəni “stop words” silinir və söz kökləri analiz olunur.

 

Əks indeksin yaradılması

 

Hər bir söz üçün həmin sözü ehtiva edən bütün veb-saytlara istinadlar siyahı kimi saxlanılır. Bu siyahı hər bir açar sözün "submission list" adlanır və siyahıda hər bir sözü işləndiyi saytların URL-ləri və ya unikal identifikatorları yer alır.

 

Yəni, tutaq ki, "yemək reseptləri" və "sağlamlıq mərkəzi" terminləri ilə iki fərqli veb-sayt var. Sistem hər iki səhifə skan edilir, onların məzmunu təhlil edilir və terminlərə bölünür.

Daha sonra göndərmə siyahıları "yemək", "reseptlər", "sağlamlıq", "mərkəz" terminləri üçün yaradılır. Əgər birinci səhifədə “yemək” və “reseptlər” terminləri, ikinci səhifədə isə “sağlam” və “mərkəz” ifadələri yer alıbsa, bu terminlərin hər biri üçün müvafiq səhifələrə istinadlar saxlanılır.

 

Sorğunun emalı

 

İstifadəçi axtarış sorğusunu yerinə yetirdikdə, axtarış sistemi sorğudakı şərtlərin təqdim olunan siyahılarını əks etdirir və geri alır. Daha sonra o, həmin şərtləri ehtiva edən bütün saytların kəsişməsini və ya birləşməsini tapır və bütün müvafiq nəticələri tez bir zamanda əldə edir.

 

Çeşidləmə

 

Tapılan səhifələr aktivlərlə məhdudlaşmır. Eyni zamanda, səhifədəki mövqe, tezlik və daxil olan keçidlərin keyfiyyəti (PageRank) kimi amillərə əsaslanan alqoritmdən istifadə etməklə, terminlər aktuallığına görə sıralanır.

 

Əks indeksin iş prinsipi

 

  • İndeksləmə. Veb brauzerlər tərəfindən toplanmış veb səhifələrdəki bütün şərtləri taramaq və indeksləşdirməkdir. 
  • Sorğu. İstifadəçi axtarış sorğusu etdikdə, axtarış motoru həmin sorğudakı sözlərin işləndiyi saytları tez tapmaq üçün əks indeksdən istifadə edir.
  • Sıralama. Tapılan saytlar uyğunluq və səlahiyyət kimi müxtəlif amillər əsasında sıralanır. Beləliklə, ən uyğun nəticələr istifadəçiyə təqdim olunur.

 

Belə ki, siz "evdə hazırlanmış çörək resepti" axtarırsınız. Əks İndeks bu sözləri ehtiva edən bütün saytların siyahısını saxlayır. Axtarış sorğunuz daxil edildikdə, sistem bu siyahını nəzərdən keçir və dərhal terminin göründüyü və buna görə də sorğunuza ən uyğun olan veb-saytları tapır. Beləliklə, axtarış sistemi saniyələr ərzində minlərlə, hətta milyonlarla səhifədən düzgün məlumat əldə etməyə imkan verir.

 

 

Muzaffar Garakhanli

Другие статьи

“Structural Semantics”in İndeksləşməyə Təsiri

“Structural Semantics”in İndeksləşməyə Təsiri

The SEO Handbook: 120 Questions Answered by Experts

The SEO Handbook: 120 Questions Answered by Experts

“Cost of Retrieval”a Nələr Daxildir?

“Cost of Retrieval”a Nələr Daxildir?