TF-IDF İndeksinin Hesablanması Və Tətbiqi

TF-IDF İndeksinin Hesablanması Və Tətbiqi

SEO-nun mürəkkəb alqoritmləri arasında iki əsas anlayış xüsusilə fərqlənir: Termin Tezliyi (TF) və Tərs Sənəd Tezliyi (IDF). Haqqında danışacağım bu iki analiz üsulu veb-saytın məzmununun axtarış motorları tərəfindən necə qəbul edildiyini və qiymətləndirildiyini anlamaq üçün olduqca önəmlidir.

 

1.Termin Tezliyi (TF) 

TF, müəyyən bir terminin veb-saytda nə qədər çox istifadə olunduğunu ölçür. Veb-saytda konkret olaraq bir termin nə qədər çox istifadə olunarsa, deməli həmin termin səhifənin mövzusuna bir o qədər uyğundur. Lakin, tez-tez istifadə olunan hər sözün eyni dəyəri təbii ki, olmur. 

 

Məsələn, “və”, “ilə”, “da” kimi tez-tez işlənən köməkçi nitq hissələri kontekst haqqında mühüm məlumat vermir. Bu xüsusiyyətinə görə “stop words” adlandırılan bu sözlər qiymətləndirmədən kənarda qalır.

 

2.Tərs Sənəd Tezliyi (IDF) 

 

IDF isə bütün kontent arasında terminin nə qədər az işləndiyini göstərir. Terminin nadirliyi artdıqca, onun unikallığı və müəyyən bir mövzuda əhəmiyyəti ölüçülür. Daha yüksək IDF dəyərlərinə malik sözlərin kontenti daha dəyərli hesab olunur. Bu, axtarış motorlarına tez-tez rast gəlinən ümumi terminlərdən daha dəyərli hesab olunir və mövzuya aid terminlərin olduğu kontenti tapmağa kömək edir.

 

Belə ki, ədəbiyyata aid bir saytdakı 500 bloqdan 10 dənəsində “metafora” termini var. Bu cür az işlənən terminləri qiymətləndirərkən, axtarış motorları və ya məlumat axtarış sistemləri məzmunun orijinallığını və istifadəçinin axtardığı mövzuya nə qədər yaxın olduğunu müəyyən etmək üçün IDF dəyərlərindən istifadə edir.

 

Bu halda, "metafora" sözü çox az hallarda işləndiyi üçün yüksək IDF dəyərinə malik olmuş olur. Yəni, bu mövzuda yazılmış mətnləri tapmaq üçün “metafora” terminindən istifadə edildikdə, həmin bloqlar axtarış nəticələrində daha vacib və aktual hesab olunacaq.

 

Axtarış motorları tərəfindən indekslənməni və axtarış sıralamasının nəyə əsasən qurulduğunu başa düşmək üçün istifadə olunan TF və IDF-nin birləşdirilməsindən yaranan TF-IDF metodu (Term Frequency-Inverse Document Frequency) açar söz strategiyaları inkişaf etdirərək, məzmunlarının hədəf auditoriyaya çatmasını və axtarış sisteminin nəticələri səhifələrində üst sıralarda yer almasını təmin edir.

 

TF-IDF metodunun tətbiqi

 

1.Termin Tezliyinin (TF) hesablanması

 

Metodun tətbiqi boq mətndəki hər bir terminin baş vermə tezliyini hesablamaqla başlayır. Sadə dillə desək, TF dəyəri müəyyən bir termini mətndəki şərtlərin ümumi sayına bölmək yolu ilə əldə edilir. 

 

Məsələn, 1000 sözdən ibarət mətndə “kitab” sözü 10 dəfə işlənirsə, “kitab” sözünün TF dəyəri 10/1000 = 0,01-dir.

 

2.Tərs Sənəd Tezliyinin (IDF) hesablanması

 

IDF dəyəri müəyyən bir terminin bütün bloq blokunda nə qədər az işləndiyini olduğunu göstərir. IDF dəyəri mətn blokundakı bloqların ümumi sayını həmin termini ehtiva edən bloqların sayına bölmək və daha sonra nəticədə yaranan dəyərin loqarifmini götürməklə hesablanır. 

 

Əgər "kitab" sözü 1000 bloq toplusunda yalnız 10 sənəddə görünürsə, IDF dəyəri log(1000/10), təxminən 2  olur.

 

3.TF-IDF İndeksinin hesablanması

 

TF-IDF indeksi hər bir termin üçün TF və IDF dəyərlərini vurmaqla hesablanır. Mətndə yüksək TF-IDF dəyərlərinə malik olan terminlər vacib açar sözlər sayılır, çünki bu terminlər həm kifayət qədər istifadə olunmuş olur, həm də eyni zamanda az hallarda rast gəlinir. 

 

Bu, bloq mətnin konkret mövzuya aid olduğunu və terminin həmin mövzunun kontekstində mühüm məlumat verdiyini göstərir.

 

TF-IDF metodu müxtəlif sahələrdə olan istənilən veb-sayt üçün tətbiq oluna bilər.

 

Yəni, veb-saytların kontent optimallaşdırılmasında TF-IDF təhlili, konkret olaraq saytda hansı yazı təkmilləşdirilmələrinin vacib olduğunu müəyyən etmək üçün istifadə edilə bilər. 

 

Bu qiymətləndirilmənin nəticəsi daha effektiv SEO strategiyaları hazırlamaq və axtarış motoru sıralamalarında səhifənin görünməsini artırmaq üçün istifadə edilə bilər.

 

Bundan əlavə, TF-IDF metodu bloqların təsnifatı, xülasəsi və lazımi açar sözlərin çıxarılması kimi mətnin yazılma formasına aid bir çox amili anlamağımıza da kömək edir. Xüsusən də böyük həcmli bloqlarda vacib məlumatları müəyyən etmək və mətnlər arasında münasibətləri anlamaq üçün istifadə edilən ən güclü vasitədir.

 

Muzaffar Garakhanli

Другие статьи

Unraveling the Mysteries of Google's Spam Detection Algorithm

Unraveling the Mysteries of Google's Spam Detection Algorithm

“Cost of Retrieval”a Nələr Daxildir?

“Cost of Retrieval”a Nələr Daxildir?

Международный банк (IBAR) Анализ социальных сетей (2021)

Международный банк (IBAR) Анализ социальных сетей (2021)