Axtarış motorlarının əsas prinsipləri. Axtarış sisteminin işləmə prinsipi Axtarış sisteminin işləmə üsulları

Axtarış motoru və ya sadəcə olaraq “axtarış sistemi” istifadəçinin istəyinə uyğun olaraq İnternet səhifələrində axtarış aparan sistemdir. Dünyanın ən məşhur axtarış sistemi Google, Rusiyada ən populyarı Yandex, ən qədim axtarış sistemlərindən biri isə Yahoo-dur. Axtarış motoru arxitekturasında biz ayırd edə bilərik axtarış motoru– proqram modulları dəsti ilə təmsil olunan sistemin nüvəsi; verilənlər bazası və ya indeks, axtarış sisteminə məlum olan bütün İnternet resursları haqqında məlumatları saxlayan; və olan saytlar toplusu giriş nöqtələri istifadəçiləri sistemə daxil etmək (www.google.com, www.yandex.ru, ru.yahoo.com və s.). Bütün bunlar informasiya sistemlərinin klassik üç səviyyəli arxitekturasına uyğundur: istifadəçi interfeysi, bu halda axtarış alqoritmlərinin həyata keçirilməsi ilə təmsil olunan biznes məntiqi və verilənlər bazası mövcuddur.

İnternet axtarışının xüsusiyyətləri

İlk baxışdan İnternetdə axtarış adi məlumat axtarışından, məsələn, verilənlər bazasına emaldan və ya faylın axtarışı tapşırığından çox da fərqlənmir. İlk internet axtarış sistemlərini yaradanlar da belə düşünürdülər, lakin zaman keçdikcə yanıldıqlarını anladılar...

İnternet axtarışından adi axtarışın birinci fərqi ondan ibarətdir ki, eyni verilənlər bazası üçün axtarış alqoritmi onun strukturunun axtarış sisteminə və sorğunun müəllifinə əvvəlcədən məlum olduğunu nəzərdə tutur. İnternetdə, məlum səbəblərə görə, bu, belə deyil. İnternet səhifələri kataloq strukturu deyil, şəbəkədir ki, bu da axtarış alqoritmlərinə təsir göstərir və internet resurslarında yerləşdirilən məlumatların formatı heç kim tərəfindən idarə olunmur.

İkinci fərq, birincinin nəticələrindən biri kimi, sorğunun parametrlər toplusu (axtarış meyarları) kimi deyil, bir şəxs tərəfindən ona təbii olan bir dildə yazılmış mətn kimi təqdim edilməsidir. Beləliklə, axtarışa başlamazdan əvvəl hələ də sorğunun müəllifinin tam olaraq nə istədiyini başa düşməlisiniz. Qeyd edim ki, başa düşmək başqa adam üçün deyil, kompüter üçündür.

Üçüncü fərq daha az aydındır, lakin daha az əsaslı deyil: kataloqda və ya verilənlər bazasında bütün elementlər bərabər hüquqlara malikdir. İnternetdə rəqabət var və nəticədə daha “etibarlı informasiya təminatçıları” və statusu ilə “informasiya zibilinə” oxşar mənbələrə bölünmə var. İnsanlar resursları belə təsnif edir və bu, axtarış motorlarına da aiddir.

Və sonda əlavə etmək lazımdır ki, axtarış sahəsi hər biri bir neçə kilobayt və ya daha çox milyardlarla səhifədir. Hər gün təxminən on milyon səhifə əlavə olunur və eyni sayda yenilənir. Bütün bunlar müxtəlif rəqəmsal formatlarda təqdim olunur. Təəssüf ki, hətta İnternet axtarış xidmətləri bazarının liderləri üçün mövcud olan müasir texnologiyalar və resurslar onlara bütün bu müxtəlifliyi "tez" və tam şəkildə emal etməyə imkan vermir.

Axtarış motoru nədən ibarətdir?

Hər şeydən əvvəl, İnternetdə axtarış sisteminin işi ilə müxtəlif növ kataloqlarda və verilənlər bazalarında axtarış aparan hər hansı digər informasiya sisteminin işi arasında daha bir və yəqin ki, ən əhəmiyyətli fərqi başa düşmək vacibdir. İnternet axtarış sistemi sorğunun qəbul edildiyi anda İnternetdə olanlar arasında məlumat axtarmır, lakin öz məlumat anbarına - indeks adlanan verilənlər bazasına əsaslanaraq cavab yaratmağa çalışır, burada məlum olan hər şey haqqında dosye saxlayır. və vaxtaşırı onu yeniləyir. Başqa sözlə, axtarış sistemi orijinal ilə deyil, məqbul axtarış dəyərləri diapazonunun proyeksiyası ilə işləyir. İnternetdəki bütün son dəyişikliklər yalnız müvafiq səhifələr olduqdan sonra axtarış nəticələrində əks oluna bilər indeksləşdirilmiş- axtarış motoru indeksinə əlavə edildi. Beləliklə, axtarış sistemi, ilk təqribən, axtarış motorundan, verilənlər bazasından və ya indeksdən (indeks) və sistemə giriş nöqtələrindən ibarətdir.

İndi bir axtarış motorunun nədən ibarət olduğu haqqında qısaca:

  • Hörümçək və ya hörümçək.İnternet resurslarının səhifələrini yükləyən proqram. Hörümçək heç bir yerdə "sürünmür" - o, yalnız adi bir İnternet brauzerinin etdiyi kimi səhifələrin məzmununu tələb edir, HTTP serverinə sorğu göndərir və ondan cavab alır. Səhifənin məzmunu endirildikdən sonra o, aşağıda müzakirə olunan indeksləşdirici və tarama aparatına göndərilir.

  • İndeksləşdirici.İndeksləyici yüklənmiş səhifənin məzmununun ilkin təhlilini aparır, əsas hissələri (səhifənin başlığı, təsviri, keçidləri, başlıqları və s.) seçir və hamısını axtarış verilənlər bazasının bölmələrinə yerləşdirir - onu axtarış sisteminin indeksində yerləşdirir. Bu proses adlanır İnternet resurslarının indeksləşdirilməsi, buna görə də alt sistemin özünün adı. İlkin təhlilin nəticələrinə əsasən, indeksləşdirici səhifənin ümumiyyətlə indeksdə olmağa "layiq" olmadığına da qərar verə bilər. Bu qərarın səbəbləri fərqli ola bilər: səhifənin adı yoxdur, artıq indeksdə olan başqa səhifənin dəqiq surətidir və ya qanunla qadağan olunmuş resurslara keçidlər var.

  • Sürünən. Bu "heyvan" hörümçək tərəfindən endirilən səhifədə mövcud olan keçidlər boyunca "sürünmək" üçün nəzərdə tutulmuşdur. Tarayıcı cari səhifədən saytın digər bölmələrinə və ya xarici İnternet resurslarının səhifələrinə gedən yolları təhlil edir və hörümçəyin Ümumdünya Şəbəkəsinin iplərini keçməsinin sonrakı ardıcıllığını müəyyənləşdirir. Axtarış motoru üçün yeni olan səhifələri tapan və onları hörümçəyə ötürən tarayıcıdır. Tarayıcının işi genişlik-birinci və dərinlik-birinci qrafik axtarış alqoritmlərinə əsaslanır.

  • Nəticələrin işlənməsi və verilməsi üçün alt sistem (Axtarış Motoru və Nəticə Mühərriki). Hər hansı bir axtarış sisteminin ən vacib hissəsi. Şirkətin tərtibatçıları bu alt sistemin əməliyyat alqoritmlərini kommersiya sirri olduğu üçün ciddi məxfilik şəraitində saxlayırlar. Axtarış motorunun istifadəçinin sorğusuna cavabının adekvatlığına cavabdeh olan axtarış sisteminin bu hissəsidir. Burada iki əsas komponent var:
    • Reytinq alt sistemi. Menzilli– bunlar konkret sorğuya uyğunluğuna uyğun olaraq internet saytlarının səhifələridir. Səhifənin uyğunluğu– bu, öz növbəsində, səhifənin məzmununun sorğunun mənasına uyğunluq dərəcəsidir və axtarış motoru bu dəyəri çox sayda parametrə əsaslanaraq müstəqil olaraq müəyyən edir. Reytinq axtarış sisteminin “süni intellektinin” ən sirli və mübahisəli hissəsidir. Səhifənin sıralanmasına onun strukturu və məzmunundan (məzmunundan) əlavə, aşağıdakılar da təsir göstərir: digər saytlardan bu səhifəyə gedən keçidlərin sayı və keyfiyyəti; saytın özünün domeninin yaşı; səhifəyə baxan istifadəçilərin davranışının xarakteri və bir çox digər amillər.

    • Nəticələrin çatdırılması alt sistemi. Bu alt sistemin vəzifələrinə istifadəçi sorğusunu şərh etmək, onu strukturlaşdırılmış sorğular dilinə indeksə çevirmək və axtarış nəticələri səhifələrinin yaradılması daxildir. Sorğu mətninin özünü təhlil etməklə yanaşı, axtarış sistemi də nəzərə ala bilər:
      • Kontekst tələb edin, formalaşmışdır istifadəçi tərəfindən əvvəllər edilən sorğuların mənası əsasında. Məsələn, bir istifadəçi tez-tez avtomobil mövzularında saytlara girirsə, o zaman "Volqa" və ya "Oka" sözünü soruşduqda, o, yəqin ki, eyni adlı rusların haradan başladığı haqqında deyil, bu markaların avtomobilləri haqqında məlumat almaq istəyir. və çayların axdığı yerdə. Bu adlanır fərdi axtarış, fərqli istifadəçilər üçün eyni sorğu üçün çıxış əhəmiyyətli dərəcədə fərqli olduqda.

      • İstifadəçi seçimləri, onun (axtarış motoru) "təxmin edə" biləcəyi, istifadəçinin seçdiyi bağlantıları təhlil edir axtarış nəticələri səhifələrində. Bu, sorğunun kontekstini tənzimləmək üçün başqa bir üsuldur: istifadəçi, sanki, öz hərəkətləri ilə maşına dəqiq nə tapmaq istədiyini bildirir. Bir qayda olaraq, axtarış motorları axtarış nəticələrinə sorğuya uyğun, lakin həyatın tamamilə fərqli sahələri ilə əlaqəli səhifələr əlavə etməyə çalışır. Tutaq ki, istifadəçi filmlərlə maraqlanır və buna görə də bu səhifələr ilkin sorğuya tam uyğun olmasa belə, tez-tez film elanları olan səhifələrə keçidlər seçir. Onun növbəti sorğusuna cavab yaradarkən sistem adlarında sorğunun mətnindən sözlər olan filmlərin təsviri olan səhifələrə üstünlük verə bilər.

      • Region, bu, yerli təchizatçılardan mal və xidmətlərin alınması ilə bağlı kommersiya sorğularına baxılarkən çox vacibdir. Əgər satış və endirimlərlə maraqlanırsınızsa və Moskvadasınızsa, sorğunun mətnində bunu açıq şəkildə göstərməsəniz, çox güman ki, Sankt-Peterburqda bu mövzuda hansı promosyonların keçirildiyi ilə maraqlanmırsınız. İlk növbədə, Moskvada satışlar haqqında məlumat axtarış nəticələrində görünməlidir. Beləliklə, müasir axtarış sistemləri sorğuları aşağıdakılara bölür coğrafi asılılıqgeo-müstəqil. Çox güman ki, axtarış motoru sorğunuzun geo-asılı olduğuna qərar verərsə, o zaman ona avtomatik olaraq İnternet provayderiniz haqqında məlumatdan müəyyən etməyə çalışdığı bölgə göstəricisini əlavə edir.

      • Vaxt. Axtarış motorları bəzən səhifədə təsvir edilən hadisələrin nə vaxt baş verdiyini təhlil etməli olurlar. Axı, məlumat daim köhnəlir və istifadəçiyə ilk növbədə son xəbərlərə, cari proqnozlara və hələ başa çatmamış və ya gələcəkdə baş verməsi planlaşdırılan hadisələrin elanlarına keçid lazımdır. Səhifənin aktuallığının zamandan asılı olduğunu başa düşmək və onu sorğunun yerinə yetirildiyi anla müqayisə etmək də axtarış sistemindən kifayət qədər intellekt tələb edir.

      Sonra, axtarış motoru məna baxımından ən yaxın olanı axtarır əsas sorğu indeksdə yerləşdirir və əlaqələri uyğunluğuna görə azalan qaydada çeşidləməklə nəticələr yaradır. İndeksdəki hər bir əsas sorğunun ona uyğun olan səhifələr üçün ayrıca sıralaması var. Sistem hərf və rəqəmlərin hər birləşməsi üçün yeni açar sorğu yaratmır, lakin bunu müəyyən istifadəçi sorğularının tezliyinin təhlili əsasında edir. Axtarış motoru, istifadəçinin axtardığını düşünürsə, axtarış nəticələrində müxtəlif əsas sorğuların reytinqlərini də qarışdıra bilər.

Axtarış sisteminin işinin ümumi prinsipləri

İnternet axtarış xidmətlərinin çox, çox gəlirli bir iş olduğunu başa düşməlisiniz. Google və Yandex kimi şirkətlərin necə yaşadıqları barədə təfərrüatlara girməyə ehtiyac yoxdur, çünki onların qazancının əsas hissəsi kontekstli reklamdan əldə edilən gəlirdir. İnternetdə axtarış olduqca gəlirli bir iş olduğundan, belə şirkətlər arasında rəqabət çox ciddidir. İnternet axtarış bazarında rəqabət qabiliyyətini nə müəyyənləşdirir? Cavab axtarış motoru nəticələrinin keyfiyyətidir. Məntiqi budur ki, o, nə qədər yüksəkdirsə, sistem bir o qədər çox yeni istifadəçilər əldə edir və eyni axtarış nəticələrinin səhifələrində yerləşdirilən kontekstli reklamlar bir o qədər dəyərlidir. Axtarış motoru tərtibatçıları axtarış nəticələrini populyar olaraq spam adlanan müxtəlif növ məlumat zibillərindən "təmizləmək" üçün çox səy sərf edirlər. Bunun necə edildiyi ayrı bir məqalədə daha ətraflı təsvir ediləcək, lakin burada yuxarıda göstərilənlərin hamısına dair nəticələr şəklində tərtib edilmiş axtarış motorunun davranışının ümumi prinsiplərini təqdim edəcəyəm.

  1. Hörümçəkləri və sürünənləri ilə təmsil olunan axtarış motoru, uyğun olmayan məlumatlar daha aşağı qiymətləndirilir, çünki daim yeni səhifələr və mövcud olanlara yeniləmələr üçün İnterneti skan edir.

  2. Axtarış sistemi resursların əsas sorğulara uyğunluğuna görə sıralamasını vaxtaşırı yeniləyir, çünki indeksdə daim yeni səhifələr görünür. Bu proses axtarış nəticələrinin yenilənməsi adlanır.

  3. Ümumdünya İnternetdə yerləşdirilən böyük həcmli məlumatlara və axtarış sisteminin özünün məhdud resurslarına görə axtarış sistemi həmişə yalnız (onun fikrincə) lazım olanı yükləməyə çalışır. Onun arsenalında indeksləşdirmə mərhələsində artıq lazımsız olanları kəsən və ya axtarış nəticələrinin yenilənməsinin nəticələrinə əsasən indeksdən spam atan hər cür filtrlər var.

  4. Müasir axtarış sistemləri sorğunu təhlil edərkən təkcə sorğunun mətnini deyil, həm də onun mühitini nəzərə almağa çalışırlar: istifadəçinin əvvəllər qeyd olunan kontekst və üstünlükləri, həmçinin sorğunun vaxtı, bölgəsi. , və daha çox.

  5. Müəyyən bir səhifənin aktuallığına təkcə onun daxili parametrləri (struktur, məzmun) deyil, həm də xarici parametrlər, məsələn, digər saytlardan səhifəyə keçidlər və ona baxarkən istifadəçi davranışı təsir göstərir.

Axtarış motorlarının işi daim təkmilləşdirilir. Axtarış sisteminin ideal işləməsi (insanlar üçün) yalnız indeksləşdirmə və sıralama ilə bağlı bütün qərarlar insan fəaliyyətinin bütün sahələrindən və sahələrindən çoxlu sayda mütəxəssisdən ibarət komissiya tərəfindən qəbul edildikdə mümkündür. Bu qeyri-real olduğundan, belə bir komissiya ekspert sistemləri, evristik axtarış alqoritmləri və süni intellektin digər elementləri ilə əvəz olunur. Yəqin ki, bütün bu alt sistemlərin işi İnternetdə ictimai sahədə mövcud olan bütün məlumatları tamamilə emal etmək mümkün olsaydı, daha adekvat nəticələr verə bilərdi, lakin bu, praktiki olaraq mümkün deyil. Qeyri-kamil süni intellekt və məhdud resurslar axtarış nəticələrinin həmişə istifadəçiləri sevindirməməsinin iki əsas səbəbidir, lakin bütün bunları zamanla müalicə etmək olar. Bu gün mənim fikrimcə, ən məşhur və böyük axtarış sistemlərinin işi onların istifadəçilərinin ehtiyac və gözləntilərinə tam cavab verir.

Bir çox insan TOP-da olmaq istəyir, lakin hər kəs axtarış motorlarının necə işlədiyini başa düşmür. Və 2017-ci ilin əvvəlində axtarış motorlarından veb-saytlara olan tələblər daha da sərtləşdi (məqalədə ətraflı məlumat). Buna görə də, daim zirvədə olmaq üçün ilk növbədə ən azı axtarış alqoritmlərinin necə işlədiyini başa düşməlisiniz.

Bu məqaləni sona qədər oxuduqdan sonra siz Yandex və Google-un işinin əsaslandığı prinsipləri başa düşəcəksiniz və mail, rambler və bing haqqında bir az daha çox məlumat əldə edəcəksiniz. Eyni zamanda, veb-saytların sıralanma faktorlarına toxunmayacağıq, çünki... Bu, ayrıca nəşr tələb edən çox həcmli bir materialdır.

Yaxşı və ya bir axtarış motorunun məqsədi, məqsədi və ya hətta missiyası istəsəniz, istifadəçinin sorğusuna müxtəlif mənbələrə keçidlər siyahısı şəklində ən dəqiq cavab verməkdir.

Saytların yüksək keyfiyyətli siyahısını yaratmaq üçün axtarış sistemi verilənlər bazası yaradır. Yəni, saytınız və ya yeni sayt səhifəniz Yandex və ya Google tərəfindən indeksləşdirilməyibsə, o zaman axtarış nəticələrində olmayacaq. Saytların məlumat bazası axtarış robotları tərəfindən formalaşdırılır və bu saytlar haqqında məlumat verir "bos", və o, məlumatları reyestrə daxil edir. Məsələn, saytınızı qeydiyyatdan keçirmisinizsə və ya orada saytınızın neçə səhifəsinin axtarış sistemi tərəfindən indeksləşdirildiyi barədə məlumat tapa bilərsiniz.

Sonra, çoxsaylı saytların səhifələrindən məlumatların bütün reyestri müəyyən parametrlərə görə sıralanır: region, sorğuya uyğunluq, resursun populyarlığı, məzmunun keyfiyyəti və s. Artıq dediyim kimi, sıralama amillərinin bütün siyahısını ayrı bir nəşrdə təhlil edəcəyik. Saytı təbliğ edərkən əsas vəzifə saytı TOP-a yüksəltmək üçün bu amillərə təsir etməkdir.

2018-ci ildə axtarış sistemlərinin xüsusiyyətləri və xüsusiyyətləri

Axtarış motorunun ən yaxın aptek tapmaq üçün nənə ilə qeyri-bərabər döyüşə girməsi ilə bağlı Google reklamlarını hamımız görmüşük. Bu nə deməkdir? Axtarış motorları öyrənir və tezliklə açar sözlərlə işləməyi tamamilə dayandıracaq və yalnız mənalarla işləyəcək. Çünki bu onların əsas vəzifəsidir, saytların ixtiyari siyahısını vermək deyil, istifadəçiyə yer, məhsul və ya xidmət tapmaqda kömək etməkdir.

Ölkəmizdə səsli axtarışın payı hələ də çox azdır, lakin ABŞ-da mobil trafikin təxminən 50%-ni tutur. Bu o deməkdir ki, bu tendensiya tezliklə Rusiyaya da təsir edəcək. Müvafiq olaraq, məlumat sorğularının sayı artacaq ( necə, harada, harada) və proqnozlaşdırıla bilməyən sorğular, çünki onlar insanın düşdüyü situasiyaya görə stereotiplərə çevrilməyəcək və diktə edilməyəcək. Məsələn, bir kəsişmədə dayanır və 300 rubla qədər iş imkanları olan bir kafe tapmaq üçün hara müraciət etməli olduğumu soruşur. Bu Google.

Yandex-ə gəlincə, o da 2016-cı ilin sonunda təqdim edildi. Bu, ilk növbədə mənalarla işləyəcək bir alqoritmdir.

Hansı axtarış sistemi daha yaxşıdır və ya Yandex Google-dan nə ilə fərqlənir?

Şəxsi təcrübəmdən deyə bilərəm ki, hər iki axtarış motoru özünəməxsus şəkildə yaxşıdır. Təbii ki, fərq ondadır ki, Yandex rus axtarış sistemidir, Google isə dünyanın ən böyük axtarış sistemidir. Əlbəttə, bizi bu axtarış sistemlərinin saytları ilə onların təqdim etdiyi xidmətlər arasındakı xarici fərqlər deyil, çox fərqli olduqları üçün axtarış nəticələrini necə yaratdıqları maraqlandırır.

Yandex regional axtarışa daha çox diqqət yetirir. Yəni, Vladivostokda olsanız və bir şəhər və ya bölgə göstərmədən sorğu daxil etsəniz, məsələn, "pəncərələr", ilk növbədə Yandex Vladivostokda yerləşən və bir şəkildə pəncərələrlə əlaqəli olan şirkətlərin veb saytlarını göstərəcəkdir.

Google üçün bir resursun populyarlığı və sitatı (yalnız saytınıza olan keçidlər deyil) daha vacibdir, bu, saytınızın faydalı olub olmadığı qənaətinə gəlir;

Digər axtarış sistemlərinə gəlincə, o zaman mail.ru Google axtarış nəticələrinin qabığıdır, yəni. mail.ru özü heç nəyi təhlil etmir, sadəcə olaraq Google-un nə göstərəcəyini göstərir. Rambler.ru Eyni prinsiplə, Yandex qabığıdır.

Axtarış sistemi İnternetdə axtarış aparmaq və istifadəçi sorğusuna cavab vermək üçün nəzərdə tutulmuş proqram və aparat kompleksidir, mətn ifadəsi (axtarış sorğusu) şəklində göstərilən məlumat mənbələrinə keçidlərin siyahısını müvafiq qaydada hazırlamaqla ( sorğuya uyğun olaraq). Ən böyük beynəlxalq axtarış motorları: "Google", "Yahoo", "MSN". Rus İnternetində bu - "Yandeks", "Rambler", "Aport".

Axtarış motorlarının əsas xüsusiyyətlərini təsvir edək:

    Tamlıq

Tamlıq axtarış sisteminin əsas xüsusiyyətlərindən biridir, sorğu ilə tapılan sənədlərin sayının İnternetdə verilmiş sorğunu təmin edən sənədlərin ümumi sayına nisbətidir. Məsələn, İnternetdə "avtomobili necə seçmək olar" ifadəsini ehtiva edən 100 səhifə varsa və müvafiq sorğu üçün onlardan yalnız 60-ı tapılıbsa, axtarışın tamlığı 0,6 olacaq. Aydındır ki, axtarış nə qədər tam olarsa, istifadəçinin ona lazım olan sənədi, ümumiyyətlə, internetdə mövcud olması şərti ilə tapmaması ehtimalı bir o qədər azdır.

    Dəqiqlik

Dəqiqlik axtarış sisteminin başqa bir əsas xarakteristikasıdır ki, bu da tapılmış sənədlərin istifadəçinin tələbinə uyğunluq dərəcəsi ilə müəyyən edilir. Məsələn, “maşını necə seçmək olar” sorğusunda 100 sənəd varsa, onlardan 50-də “avtomobili necə seçmək olar” ifadəsi, qalanlarında isə sadəcə olaraq bu sözlər (“düzgün radionu necə seçmək və quraşdırma a car”), onda axtarışın dəqiqliyi 50/100-ə (=0,5) bərabər hesab edilir. Axtarış nə qədər dəqiq olsa, istifadəçi ehtiyac duyduğu sənədləri bir o qədər tez tapacaq, onların arasında müxtəlif növ “zibil”lər bir o qədər az tapılacaq, tapılan sənədlər sorğuya bir o qədər az uyğun gəlməyəcək.

    Uyğunluq

Aidiyyət, sənədlərin İnternetdə dərc edildiyi andan axtarış motoru indeksi verilənlər bazasına daxil edilənə qədər keçən vaxtla xarakterizə olunan axtarışın eyni dərəcədə vacib komponentidir. Məsələn, maraqlı xəbərlərin ortaya çıxmasının ertəsi günü çoxlu sayda istifadəçi müvafiq sorğularla axtarış sistemlərinə müraciət edib. Obyektiv olaraq, bu mövzuda xəbərlərin dərc edilməsindən bir gündən az vaxt keçib, lakin əsas sənədlər artıq indeksləşdirilib və axtarış üçün əlçatan olub, böyük axtarış sistemlərinin "sürətli məlumat bazası" nın mövcudluğu sayəsində. gündə bir neçə dəfə yenilənir.

    Axtarış sürəti

Axtarış sürəti onun yük müqaviməti ilə sıx bağlıdır. Məsələn, “Rambler Internet Holding” MMC-nin məlumatına görə, bu gün iş saatları ərzində “Rambler” axtarış sisteminə saniyədə 60-a yaxın sorğu daxil olur. Bu cür iş yükü fərdi sorğunun emal vaxtının azaldılmasını tələb edir. Burada istifadəçinin və axtarış sisteminin maraqları üst-üstə düşür: ziyarətçi mümkün qədər tez nəticə əldə etmək istəyir və axtarış sistemi sonrakı sorğuların hesablanmasını ləngitməmək üçün sorğunu mümkün qədər tez emal etməlidir.

    Görünüş

Nəticələrin vizual təqdimatı rahat axtarışın vacib komponentidir. Əksər sorğular üçün axtarış sistemi yüzlərlə, hətta minlərlə sənəd tapır. Aydın olmayan sorğular və ya qeyri-dəqiq axtarışlar səbəbindən hətta axtarış nəticələrinin ilk səhifələrində heç də həmişə yalnız zəruri məlumatlar olmur. Bu o deməkdir ki, istifadəçi tez-tez tapılan siyahıda öz axtarışını etməlidir. Axtarış motoru nəticələri səhifəsinin müxtəlif elementləri axtarış nəticələrində naviqasiya etməyə kömək edir, məsələn, Yandex üçün axtarış nəticələrinin ətraflı izahatlarını linkdə tapa bilərsiniz http://help.yandex.ru/search/?id=481937.

4. Axtarış sistemlərinin inkişafının qısa tarixi

İnternetin inkişafının ilkin dövründə onun istifadəçilərinin sayı az, mövcud məlumatların həcmi isə nisbətən az idi. Əksər hallarda yalnız tədqiqatçıların İnternetə çıxışı var idi. Bu zaman İnternetdə məlumat axtarmaq vəzifəsi indiki qədər aktual deyildi.

Şəbəkə informasiya resurslarına çıxışı təşkil etməyin ilk yollarından biri mövzuya görə qruplaşdırılan resurslara keçidlərin açıq sayt kataloqlarının yaradılması idi. İlk belə layihə 1994-cü ilin yazında açılan Yahoo.com saytı oldu. Yahoo kataloqunda saytların sayı əhəmiyyətli dərəcədə artdıqdan sonra kataloqda lazımi məlumatları axtarmaq imkanı əlavə edildi. Tam mənada o, hələ axtarış sistemi deyildi, çünki axtarış sahəsi bütün internet resursları ilə deyil, yalnız kataloqda olan resurslarla məhdudlaşırdı.

Keçmişdə keçid kataloqları geniş istifadə olunurdu, lakin indiki vaxtda populyarlığını demək olar ki, tamamilə itirmişdir. Həcmi böyük olan müasir kataloqlar belə İnternetin yalnız cüzi bir hissəsi haqqında məlumat ehtiva etdiyi üçün. DMOZ şəbəkəsinin ən böyük kataloqu (həmçinin Open Directory Project adlanır) 5 milyon resurs haqqında məlumat ehtiva edir, Google axtarış sisteminin verilənlər bazası isə 8 milyarddan çox sənəddən ibarətdir.

İlk tam hüquqlu axtarış sistemi 1994-cü ildə nəşr olunan WebCrawler layihəsi idi.

1995-ci ildə Lycos və AltaVista axtarış sistemləri meydana çıxdı. Sonuncu uzun illərdir ki, internetdə informasiya axtarışı sahəsində liderdir.

1997-ci ildə Sergey Brin və Larri Peyc Stenford Universitetində tədqiqat layihəsi çərçivəsində Google axtarış sistemini yaratdılar. Google hazırda dünyanın ən populyar axtarış motorudur!

1997-ci ilin sentyabrında rusdilli internetdə ən populyar olan Yandex axtarış sistemi rəsmi olaraq elan edildi.

Hazırda üç əsas beynəlxalq axtarış sistemi - Google, Yahoo və MSN mövcuddur ki, onların öz verilənlər bazası və axtarış alqoritmləri var. Əksər digər axtarış motorları (bunların çoxu var) sadalanan üçünün nəticələrini bu və ya digər formada istifadə edir. Məsələn, AOL axtarışı (search.aol.com) Google verilənlər bazasından, AltaVista, Lycos və AllTheWeb isə Yahoo verilənlər bazasından istifadə edir.

5. Axtarış sisteminin tərkibi və iş prinsipləri

Rusiyada əsas axtarış sistemi Yandex-dir, ondan sonra Rambler.ru, Google.ru, Aport.ru, Mail.ru gəlir. Üstəlik, hazırda Mail.ru Yandex axtarış sistemindən və verilənlər bazasından istifadə edir.

Demək olar ki, bütün əsas axtarış motorlarının digərlərindən fərqli olaraq öz strukturu var. Bununla belə, bütün axtarış sistemləri üçün ümumi olan əsas komponentləri müəyyən etmək mümkündür. Strukturdakı fərqlər yalnız bu komponentlərin qarşılıqlı təsir mexanizmlərinin həyata keçirilməsi şəklində ola bilər.

İndeksləşdirmə modulu

İndeksləşdirmə modulu üç köməkçi proqramdan (robotlardan) ibarətdir:

Spider veb səhifələrini yükləmək üçün nəzərdə tutulmuş proqramdır. Hörümçək səhifəni yükləyir və həmin səhifədən bütün daxili keçidləri götürür. Hər səhifənin html kodu endirilir. Robotlar səhifələri yükləmək üçün HTTP protokollarından istifadə edirlər. Hörümçək aşağıdakı kimi işləyir. Robot serverə “get/path/document” sorğusunu və bəzi digər HTTP sorğu əmrlərini göndərir. Buna cavab olaraq robot xidmət məlumatı və sənədin özündən ibarət mətn axını alır.

    Səhifə URL

    səhifənin endirilmə tarixi

    Server cavabı http başlığı

    səhifənin əsas hissəsi (html kodu)

Crawler ("səyahət edən" hörümçək) səhifədə tapılan bütün bağlantıları avtomatik izləyən bir proqramdır. Səhifədə mövcud olan bütün keçidləri seçir. Onun işi bağlantılar əsasında və ya əvvəlcədən müəyyən edilmiş ünvanlar siyahısına əsasən hörümçəyin daha sonra hara getməli olduğunu müəyyən etməkdir. Crawler, tapılan keçidləri izləyərək, axtarış sisteminə hələ də məlum olmayan yeni sənədləri axtarır.

Indexer (robot indexer) hörümçəklər tərəfindən yüklənmiş veb səhifələri təhlil edən proqramdır. İndeksləyici səhifəni komponent hissələrinə ayırır və öz leksik və morfoloji alqoritmlərindən istifadə edərək onları təhlil edir. Müxtəlif səhifə elementləri təhlil edilir, məsələn, mətn, başlıqlar, keçidlər, struktur və üslub xüsusiyyətləri, xüsusi xidmət HTML teqləri və s.

Beləliklə, indeksləşdirmə modulu sizə keçidlərdən istifadə edərək verilmiş resurslar toplusunu taramaya, rast gəlinən səhifələri yükləməyə, qəbul edilmiş sənədlərdən yeni səhifələrə keçidlər çıxarmağa və bu sənədlərin tam təhlilini aparmağa imkan verir.

Verilənlər bazası

Verilənlər bazası və ya axtarış motoru indeksi məlumatların saxlanması sistemidir, indeksləşdirmə modulu tərəfindən yüklənmiş və işlənmiş bütün sənədlərin xüsusi olaraq çevrilmiş parametrlərinin saxlandığı məlumat massividir.

Axtarış serveri

Axtarış serveri bütün sistemin ən vacib elementidir, çünki axtarışın keyfiyyəti və sürəti birbaşa onun fəaliyyətinin əsasını təşkil edən alqoritmlərdən asılıdır.

Axtarış serveri aşağıdakı kimi işləyir:

    İstifadəçidən alınan sorğu morfoloji təhlilə məruz qalır. Verilənlər bazasında olan hər bir sənədin informasiya mühiti yaradılır (sonradan fraqment şəklində, yəni axtarış nəticələri səhifəsində sorğuya uyğun mətn məlumatı göstərilir).

    Alınan məlumatlar xüsusi sıralama moduluna giriş parametrləri kimi ötürülür.

    Məlumatlar bütün sənədlər üçün işlənir, bunun nəticəsində hər bir sənəd istifadəçi tərəfindən daxil edilmiş sorğunun və axtarış motoru indeksində saxlanılan bu sənədin müxtəlif komponentlərinin aktuallığını xarakterizə edən öz reytinqinə malikdir.

    İstifadəçinin seçimindən asılı olaraq, bu reytinq əlavə şərtlərlə (məsələn, "qabaqcıl axtarış" adlanan) düzəliş edilə bilər.

    Sonra bir parça yaradılır, yəni tapılan hər bir sənəd üçün başlıq, sorğuya ən yaxşı uyğun gələn qısa referat və sənədin özünə keçid sənəd cədvəlindən çıxarılır və tapılan sözlər vurğulanır.

Nəticədə axtarış nəticələri istifadəçiyə SERP (Axtarış Sistemi Nəticə Səhifəsi) – axtarış nəticələri səhifəsi şəklində ötürülür.

Gördüyünüz kimi, bütün bu komponentlər bir-biri ilə sıx əlaqəlidir və çoxlu resurslar tələb edən axtarış sisteminin işləməsi üçün aydın, kifayət qədər mürəkkəb mexanizm formalaşdırmaqla qarşılıqlı əlaqədə işləyirlər.

Heç bir axtarış sistemi bütün İnternet resurslarını əhatə etmir.

Hər bir axtarış sistemi özünəməxsus metodlardan istifadə edərək İnternet resursları haqqında məlumat toplayır və vaxtaşırı yenilənən öz məlumat bazasını formalaşdırır. Bu verilənlər bazasına giriş istifadəçiyə verilir.

    Axtarış motorları resurs axtarmağın iki yolunu həyata keçirir: Mövzuya görə axtarın kataloqlar - məlumat

    iyerarxik struktur şəklində təqdim olunur. Üst səviyyədə ümumi kateqoriyalar (“İnternet”, “Biznes”, “İncəsənət”, “Təhsil” və s.), sonrakı səviyyədə kateqoriyalar bölmələrə bölünür və s. Ən aşağı səviyyə xüsusi veb səhifələrə və ya digər informasiya resurslarına keçidlərdir. Açar söz axtarışı (indeks axtarışı və ya ətraflı axtarış) - istifadəçi axtarış sisteminə göndərir xahiş , açar sözlərdən ibarətdir. Sistem istifadəçiyə sorğu əsasında tapılan resursların siyahısını təqdim edir.

Əksər axtarış motorları hər iki axtarış üsulunu birləşdirir.

Axtarış motorları yerli, qlobal, regional və ixtisaslaşmış ola bilər.

İnternetin Rusiya hissəsində (Runet) ən populyar ümumi təyinatlı axtarış sistemləri Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

Əksər axtarış motorlarıportallar şəklində həyata keçirilir.

Portal (ingilis dilindən.portal- əsas giriş, qapı) müxtəlif İnternet xidmətlərini birləşdirən veb saytdır: axtarış vasitələri, poçt, xəbərlər, lüğətlər və s.

Portallar ixtisaslaşmış ola bilər (məsələn,www. muzey. ru) və ümumi (məsələn,www. km. ru).

Açar sözlərlə axtarın

Axtarış üçün istifadə olunan açar sözlər toplusuna axtarış meyarı və ya axtarış mövzusu da deyilir.

Sorğu ya bir sözdən, ya da operatorlar tərəfindən birləşdirilən sözlərin birləşməsindən - sistemin hansı hərəkəti yerinə yetirməli olduğunu müəyyən edən simvollardan ibarət ola bilər. Məsələn: “Moskva Sankt-Peterburq” sorğusunda AND operatoru var (boşluq belə qəbul edilir), bu, hər iki sözü olan sənədləri - Moskva və Sankt-Peterburqda axtarmaq lazım olduğunu göstərir.

Axtarışın uyğun olması üçün (ingilis dilindən müvafiq - uyğun, uyğun) bir neçə ümumi qaydalar nəzərə alınmalıdır:

    Sorğuda sözün hansı formada istifadə olunmasından asılı olmayaraq, axtarış zamanı rus dilinin qaydalarına uyğun olaraq onun bütün söz formaları nəzərə alınır.

    Məsələn, “bilet” sorğusunda “bilet”, “bilet” və s. sözləri də tapılacaq.

    Lazımsız istinadlara baxmamaq üçün yalnız xüsusi adlarda böyük hərflərdən istifadə edilməlidir. Məsələn, "dəmirçilərin" tələbi ilə həm dəmirçilər, həm də Kuznetsovlar haqqında danışan sənədlər tapılacaq.

    Bir neçə açar sözdən istifadə edərək axtarışınızı daraltmağınız məsləhətdir.

Əgər tələb olunan ünvan tapılan ilk iyirmi ünvan arasında deyilsə, sorğunu dəyişdirməlisiniz.

Hər bir axtarış sistemi öz sorğu dilindən istifadə edir. Onunla tanış olmaq üçün axtarış sisteminin daxili yardımından istifadə edin

Böyük saytların veb səhifələrində daxili məlumat axtarış sistemləri ola bilər.

Bu cür axtarış sistemlərində sorğular, bir qayda olaraq, qlobal axtarış sistemlərində olduğu kimi eyni qaydalara uyğun qurulur, lakin burada köməklə tanışlıq artıq olmaz.

Qabaqcıl Axtarış Bu cür axtarış sistemlərində sorğular, bir qayda olaraq, qlobal axtarış sistemlərində olduğu kimi eyni qaydalara uyğun qurulur, lakin burada köməklə tanışlıq artıq olmaz. axtarış parametrlərini redaktə etməyə, əlavə parametrləri təyin etməyə və axtarış nəticələrini göstərmək üçün ən əlverişli formanı seçməyə imkan verir. Aşağıda Yanex və Rambler sistemlərində təkmil axtarış zamanı təyin edilə bilən parametrlər təsvir edilmişdir.

Parametr təsviri

Yandex-də ad

adRambler

Açar sözləri harada axtarmaq lazımdır (sənədin başlığı, əsas mətn və s.)

Lüğət filtri

Mətnə görə axtar...

Sənəddə hansı sözlər olmalıdır və ya olmamalıdır və uyğunluğun nə qədər dəqiq olması lazımdır

Lüğət filtri

Sorğu sözlərini axtarın... Aşağıdakı sözləri ehtiva edən sənədləri istisna edin...

Açar sözlər bir-birindən nə qədər məsafədə yerləşməlidir?

Lüğət filtri

Sorğu sözləri arasındakı məsafə...

Sənəd tarixinə məhdudiyyət

Sənəd tarixi...

Axtarışınızı bir və ya bir neçə saytla məhdudlaşdırın

Sayt/Yuxarı

Sənədləri yalnız aşağıdakı saytlarda axtarın...

Sənəd dili ilə axtarışın məhdudlaşdırılması

Sənəd dili...

Müəyyən ad və ya imza ilə şəkil olan sənədləri axtarın

Şəkil

Obyektləri ehtiva edən səhifələrin tapılması

Xüsusi obyektlər

Axtarış nəticələri təqdimat forması

Məsələ formatı

Axtarış nəticələri göstərilir

Bəzi axtarış motorları (məsələn, Yandex) sorğuları təbii dildə daxil etməyə imkan verir. Tapmağınız lazım olanı yazın (məsələn: Moskvadan Sankt-Peterburqa qatar biletləri sifariş etmək). Sistem sorğunu təhlil edir və nəticə çıxarır. Əgər ondan razı deyilsinizsə, sorğu dilinə keçin.