Klasteranalüüsi meetodid. Hierarhilised meetodid

seisneb lähedusmõõdu ja kirjete arvu optimeerimises keskmistamiseks geneetiliste algoritmide põhjal. MR-algoritmi kasutatakse arvmuutujate ja kategooriliste muutujate, sealhulgas teksti (stringi andmetüüp) väärtuste ennustamiseks, samuti kahte või enama klassi klassifitseerimiseks.

Klasterdamisalgoritmid

Find Dependencies (FD) – jaotuste N-dimensiooniline analüüs

See algoritm tuvastab lähtetabelis kirjete rühmad, mida iseloomustab sihtmuutujate ja sõltumatute muutujate vahelise funktsionaalse seose olemasolu, hindab selle seose astme (tugevuse) standardvea järgi, määrab kõige suurema hulga mõjutegurid ja välistab kõrvalekalded. FD sihtmuutuja peab olema numbritüüpi, samas kui sõltumatud muutujad võivad olla kas numbrilised, kategoorilised või tõeväärtuslikud.

Algoritm töötab väga kiiresti ja on võimeline töötlema suuri andmemahtusid. Seda saab kasutada FL-, PN-, LR-algoritmide eelprotsessorina, kuna see vähendab otsinguruumi, ja ka tagasipõrkepunktide filtrina või vastupidi, erandidetektorina. FD loob tabelilaadse reegli, kuid nagu kõiki PolyAnalysti reegleid, saab seda hinnata mis tahes tabelikirje alusel.

Otsi klastreid (FC) – N-dimensiooniline klaster

Seda meetodit kasutatakse juhul, kui on vaja tuvastada kompaktsed tüüpilised alamrühmad (klastrid) teatud andmekogumis, mis koosnevad sarnaste omadustega kirjetest. FC-algoritm ise määrab muutujate komplekti, mille jaoks partitsioon on kõige olulisem. Algoritmi tulemuseks on iga tuvastatud klastrit iseloomustavate alade (muutujate väärtuste vahemike) kirjeldus ning uuritava tabeli jaotus klastritele vastavateks alamhulkadeks. Kui andmed on kõigis muutujates piisavalt homogeensed ja ei sisalda mõnes piirkonnas punktide “klompe”, ei anna see meetod tulemusi. Tuleb märkida, et tuvastatud klastrite minimaalne arv on kaks – punktide kondenseerumist ainult ühes kohas ei loeta selles algoritmis kobaraks. Pealegi on see meetod suuremal määral, kui teised, seab kohalolekule nõuded piisav kogus kirjeid uuritavas tabelis, nimelt: minimaalne kirjete arv tabelis, milles saab tuvastada N klastrit, on (2N-1)4.

Klassifitseerimisalgoritmid

PolyAnalyst paketis on rikkalik komplekt tööriistu klassifitseerimisülesannete lahendamiseks, s.t. leida reegleid kirjete liigitamiseks ühte kahest või ühte mitmest klassist.

Classify (CL) – hägusloogika klassifikaator

CL-algoritm on loodud kirjete klassifitseerimiseks kahte klassi. Tema töö põhineb nn liikmefunktsiooni konstrueerimisel ja klassideks jagunemise lävendi leidmisel. Liikmefunktsioon võtab väärtused naabruskonnast 0 naabruskonda 1. Kui funktsiooni tagastusväärtus antud kirje jaoks on suurem kui lävi,

siis see rekord kuulub klassi "1", kui vähem, siis klassi "0" vastavalt. Selle mooduli sihtmuutuja tüüp peab olema tõeväärtus.

Diskrimineerima (DS) – diskrimineerimine

See algoritm on CL-algoritmi modifikatsioon. Selle eesmärk on välja selgitada, mille poolest erinevad valitud tabelis olevad andmed ülejäänud projektis sisalduvatest andmetest ehk teisisõnu tõsta esile spetsiifilisi tunnuseid, mis iseloomustavad projekti kirjete teatud alamhulka. Erinevalt CL-algoritmist ei nõua see sihtmuutuja määramist, piisab ainult selle tabeli määramisest, mille jaoks soovite erinevusi leida.

Otsuste puu (DT) – otsustuspuu

Süsteem PolyAnalyst rakendab algoritmi, mis põhineb vastastikuse informatsiooni maksimeerimise (info saadavuse) kriteeriumil. See tähendab, et poolitamiseks valitakse sõltumatu muutuja, mis kannab sõltuva muutuja kohta maksimaalset (Shannoni mõistes) teavet. Sellel kriteeriumil on selge tõlgendus ja see annab mõistlikke tulemusi uuritud andmete mitmesuguste statistiliste parameetrite puhul. DT-algoritm on PolyAnalystis üks kiiremaid.

Otsusmets (DF) – otsusemetsad

Juhtudel, kui sõltuv muutuja võib omandada suure hulga erinevaid väärtusi, muutub otsustuspuu meetodi kasutamine ebaefektiivseks. Selles olukorras kasutab PolyAnalyst meetodit, mida nimetatakse otsustusmetsaks. Sel juhul koostatakse otsustuspuude komplekt – igaühe jaoks üks erinev tähendus sõltuv muutuja. Otsustusmetsal põhineva ennustuse tulemuseks on sõltuva muutuja väärtus, mille kohta vastav puu annab kõige tõenäolisema hinnangu.

Seostusalgoritmid

Turukorvi analüüs (BA) - meetod "ostukorvi" analüüsimiseks

Selle meetodi nimetus tuleneb ülesandest määrata, milliste kaupade koosostmise tõenäosus on. Selle tegelik rakendusala on aga palju laiem. Toodeteks võib lugeda näiteks lehekülgi internetis või kliendi teatud omadusi või vastajate vastuseid sotsioloogilistes ja turundusuuringutes jne. BA algoritm saab sisendiks binaarmaatriksi, milles rida on üks korv ( sularahatšekk näiteks) ja veerud täidetakse loogiliste 0 ja 1-ga, mis näitavad antud atribuudi (toote) olemasolu või puudumist. Väljundis moodustatakse ühiselt esinevate tunnuste klastrid koos nende tõenäosuse ja usaldusväärsuse hinnanguga. Lisaks moodustuvad tüüpi assotsiatiivsed suunareeglid: kui tunnus on “A”, siis sellise ja sellise tõenäosusega ka tunnus “B” ja ka tunnus “C”. PolyAnalysti VA-algoritm on ülikiire ja suudab töödelda tohutuid andmemahte.

Tehingukorvi analüüs (TB) – "korvi" tehinguanalüüs

Tehingukorvi analüüs on BA-algoritmi modifikatsioon, mida kasutatakse väga suurte andmete analüüsimiseks, mis pole seda tüüpi probleemide puhul haruldane. See eeldab, et iga kirje andmebaasis vastab ühele tehingule, mitte ühele ostukorvile (ühe tehinguga ostetud kaupade komplekt). Selle algoritmi põhjal on ettevõte Megaputer loonud eraldi toote - X-SellAnalyst, mis on mõeldud veebipoodide on-line tootesoovituste jaoks.

Tekstianalüüsi moodulid

Süsteem PolyAnalyst integreerib Data Mining tööriistad loomuliku keele tekstianalüüsi meetoditega – Text Mining algoritmidega. Tekstianalüüsi moodulite toimimise illustratsioon on näidatud joonisel fig. 24.3.

Riis. 24.3. Illustratsioon tekstianalüüsi moodulite tööst

Tekstianalüüs (TA) – tekstianalüüs

Text Analysis on tööriist struktureerimata tekstiväljade vormistamiseks andmebaasides. Sel juhul esitatakse tekstiväli Boole'i ​​tunnuste kogumina, mis põhineb antud sõna, stabiilse fraasi või mõiste olemasolul ja/või sagedusel (võttes arvesse sünonüümiat ja “üldispetsiifilisi” seoseid) antud tekstis. See võimaldab laiendada PolyAnalyst süsteemis rakendatud andmekaevandamise algoritmide kogu võimsust tekstiväljadele. Lisaks saab seda meetodit kasutada andmete tekstilise komponendi paremaks mõistmiseks, tuues automaatselt esile kõige levinumad põhimõisted.

Teksti kategoriseerija (TC) – tekstikataloogija

See moodul võimaldab teil automaatselt luua saadaolevatest tekstidest hierarhilise puutaolise kataloogi ja märkida selle puustruktuuri iga sõlm sellega seotud tekstidest kõige indikatiivsemateks. See on vajalik analüüsitava tekstiväljade komplekti temaatilise ülesehituse mõistmiseks ja selles tõhusaks navigeerimiseks.

Link Terminid (LT) - mõistete seos

See moodul võimaldab tuvastada uuritava andmebaasi tekstiväljadelt leitud mõistete vahelisi seoseid ja esitada neid graafikuna. Graafikut saab kasutada ka valitud seost rakendavate kirjete esiletõstmiseks.

IN PolyAnalystil on sisseehitatud algoritmid kahte tüüpi tekstiandmetega töötamiseks:

1. Algoritmid, mis ekstraheerivad võtmemõisteid ja nendega töötamine.

2. Algoritmid, mis sorteerivad teksti klassidesse, mille kasutaja määrab päringukeele abil.

Esimest tüüpi algoritm töötab ainult ingliskeelsete tekstidega - kasutatakse spetsiaalset ingliskeelsete mõistete sõnastikku. Teist tüüpi algoritmid võivad töötada nii inglis- kui ka venekeelsete tekstidega.

Teksti OLAP (mõõtmismaatriksid) ja taksonoomiad (taksonoomiad) on sarnased meetodid tekstide kategoriseerimiseks. Teksti-OLAP-is loob kasutaja tekstipäringutest koosnevad nimelised veerud (dimensioonid). Näiteks: "[kaevandamine] ja [nafta], mitte ([maak] või [süsi] või [gaas])". Algoritmi käitamise ajal rakendab PolyAnalyst kõiki tingimusi igale andmebaasi dokumendile ja kui tingimus on täidetud, määrab selle dokumendi sobivasse kategooriasse. Pärast mooduli käivitamist saab kasutaja valida erinevaid mõõtemaatriksi elemente ja vaadata ekraanil tekste, mis vastavad valitud tingimustele. Leitud sõnad toonitakse nendes dokumentides erinevat värvi.

Taksonoomiatega töötamine on väga sarnane Text OLAP-iga töötamisele, ainult siin ehitab kasutaja hierarhilise struktuuri samadest tingimustest nagu dimensioonimaatriksites. Süsteem proovib iga dokumenti selle puu sõlmedega korreleerida. Pärast mooduli käivitamist saab kasutaja liikuda ka täidetud taksonoomia sõlmedes, vaadates filtreeritud dokumente koos toonitud sõnadega.

Dimensioonimaatriksid ja taksonoomiad võimaldavad kasutajal vaadata oma dokumendikogu mitme nurga alt. Kuid see pole veel kõik: nende objektide põhjal saate teha muid, keerukamaid analüüsimeetodeid (näiteks Link Analysis, mis näitab, kuivõrd need on omavahel seotud). erinevaid kategooriaid kasutaja kirjeldatud tekstid) või kaasama tekste iseseisvate üksustena muudesse lineaarsetesse ja mittelineaarsetesse analüüsimeetoditesse. Kõik see viib andmekaevanduse ja tekstikaevandamise lähenemisviiside tiheda integreerimiseni ühtsesse teabeanalüüsi kontseptsiooni.

Visualiseerimine

PolyAnalystil on selle jaoks rikkalik tööriistakomplekt graafiline esitus ning andmete ja uurimistulemuste analüüs. Andmeid saab esitada erinevalt

Klasteranalüüs on

Head päeva. Ma austan inimesi, kes on oma töö fännid.

Maxim, mu sõber, kuulub sellesse kategooriasse. Töötab pidevalt numbritega, analüüsib neid ja koostab vastavaid aruandeid.

Eile sõime koos lõunat ning pea pool tundi rääkis ta mulle klasteranalüüsist - mis see on ja millistel juhtudel on selle kasutamine põhjendatud ja kohane. No mis ma olen?

Mul on hea mälu, seega annan teile kõik need andmed, millest ma juba teadsin, algsel ja kõige informatiivsemal kujul.

Klasteranalüüs on mõeldud objektide komplekti jagamiseks homogeenseteks rühmadeks (klastriteks või klassideks). See on mitmemõõtmeline andmete klassifitseerimise probleem.

Erinevaid klasterdamisalgoritme on umbes 100, kuid kõige sagedamini kasutatavad on hierarhiline klastrianalüüs ja k-keskmiste klasterdamine.

Kus kasutatakse klasteranalüüsi? Turunduses on see konkurentide ja tarbijate segmenteerimine.

Juhtimises: personali jagamine erineva motivatsioonitasemega rühmadesse, tarnijate klassifitseerimine, sarnaste tootmissituatsioonide tuvastamine, kus ilmnevad defektid.

Meditsiinis - sümptomite, patsientide, ravimite klassifikatsioon. Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks. Tegelikult on klastrianalüüs end hästi tõestanud kõigis inimelu valdkondades.

Selle meetodi ilu seisneb selles, et see töötab ka siis, kui andmeid on vähe ning juhuslike suuruste jaotuste normaalsuse nõuded ja muud klassikaliste statistilise analüüsi meetodite nõuded ei ole täidetud.

Selgitagem klasteranalüüsi olemust ilma ranget terminoloogiat kasutamata:
Oletame, et viisite läbi töötajate küsitluse ja soovite välja selgitada, kuidas personali kõige tõhusamalt juhtida.

See tähendab, et soovite jagada töötajad rühmadesse ja tuua välja igaühe jaoks kõige tõhusamad juhtimishoovad. Samas peaksid erinevused rühmade vahel olema ilmsed ning grupisisesed vastajad võimalikult sarnased.

Probleemi lahendamiseks tehakse ettepanek kasutada hierarhilist klasteranalüüsi.

Selle tulemusena saame puu, mida vaadates peame otsustama, mitmesse klassi (klastrisse) tahame personali jagada.

Oletame, et otsustame jagada töötajad kolme rühma, siis igasse klastrisse kuuluvate vastajate uurimiseks saame ligikaudu järgmise sisuga tabeli:


Selgitame, kuidas ülaltoodud tabel moodustatakse. Esimene veerg sisaldab klastri numbrit - rühma, mille andmed real kajastuvad.

Näiteks esimeses klastris on 80% mehi. 90% esimesest klastrist kuulub vanusekategooriasse 30–50 aastat ja 12% vastanutest usub, et hüvitised on väga olulised. Ja nii edasi.

Proovime luua igast klastrist vastajate portreesid:

  1. Esimene rühm koosneb peamiselt küpsetest meestest, kes on juhtivatel kohtadel. Sotsiaalpakett (MED, LGOTI, AJAvaba aeg) neid ei huvita. Nad eelistavad vastu võtta hea palk, mitte tööandja abi.
  2. Teine rühm eelistab vastupidiselt sotsiaalpaketti. See koosneb peamiselt "eakatest" inimestest, kes on madalatel ametikohtadel. Palk on neile kindlasti oluline, kuid prioriteete on teisigi.
  3. Kolmas rühm on "noorim". Erinevalt kahest eelmisest on ilmne huvi õppimise ja ametialase arengu võimaluste vastu. Sellel töötajate kategoorial on hea võimalus peagi esimese rühmaga liituda.

Seega on tõhusate personalijuhtimise meetodite juurutamise kampaaniat kavandades ilmne, et meie olukorras on võimalik teise grupi sotsiaalpaketti tõsta näiteks töötasude kahjuks.

Kui rääkida sellest, millised spetsialistid tuleks koolitusele saata, siis võib kindlasti soovitada tähelepanu pöörata ka kolmandale rühmale.

Allikas: http://www.nickart.spb.ru/analysis/cluster.php

Klasteranalüüsi tunnused

Klaster on vara hind teatud aja jooksul, mille jooksul tehinguid tehti. Saadud ostu-müügi mahtu näitab klastri sees olev number.

Iga ajavahemiku riba sisaldab tavaliselt mitut klastrit. See võimaldab teil üksikasjalikult näha ostu-, müügimahtusid ja nende saldot igal üksikul ribal, igal hinnatasemel.


Ühe vara hinna muutus toob paratamatult kaasa teiste instrumentide hinnaliikumise ahela.

Tähelepanu!

Enamasti tekib trendiliikumise mõistmine juba sel hetkel, kui see kiiresti areneb ning trendi mööda turule sisenedes on oht lõppeda korrektsioonilainega.

Edukate tehingute tegemiseks peate mõistma hetkeolukorda ja suutma ette näha tulevasi hinnaliikumisi. Seda saab õppida kobargraafikut analüüsides.

Klasteranalüüsi kasutades näete turuosaliste aktiivsust ka kõige väiksema hinnariba piires. See on kõige täpsem ja detailsem analüüs, kuna näitab tehingumahtude punktjaotust vara igal hinnatasemel.

Turul on müüjate ja ostjate huvide vahel pidev konflikt. Ja iga väiksemgi hinnaliikumine (linnuke) on liikumine kompromissi – hinnatase – poole, mis hetkel sobib mõlemale poolele.

Kuid turg on dünaamiline, müüjate ja ostjate arv muutub pidevalt. Kui mingil ajahetkel valitsesid turul müüjad, siis järgmisel hetkel on suure tõenäosusega ostjaid.

Ka külgnevatel hinnatasemetel tehtud tehingute arv ei ole sama. Ja ometi kajastub esmalt turuolukord tehingute kogumahus ja alles seejärel hinnas.

Kui näete domineerivate turuosaliste (müüjate või ostjate) tegevust, saate ennustada hinnaliikumist ennast.

Klasteranalüüsi edukaks rakendamiseks peate esmalt aru saama, mis on klaster ja delta.


Klaster on hinnaliikumine, mis on jagatud tasemeteks, millel tehti teadaolevate mahtudega tehinguid. Delta näitab erinevust igas klastris toimuvate ostude ja müükide vahel.

Iga klaster või deltade rühm võimaldab teil mõista, kas ostjad või müüjad domineerivad teatud ajahetkel turul.

Piisab vaid summaarse delta arvutamisest müügi ja ostude summeerimise teel. Kui delta on negatiivne, siis on turg üle müüdud ja on üleliigseid müügitehinguid. Kui delta on positiivne, domineerivad ostjad turul selgelt.

Delta ise võib võtta normaalse või kriitilise väärtuse. Klastris on normist kõrgem delta helitugevuse väärtus punasega esile tõstetud.

Kui delta on mõõdukas, iseloomustab see turul tasast olekut. Tavalise delta väärtuse korral täheldatakse turul trendi liikumist, kuid kriitiline väärtus on alati hinna pöördumise eelkuulutaja.

Forexi kauplemine CA abil

Saamise eest maksimaalne kasum peate suutma määrata delta üleminekut mõõdukalt normaalsele tasemele. Tõepoolest, sel juhul võite märgata tasapinnalt trendi liikumisele ülemineku algust ja saada suurimat kasumit.

Kobardiagramm on visuaalsem; näete mahtude kogunemise ja jaotumise märkimisväärset taset ning luua tugi- ja takistustasemeid. See võimaldab kauplejal leida täpse tehingusse sisenemise.

Delta abil saate hinnata müügi või ostude ülekaalu turul. Klasteranalüüs võimaldab teil jälgida tehinguid ja jälgida nende mahtu mis tahes TF-i ribal.

See on eriti oluline, kui lähenete märkimisväärsele toetuse või vastupanu tasemele. Klastrite hinnangud on turu mõistmise võti.

Allikas: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Klasteranalüüsi rakendusvaldkonnad ja tunnused

Mõiste klastrianalüüs (esmakordselt kasutusele Tryon, 1939) sisaldab tegelikult erinevaid klassifitseerimisalgoritme.

Levinud küsimus paljude valdkondade teadlaste poolt on, kuidas korraldada vaadeldavaid andmeid visuaalseteks struktuurideks, s.t. laiendada taksonoomiat.

Bioloogias kasutusele võetud kaasaegse süsteemi kohaselt kuuluvad inimesed primaatide, imetajate, amnioni, selgroogsete ja loomade hulka.

Pange tähele, et selles klassifikatsioonis, mida kõrgem on agregatsiooni tase, seda vähem on sarnasusi vastava klassi liikmete vahel.

Inimestel on rohkem sarnasusi teiste primaatidega (st ahvidega) kui imetajate perekonna "äärepoolsete" liikmetega (st koertega) jne.

Pange tähele, et eelnev arutelu viitab rühmitamisalgoritmidele, kuid ei maini midagi statistilise olulisuse testimise kohta.

Tegelikult pole klastrianalüüs mitte niivõrd tavaline statistiline meetod, kuivõrd erinevate algoritmide komplekt "objektide klastritesse jaotamiseks".

On seisukoht, et erinevalt paljudest teistest statistilistest protseduuridest kasutatakse klasteranalüüsi meetodeid enamikul juhtudel, kui teil ei ole klasside kohta a priori hüpoteese, kuid olete alles uuringu kirjeldavas etapis.

Tähelepanu!

Tuleb mõista, et klastrianalüüs määrab "kõige tõenäolisema olulise lahenduse".

Seetõttu ei ole statistilise olulisuse testimine siin tegelikult rakendatav isegi juhtudel, kui p-tasemed on teada (nagu K-keskmiste meetodi puhul).

Klasterdamistehnikaid kasutatakse väga erinevates valdkondades. Hartigan (1975) andis suurepärase ülevaate paljudest avaldatud uuringutest, mis sisaldasid klasteranalüüsi meetoditega saadud tulemusi.

Näiteks meditsiini valdkonnas viib haiguste, haiguste ravimeetodite või haiguste sümptomite rühmitamine laialdaselt kasutatavate taksonoomiateni.

Psühhiaatria valdkonnas on edukaks teraapiaks ülioluline sümptomite klastrite, nagu paranoia, skisofreenia jne, õige diagnoosimine. Arheoloogias püüavad teadlased kobaranalüüsi abil paika panna kivitööriistade, matuseesemete jms taksonoomiaid.

Turundusuuringutes on laialt levinud klastrianalüüsi rakendused. Üldiselt, kui on vaja info "mägesid" edasiseks töötlemiseks sobivatesse rühmadesse liigitada, osutub klasteranalüüs väga kasulikuks ja tõhusaks.

Puude rühmitamine

Peaeesmärgi jaotises toodud näide selgitab puu klastrite algoritmi eesmärki.

Selle algoritmi eesmärk on rühmitada objektid (nt loomad) piisavalt suurteks klastriteks, kasutades objektide vahelist sarnasust või kaugust. Sellise klastrite tüüpiline tulemus on hierarhiline puu.

Mõelge horisontaalsele puu diagrammile. Diagramm algab iga klassi objektiga (skeemi vasakus servas).

Kujutage nüüd ette, et järk-järgult (väga väikeste sammudega) "lõdvestate" oma kriteeriumi selle kohta, millised objektid on ainulaadsed ja millised mitte.

Teisisõnu alandate läve, mis on seotud otsusega ühendada kaks või enam objekti üheks klastriks.

Selle tulemusena seod sa järjest rohkem objekte kokku ja koondad (kombineerid) järjest rohkem klastreid, mis koosnevad järjest erinevamatest elementidest.

Viimases etapis ühendatakse kõik objektid kokku. Nendel diagrammidel tähistavad horisontaalteljed liitekaugust (vertikaalsetel puudiagrammidel tähistavad vertikaalteljed liitekaugust).

Seega näete graafiku iga sõlme kohta (kus moodustatakse uus klaster) kauguse väärtust, mille jaoks vastavad elemendid on seotud uude ühte klastrit.

Kui andmetel on selge "struktuur" üksteisega sarnaste objektide klastrite osas, siis tõenäoliselt peegeldub see struktuur hierarhilises puus erinevate harude kaupa.

Eduka analüüsi tulemusel liitmismeetodil on võimalik tuvastada klastreid (harusid) ja neid tõlgendada.

Ühenduse või puu klastrite meetodit kasutatakse objektidevahelise erinevuse või kauguse klastrite moodustamiseks. Neid vahemaid saab määratleda ühe- või mitmemõõtmelises ruumis.

Näiteks kui peaksite kohvikus erinevaid toite rühmitama, võite võtta arvesse selle kalorite arvu, hinda, subjektiivset maitsehinnangut jne.

Kõige otsesem viis mitmemõõtmelises ruumis olevate objektide vaheliste kauguste arvutamiseks on arvutada eukleidilised kaugused.

Kui teil on kahe- või kolmemõõtmeline ruum, siis on see mõõt ruumis olevate objektide tegelik geomeetriline kaugus (nagu oleks objektide vahelised kaugused mõõdetud mõõdulindiga).

Siiski ei "hoole" koondamisalgoritm, kas selle kauguse jaoks "ette nähtud" kaugused on tegelikud või mõni muu tuletatud kaugusmõõt, mis on uurijale tähenduslikum; ja teadlaste väljakutse on valida konkreetsete rakenduste jaoks õige meetod.

Eukleidiline kaugus. See näib olevat kõige levinum vahemaatüüp. See on lihtsalt geomeetriline kaugus mitmemõõtmelises ruumis ja arvutatakse järgmiselt:

Pange tähele, et Eukleidiline kaugus (ja selle ruut) arvutatakse algandmete, mitte standardsete andmete põhjal.

See on levinud viis selle arvutamiseks, millel on teatud eelised (näiteks kahe objekti vaheline kaugus ei muutu, kui analüüsi tuuakse uus objekt, mis võib olla kõrvalekalle).

Tähelepanu!

Vahemaid võivad aga suuresti mõjutada erinevused telgede vahel, millest kaugusi arvutatakse. Näiteks kui ühte telge mõõdetakse sentimeetrites ja teisendate selle seejärel millimeetriteks (korrutades väärtused 10-ga), muutub koordinaatide põhjal arvutatud lõplik eukleidiline kaugus (või Eukleidilise kauguse ruut). suuresti ning sellest tulenevalt võivad klasteranalüüsi tulemused varasematest oluliselt erineda.

Eukleidese kaugus ruudus. Mõnikord võite soovida standardse Eukleidilise kauguse ruudu panna, et anda üksteisest kaugemal asuvatele objektidele rohkem kaalu.

See vahemaa arvutatakse järgmiselt:

Linnaploki kaugus (Manhattani kaugus). See kaugus on lihtsalt koordinaatide erinevuste keskmine.

Enamikul juhtudel annab see kaugusmõõtmine samad tulemused kui tavaline Eukleidiline kaugus.

Siiski märgime, et selle meetme puhul väheneb üksikute suurte erinevuste (kõrvalväärtuste) mõju (kuna need ei ole ruudus). Manhattani vahemaa arvutatakse järgmise valemi abil:

Tšebõševi kaugus. See kaugus võib olla kasulik, kui soovitakse määratleda kaks objekti "erinevana", kui need erinevad mõne koordinaadi poolest (ükskõik millises mõõtmes). Tšebõševi kaugus arvutatakse järgmise valemi abil:

Võimsuskaugus. Mõnikord soovitakse järk-järgult suurendada või vähendada kaalu, mis on seotud mõõtmega, mille vastavad objektid on väga erinevad.

Seda saab saavutada võimuseaduse kauguse abil. Võimsuskaugus arvutatakse järgmise valemi abil:

kus r ja p on kasutaja määratud parameetrid. Mõned näited arvutustest võivad näidata, kuidas see meede "töötab".

Parameeter p vastutab erinevuste järkjärgulise kaalumise eest piki üksikuid koordinaate, parameeter r vastutab suurte objektide vahemaade järkjärgulise kaalumise eest. Kui mõlemad parameetrid r ja p on võrdsed kahega, kattub see kaugus Eukleidilise kaugusega.

Eriarvamuste protsent. Seda mõõdet kasutatakse siis, kui andmed on kategoorilised. See vahemaa arvutatakse järgmise valemiga:

Ühingu- või liitumisreeglid

Esimesel etapil, kui iga objekt on eraldi klaster, määratakse nende objektide vahelised kaugused valitud mõõdiku järgi.

Kui aga mitu objekti on omavahel seotud, tekib küsimus, kuidas tuleks määrata klastrite vahelised kaugused?

Teisisõnu, kahe klastri jaoks on vaja liidu või ühenduse reeglit. Siin on erinevaid võimalusi: näiteks saate kaks klastrit omavahel linkida, kui mis tahes kaks objekti kahes klastris on üksteisele lähemal kui vastav lingi kaugus.

Teisisõnu kasutate klastrite vahelise kauguse määramiseks "lähima naabri reeglit"; seda meetodit nimetatakse ühe lingi meetodiks.

See reegel ehitab “kiulisi” klastreid, st. klastreid "seovad omavahel" ainult üksikud elemendid, mis on üksteisele kõige lähemal.

Teise võimalusena võite kasutada naabreid klastrites, mis on kõigi teiste objektipaaride poolest üksteisest kõige kaugemal. Seda meetodit nimetatakse täislingi meetodiks.

Klastrite kombineerimiseks on ka palju muid käsitletutele sarnaseid meetodeid.

Üks link (lähima naabri meetod). Nagu eespool kirjeldatud, määrab selle meetodi puhul kahe klastri vahelise kauguse erinevates klastrites asuvate kahe lähima objekti (lähimate naabrite) vaheline kaugus.

See reegel peab teatud mõttes ühendama objektid klastrite moodustamiseks ja saadud klastreid esindavad tavaliselt pikad "ahelad".

Täislink (kõige kaugemate naabrite meetod). Selle meetodi puhul määratakse klastrite vahelised kaugused erinevates klastrites (st "kõige kaugemate naabrite") mis tahes kahe objekti vahelise suurima vahemaa järgi.

Kaalumata paaride keskmine. Selle meetodi puhul arvutatakse kahe erineva klastri vaheline kaugus kõigi neis olevate objektide paaride keskmise kaugusena.

Meetod on efektiivne siis, kui objektid moodustavad tegelikult erinevaid "salusid", kuid see toimib sama hästi ka laiendatud ("ahel" tüüpi) klastrite puhul.

Pange tähele, et oma raamatus Sneath ja Sokal (1973) tutvustavad lühendit UPGMA, et viidata sellele meetodile kui kaalumata paarirühma meetodile, kasutades aritmeetilisi keskmisi.

Kaalutud paaride keskmine. Meetod on identne kaalumata paaripõhise keskmise meetodiga, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu).

Seetõttu tuleks kasutada pakutud meetodit (eelmise asemel), kui eeldatakse klastri ebavõrdseid suurusi.

Sneathi ja Sokali raamat (1973) tutvustab akronüümi WPGMA, et viidata sellele meetodile kui kaalutud paarirühma meetodile, kasutades aritmeetilisi keskmisi.

Kaalumata tsentroidi meetod. Selle meetodi puhul määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelise kaugusena.

Tähelepanu!

Sneath ja Sokal (1973) kasutavad akronüümi UPGMC, et viidata sellele meetodile kui kaalumata paarirühma meetodile, kasutades tsentroidi keskmist.

Kaalutud tsentroidi meetod (mediaan). See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse kaalusid, et võtta arvesse klastrite suuruste erinevust (st nendes olevate objektide arvu).

Seega, kui klastri suurustes on (või kahtlustatakse) olulisi erinevusi, on see meetod eelmisest eelistatum.

Sneath ja Sokal (1973) kasutasid lühendit WPGMC, et nimetada seda kaalutud paarirühma meetodiks, kasutades tsentroidi keskmist.

Wardi meetod. See meetod erineb kõigist teistest meetoditest, kuna see kasutab klastrite vaheliste kauguste hindamiseks dispersioonanalüüsi meetodeid.

Meetod minimeerib ruutude summa (SS) mis tahes kahe (hüpoteetilise) klastri jaoks, mida saab igal etapil moodustada.

Üksikasjad leiate Wardist (1963). Üldiselt näib meetod olevat väga tõhus, kuid see kipub looma väikeseid klastreid.

Seda meetodit arutati varem rühmitamist vajavate "objektide" osas. Kõikide muude analüüsiliikide puhul väljendatakse uurijat huvitavat küsimust tavaliselt vaatluste või muutujatena.

Selgub, et klasterdamine nii vaatluste kui ka muutujate järgi võib anda päris huvitavaid tulemusi.

Näiteks kujutage ette, et meditsiiniteadlane kogub andmeid südamehaiguste all kannatavate patsientide seisundite (juhtumite) erinevate tunnuste (muutujate) kohta.

Teadlane võib soovida vaatlusi (patsiente) koondada, et tuvastada sarnaste sümptomitega patsientide rühmad.

Samal ajal võib uurija soovida muutujaid rühmitada, et tuvastada muutujate klastrid, mis on seotud sarnaste füüsiliste tingimustega.e

Pärast seda arutelu vaatluste või muutujate rühmitamise üle võib küsida, miks mitte rühmitada mõlemas suunas?

Klastrianalüüsi moodul sisaldab tõhusat kahesuunalise liitumise rutiini, mis võimaldab teil just seda teha.

Siiski kasutatakse kahesuunalist ühendamist (suhteliselt harva) olukordades, kus eeldatakse, et nii vaatlused kui ka muutujad aitavad samaaegselt kaasa tähenduslike klastrite avastamisele.

Seega, naastes eelmise näite juurde, võime eeldada, et meditsiiniteadlane peab tuvastama patsientide rühmad, mis on sarnased teatud füüsilise seisundi tunnuste klastrite suhtes.

Saadud tulemuste tõlgendamise raskus tuleneb asjaolust, et sarnasused erinevate klastrite vahel võivad tuleneda (või olla nende põhjuseks) muutujate alamhulkade mõningatest erinevustest.

Seetõttu on saadud klastrid olemuselt heterogeensed. See võib alguses tunduda pisut udune; tegelikult, võrreldes teiste kirjeldatud klasteranalüüsi meetoditega, on kahesuunaline ühendamine tõenäoliselt kõige vähem kasutatav meetod.

Mõned teadlased usuvad siiski, et see pakub võimsat vahendit uurimuslikuks andmeanalüüsiks (lisateave detailne info võiksite viidata Hartigani selle meetodi kirjeldusele (Hartigan, 1975).

K tähendab meetodit

See klastrite moodustamise meetod erineb oluliselt sellistest aglomeratiivsetest meetoditest nagu liit (puu klasterdamine) ja kahesuunaline liit. Oletame, et teil on juba hüpoteesid klastrite arvu kohta (vaatluste või muutujate põhjal).

Saate anda süsteemile käsu moodustada täpselt kolm klastrit, et need oleksid võimalikult erinevad.

See on täpselt seda tüüpi probleem, mille K-tähendab algoritm lahendab. Üldiselt ehitab K-keskmise meetod täpselt K erinevat klastrit, mis asuvad üksteisest võimalikult suurel kaugusel.

Füüsilise seisundi näite puhul võib meditsiiniteadlasel olla oma kliinilise kogemuse põhjal "aimus", et tema patsiendid jagunevad üldiselt kolme erinevasse kategooriasse.

Tähelepanu!

Kui see on nii, siis iga klastri füüsikaliste parameetrite erinevate mõõtmiste keskmised annavad kvantitatiivse viisi uurija hüpoteeside esitamiseks (nt klastri 1 patsientidel on kõrge parameeter 1, madal parameeter 2 jne). .

Arvutuslikust vaatenurgast võib seda meetodit pidada vastupidiseks dispersioonanalüüsiks. Programm alustab K juhuslikult valitud klastriga ja muudab seejärel objektide kuuluvust neis nii, et:

  1. minimeerida varieeruvust klastrite sees,
  2. maksimeerida klastrite vahelist varieeruvust.

See meetod sarnaneb pöörd-ANOVA-ga selle poolest, et ANOVA olulisuse testis võrreldakse rühmadevahelist ja rühmasisest varieeruvust hüpoteesi testimisel, et rühmade keskmised erinevad üksteisest.

K-keskmiste klastrite puhul liigutab programm objekte (st vaatlusi) ühest rühmast (klastrist) teise, et saada dispersioonanalüüsi (ANOVA) läbiviimisel kõige olulisem tulemus.

Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri keskmised igas dimensioonis, et hinnata, kui erinevad klastrid üksteisest on.

Ideaalis peaksite saama enamiku, kui mitte kõigi analüüsis kasutatud mõõtmiste jaoks väga erinevad vahendid.

Allikas: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Objektide klassifitseerimine nende omaduste järgi

Klasteranalüüs on mitmemõõtmeliste statistiliste meetodite kogum objektide klassifitseerimiseks neid iseloomustavate tunnuste järgi, objektide komplekti jagamiseks homogeenseteks rühmadeks, mis on kriteeriumide määratlemisel sarnased, ja teatud rühma objektide tuvastamiseks.

Klaster on objektide rühm, mis tuvastatakse klastrianalüüsi tulemusel, mis põhineb objektide sarnasuse või erinevuste antud mõõtmisel.

Objekt – need on spetsiifilised uurimisobjektid, mida tuleb klassifitseerida. Klassifitseerimise objektid on reeglina vaatlused. Näiteks toodete tarbijad, riigid või piirkonnad, tooted jne.

Kuigi muutujate kaupa on võimalik läbi viia klastrianalüüsi. Objektide klassifitseerimine mitmemõõtmelises klasteranalüüsis toimub mitme kriteeriumi järgi üheaegselt.

Need võivad olenevalt klasteranalüüsi meetodist olla kas kvantitatiivsed või kategoorilised muutujad. Niisiis, peamine eesmärk klasteranalüüs – sarnaste objektide rühmade leidmine proovist.

Klasteranalüüsi mitme muutujaga statistiliste meetodite kogumi võib jagada hierarhilisteks (aglomeratiivne ja jagunev) ja mittehierarhilisteks (k-keskmiste meetod, kaheetapiline klasteranalüüs).

Siiski puudub üldiselt aktsepteeritud meetodite klassifikatsioon ning klasteranalüüsi meetodid hõlmavad mõnikord ka meetodeid otsustuspuude, närvivõrkude, diskriminantanalüüsi ja logistilise regressiooni koostamiseks.

Klasteranalüüsi kasutusala on selle mitmekülgsuse tõttu väga lai. Klasteranalüüsi kasutatakse majanduses, turunduses, arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, avalik haldus, filoloogia, antropoloogia, sotsioloogia ja muud valdkonnad.

Siin on mõned näited klastrianalüüsi kasutamisest.

  • meditsiin – haiguste klassifikatsioon, nende sümptomid, ravimeetodid, patsiendirühmade klassifikatsioon;
  • turundus – ettevõtte tootesarja optimeerimise ülesanded, turu segmenteerimine kaubagruppide või tarbijate kaupa, potentsiaalsete tarbijate tuvastamine;
  • sotsioloogia – vastajate jagamine homogeensetesse rühmadesse;
  • psühhiaatria – sümptomite rühmade õige diagnoosimine on eduka teraapia jaoks määrav;
  • bioloogia - organismide liigitamine rühmadesse;
  • majandusteadus – Vene Föderatsiooni subjektide klassifikatsioon investeerimisatraktiivsuse järgi.

Allikas: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Klastrianalüüsi mõistmine

Klasteranalüüs sisaldab erinevaid klassifitseerimisalgoritme. Levinud küsimus paljude valdkondade teadlaste poolt on, kuidas vaadeldavaid andmeid visuaalseteks struktuurideks korraldada.

Näiteks bioloogide eesmärk on liigitada loomi erinevatesse liikidesse, et nendevahelisi erinevusi sisukalt kirjeldada.

Klasteranalüüsi ülesanne on jagada esialgne objektide komplekt sarnaste objektide rühmadeks, mis on üksteise lähedal. Neid rühmi nimetatakse klastriteks.

Teisisõnu, klasteranalüüs on üks viise objektide liigitamiseks nende omaduste järgi. On soovitav, et klassifikatsiooni tulemustel oleks sisukas tõlgendus.

Kõige enam kasutatakse klasteranalüüsi meetoditega saadud tulemusi erinevaid valdkondi. Turunduses on see konkurentide ja tarbijate segmenteerimine.

Psühhiaatrias on eduka teraapia jaoks määrava tähtsusega sümptomite, nagu paranoia, skisofreenia jne, õige diagnoosimine.

Juhtimises on oluline tarnijate klassifitseerimine ja sarnaste tootmissituatsioonide tuvastamine, kus defektid ilmnevad. Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks. Portfelliinvesteeringute puhul on oluline grupeerida väärtpabereid tootlustrendide sarnasuse järgi, et luua aktsiaturu kohta saadud info põhjal optimaalne investeerimisportfell, mis võimaldab maksimeerida investeeringutasuvust antud riskiastme juures.

Üldjuhul osutub klasteranalüüs väga kasulikuks ja tõhusaks alati, kui on vaja klassifitseerida suur hulk sedalaadi teavet ja esitada see edasiseks töötlemiseks sobival kujul.

Klasteranalüüs võimaldab arvestada üsna suure hulga teabega ja suurel hulgal sotsiaalmajanduslikku teavet tihendada, muutes need kompaktseks ja visuaalseks.

Tähelepanu!

Klasteranalüüsil on suur tähtsus seoses iseloomustavate aegridade komplektidega majandusareng(näiteks üldised majandus- ja kaubatingimused).

Siin saate esile tõsta perioode, mil vastavate näitajate väärtused olid üsna lähedased, ja määrata ka aegridade rühmad, mille dünaamika on kõige sarnasem.

Sotsiaalmajandusliku prognoosimise ülesannetes on klasteranalüüsi kombineerimine teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüs) väga paljutõotav.

Eelised ja miinused

Klasteranalüüs võimaldab objektiivselt klassifitseerida objekte, mida iseloomustavad mitmed omadused. Sellest võib saada mitmeid eeliseid:

  1. Saadud klastreid saab tõlgendada, st kirjeldada, millised rühmad tegelikult eksisteerivad.
  2. Üksikud klastrid saab ära visata. See on kasulik juhtudel, kui andmete kogumisel tehti teatud vigu, mille tagajärjel on üksikute objektide indikaatorite väärtused järsult erinevad. Klasteranalüüsi rakendamisel jagunevad sellised objektid eraldi klastrisse.
  3. Edasiseks analüüsiks saab valida ainult neid klastreid, millel on huvipakkuvad omadused.

Nagu igal teisel meetodil, on klastrianalüüsil teatud puudused ja piirangud. Eelkõige sõltub klastrite koosseis ja arv valitud partitsioonikriteeriumidest.

Algse andmemassiivi taandamisel kompaktsemale kujule võivad tekkida teatud moonutused ja üksikute objektide omadused võivad kaduda nende omaduste asendamise tõttu. üldistatud väärtused klastri parameetrid.

meetodid

Praegu on teada rohkem kui sada erinevat klasterdamisalgoritmi. Nende mitmekesisust ei seleta mitte ainult erinevad arvutusmeetodid, vaid ka erinevad klasterdamise aluseks olevad kontseptsioonid.

Statistica paketis on rakendatud järgmised rühmitamise meetodid.

  • Hierarhilised algoritmid – puude klasterdamine. Hierarhilised algoritmid põhinevad järjestikuse rühmitamise ideel. Esialgses etapis käsitletakse iga objekti eraldi klastrina. Järgmises etapis ühendatakse mõned üksteisele kõige lähemal olevad klastrid eraldi klastriks.
  • K-tähendab meetod. Seda meetodit kasutatakse kõige sagedamini. See kuulub klasteranalüüsi nn referentsmeetodite rühma. Klastrite arvu K määrab kasutaja.
  • Kahe sisendiga kombineerimine. Selle meetodi kasutamisel toimub klasterdamine samaaegselt nii muutujate (veerud) kui ka vaatluste (ridade) abil.

Kahesuunalist ühendamise protseduuri kasutatakse juhtudel, kui samaaegne muutujate ja vaatluste rühmitamine annab sisukaid tulemusi.

Protseduuri tulemused on muutujate ja vaatluste kirjeldav statistika, samuti kahemõõtmeline värvitabel, milles andmeväärtused on värvikoodiga.

Värvide jaotuse põhjal saate aimu homogeensetest rühmadest.

Muutujate normaliseerimine

Algse objektide komplekti jagamine klastriteks hõlmab objektide vahekauguste arvutamist ja nende objektide valimist, mille kaugus on kõigist võimalikest väikseim.

Kõige sagedamini kasutatakse eukleidilist (geomeetrilist) kaugust, mis on meile kõigile tuttav. See mõõdik vastab intuitiivsetele ideedele objektide läheduse kohta ruumis (justkui mõõdetaks objektidevahelisi kaugusi mõõdulindiga).

Kuid antud mõõdiku puhul võivad skaalade (mõõtühikute) muutused oluliselt mõjutada objektide vahelist kaugust. Näiteks kui üht tunnust mõõdetakse millimeetrites ja seejärel teisendatakse selle väärtus sentimeetriteks, muutub objektide vaheline eukleidiline kaugus oluliselt. See toob kaasa asjaolu, et klasteranalüüsi tulemused võivad varasematest oluliselt erineda.

Kui muutujaid mõõdetakse erinevates mõõtühikutes, siis on vajalik nende esialgne normaliseerimine, st algandmete teisendamine, mis teisendab need dimensioonideta suurusteks.

Normaliseerimine moonutab oluliselt algse ruumi geomeetriat, mis võib muuta klastrite moodustamise tulemusi

Statistica paketis tehakse mis tahes muutuja x normaliseerimine valemiga:

Selleks tee muutuja nimel paremklõps ja vali avanevas menüüs käskude jada: Fill/ Standardize Block/ Standardize Columns. Normaliseeritud muutuja väärtused muutuvad võrdne nulliga, ja dispersioon – ühtsus.

K-keskmise meetod Statistica programmis

K-keskmiste meetod jagab objektide hulga etteantud arvuks K erinevatest klastritest, mis asuvad üksteisest võimalikult suurel kaugusel.

Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri keskmised igas dimensioonis, et hinnata, kui erinevad klastrid üksteisest on.

Ideaalis peaksite saama enamiku analüüsis kasutatavate mõõtmiste jaoks väga erinevad vahendid.

Iga dimensiooni jaoks saadud F-statistika väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid eristab.

Vaatleme näiteks ettevõtte 17 töötaja seas läbiviidud uuringu tulemusi rahulolu kohta oma karjääri kvaliteedi näitajatega. Tabelis on vastused küsitluse küsimustele kümnepallisel skaalal (1 – minimaalne punktisumma, 10 – maksimum).

Muutujate nimed vastavad vastustele järgmistele küsimustele:

  1. SLC – isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsioon;
  2. OSO – õiglustunne töötasustamisel;
  3. TBD – kodu territoriaalne lähedus;
  4. OEB – majandusliku heaolu tunne;
  5. KR – karjäärikasv;
  6. JSR – soov töökohta vahetada;
  7. RSD – sotsiaalse heaolu tunne.

Neid andmeid kasutades on vaja töötajad rühmadesse jagada ja igaühe jaoks välja selgitada kõige tõhusamad juhtimishoovad.

Samas peaksid erinevused rühmade vahel olema ilmsed ning grupisisesed vastajad võimalikult sarnased.

Tänapäeval annab enamik sotsioloogilisi uuringuid vaid häälte protsendi: arvestatakse positiivselt vastanute põhiarvu ehk rahulolematute protsenti, kuid süstemaatiliselt seda teemat ei käsitleta.

Kõige sagedamini ei näita küsitlus olukorra trendi. Mõnel juhul pole vaja arvestada mitte „poolt“ või „vastu“ olevate inimeste arvu, vaid kaugust ehk sarnasuse mõõtu, see tähendab, et määrata inimrühmad, kes mõtlevad ligikaudu ühtemoodi.

Klasteranalüüsi protseduure saab kasutada küsitlusandmete põhjal mõne reaalselt olemasolevate seoste tuvastamiseks tunnuste vahel ja nende põhjal nende tüpoloogia genereerimiseks.

Tähelepanu!

Sotsioloogi a priori hüpoteeside olemasolu klasteranalüüsi protseduuridega töötamisel ei ole vajalik tingimus.

Statisticas tehakse klasteranalüüs järgmiselt.

Klastrite arvu valimisel juhinduge järgmisest: võimalusel ei tohiks klastrite arv olla liiga suur.

Vahemaa, mille kaugusel antud klastri objektid ühendati, peaks võimaluse korral olema palju väiksem kui vahemaa, mille kaugusel miski muu selle klastriga liitub.

Klastrite arvu valikul on enamasti mitu õiget lahendust korraga.

Meid huvitab näiteks, kuidas on küsitluse küsimuste vastused võrreldavad tavatöötajate ja ettevõtte juhtkonna vahel. Seetõttu valime K=2. Edasiseks segmenteerimiseks saate suurendada klastrite arvu.

  1. valida vaatlusi maksimaalse vahemaaga klastri keskuste vahel;
  2. sortida vahemaid ja valida vaatlusi kindlate ajavahemike järel (vaikesäte);
  3. võtke esimesed vaatlused keskpunktideks ja kinnitage neile ülejäänud objektid.

Meie jaoks sobib variant 1).

Paljud rühmitusalgoritmid "sunnivad" andmetele sageli ebaloomuliku struktuuri ja eksitavad teadlast. Seetõttu on äärmiselt vajalik rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.

Analüüsi tulemusi saab vaadata ilmuvas dialoogiboksis:

Kui valite vahekaardi Keskmiste graafik, koostatakse klastri keskuste koordinaatide graafik:


Selle graafiku iga katkendjoon vastab ühele klastritest. Iga jaotus graafiku horisontaalteljel vastab ühele analüüsis sisalduvatest muutujatest.

Vertikaaltelg vastab igasse klastrisse kuuluvate objektide muutujate keskmistele väärtustele.

Võib märkida, et peaaegu kõigis küsimustes on kahe inimrühma suhtumises oma karjääri olulised erinevused. Täielik üksmeel valitseb vaid ühes küsimuses – sotsiaalse heaolu tunnetuses (SSW), õigemini selle puudumises (2,5 punkti 10-st).

Võime eeldada, et klaster 1 esindab töötajaid ja klaster 2 esindab juhtkonda. Juhid on rohkem rahul karjääri kasvuga (CG), isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsiooniga (CLO).

Neil on kõrgem tajutud majanduslik heaolu (SEW) ja tajutud palgatase (SPE).

Nad on vähem mures kodu territoriaalse läheduse (TPH) pärast kui töötajad, tõenäoliselt vähemate transpordiprobleemide tõttu. Samuti on juhtidel väiksem soov töökohta vahetada (JSR).

Hoolimata asjaolust, et töötajad jagunevad kahte kategooriasse, vastavad nad enamikule küsimustele suhteliselt võrdselt. Teisisõnu, kui miski sulle ei sobi üldrühm töötajad, kõrgem juhtkond ei ole sama asjaga rahul ja vastupidi.

Ajakavade kooskõlastamine võimaldab teha järeldusi, et ühe grupi heaolu peegeldub teise grupi heaolus.

1. klaster ei ole rahul kodu territoriaalse lähedusega. See rühm on suurem osa töötajatest, kes tulevad ettevõttesse peamiselt erinevatest linnaosadest.

Seetõttu on võimalik teha põhijuhtkonnale ettepanek eraldada osa kasumist ettevõtte töötajate eluaseme ehitamiseks.

Kahe inimrühma suhtumises oma karjääri on olulisi erinevusi. Need töötajad, kes on rahul oma karjääri kasvuga, kellel on kõrgel tasemel üksmeel oma isiklike eesmärkide ja organisatsiooni eesmärkide vahel, puudub soov töökohta vahetada ja nad tunnevad rahulolu oma töö tulemustega.

Seevastu töötajad, kes soovivad töökohta vahetada ja ei ole oma töö tulemustega rahul, ei ole toodud näitajatega rahul. Kõrgemale juhtkonnale erilist tähelepanu tuleks pöörata praegusele olukorrale.

Dispersioonanalüüsi tulemused iga tunnuse kohta kuvatakse, klõpsates nuppu Dispersioonanalüüs.

Kuvatakse objektide klastri keskpunktidest kõrvalekallete ruudu summa (SS-i sees) ja klastri keskpunktide vaheliste kõrvalekallete ruudu summa (SS Between), F-statistika väärtused ja p olulisuse tasemed.

Tähelepanu!

Meie näite puhul on kahe muutuja olulisuse tasemed üsna suured, mis on seletatav vaatluste väikese arvuga. Uuringu täisversioonis, mis on leitav tööst, lükatakse alla 0,01 olulisuse tasemetel hüpotees klastrikeskuste vahendite võrdsuse kohta tagasi.

Nupp Salvesta klassifikatsioonid ja kaugused kuvab igas klastris sisalduvate objektide arvu ja objektide kaugusi iga klastri keskpunktist.

Tabelis on toodud vaatlusnumbrid (CASE_NO), CLUSTERi numbritega koosnevad klastrid ja kaugus iga klastri keskpunktist (DISTANCE).

Informatsiooni klastritesse kuuluvate objektide kohta saab kirjutada faili ja kasutada edasises analüüsis. Antud näites selgus ankeetidega saadud tulemuste võrdlusest, et klaster 1 koosneb peamiselt tavatöötajatest, klaster 2 aga juhtidest.

Seega võib märkida, et uuringutulemuste töötlemisel osutus klasteranalüüs võimsaks meetodiks, mis võimaldab teha järeldusi, milleni ei saa teha keskmiste histogrammi koostamist ega arvutada, kui palju inimesi on rahul erinevate näitajatega. tööelu kvaliteet.

Puude klasterdamine on näide hierarhilisest algoritmist, mille põhimõte on kombineerida järjestikku kobaraks, esmalt kõige lähemal olevad ja seejärel üksteisest järjest kaugenevad elemendid.

Enamik neist algoritmidest lähtub sarnasuse (kauguse) maatriksist ja iga üksikut elementi käsitletakse esmalt eraldi klastrina.

Pärast klastrite analüüsi mooduli laadimist ja valiku Liitumine (puu klasterdamine) valimist saab klastrite parameetrite sisestamise aknas muuta järgmisi parameetreid:

  • Algandmed (sisend). Need võivad olla uuritavate andmete maatriksi (Raw data) ja kaugusmaatriksi (Distance matrix) kujul.
  • Objekti olekut kirjeldavate vaatluste (Cases (raw)) või muutujate (Variable (veerud)) rühmitamine.
  • Kauguse mõõt. Siin saate valida järgmised mõõdud: eukleidilised kaugused, ruudukujulised Eukleidilised kaugused, linnaploki (Manhattani) kaugus, Tšebõtševi kauguse mõõdik, võimsuse kaugus ...), lahkarvamuse protsent.
  • Klasterdamismeetod (ühendamise (linkage) reegel). Siin on võimalikud järgmised valikud: ühekordne ühendusÜksikühendus, täielik seos, kaalumata paarirühma keskmine, kaalutud paarirühma keskmine, kaalumata tsentroidi meetod paarirühma tsentroid, kaalutud paarirühma tsentroid (mediaan), Wardi meetod.

Klasterdamise tulemusena konstrueeritakse horisontaalne või vertikaalne dendrogramm - graafik, millel määratakse objektide ja klastrite vahelised kaugused nende järjestikusel kombineerimisel.

Graafiku puustruktuur võimaldab defineerida klastreid sõltuvalt valitud lävest – klastrite vahelisest määratud kaugusest.

Lisaks kuvatakse algsete objektide vahemaade maatriks (Distance matrix); iga lähteobjekti keskmine ja standardhälve (Distiptive statistika).

Vaadeldava näite puhul viime läbi vaikeseadetega muutujate klasteranalüüsi. Saadud dendrogramm on näidatud joonisel.


Dendrogrammi vertikaaltelg näitab objektide ning objektide ja klastrite vahelisi kaugusi. Seega on muutujate OEB ja OSD vaheline kaugus viis. Esimeses etapis ühendatakse need muutujad üheks klastriks.

Dendrogrammi horisontaalsed segmendid joonistatakse tasemetel, mis vastavad antud klastrite moodustamise etapi jaoks valitud kauguse läviväärtustele.

Graafik näitab, et küsimus “soov töökohta vahetada” (WSW) moodustab omaette klastri. Üldse külastab soov kuhu iganes minna kõiki võrdselt. Järgmiseks on eraldi klaster kodu territoriaalse läheduse (TDP) küsimus.

Olulisuselt on see teisel kohal, mis kinnitab K-keskmise meetodil tehtud uuringu tulemuste põhjal tehtud järeldust elamuehituse vajalikkusest.

Majandusliku heaolu tajumine (SEW) ja palgavõrdsus (WFE) on kombineeritud – see on majandusküsimuste plokk. Samuti on ühendatud karjääriarendus (CR) ning isiklike ja organisatsiooniliste eesmärkide kombinatsioon (LOG).

Muud klasterdamismeetodid ja ka teist tüüpi kauguste valik ei too kaasa olulisi muutusi dendrogrammis.

Tulemused:

  1. Klasteranalüüs on võimas tööriist uurimuslikuks andmeanalüüsiks ja statistilisteks uuringuteks mis tahes ainevaldkond.
  2. Statistica programm rakendab klasteranalüüsi nii hierarhilisi kui ka struktuurseid meetodeid. Selle statistikapaketi eelised tulenevad nende graafilistest võimalustest. Esitatakse saadud klastrite kahe- ja kolmemõõtmelised graafilised kuvad uuritud muutujate ruumis, samuti objektide rühmitamise hierarhilise protseduuri tulemused.
  3. Vajalik on rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.
  4. Klasteranalüüsi võib lugeda edukaks, kui see on lõpetatud erinevatel viisidel, võrreldi tulemusi ja leiti üldised mustrid ning stabiilsed klastrid leiti sõltumata rühmitusmeetodist.
  5. Klasteranalüüs võimaldab tuvastada probleemsed olukorrad ja visandada viise nende lahendamiseks. Järelikult võib seda mitteparameetrilise statistika meetodit pidada süsteemianalüüsi lahutamatuks osaks.

Vabastasime uus raamat"Sisuturundus sisse sotsiaalvõrgustikes: kuidas pääseda oma tellijate pähe ja panna nad teie brändisse armuma.

Telli

Semantilise tuuma rühmitamine on paljude heterogeensete päringute jagamine rühmadesse tähenduse järgi.


Rohkem videoid meie kanalil – õppige SEMANTICA abil internetiturundust

Et paremini mõista, mis on klasterdamine, võite ette kujutada pesu ettevalmistamist enne pesemist. Pesemise kiireks ja tootlikuks muutmiseks jaotatakse esemed värvi järgi mitmesse rühma. Ja kogenud koduperenaised sorteerivad pesu täpsemalt. Igas värvirühmas on asju, mis vajavad spetsiaalset temperatuurirežiimi. Need on jagatud eraldi rühmadesse. Midagi sarnast juhtub märksõnade rühmitamisel. See on protsess, mis muudab sajad ja tuhanded kasutajapäringud organiseeritud struktuuriks.

Ideaalis tuleks võtmete rühmitamine läbi viia neid võtmeid iseloomustavate objektide omaduste loendi ja nende kasutamise konteksti alusel. Kuid hetkel ei ole avatud andmebaase, mis sellist teavet salvestaksid. Sel põhjusel rühmitatakse märksõnad otsingutulemuste põhjal.

Klastrite moodustamise etapid:

  1. Objektide valiku saamine rühmitamiseks.
  2. Valimi objektide hindamise kriteeriumide loendi määramine.
  3. Analüüsitavate objektide sarnasuse määra määramine.
  4. Klasteranalüüsi läbiviimine objektide rühmade moodustamiseks.
  5. Klasterdamise tulemuste esitlus.

Miks on vaja SÜNOPSIS rühmitada?

Õigete tööriistade abil saate miinimumtingimused ja rühmitada suured semantilised tuumad. Kui varem võttis kerneli loomine kuid, siis nüüd võtab see töö aega vaid paar tundi. Üks rühmitamise eeliseid on otsingupäringute jaotamine lehtede vahel nii, et neid reklaamitakse samaaegselt.

Semantilise tuuma rühmitamine võimaldab teil saada:

  • Märkimisväärne aja kokkuhoid tänu rutiinse töö vähendamisele.
  • Teabejuhend kasutajate seas populaarsetel teemadel.
  • Edutamisplaan.
  • Arendatava veebilehe struktuuri kujutamine.
  • Objektiivne hinnang toodete populaarsusele kindlaksmääratud nišis.
  • Ressursside optimeerimise võtmete loend.
  • Veebilehtede korrektse ümbersuunamise rakendamine.
  • Suure otsingupäringute saba loomine.

Mis juhtub, kui te ei rühmita?

Kui jätame tähelepanuta saidi semantilise tuuma jagamise klastriteks, ei saa selle omanik oma ressursi reklaamimisest täielikku pilti. Sarnase tulemuse võib saada otsingufraaside vale jaotuse tõttu.

Siin on loetelu probleemidest, mis tekivad pärast võtmete vale rühmitamist:

  • Otsingutulemuste TOPis on positsioon kadunud;
  • Toimub kannibaliseerimine ja selle tulemusena ilmuvad otsingumootori indeksitesse palju duplikaate;
  • Tekib käitumuslike tegurite desorientatsioon, mis segab ressursi edendamist;
  • “Lisasisu” loomisele kulutatakse suuri summasid.

Selliste probleemide kõrvaldamine ja ennetamine on peamine vastus küsimusele: "miks klasterdatakse?"

Klasterdamisalgoritmid

SEO spetsialistid eristavad kahte tüüpi rühmitusalgoritmide klassifikatsiooni:

Hierarhiline ja tasane

Hierarhilised algoritmid (nimetatakse ka taksonite algoritmideks) ei moodusta ainult komplekti ühte jaotust ristuvateks klastriteks, vaid pesastatud partitsioonide mitmetasandilise struktuuri. Selle tulemusena moodustub kobarate puu. Üldproov toimib selle juurena ja väikseimad rühmad lehtedena.

Lamedad algoritmid moodustavad objektide ühe jaotuse rühmadesse.

Selge ja hägune

Selged algoritmid seostavad iga näidiselemendi klastri numbriga. Hägusad algoritmid seostavad iga näidiselemendi reaalväärtuste kombinatsiooniga, mis peegeldab elemendi klastritesse kuulumise mõõtu. Seega kuulub iga valimi element teatud tõenäosusega igasse rühma.

Kuidas päringuid käsitsi rühmitada

Saidi semantilise tuuma käsitsi rühmitamiseks piisab märksõnade iseseisvast analüüsimisest ja rühmadesse jagamisest. Seda tööd saab lihtsamaks teha kasutades Exceli, LibreOffice’i, OpenOffice’i tööriistu. Need rakendused võimaldavad teil töötada andmetabelitega, sorteerida ja filtreerida teatud parameetrite järgi.

Esitatud tööriistadel on mitmeid eeliseid:

  • Mitmekülgsus - rühmitamine toimub, võttes arvesse paljusid erinevaid kriteeriume;
  • Kõrge töötlemise täpsus;
  • LibreOffice, OpenOffice – tasuta.

Nende puuduste hulgas:

  • vajadus perioodiliste varukoopiate järele;
  • Madal töötlemiskiirus;
  • Litsentsiga Excel – tasuline.

Saidi semantilise tuuma käsitsi rühmitamine on automaatse rühmitamisega võrreldes keerulisem ja aeganõudvam. Kuid saate kogu protsessi isiklikult kontrollida. Kui pöörate sellele piisavalt tähelepanu, on tulemus kvalitatiivselt parem kui automaatne klasterdamine.

Automatiseeritud klasterdamine

Semantilise tuuma jagamine rühmadeks toimub automaatselt.

Piisab, kui veebihaldur hindab saadud tulemusi. Selle lähenemisviisi ainsaks puuduseks on kohatine lahknevus masina loogika ja kasutaja ideede vahel.

Poolautomaatne meetod otsingupäringute rühmitamiseks võib sellest probleemist mööda saada. Selleks peab spetsialist iseseisvalt valima rühmad saadud taotluste põhjal. A automatiseeritud süsteem jagab taotlused automaatselt kasutaja määratud rühmadesse. See lähenemine võimaldab meil oluliselt minimeerida masina algoritmi vigu.

Päringute rühmitamine Key Collectori abil

Üks neist parimad rakendused rühmitamiseks võetakse arvesse võtmekogujat. Programm võimaldab kiiresti hankida võtmeid, mille alusel semantiline tuum moodustatakse. Süsteem saab hinnata võtmete konkurentsivõimet, tõhusust ja maksumust ning analüüsida ka ressurssi, et selle sisu vastaks vastuvõetud tuumale.

Key Collectori tööviis on üsna lihtne. Kõigi saabunud päringute eraldamiseks peate kasutama valikut „Rühmaanalüüs”. Sel juhul peab süsteem määrama rühmitusrežiimi ("üksikute sõnade järgi", "fraaside koostise järgi", "otsingutulemuste järgi", "fraaside ja otsingutulemuste koostise järgi"). Režiimirühmad "üksikute sõnade järgi". otsingupäringud, millel on vaste isegi ühel sõnal. Režiim "Fraasi koostise järgi" keskendub võtmefraaside struktuurile. See on kõige sobivam viis jaotamiseks suur kogus taotlusi. Režiim "Otsingutulemuste järgi" rühmitab võtmefraasid otsingutulemustes sobivate linkide arvu järgi. Režiim "Fraasi koostise ja otsingutulemuste järgi" ühendab kaks eelmist kriteeriumi.

Näide semantilise tuuma klastrite kohta Key Collectori süsteemis:

Saadud rühmade hindamiseks saab need üles laadida tabeliredaktorisse (näiteks Excelisse).

Klastrite kontseptsiooni tutvustati meile kursuse esimeses osas. Selles loengus kirjeldame “klastri” mõistet matemaatilisest vaatenurgast ning käsitleme ka klasterdamisprobleemide lahendamise meetodeid - klasteranalüüsi meetodeid.

Mõiste klastrianalüüs, mille Tryon esmakordselt kasutusele võttis 1939. aastal, sisaldab enam kui 100 erinevat algoritmi.

Erinevalt klassifitseerimisprobleemidest ei nõua klastrianalüüs andmekogumi kohta a priori eeldusi, ei sea piiranguid uuritavate objektide kujutamisele ja võimaldab analüüsida näitajaid. erinevat tüüpi andmed (intervallandmed, sagedused, binaarandmed). Tuleb meeles pidada, et muutujaid tuleb mõõta võrreldavatel skaaladel.

Klasteranalüüs võimaldab vähendada andmete dimensiooni ja muuta need selgemaks.

Klasteranalüüsi saab rakendada aegridade kogumitele, siin saab tuvastada teatud näitajate sarnasuse perioode ja sarnase dünaamikaga aegridade rühmi.

Klasteranalüüs arenes paralleelselt mitmes suunas, näiteks bioloogias, psühholoogias jne, mistõttu on enamikul meetoditel kaks või enam nimetust. See raskendab oluliselt tööd klasteranalüüsi kasutamisel.

Klasteranalüüsi ülesandeid saab rühmitada järgmistesse rühmadesse:

  1. Tüpoloogia või klassifikatsiooni väljatöötamine.
  2. Objektide rühmitamiseks kasulike kontseptuaalsete skeemide uurimine.
  3. Hüpoteeside esitamine andmete uurimisel.
  4. Hüpoteeside või uuringute testimine, et teha kindlaks, kas ühel või teisel viisil tuvastatud tüübid (rühmad) on olemasolevates andmetes ka tegelikult olemas.

Klasteranalüüsi praktikas kasutamisel lahendatakse reeglina mitu neist probleemidest korraga.

Vaatleme klasteranalüüsi protseduuri näidet.

Oletame, et meil on 14 näitest koosnev andmekogum A, millel on kaks tunnust X ja Y. Nende andmed on toodud tabelis 13.1.

Tabel 13.1. Andmekogum A
Näide nr. funktsioon X funktsioon Y
1 27 19
2 11 46
3 25 15
4 36 27
5 35 25
6 10 43
7 11 44
8 36 24
9 26 14
10 26 14
11 9 45
12 33 23
13 27 16
14 10 47

Tabelina esitatud andmed ei ole informatiivsed. Esitame muutujad X ja Y hajusdiagrammi kujul, mis on näidatud joonisel fig. 13.1.


Riis. 13.1.

Joonisel näeme mitut "sarnaste" näidete rühma. Näited (objektid), mis on X- ja Y-väärtuste poolest üksteisega "sarnased", kuuluvad samasse rühma (klastrisse); erinevatest klastritest pärit objektid ei ole üksteisega sarnased.

Klastrite sarnasuse ja erinevuse määramise kriteeriumiks on punktide vaheline kaugus hajusdiagrammil. Seda sarnasust saab "mõõta"; see on võrdne graafiku punktide vahelise kaugusega. Määramise viisid kauguse mõõdud klastrite vahel, mida nimetatakse ka lähedusmõõduks, on mitu. Kõige tavalisem viis on arvutamine Eukleidiline kaugus kahe tasandi punkti i ja j vahel, kui nende X- ja Y-koordinaadid on teada:

Märkus: kahe punkti vahelise kauguse väljaselgitamiseks peate võtma nende koordinaatide erinevuse piki iga telge, panema selle ruutu, lisama saadud väärtused kõigi telgede jaoks ja eraldama Ruutjuur summast.

Kui telgi on rohkem kui kaks, arvutatakse kaugus järgmiselt: koordinaatide erinevuse ruutude summa koosneb nii paljudest liikmetest, kui palju on meie ruumis telgi (mõõtmeid). Näiteks kui meil on vaja leida kahe punkti vaheline kaugus kolmemõõtmelises ruumis (seda olukorda on kujutatud joonisel 13.2), saab valem (13.1) järgmise kuju:


Riis. 13.2.

Klastris on järgmised omadused matemaatilised omadused: keskpunkt, raadius, standardhälve, klastri suurus .

Klastri keskus on muutujate ruumi punktide geomeetriline keskmine.

Klastri raadius- punktide maksimaalne kaugus klastri keskpunktist.

Nagu ühes eelmises loengus märgitud, võivad klastrid kattuda. See olukord tekib siis, kui tuvastatakse klastri kattumine. Sel juhul on võimatu matemaatiliste protseduuride abil objekti üheselt kahest klastrist üheselt määrata. Selliseid objekte nimetatakse vastuolulisteks.

Vaidlustatud objekt on objekt, mille saab oma sarnasuse põhjal liigitada mitmesse klastrisse.

Klastri suurus saab määrata kas klastri raadius, või poolt standardhälve selle klastri objektid. Objekt kuulub klastrisse, kui kaugus objektist klastri keskpunktini on väiksem klastri raadius. Kui see tingimus on täidetud kahe või enama klastri puhul, on objekt vaieldav.

Selle probleemi ebaselguse saab lahendada ekspert või analüütik.

Klasteranalüüs töötab kahe eelduse põhjal. Esimene eeldus on, et vaadeldava objekti omadused võimaldavad põhimõtteliselt jagada objektide kogumi (kogumi) soovitud klastriteks. Loengu alguses mainisime juba skaalade võrreldavust, see on teine ​​eeldus - õige skaala või tunnuste mõõtühikute valik.

Skaala valik klasteranalüüsis on väga oluline. Vaatame näidet. Kujutagem ette, et andmestiku A tunnuse x andmed on kaks suurusjärku suuremad kui tunnuse y andmed: muutuja x väärtused on vahemikus 100 kuni 700 ja muutuja väärtused y on vahemikus 0 kuni 1.

Seejärel, kui arvutatakse punktide vaheline kaugus, mis peegeldab objektide asukohta nende omaduste ruumis,

Katsete käigus on võimalik võrrelda saadud tulemusi võttes arvesse eksperthinnangud ja ilma nendeta ning valides neist parima.

Klasteranalüüs

Enamik teadlasi kaldub uskuma, et esmakordselt kasutatakse terminit "klasteranalüüs" (inglise keeles) klaster- kimp, tromb, kimp) pakkus välja matemaatik R. Trion. Seejärel tekkis rida termineid, mida praegu peetakse mõiste “klastrianalüüs” sünonüümiks: automaatne klassifitseerimine; botrüoloogia.

Klasteranalüüs on mitme muutujaga statistiline protseduur, mis kogub andmeid, mis sisaldavad teavet objektide valimi kohta, ja paigutab seejärel objektid suhteliselt homogeensetesse rühmadesse (klastritesse) (Q-klasterdamine või Q-tehnika, klastrianalüüs ise). Klaster – elementide rühm, mida iseloomustab ühisvara, on klasteranalüüsi põhieesmärk leida proovist sarnaste objektide rühmad. Klasteranalüüsi rakendusala on väga lai: seda kasutatakse arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, avalikus halduses, filoloogias, antropoloogias, turunduses, sotsioloogias ja teistes distsipliinides. Rakenduse universaalsus on aga toonud kaasa suure hulga kokkusobimatute terminite, meetodite ja lähenemisviiside esilekerkimist, mis muudab klasteranalüüsi ühemõttelise kasutamise ja järjekindla tõlgendamise keeruliseks. Orlov A.I. soovitab eristada järgmist:

Eesmärgid ja tingimused

Klasteranalüüs teostab järgmist peamised eesmärgid:

  • Tüpoloogia või klassifikatsiooni väljatöötamine.
  • Objektide rühmitamiseks kasulike kontseptuaalsete skeemide uurimine.
  • Hüpoteeside genereerimine andmete uurimise põhjal.
  • Hüpoteesi testimine või uurimine, et teha kindlaks, kas ühel või teisel viisil tuvastatud tüübid (rühmad) on olemasolevates andmetes ka tegelikult olemas.

Olenemata uuritavast teemast hõlmab klasteranalüüsi kasutamine järgmised sammud:

  • Näidise valimine rühmitamiseks. See tähendab, et on mõttekas koondada ainult kvantitatiivseid andmeid.
  • Muutujate komplekti määramine, mille järgi valimi objekte hinnatakse, st tunnusruumi.
  • Objektide sarnasuse (või erinevuse) konkreetse mõõtme väärtuste arvutamine.
  • Klasteranalüüsi meetodi kasutamine sarnaste objektide rühmade loomiseks.
  • Kobarlahenduse tulemuste usaldusväärsuse kontrollimine.

Klasteranalüüs esitab järgmist andmenõuded:

  1. näitajad ei tohiks olla üksteisega korrelatsioonis;
  2. näitajad ei tohiks olla vastuolus mõõtmisteooriaga;
  3. indikaatorite jaotus peaks olema normaalsele lähedane;
  4. näitajad peavad vastama "stabiilsuse" nõudele, mis tähendab juhuslike tegurite mõju puudumist nende väärtustele;
  5. proov peab olema homogeenne ega tohi sisaldada kõrvalekaldeid.

Leiate andmete kahe põhinõude kirjelduse - homogeensus ja täielikkus:

Homogeensus eeldab, et kõik tabelis esitatud olemid oleksid ühesugused. Täielikkuse nõue on, et komplektid I Ja J esitas vaadeldava nähtuse ilmingute täieliku loetelu. Kui arvestada tabelit, milles I- kogusumma ja J- seda üldkogumit kirjeldav muutujate kogum, mis peab olema uuritava üldkogumi esinduslik valim ja tunnuste süsteem J peaks andma indiviidide rahuldava vektorpildi i uurija vaatenurgast.

Kui klasteranalüüsile eelneb faktoranalüüs, siis valimit pole vaja “parandada” – toodud nõuded täidab automaatselt faktori modelleerimise protseduur (on veel üks eelis - z-standardiseerimine ilma negatiivsed tagajärjed proovide võtmiseks; kui seda tehakse otse klasteranalüüsiks, võib see kaasa tuua rühmade jaotuse selguse vähenemise). Vastasel juhul tuleb proovi kohandada.

Klasterdamisprobleemide tüpoloogia

Sisestustüübid

IN kaasaegne teadus Sisendandmete töötlemiseks kasutatakse mitmeid algoritme. Analüüsiks objektide võrdlemise teel tunnuste alusel (bioloogiateadustes enim levinud) nimetatakse K-analüüsi tüüp ja tunnuste võrdlemise korral objektide põhjal - R- analüüsi tüüp. On püütud kasutada hübriidanalüüsitüüpe (näiteks RQ-analüüs), kuid seda metoodikat pole veel korralikult välja töötatud.

Klasterdamise eesmärgid

  • Andmete mõistmine klastri struktuuri tuvastamise kaudu. Valimi jagamine sarnaste objektide rühmadesse võimaldab lihtsustada edasist andmetöötlust ja otsuste tegemist, rakendades igale klastrile erinevat analüüsimeetodit (strateegia „jaga ja valluta”).
  • Andmete tihendamine. Kui algne valim on liiga suur, saate seda vähendada, jättes igast klastrist ühe tüüpilisema esindaja.
  • Uudsuse tuvastamine uudsuse tuvastamine). Tuvastatakse ebatüüpilised objektid, mida ei saa ühegi klastri külge kinnitada.

Esimesel juhul püütakse klastrite arvu väiksemaks muuta. Teisel juhul on olulisem tagada igas klastris olevate objektide suur sarnasus ja klastreid võib olla suvaline arv. Kolmandal juhul on kõige huvitavamad üksikud objektid, mis ei mahu ühtegi klastrisse.

Kõigil neil juhtudel saab kasutada hierarhilist klastrit, kui suured klastrid jagatakse väiksemateks, mis omakorda veel väiksemateks jne. Selliseid probleeme nimetatakse taksonoomiaprobleemideks. Taksonoomia tulemuseks on puutaoline hierarhiline struktuur. Sel juhul iseloomustab iga objekti kõigi klastrite loetlemine, kuhu see kuulub, tavaliselt suurtest kuni väikesteni.

Klasterdamismeetodid

Klasterdamismeetodite üldtunnustatud klassifikatsioon puudub, kuid V. S. Berikovi ja G. S. Lbovi kindlat katset võib märkida. Kui üldistada erinevaid klastrimeetodite klassifikatsioone, saame eristada mitmeid rühmi (mõned meetodid saab liigitada korraga mitmesse rühma ja seetõttu on soovitatav seda tüüpilisust käsitleda kui lähenemist klastrimeetodite tegelikule klassifikatsioonile):

  1. Tõenäosuslik lähenemine. Eeldatakse, et iga vaadeldav objekt kuulub ühte k klassist. Mõned autorid (näiteks A.I. Orlov) usuvad, et see rühm ei puuduta üldse klastrite moodustamist, ja on selle vastu nimetuse all "diskrimineerimine", st objektide määramine ühele teadaolevatest rühmadest (koolitusnäidised).
  2. Tehisintellektisüsteemidel põhinevad lähenemised. Väga tinglik rühm, kuna AI meetodeid on palju ja metoodiliselt on need väga erinevad.
  3. Loogiline lähenemine. Dendrogramm koostatakse otsustuspuu abil.
  4. Graafiteoreetiline lähenemine.
    • Graafiku klasterdamise algoritmid
  5. Hierarhiline lähenemine. Eeldatakse, et on olemas pesastatud rühmad (klastrid) erinev järjekord). Algoritmid jagunevad omakorda aglomeratiivseteks (ühendavateks) ja jagavateks (eraldavateks). Tunnuste arvu põhjal eristatakse mõnikord monoteetilisi ja polüteetilisi klassifitseerimismeetodeid.
    • Hierarhiline jaotusrühmitus ehk taksonoomia. Klastrite moodustamise probleeme käsitletakse kvantitatiivses taksonoomias.
  6. Muud meetodid. Ei kuulu eelmistesse gruppidesse.
    • Statistilised klasterdamisalgoritmid
    • Klastrite ansambel
    • KRAB perekonna algoritmid
    • Sõelumismeetodil põhinev algoritm
    • DBSCAN et al.

Lähenemisviisid 4 ja 5 on mõnikord kombineeritud struktuurse või geomeetrilise lähenemise nime all, millel on formaliseeritud läheduse mõiste. Vaatamata olulistele erinevustele loetletud meetodite vahel, tuginevad nad kõik originaalile " kompaktsuse hüpotees": objektiruumis peavad kõik lähedased objektid kuuluma samasse klastrisse ja kõik erinevad objektid peavad vastavalt asuma erinevates klastrites.

Klasterdamisprobleemi formaalne sõnastus

Laskma olema objektide kogum ja laskma olla klastrite arvude (nimede, siltide) kogum. Objektide vaheline kaugusfunktsioon on määratud. Objektide koolitusnäidis on piiratud. Valim on vaja jaotada mitteühendatud alamhulkadeks, mida nimetatakse klastrid, nii et iga klaster koosneb objektidest, mis on meetriliselt sarnased, ja erinevate klastrite objektid on oluliselt erinevad. Sel juhul määratakse igale objektile klastri number.

Klasterdamisalgoritm on funktsioon, mis määrab mis tahes objektile klastri numbri. Mõnel juhul on komplekt ette teada, kuid sagedamini on ülesandeks määrata optimaalne klastrite arv, ühe või teise seisukohast. kvaliteedikriteeriumid rühmitamine.

Klasterdamine (supervised learning) erineb klassifitseerimisest (supervised learning) selle poolest, et algsete objektide silte pole esialgu täpsustatud ja kogum ise võib olla isegi tundmatu.

Klasterdamisprobleemi lahendus on põhimõtteliselt mitmetähenduslik ja sellel on mitu põhjust (nagu paljud autorid usuvad):

  • Klastrite kvaliteedi jaoks pole selget parimat kriteeriumi. Tuntud on mitmeid heuristlikke kriteeriume, aga ka mitmeid algoritme, millel pole selgelt määratletud kriteeriumi, kuid mis teostavad üsna mõistlikku klasterdamist “konstruktsiooni järgi”. Kõik need võivad anda erinevaid tulemusi. Seetõttu on klastri kvaliteedi määramiseks vajalik domeeniekspert, kes oskab hinnata klastri valiku mõttekust.
  • klastrite arv on tavaliselt ette teadmata ja määratakse vastavalt mõnele subjektiivsele kriteeriumile. See kehtib ainult diskrimineerimismeetodite kohta, kuna klastrite puhul tuvastatakse klastrid lähedusmeetmetel põhineva formaliseeritud lähenemisviisi kaudu.
  • klasterdamise tulemus sõltub oluliselt mõõdikust, mille valik on reeglina samuti subjektiivne ja eksperdi poolt määratud. Kuid väärib märkimist, et erinevate ülesannete jaoks lähedusmeetmete valimiseks on mitmeid soovitusi.

Rakendus

Bioloogias

Bioloogias on klastrite loomisel palju rakendusi väga erinevates valdkondades. Näiteks bioinformaatikas kasutatakse seda interakteeruvate geenide keeruliste võrgustike analüüsimiseks, mis mõnikord koosnevad sadadest või isegi tuhandetest elementidest. Klasteranalüüs võimaldab tuvastada uuritava süsteemi alamvõrke, kitsaskohti, sõlmpunkte ja muid peidetud omadusi, mis lõpuks võimaldab välja selgitada iga geeni panuse uuritava nähtuse kujunemisse.

Ökoloogia valdkonnas kasutatakse seda laialdaselt ruumiliselt homogeensete organismirühmade, koosluste jms tuvastamiseks. Harvem kasutatakse koosluste uurimiseks aja jooksul klasteranalüüsi meetodeid. Kogukonna struktuuri heterogeensus toob kaasa mittetriviaalsete klasteranalüüsi meetodite (näiteks Tšekanovski meetod) tekkimise.

Üldiselt väärib märkimist, et ajalooliselt kasutatakse bioloogias läheduse mõõtjatena sageli pigem sarnasuse kui erinevuse (kauguse) mõõte.

Sotsioloogias

Sotsioloogiliste uuringute tulemuste analüüsimisel on soovitatav analüüs läbi viia hierarhilise aglomeratiivse perekonna meetoditega, nimelt Wardi meetodiga, mille puhul optimeeritakse klastrite sees minimaalne dispersioon, luues kokkuvõttes ligikaudu võrdse suurusega klastreid. Wardi meetod sobib kõige paremini sotsioloogiliste andmete analüüsimiseks. Parem erinevuse mõõt on eukleidiline ruutkaugus, mis aitab suurendada klastrite kontrasti. Hierarhilise klasteranalüüsi põhitulemus on dendrogramm ehk “jääpurikadiagramm”. Selle tõlgendamisel seisavad teadlased silmitsi sama probleemiga kui tulemuste tõlgendamisel faktoranalüüs- klastrite tuvastamise üheselt mõistetavate kriteeriumide puudumine. Soovitatav on kasutada kahte põhimeetodit - dendrogrammi visuaalne analüüs ja erinevate meetoditega teostatud klasterdamistulemuste võrdlemine.

Dendrogrammi visuaalne analüüs hõlmab puu "kärpimist" proovi elementide optimaalsel sarnasuse tasemel. Soovitatav on "lõigata viinamarja oks" (M. S. Oldenderferi ja R. K. Blashfieldi terminoloogia) Rescaled Distance Cluster Combine'i skaala 5. tasemel, nii saavutatakse 80% sarnasus. Kui selle sildi abil klastrite tuvastamine on keeruline (mitu väikest klastrit ühinevad üheks suureks), saate valida mõne muu sildi. Seda tehnikat pakkusid välja Oldenderfer ja Blashfield.

Nüüd kerkib küsimus vastuvõetud kobarlahenduse jätkusuutlikkuse kohta. Sisuliselt taandub klastri stabiilsuse kontrollimine selle töökindluse kontrollimisele. Siin kehtib rusikareegel – klasterdamismeetodite muutumisel säilib stabiilne tüpoloogia. Hierarhilise klasteranalüüsi tulemusi saab kontrollida iteratiivse klasteranalüüsiga, kasutades k-means meetodit. Kui vastajate gruppide võrreldavates klassifikatsioonides on kokkulangevus üle 70% (üle 2/3 vastetest), siis tehakse klasterotsus.

Lahenduse adekvaatsust on võimatu kontrollida ilma teist tüüpi analüüsi kasutamata. Vähemalt teoreetiliselt pole see probleem lahendatud. Oldenderferi ja Blashfieldi klassikaline artikkel Cluster Analysis käsitleb üksikasjalikult ja lükkab lõpuks tagasi veel viis töökindluse testimise meetodit:

Arvutiteaduses

  • Otsingutulemuste rühmitamine – kasutatakse tulemuste „intelligentseks” rühmitamiseks failide, veebisaitide ja muude objektide otsimisel, mis annab kasutajale võimaluse kiiresti navigeerida, valida ilmselgelt asjakohasema alamhulga ja välistada ilmselgelt vähem asjakohase alamhulga. suurendada liidese kasutatavust võrreldes väljundiga lihtsa nimekirja kujul, mis on sorteeritud asjakohasuse järgi.
    • Clusty on Vivísimo rühmitusotsingumootor
    • Nigma - vene otsingumootor tulemuste automaatse rühmitamisega
    • Quintura – visuaalne klasterdamine märksõnapilve kujul
  • Pildi segmenteerimine pildi segmenteerimine) - Klasterdamist saab kasutada digitaalkujutise jagamiseks servade tuvastamise eesmärgil eraldi piirkondadeks. serva tuvastamine) või objekti tuvastamine.
  • Andmete kaevandamine andmete kaevandamine)- Andmekaevanduses klasterdamine muutub väärtuslikuks, kui see toimib andmete analüüsimise ja tervikliku analüütilise lahenduse koostamise ühe etapina. Sageli on analüütikul lihtsam tuvastada sarnaste objektide rühmi, uurida nende omadusi ja koostada iga rühma jaoks eraldi mudel, kui luua kõigi andmete jaoks üks üldmudel. Seda tehnikat kasutatakse pidevalt turunduses, tuvastades kliendigruppe, ostjaid, tooteid ja töötades välja igaühe jaoks eraldi strateegia.

Vaata ka

Märkmed

Lingid

Vene keeles
  • www.MachineLearning.ru – professionaalne masinõppele ja andmekaevandamisele pühendatud vikiressurss
Inglise keeles
  • COMPACT – võrdlev pakett klastrite hindamiseks. Tasuta Matlabi pakett, 2006.
  • P. Berkhin, Klasterdamise andmekaevandamise tehnikate uuring, Accrue Software, 2002.
  • Jain, Murty ja Flynn: Andmete rühmitamine: ülevaade,ACM komp. Surv., 1999.
  • hierarhiliste, k-keskmiste ja häguste c-keskmiste esitluse kohta vaata seda klastrite sissejuhatust. Samuti on selgitus Gaussi segude kohta.
  • David Dowe, Segude modelleerimise leht- muud klastrite ja segumudelite lingid.
  • rühmitamise õpetus
  • Veebiõpik: Infoteooria, järeldused ja õppimisalgoritmid, David J.C. MacKay sisaldab peatükke k-keskmiste klastrite, pehmete k-keskmiste klastrite ja tuletuste kohta, sealhulgas E-M algoritm ja E-M algoritmi varieeruv vaade.
  • „Iseorganiseerunud geen”, õpetus, mis selgitab rühmitamist võistlusõppe ja iseorganiseeruvate kaartide kaudu.
  • kernlab – R-pakett kernelipõhiseks masinõppeks (sisaldab spektraalklastri rakendamist)
  • Õpetus – rühmitusalgoritmide (k-keskmised, fuzzy-c-keskmised, hierarhiline, Gaussi segu) tutvustus + mõned interaktiivsed demod (Java apletid)
  • Andmekaevandamise tarkvara – andmekaevandamise tarkvara kasutab sageli klastrite moodustamise tehnikaid.
  • Java konkurentsivõimeline õpperakendus Järelevalveta närvivõrkude komplekt rühmitamiseks. Java keeles kirjutatud. Komplektis kogu lähtekoodiga.
  • Masinõppetarkvara – sisaldab ka palju klastritarkvara.
Seotud väljaanded