TSM - ako; chápeme recenzie zákazníkov hotelov
Michael Matuschek - vedúci tímu Data Science @ TrustYou
Predstavte si, že chcete cestovať na rajské dovolenkové miesto a chcete sa ubezpečiť, že hotel, ktorý si vyberiete, ponúka bezpečný detský bazén, dobré raňajky a čisté izby, a to aj napriek nízkej cene na webe. výhrady. Možno ste našli niektoré recenzie, ktoré sú dobré alebo zlé, ale možno niektoré z nich neboli veľmi užitočné alebo nesúviseli s tým, čo vás zaujíma. Určite nemáte čas prejsť si 100 najlepších recenzií, len aby ste zistili, či to, čo ste našli, sú nešťastné výnimky alebo úskalia marketingového portálu.

Nebolo by skvelé, keby vám niekto urobil súhrn toho, čo si zákazníci myslia, namiesto toho, aby sám robil celý prieskum? Nemali by manažéri hotelov chcieť vedieť, čo väčšina zákazníkov oceňuje v porovnaní s inými miestami? Čo robí zákazníkov nešťastnými?
V TrustYou ponúkame presne tento typ informácií, ako službu pre hotely alebo hotelové reťazce. Zhromažďujeme všetky recenzie zákazníkov od stotisíc hotelov po celom svete ako terabajty dát, potom ich analyzujeme a automaticky hodnotíme, aby sme zistili, čo je na každom hoteli dobré a špeciálne, a umožňujeme hotelierom vedieť, čo môžu zlepšiť, aby poskytli lepšie svojich zákazníkov.
Naše vývojové tímy v Mníchove, Kluži a Madride sú zodpovedné za rôzne aspekty spracovania údajov a implementujú webové nástroje, vďaka ktorým majú hotelieri prístup a pochopenie výkonnosti svojho hotela.
Plazenie - zisťujeme, čo píšu zákazníci
Celý proces sa začína na internete. Tam píšete názory na rezervačné portály, stránky so špecializovanými recenziami, sociálne médiá, stránky hotelov a oveľa viac.
Všetky tieto zdroje majú rôznu úroveň dôvery. Pokiaľ ide o sociálne médiá, každý môže zverejniť takmer všetko. Hotelové stránky majú zvyčajne moderátorov, ktorí sa zameriavajú na čistý jazyk a dobrú prezentáciu. Kontrolné weby môžu alebo nemusia odhaliť podvodné recenzie vydané škodlivým hotelom vašich susedov a môžu tak urobiť v rôznej miere úsilia a úspechu. Na druhej strane môžu rezervačné portály celkom jasne určiť, či si recenzent skutočne rezervoval izbu, ale tieto portály sú obmedzené na skutočných používateľov a ich obchodné záujmy predávať čo najviac nocí ovplyvňujú spôsob filtrovania. a predstavuje svoje recenzie.
Napriek týmto veciam všetky tieto zdroje poskytujú logické prvky potrebné na pochopenie celej škály názorov, ktoré majú ľudia na miesto, kde strávili svoju dovolenku alebo pracovný pobyt. Ľudia dávajú prednosť rôznym miestam, kde nechajú svoje názory, a to z dôvodov, ktoré sa líšia od osobných preferencií, motivácie, ktorú dostanú po ukončení pobytu od určitého portálu, pred technickým zázemím potrebným na pochopenie a použitie prostredia s pravda. Iba komplexný obraz, ktorý zohľadňuje všetky zdroje, môže viesť k holistickému porozumeniu výkonnosti a špecifickosti konkrétneho hotela.
Niekto by mohol povedať, že v dnešnej dobe je problém s plazením. Pretože väčšina webových stránok vynakladá obrovské úsilie na to, aby bol ich obsah ľahko prístupný na stránkach Google, existuje dojem, že prehľadávanie by nemalo byť ťažké. Ale nie každý je Google. Portály rezervácií a skupiny hotelov majú všetky dôvody zdieľať svoje údaje so spoločnosťami, ako je TrustYou, ale iné webové stránky sú pri pokusoch o prehľadávanie oveľa domýšľavejšie. Preto je prehľadávanie obsahu obrovským manévrovacím priestorom pre partnerské obchodné podniky, ktoré zdieľajú svoje údaje prostredníctvom špecializovaných, štruktúrovaných webových rozhraní API a ľubovoľných webových stránok, ktoré obmedzujú prístup prehľadávača HTML.
Pokiaľ ide o analýzu stránok HTML, nie všetky webové stránky uľahčujú extrakciu obsahu. Niektoré veľmi dobre poskytujú sémantické metadáta a značky, čo umožňuje ľahký prístup k záujmovému obsahu. Ostatné sú úplným chaosom v HTML, ktorého štruktúra sa neustále mení v dôsledku A/B testov zameraných na používateľov.
Všetky tieto problémy si vyžadujú použitie veľkej farmy prehľadávačov na zvládnutie veľkého množstva zdrojov a obmedzení. Potrebujeme rýchly a robustný nástroj na analýzu HTML, ktorý umožňuje ľahké rýchle definovanie a prispôsobenie pravidiel extrakcie, a dôkladný proces čistenia a deduplikácie, ktorý zachytáva drobné, ale časté variácie prezentácie rovnakej recenzie na rôznych miestach v priebehu času. Programovací jazyk Python a sada nástrojov lxml nám pomohli držať krok s touto neustále sa meniacou oblasťou požiadaviek/špecifikácií. Dennou návštevou miliónov webových stránok môžeme týždenne zhromažďovať stály milión nových recenzií.
Sémantická analýza - rozumieme názorom
Po extrahovaní a vyčistení sú recenzie spracované naším Semantic Analysis Engine, ktorý je celý napísaný v Pythone a je založený na bezplatnej knižnici NLTK (Natural Language Toolkit). Pracovná záťaž je distribuovaná na klastri Hadoop so stovkami uzlov, ktoré vyhovujú našim potrebám spracovania.
Základným cieľom je vykonať analýzu pocitov, a to nielen na úrovni dokumentu (aby bolo možné rozhodnúť, či je hodnotenie negatívne alebo pozitívne), ale aj na úrovni objektu. Preto nemôžeme iba skenovať výrazy, ktoré označujú pocity, ako napríklad „dobré“ alebo „zlé“, a kvantifikovať ich. Naopak, snažíme sa identifikovať subjekty záujmu, o ktorých ľudia píšu v recenziách (izby, postele, raňajky, služby atď.), A identifikovať slová alebo výrazy súvisiace s týmito objektmi, ktoré odkazujú na pocity. Jednoduchým príkladom by bolo „[miestnosť] bola veľmi [čistá]“, čo vedie k pozitívnej asociácii, ale vety a výrazy môžu byť v závislosti od kontextu ľubovoľne zložité alebo nejednoznačné. Napríklad „[izba] [malá]“ je negatívny komentár, ale „[cena] [malá] nie je - preto pre maximálnu presnosť používame starostlivo vybrané prirodzené gramatiky, hierarchicky usporiadané gramatiky a lexikálne zameraný štýl a terminológiu recenzie hotelov.
Môžeme teda pokryť viac ako 20 jazykov, pričom väčšina dosahuje presnosť viac ako 90%. Môžeme tak vytvoriť správny a podrobný obraz o príjemných a nepríjemných aspektoch týkajúcich sa určitého miesta, zvládajúci súčasne vydávať všeobecné hodnotové úsudky podaním správy hierarchii. Napríklad, ak sa ľudia sťažujú, že v sprche sú vlasy, môžeme vložiť, že nastal problém s čistotou miestnosti. Vďaka tejto vysokej miere presnosti a pokrytia ponúkame neoceniteľné služby hotelovým manažérom, ktorí chcú rýchlo vedieť, čo sa deje a čo je potrebné zmeniť, aby sa zlepšila spokojnosť zákazníkov.
Klasifikácia hotela
Okrem viac či menej pozitívnych aspektov hotela, ako sú veľkosť a čistota izby, sú charakteristické vlastnosti hotela, ktoré by mohli zaujímať iba niektorých cestujúcich. Povedzme napríklad, že chcete stráviť romantický víkend so svojím partnerom - budete chcieť hľadať iný hotel, ako by hľadala rodina s malými deťmi. Niektorí z vás by prípadne chceli vyhľadať konkrétnu vlastnosť hotela, napríklad kasíno, wellness centrum alebo výhľad na jazero.
Aby sme cestujúcim pomohli pri rozhodovaní, ponúkame každému hotelu odznaky zásluh, ktoré na základe hodnotení zákazníkov označujú hotely s najlepšími wellness službami, najromantickejšími a najvhodnejšími pre rodiny s deťmi. Aby sme to dosiahli, prvou otázkou, ktorú si musíme zodpovedať, je, či je alebo nie je hotel určitého typu, tj. Musíme klasifikovať hotely.
Klasifikácia je základným problémom strojového učenia. Algoritmy strojového učenia sa však dajú aplikovať na úrovni číselných vektorov, zatiaľ čo sa zaoberáme textom (obsahom recenzií hotelov). Ako môžeme reprezentovať text vo forme numerického vektora?
Existuje niekoľko prístupov, každý s výhodami a obmedzeniami. Jednoduchým, ale veľmi efektívnym prístupom je TF-IDF, skratka pre Term Frequency - Inverse Document Frequency. Skóre TF-IDF výrazu v dokumente je hodnota, ktorá označuje, ako „dôležitý“ je výraz pre konkrétny dokument v porovnaní so zbierkou iných dokumentov (alebo korpusov). Napríklad ak je náš korpus súborom recenzií hotelov, môžeme očakávať, že slová ako „izba“ alebo „recepcia“ budú mať v korpuse vysokú frekvenciu. Ale ak sa slová „kasíno“ alebo „čipové automaty“ objavia s neočakávane vysokou frekvenciou pre určitý hotel (ale nie pre iné), môžeme sa o hoteli dozvedieť dôležité veci.
Ďalšími metódami používanými na reprezentáciu textu prostredníctvom vektorov sú takzvané vloženia word2vec. Základnou myšlienkou je zohľadniť kontext, v ktorom sa slovo vyskytuje, pričom „kontextom“ sa rozumie prvok v dokumente, ktorý je bezprostredne pred alebo za slovom. Synonymá ako „inteligentný“ alebo „inteligentný“ sa objavia v podobných kontextoch (napríklad za nimi nasledujú slová ako „osoba“, „chlapec“ alebo „dievča“). Vektory, ktoré sú výsledkom vloženia word2vec, sú si navzájom blízke, keď sa objavujú v podobných kontextoch, a môžu zachytiť vzťah medzi pojmami: synonymá, antonymá alebo analógie. Typickým príkladom je rovnica „kráľ“ - „muž“ + „žena“ = „kráľovná“.
Meta recenzie - extrahujeme podstatu
Účelom všetkých týchto krokov je poskytnúť zákazníkom rýchly, presný a výstižný prehľad o hoteli. Extrahujeme podstatu toho, čo sa nazýva Meta Review (Meta Review), súhrn recenzií, ale nielen to.
Zo sémantickej analýzy hodnotení dostávame nielen najčastejšie sťažnosti a pochvaly, ktoré zákazníci v súvislosti s hotelom robia, ale aj zaujímavé detaily, ktoré vynikajú. Na základe tohto štatistického prístupu vytvára náš generátor prirodzeného jazyka (NLG) plynulý a ľahko čitateľný text, ktorý je najdôležitejšou vlastnosťou všetkých recenzií, ktoré sme kontrolovali - skutočná „meta“ recenzia. Navyše, keďže vytvárame neextrakčné zhrnutie zastúpenia typu vedomostí/porozumenia, ktoré sú nezávislé od jazyka (tj. Nepoužívame vety zo skutočných recenzií priamo), NLG sa pri zhromažďovaní ľahko prispôsobí rôznym prirodzeným jazykom výstupu. recenzie zo všetkých recenzií vo všetkých jazykoch, ktoré sémanticky analyzujeme. Inými slovami, aj keď idete do hotela, ktorý má recenzie iba v japončine, môžete využiť meta preskúmanie v angličtine, španielčine alebo iných jazykoch, aby ste zistili, či miestni obyvatelia považujú hotel za dobrý.
Od údajov k vedomostiam
Keď sa prvotné textové údaje spracujú do štruktúrovaných informácií, dá sa s nimi urobiť veľa. Hotely môžu napríklad použiť tieto informácie na to, aby podrobne porozumeli svojmu výkonu a podnikli kroky v prípade sťažností zákazníkov, či už ide o neprívetivých zamestnancov recepcie, neupravené bazény alebo nedostatok toaletného papiera v izbách. Pozitívne je, že hotelieri vedia pochopiť, čo ich robí špeciálnymi v porovnaní s inými hotelmi, takže sa môžu sústrediť na najrelevantnejší segment zákazníkov.
Na druhej strane môžu rezervačné weby použiť informácie, ktoré poskytujeme, na overenie a zlepšenie prezentácie hotela, aby sa odporúčania a špeciálne ponuky ľahšie dostali k záujemcom.