Strojové učenie za farecastom

Predpovedanie čiernej skrinky letových cien

Pred niekoľkými rokmi som narazil na tento výskumný dokument s názvom „Nákup alebo nekupovanie: údaje o ťažbe leteckého nákladu s cieľom minimalizovať kúpnu cenu letenky“, keď som pracoval na UCL na projekte, ktorý skúmal, ako pomôcť ľuďom lepšie sa orientovať v mestách pomocou dát. Práve som od Transport for London dostal veľkú dátovú sadu transakcií s kartami Oyster. Tento dokument, ktorý sa zameriava na odporúčanie, či si kúpiť letenku, nás inšpiroval k použitiu podobného konceptu, ktorý ľuďom pomáha pri rozhodovaní, akú cestovnú kartu kúpiť, s odporúčacím systémom, ktorý by sa poučil z ich cestovných vzorcov. Tento výskum vyústil do tohto dokumentu „Údaje o mobilite v ťažbe s cieľom minimalizovať výdavky cestujúcich na verejnú dopravu“ a tento spravodajský príbeh BBC.

Znovu som upravil dátový papier o leteckých službách pre čitateľskú skupinu Skyscanner - stretávali sme sa, aby sme prediskutovali výskumné dokumenty, ktoré riešia podobné problémy ako tie, ktorým čelíme v službe Skyscanner. Rovnako ako posledný príspevok, aj tu uvádzame stručný netechnický prehľad toho, o čom sme diskutovali.

Vyrobenie produktu z predikcie ceny

Letové ceny sa notoricky zmenili: som si istý, že väčšina z nás sa na let pozrela, chvíľu o tom premýšľala a potom sa k nej vrátila, aby zistila, že jej cena stúpla (alebo, ak šťastie, dole).

Ako autori tohto článku vysvetľujú, zdá sa, že súčasťou predpovedania letovej ceny je dekódovanie skrytého rozhodovacieho mechanizmu, ktorý dopravcovia používajú na určovanie svojich vlastných cien: možno, že súčasná cena trasy je založená na dostupných miestach, na požiadanie, na cenách konkurencie, v ročnom období alebo v množstve ďalších faktorov. Vzhľadom na to, že existuje mnoho rôznych dôvodov, prečo sa môžu letové ceny meniť (a nemusíme mať nevyhnutne prístup ku všetkým údajom, ktoré poskytovatelia používajú na stanovenie cien), mohli by sme niekedy primerane vyvinúť prostriedky na predpovedanie letových cien?

Tento scenár je taký, kde strojové učenie môže prísť k záchrane. Na základe jediného predpokladu, že medzi historickými a budúcimi cenami trás bude určitá podobnosť, autori vytvoria model založený iba na údajoch, ktoré majú na webe k dispozícii: trasa (napr. Seattle-Washington), dni do odchod (napr. 10) a historické ceny. Tento model sa pokúša odpovedať na otázku: mal by som si vzhľadom na trasu, dátum odletu a aktuálnu cenu kúpiť lístok, alebo počkať?

Autori hodia na tento problém množstvo dobre známych metód strojového učenia, ako je napríklad posilňovanie učenia a predpovedanie časových radov, a kombinovaný model, ktorý (bez prekvapenia) sa ukazuje byť najpresnejším. Papier sa však zdržuje na niekoľkých frontoch: poskytuje nám iba výsledky pre malú skupinu ručne vybraných trás, zvažujte iba 21 dní pred dátumom odchodu (čo znamená, že 75% ich používateľov by nebolo schopný dosiahnuť akékoľvek lacnejšie možnosti) a nezohľadňuje žiadne dlhodobé účinky, ako je sezónnosť (aby bolo spravodlivé, že to bolo pred obdobím veľkých údajov, preto pre nich bola dôležitá škálovateľnosť).

Napriek tomu existuje v tomto dokumente niekoľko dôležitých opatrení:

  1. Presnosť predpovede
  2. Predpovedanie nie je to isté ako informovanie. Posledné oznámenia spoločnosti Google ukazujú, že vo svojom vyhľadávaní letov implementovali niečo podobné. Informujú však používateľov na základe historických trendov („toto cestovné sa pravdepodobne zvýši“ a nie „predpokladáme, že toto cestovné bude x“).
  3. Časovo usporiadané údaje neznamenajú problém časových radov. Keďže údaje sú usporiadané podľa času, jedným z „prirodzených“ prístupov, ktoré sa mali vyskúšať, bol model, ktorý predpovedá, či cena vzrastie alebo zostane na základe jej nedávneho správania. Autori však zistili, že letové ceny majú tendenciu skákať - buď nahor alebo nadol -, a preto predpovedanie ďalšej ceny na základe toho, čo sa stalo za posledných niekoľko hodín, bolo jedným z najhorších prístupov.

Autori tohto článku neskôr založili spoločnosť Farecast, ktorú spoločnosť Microsoft nakoniec získala. Bing nakoniec upustil od predikčnej funkcie Farecastu, ale iné meta-vyhľadávače vyvinuli podobné produkty; Kajak má nástroj na predpovedanie cien už viac ako 3 roky (pozri svoj príspevok na blogu o tejto funkcii) a spoločnosť Google práve spustila nástroj na predpovedanie cien vo svojom nedávnom blogovom príspevku.

záver

Ak vás zaujíma technická stránka tejto práce, prečítajte si noviny, spojte sa s nami na Twitteri alebo sledujte ma na médiu - ďalšie súhrny skupín čítania sú na ceste!