Maskinen lærer bak farecast

Å spå den svarte boksen med flypriser

For flere år siden møtte jeg på dette forskningsoppgaven “Å kjøpe eller ikke kjøpe: Mining av flybillettdata for å minimere billettkjøpspris”, da jeg jobbet på UCL med et prosjekt som undersøkte hvordan de kunne hjelpe folk med å navigere i byer bedre ved å bruke data. Jeg hadde nettopp mottatt et stort datasett med Oyster-korttransaksjoner fra Transport for London. Denne artikkelen, som ser på å anbefale om de skal kjøpe en flybillett, inspirerte oss til å bruke et lignende konsept for å hjelpe folk med å bestemme hvilket reisekort de skal kjøpe, med et anbefalingssystem som ville lære av reisemønstrene deres. Denne forskningen resulterte i denne artikkelen "Mining Mobility Data to Minimize Travellers 'spend on Public Transport" og denne nyhetshistorien fra BBC.

Jeg slo opp datapapiret for Skyscanner lesegruppe - vi har møtt for å diskutere forskningsartikler som takler lignende problemer som de vi møter i Skyscanner. Akkurat som forrige innlegg, her er en kort, ikke-teknisk oversikt over det vi diskuterte.

Å lage et produkt ut fra prisforutsigelse

Flyprisene kan notorisk endres: Jeg er sikker på at de fleste av oss har sett på en flytur, tenkt på det en stund og så kommet tilbake til den bare for å finne at prisen hadde skutt opp (eller, hvis vi ' er heldig, ned).

Som forfatterne av denne artikkelen forklarer, synes en del av å forutsi en flypris å handle om å avkode den skjulte beslutningsmotoren som transportører bruker for å sette sine egne priser: kanskje en gjeldende rutes pris er basert på tilgjengelige seter, på forespørsel, på konkurrentens priser, på tiden av året, eller en rekke andre faktorer. Med tanke på at det er så mange forskjellige grunner til at flypriser kan endre seg (og vi ikke nødvendigvis har tilgang til alle dataene som leverandørene bruker for å sette priser), kan vi noen gang med rimelighet utvikle noen midler til å forutsi flypriser?

Dette scenariet er en hvor maskinlæring kan komme til unnsetning. Ved å bruke den eneste antakelsen om at det vil være en viss likhet mellom historiske og fremtidige rutepriser, lager forfatterne en modell basert bare på data som er lett tilgjengelig for dem på nettet: ruten (f.eks. Seattle-Washington), dagene frem til avgang (f.eks. 10), og de historiske prisene. Denne modellen prøver å svare på spørsmålet: gitt en rute, en avreisedato og gjeldende pris, skal jeg kjøpe billetten, eller skal jeg vente?

Forfatterne kaster en rekke kjente metoder for maskinlæring på problemet, for eksempel forsterkningslæring og tidsserieprognoser, og en kombinert modell som (til ingen overraskelse) viser seg å være den mest nøyaktige. Papiret holder imidlertid igjen på en rekke fronter: det gir oss bare resultater for et lite sett med håndvalgte ruter, bare vurder opp til 21 dager før en avreisedato (noe som betyr at 75% av brukerne ikke ville være i stand til å oppnå billigere alternativer), og vurderer ikke langsiktige effekter som sesongmessighet (for å være rettferdig var det før big data-æraen, derfor var skalerbarhet et problem for dem).

Likevel er det en rekke viktige take-aways i denne artikkelen:

  1. Prediksjonsnøyaktighet
  2. Å spå er ikke det samme som å informere. De nylige kunngjøringene fra Google viser at de har implementert noe slikt i sitt flysøk. Imidlertid informerer de brukere basert på historiske trender ("denne prisen vil sannsynligvis øke" i stedet for "vi spår at prisen vil være x").
  3. Tidsbestilte data betyr ikke et tidsserieproblem. Siden dataene er bestilt etter tid, var en av de 'naturlige' tilnærmingene til å prøve en modell som spår om en pris vil gå opp eller ned basert på den nylige oppførselen. Forfatterne fant imidlertid ut at flyprisene har en tendens til å hoppe - enten opp eller ned - og så å forutsi neste pris basert på hva som har skjedd de siste timene, var en av de dårligste ytelsene.

Forfatterne av denne artikkelen grunnla senere Farecast, som etter hvert ble anskaffet av Microsoft. Bing droppet til slutt Farecastens prediksjonsfunksjon, men andre metasøkemotorer har utviklet lignende produkter; Kajakk har hatt et prisvarslingsverktøy i mer enn tre år (se blogginnlegget deres om kunngjøring av funksjonen), og Google har nettopp lansert et prediksjonsverktøy i det siste blogginnlegget deres.

Konklusjon

Hvis du er interessert i den tekniske siden av dette arbeidet, sjekk ut papiret, ta kontakt på twitter, eller følg meg på Medium - flere lesegruppeoppsummeringer er på vei!