Învățarea mașinii în spatele difuzării

Prezicând caseta neagră a prețurilor zborurilor

Cu câțiva ani în urmă, am intrat în această lucrare de cercetare „Pentru a cumpăra sau a nu cumpăra: datele aeriene miniere pentru a minimiza prețul de achiziție a biletelor”, când lucram la UCL la un proiect care cerceta cum să ajute oamenii să navigheze mai bine în orașe folosind date. Tocmai primisem un set mare de date despre tranzacțiile cu carduri Oyster de la Transport for London. Această lucrare, care privește recomandarea de a cumpăra un bilet de avion, ne-a inspirat să aplicăm un concept similar pentru a ajuta oamenii să decidă ce carte de călătorie să cumpere, cu un sistem de recomandare care ar învăța din modelele de călătorie. Cercetarea a rezultat în această lucrare „Date privind mobilitatea minieră pentru a minimiza cheltuielile călătorilor în transportul public” și în această știre BBC.

Am reînfășurat hârtia de date privind transportul aerian pentru grupul de lectură Skyscanner - ne-am întâlnit pentru a discuta lucrări de cercetare care abordează probleme similare cu cele cu care ne confruntăm în Skyscanner. La fel ca și ultima postare, iată o scurtă privire de ansamblu, non-tehnică a ceea ce am discutat.

Realizarea unui produs din previziune de preț

Prețurile zborurilor sunt în mod notoriu supuse unor modificări: sunt sigur că majoritatea dintre noi ne-am uitat la un zbor, ne-am gândit la el pentru o vreme și apoi ne-am întors la el doar pentru a afla că prețul său a crescut (sau, dacă, ești norocos, jos).

După cum explică autorii acestei lucrări, o parte din prezicerea unui preț de zbor pare să fie despre decodarea motorului de decizie ascuns pe care transportatorii îl utilizează pentru a stabili propriile prețuri: poate prețul unei rute curente se bazează pe locuri disponibile, la cerere, pe prețurile concurentului, pe perioada anului sau o multitudine de alți factori. Având în vedere că există atât de multe motive diferite pentru care prețurile zborurilor se pot modifica (și nu avem neapărat acces la toate datele pe care furnizorii le utilizează pentru a stabili prețurile), am putea vreodată să dezvoltăm în mod rezonabil vreun mijloc de a prezice prețurile zborurilor?

Acest scenariu este unul în care învățarea automată poate veni la salvare. Folosind singura presupunere că va exista o oarecare similitudine între prețurile rutelor istorice și cele viitoare, autorii creează un model bazat doar pe date care le sunt ușor disponibile pe web: ruta (de exemplu, Seattle-Washington), zilele până la plecare (de exemplu, 10) și prețurile istorice. Acest model încearcă să răspundă la întrebarea: dat fiind un traseu, o dată de plecare și prețul curent, ar trebui să cumpăr biletul sau trebuie să aștept?

Autorii aruncă la problemă o serie de metode de învățare automată cunoscute, cum ar fi învățarea de armare și previziunea seriilor de timp, precum și un model combinat care (fără surprindere), se dovedește a fi cel mai precis. Totuși, hârtia reține mai multe fronturi: ne oferă rezultate doar pentru un set mic de rute selectate manual, luând în considerare doar cu 21 de zile înainte de o dată de plecare (ceea ce înseamnă că 75% dintre utilizatorii lor nu ar fi capabil să obțină opțiuni mai ieftine) și nu ia în considerare niciun efect pe termen lung, cum ar fi sezonul (pentru a fi corect, a fost înaintea erei datelor mari, deci scalabilitatea a fost o problemă pentru ei).

Chiar și așa, există o serie de preluări-cheie în această lucrare:

  1. Precizia predicției
  2. Predicția nu este aceeași cu informarea. Anunțurile recente de la Google arată că au implementat ceva de genul acesta în căutarea lor de zboruri. Cu toate acestea, aceștia informează utilizatorii în funcție de tendințele istorice („acest tarif este probabil să crească”, mai degrabă decât „prezicem că acest tarif va fi x”).
  3. Datele ordonate în timp nu înseamnă o problemă a seriei de timp. Deoarece datele sunt ordonate în timp, una dintre abordările „naturale” pentru a încerca a fost un model care prezice dacă un preț va crește sau va scădea în funcție de comportamentul său recent. Cu toate acestea, autorii au descoperit că prețurile zborurilor tind să crească - fie în sus, fie în jos - și, astfel, prezicerea următorului preț pe baza a ceea ce s-a întâmplat în ultimele ore a fost una dintre cele mai slabe abordări.

Autorii acestei lucrări au fondat ulterior Farecast, care a fost în cele din urmă achiziționată de Microsoft. În cele din urmă, Bing a renunțat la funcția de predicție a Farecast, dar alte motoare de meta-căutare au dezvoltat produse similare; Kayak are un instrument de predicție a prețurilor de mai bine de 3 ani (a se vedea postarea lor pe blog care anunță funcția), iar Google tocmai a lansat un instrument de predicție în postarea lor recentă pe blog.

Concluzie

Dacă sunteți interesat de partea tehnică a acestei lucrări, consultați lucrarea, luați legătura pe twitter sau urmați-mă pe Medium - mai multe rezumate ale grupurilor de lectură sunt pe parcurs!