Машинско учење иза преласка

Предвиђање црне кутије цена лета

Пре неколико година наишао сам на овај истраживачки рад „Куповати или не куповати: минирање података о авионским картама како би се смањила цена карте“, док сам радио у УЦЛ-у на пројекту који је истраживао како да помогнем људима да боље користе градове података. Управо сам примио велики скуп података о трансакцијама Оистер картица од компаније Транспорт за Лондон. Овај рад, који проучава препоруку да ли купити авионску карту, инспирисао нас је да применимо сличан концепт како бисмо помогли људима да одлуче коју путну карту да купе, са системом препорука који би научили из њихових образаца путовања. Истраживање је резултирало овим радом „Мининг Дата Мобилити да се минимизира потрошња путника на јавни превоз“ и ову вест о ББЦ-у.

Поновно сам отворио папире за податке о авионској карти за Скисцаннер групу за читање - састали смо се да бисмо разговарали о истраживачким радовима који се баве сличним проблемима као и онима са којима се суочавамо у оквиру Скисцаннера. Баш као и последњи пост, овде је и кратак нетехнички преглед онога о чему смо разговарали.

Израда производа изван предвиђања цена

Цијене летова су ноторно подложне промјенама: Сигуран сам да је већина нас погледала лет, размислила о њему неко вријеме, а онда бисмо се вратили само да бисмо открили да му је цијена порасла (или, ако ћемо срећно, доле).

Као што аутори овог рада објашњавају, чини се да је део предвиђања цене лета у декодирању скривеног механизма одлучивања који превозници користе да поставе своје цене: можда се тренутна цена руте темељи на расположивим седиштима, на захтеву, ценама конкурента, у доба године или мноштво других фактора. С обзиром на то да постоји толико различитих разлога зашто се цене летова могу мењати (а ми не морамо нужно да приступимо свим подацима које провајдери користе за постављање цена) да ли бисмо икада могли разумно развити било које средство за предвиђање цена лета?

Овај сценариј је онај где машинско учење може помоћи. Користећи се само претпоставком да ће постојати сличност између историјских и будућих цена рута, аутори стварају модел који се заснива само на подацима који су им доступни на вебу: рута (нпр. Сеаттле-Васхингтон), дани до одлазак (нпр. 10) и историјске цене. Овај модел покушава да одговори на питање: с обзиром на руту, датум поласка и тренутну цену, да ли да купим карту или да сачекам?

Аутори бацају низ познатих метода машинског учења на проблем, попут учења ојачања и прогнозирања временских серија, и комбиновани модел (који не изненађује), који се, чини се, најтачнији. Папир, ипак, задржава се на многим фронтовима: даје нам резултате само за мали скуп ручно одабраних рута, размотрите само 21 дан пре датума поласка (што значи да 75% њихових корисника не би било у могућности да постигну било које јефтиније опције) и не разматра дугорочне ефекте попут сезоналности (да будемо праведни то је било пре велике ере података, стога је скалабилност била проблем за њих).

Упркос томе, у овом раду постоји неколико кључних потеза:

  1. Прецизност предвиђања <Корисни програм. Суочени са проблемом попут „предвиђања вредности Кс“, често бисмо били природно склони да меримо колико тачно предвидимо ту вредност. Уместо тога, ови аутори мере колико добро такво предвиђање може подржати корисничку акцију, у овом случају „чекај“ или „купи“.
  2. Предвиђање није исто што и информисање. Недавне најаве из Гоогле-а показују да су нешто такво имплементирали у својој претрази летова. Међутим, они информишу кориснике на основу историјских трендова („вероватно ће се та цена повећати“, а не „предвиђамо да ће та цена бити к“).
  3. Временски уређени подаци не значе проблем временских серија. Будући да су подаци поредани временом, један од 'природних' приступа покушају био је модел који предвиђа да ли ће цена расти или падати на основу недавног понашања. Међутим, аутори су открили да цене летова имају тенденцију скока - или нагоре или наниже - па је предвиђање следеће цене на основу онога што се десило у последњих неколико сати био један од најгорих приступа.

Аутори овог рада су касније основали Фарецаст који је на крају стекао Мицрософт. Бинг је на крају одустао од функције предвиђања Фарецаст-а, али су други мета претраживачи развили сличне производе; Кајак је имао алат за предвиђање цена више од 3 године (погледајте њихов блог на коме се најављује функција), а Гоогле је управо представио алат за предвиђање у свом недавном посту на блогу.

Закључак

Ако вас занима техничка страна овог рада, погледајте новине, јавите се на твиттер или ме пратите на страници Медиум - више је сажетака група за читање на путу!