Máy học đằng sau Farecast

Dự đoán hộp đen của giá chuyến bay

Cách đây nhiều năm, tôi tình cờ đọc được tài liệu nghiên cứu này Mua hay không mua: Khai thác dữ liệu giá vé máy bay để giảm thiểu giá mua vé, khi tôi đang làm việc tại UCL trong một dự án đang nghiên cứu cách giúp mọi người điều hướng các thành phố tốt hơn bằng cách sử dụng dữ liệu. Tôi vừa nhận được một bộ dữ liệu lớn về các giao dịch thẻ Oyster từ Transport for London. Bài viết này, xem xét khuyến nghị có nên mua vé máy bay hay không, đã truyền cảm hứng cho chúng tôi áp dụng một khái niệm tương tự để giúp mọi người quyết định mua thẻ du lịch nào, với hệ thống giới thiệu sẽ học hỏi từ mô hình du lịch của họ. Nghiên cứu đó đã dẫn đến bài báo này Dữ liệu di động khai thác để giảm thiểu khách du lịch chi tiêu cho phương tiện giao thông công cộng và câu chuyện tin tức BBC này.

Tôi đã xuất hiện lại tài liệu về vé máy bay cho nhóm đọc Skyscanner - chúng tôi đã gặp nhau để thảo luận về các tài liệu nghiên cứu giải quyết các vấn đề tương tự với những vấn đề mà chúng tôi gặp phải trong Skyscanner. Cũng giống như bài viết trước, ở đây, một tổng quan ngắn gọn, phi kỹ thuật về những gì chúng ta đã thảo luận.

Làm cho một sản phẩm ra khỏi dự đoán giá

Giá chuyến bay nổi tiếng là có thể thay đổi: Tôi chắc chắn rằng hầu hết chúng ta đã nhìn vào một chuyến bay, nghĩ về nó một lúc, và sau đó quay lại chỉ để thấy rằng giá của nó đã tăng lên (hoặc, nếu chúng ta ' lại may mắn, xuống).

Như các tác giả của bài viết này giải thích, một phần của việc dự đoán giá chuyến bay dường như là về việc giải mã công cụ quyết định ẩn mà các hãng vận chuyển sử dụng để đặt giá riêng của họ: có lẽ giá hiện tại dựa trên ghế có sẵn, theo yêu cầu, dựa trên giá của đối thủ cạnh tranh, vào thời điểm trong năm, hoặc vô số các yếu tố khác. Vì có rất nhiều lý do khác nhau khiến giá chuyến bay có thể thay đổi (và chúng tôi không nhất thiết phải có quyền truy cập vào tất cả dữ liệu mà nhà cung cấp đang sử dụng để đặt giá), chúng tôi có thể phát triển hợp lý bất kỳ phương tiện nào để dự đoán giá chuyến bay không?

Kịch bản này là một trong đó học máy có thể đến để giải cứu. Sử dụng giả định duy nhất rằng sẽ có một số điểm tương đồng giữa giá tuyến đường lịch sử và tương lai, các tác giả tạo ra một mô hình chỉ dựa trên dữ liệu có sẵn cho họ trên web: tuyến đường (ví dụ: Seattle-Washington), những ngày cho đến khởi hành (ví dụ 10) và giá lịch sử. Mô hình này cố gắng trả lời câu hỏi: đưa ra một lộ trình, ngày khởi hành và giá hiện tại, tôi nên mua vé, hay tôi nên chờ đợi?

Các tác giả đã đưa ra một số phương pháp học máy nổi tiếng vào vấn đề, chẳng hạn như học tăng cường và dự báo chuỗi thời gian, và một mô hình kết hợp (không gây ngạc nhiên), hóa ra là chính xác nhất. Mặc dù vậy, bài báo đã giữ lại một số mặt trận: nó chỉ mang lại cho chúng tôi kết quả cho một nhóm nhỏ các tuyến đã chọn, chỉ xem xét tối đa 21 ngày trước ngày khởi hành (có nghĩa là 75% người dùng của họ sẽ không có thể đạt được bất kỳ tùy chọn nào rẻ hơn) và không xem xét bất kỳ tác động dài hạn nào như tính thời vụ (công bằng mà nói là trước thời đại dữ liệu lớn, do đó khả năng mở rộng là một vấn đề đối với họ).

Mặc dù vậy, có một số bước đi quan trọng trong bài viết này:

  1. Độ chính xác dự đoán
  2. Dự đoán không giống như thông báo. Các thông báo gần đây từ Google cho thấy họ đã triển khai một cái gì đó như thế này trong tìm kiếm chuyến bay của họ. Tuy nhiên, họ thông báo cho người dùng dựa trên các xu hướng lịch sử (giá vé này có khả năng tăng giá hơn là chúng tôi dự đoán giá vé này sẽ là xx).
  3. Dữ liệu theo thời gian không có nghĩa là một vấn đề chuỗi thời gian. Vì dữ liệu được sắp xếp theo thời gian, một trong những cách tiếp cận tự nhiên để thử là một mô hình dự đoán liệu giá sẽ tăng hay giảm dựa trên hành vi gần đây của nó. Tuy nhiên, các tác giả nhận thấy rằng giá chuyến bay có xu hướng tăng - tăng hoặc giảm - và do đó, dự đoán giá tiếp theo dựa trên những gì đã xảy ra trong vài giờ qua là một trong những cách tiếp cận tồi tệ nhất.

Các tác giả của bài báo này sau đó đã thành lập Farecast, cuối cùng đã được Microsoft mua lại. Cuối cùng Bing đã bỏ tính năng dự đoán Farecast, nhưng các công cụ tìm kiếm meta khác đã phát triển các sản phẩm tương tự; Thuyền kayak đã có một công cụ dự đoán giá trong hơn 3 năm (xem bài đăng trên blog của họ thông báo về tính năng này) và Google vừa ra mắt một công cụ dự đoán trong bài đăng trên blog gần đây của họ.

Phần kết luận

Nếu bạn quan tâm đến khía cạnh kỹ thuật của công việc này, hãy kiểm tra giấy, liên lạc trên twitter hoặc theo dõi tôi trên Medium - nhiều bản tóm tắt nhóm đọc đang được thực hiện!