5 trường hợp sử dụng máy học tối ưu hóa trải nghiệm du lịch Airbnb của bạn

Khoa học đằng sau trải nghiệm du lịch cá nhân

Tự hỏi làm thế nào Airbnb sắp xếp và cung cấp danh sách của nó khi bạn tìm kiếm một nơi để ở trên nơi nghỉ ngơi tiếp theo của bạn? Nếu bạn biết bất cứ điều gì về học máy, bạn có thể đã dự đoán rằng có rất nhiều biến số sắp xếp hàng chục ngàn danh sách đôi khi có sẵn ở một vị trí cụ thể. Không giống như máy móc, một con người không thể đi qua mỗi danh sách - và nếu bạn không quyết đoán về bản chất, điều này có thể gây ra vấn đề tồn tại. Đó là lý do tại sao các thuật toán học máy của Airbnb làm việc cho bạn, lấy tín hiệu từ nhiều điểm dữ liệu khác nhau, tùy thuộc vào việc bạn là chủ hay khách.

Tối ưu hóa các trận đấu giữa chủ nhà và khách sẽ rất quan trọng đối với thành công của Airbnb, khi nó tiếp tục phát triển. Sự đa dạng trong các loại phòng nghỉ Airbnb có một lợi thế, miễn là nó đảm bảo khách có thể dễ dàng tìm thấy một máy chủ đáp ứng các tiêu chí của họ. Và khi Airbnb thêm vào 4 triệu danh sách hiện tại của mình, đảm bảo cả khách và chủ nhà đều hài lòng sẽ trở nên quan trọng hơn. Nếu người dùng có thể tìm thấy chỗ ở chính xác mà họ đang tìm kiếm, đặc biệt nếu đó là một mức giá rẻ hơn, họ không có khả năng quay trở lại sử dụng khách sạn.

Vậy làm thế nào để Airbnb thực hiện một công việc tuyệt vời như vậy để tối ưu hóa kết hợp khách-chủ? Sau khi dành vài tuần để tìm hiểu về Blog kỹ thuật của Airbnb, tôi phát hiện ra rằng có 5 trường hợp sử dụng máy học quan trọng hiện đang được các kỹ sư và nhà khoa học dữ liệu của Airbnb triển khai để giải quyết vấn đề này. Ở đây, theo thứ tự trình bày tương ứng:

  • Phát hiện tùy chọn máy chủ lưu trữ
  • Cung cấp thông tin chi tiết cho chủ nhà
  • Dự đoán giá trị nhà
  • Chống gian lận tài chính
  • Đề xuất danh sách cá nhân

1 - Phát hiện tùy chọn máy chủ lưu trữ

Mục tiêu của hệ thống máy học này là khám phá những gì ảnh hưởng đến các quyết định của chủ nhà để chấp nhận các yêu cầu về chỗ ở và làm thế nào Airbnb có thể tăng mức độ chấp nhận và phù hợp trên nền tảng. Sau khi thực hiện các thử nghiệm và truy vấn dữ liệu ban đầu, Airbnb phát hiện ra rằng các máy chủ có nhiều khả năng chấp nhận các yêu cầu phù hợp với lịch của họ và giảm thiểu ngày chênh lệch. Ngoài ra, chủ nhà tại các thị trường lớn (như San Francisco hoặc Thành phố New York) quan tâm rất nhiều đến việc chiếm dụng của họ; trong khi đối với các thị trường nhỏ, chủ nhà thích có một số lượng nhỏ đêm giữa các yêu cầu. Do đó, nếu Airbnb có thể quảng bá trong kết quả tìm kiếm của họ, những người chủ nhà có thể chấp nhận yêu cầu chỗ ở do truy vấn tìm kiếm của khách hàng tiềm năng, họ sẽ thấy những vị khách và chủ nhà vui vẻ hơn và nhiều trận đấu biến thành kỳ nghỉ vui vẻ hoặc kinh doanh hiệu quả những chuyến đi.

Thoạt nhìn, đây có vẻ là một trường hợp hoàn hảo để lọc cộng tác - chúng tôi có người dùng (máy chủ) và vật phẩm (chuyến đi) và chúng tôi muốn hiểu sở thích của những mặt hàng đó bằng cách kết hợp xếp hạng lịch sử (chấp nhận / từ chối) với việc học thống kê từ các máy chủ tương tự . Tuy nhiên, ứng dụng không hoàn toàn phù hợp với khung lọc cộng tác vì hai lý do.

  • Đầu tiên, không có hai chuyến đi nào giống nhau bởi vì đằng sau mỗi yêu cầu chỗ ở có một vị khách khác nhau với sự tương tác duy nhất của con người có ảnh hưởng đến quyết định chấp nhận của chủ nhà.
  • Đưa điểm này đi thêm một bước, chủ nhà có thể nhận được nhiều yêu cầu chỗ ở cho cùng một chuyến đi với những vị khách khác nhau tại các thời điểm khác nhau và đưa ra những yêu cầu mâu thuẫn với nhau.

Do đó, các kỹ sư và nhà khoa học dữ liệu của Airbnb đã xây dựng một mô hình giống như lọc cộng tác. Họ đã sử dụng tính đa dạng của các phản hồi cho cùng một chuyến đi để giảm tiếng ồn đến từ các yếu tố tiềm ẩn trong tương tác giữa khách và chủ nhà. Để làm như vậy, họ đã cân nhắc phản ứng trung bình của máy chủ đối với một đặc điểm chuyến đi nhất định. Thay vì nhìn vào sự kết hợp của chiều dài chuyến đi, quy mô của bữa tiệc của khách, kích thước của khoảng cách lịch, v.v., họ đã tự mình xem xét từng đặc điểm của chuyến đi này.

Để dự đoán, họ đã kết hợp các ưu tiên cho các đặc điểm chuyến đi khác nhau thành một dự đoán duy nhất cho xác suất chấp nhận. Trọng số ưu tiên của mỗi đặc tính chuyến đi có trong quyết định chấp nhận là hệ số xuất phát từ hồi quy logistic. Để cải thiện dự đoán, họ cũng đưa vào một vài tính năng cụ thể hơn về địa lý và máy chủ lưu trữ trong hồi quy logistic.

Biểu đồ dòng tóm tắt kỹ thuật mô hình được sử dụng:

2 - Cung cấp thông tin chi tiết cho chủ nhà

Mục tiêu của hệ thống máy học này là trả lời một câu hỏi rất phổ biến từ các máy chủ Airbnb: Làm thế nào để tôi chọn đúng giá? Đặt giá có thể khó nếu không có thông tin đáng tin cậy về các danh sách khác trong khu vực máy chủ, xu hướng du lịch và sự quan tâm của mọi người đối với các tiện ích mà chủ nhà cung cấp.

Do đó, nhóm nghiên cứu tại Airbnb đã quyết định xây dựng một mô hình có thể chia sẻ những hiểu biết mà họ đã học được với chủ nhà. Một cái nhìn sâu sắc là một chiến dịch hướng dẫn các máy chủ để thành công hơn về giá cả. Mỗi cái nhìn sâu sắc phải được cá nhân hóa, nhắm mục tiêu và hành động.

Để phục vụ những hiểu biết, họ đã tạo ra Narad - một dịch vụ phụ trợ nhập dữ liệu từ một bộ nguồn dữ liệu ngoại tuyến và trực tuyến để tạo thông tin chi tiết được cá nhân hóa, xếp hạng hiệu quả của chúng cho các danh sách và bối cảnh khác nhau và cung cấp thông tin chi tiết đúng lúc và đúng thời điểm.

Một cái nhìn sâu sắc được tạo ra bởi Narad bao gồm:

  1. Mã định danh: Điều này bao gồm loại thông tin chi tiết là định danh của từng thông tin chi tiết, vị trí cho biết công cụ lưu trữ nào mà thông tin chi tiết này có thể được gửi đến và thông tin nhóm khác.
  2. Nhắm mục tiêu: Đây là danh sách các điều kiện nhắm mục tiêu cần được thỏa mãn để cái nhìn sâu sắc đủ điều kiện cho một danh sách nhất định. Có nhiều khía cạnh khác nhau như chiếm chỗ, đặt chỗ trong quá khứ và tương lai, nhu cầu thị trường, địa lý, thuộc tính danh sách và cài đặt giá mà thông tin chi tiết có thể được nhắm mục tiêu.
  3. Tải trọng: Điều này xác định một tập hợp thông tin được cá nhân hóa mà thông tin chi tiết hiển thị cho máy chủ lưu trữ. Tải trọng mẫu ví dụ từ các giá trị được đề xuất cho cài đặt máy chủ đến lợi ích cho máy chủ, chẳng hạn như tăng đặt phòng tiềm năng.
  4. Sao chép: Phần này chứa thông tin để tìm nạp nội dung quốc tế cho UI.

Narad chịu trách nhiệm cung cấp những hiểu biết có liên quan và có ảnh hưởng nhất đến chủ nhà. Lặp lại đầu tiên của xếp hạng xác định tổng giá trị của mỗi cái nhìn sâu sắc thông qua một tập hợp các thuật ngữ. Thuật ngữ đầu tiên là trọng lượng trong đó đề cập đến tác động vốn có của cái nhìn sâu sắc. Thuật ngữ thứ hai là tỷ lệ chuyển đổi lịch sử của cái nhìn sâu sắc cụ thể. Một số hiểu biết có thể mang lại tác động cao nhưng thu hút ít sự chú ý từ máy chủ. Những hiểu biết khác có thể nhận được rất nhiều chuyển đổi nhưng không gây ảnh hưởng. Nhiệm kỳ đầu tiên và nhiệm kỳ thứ hai giữ số dư này. Thuật ngữ cuối cùng là hình phạt lặp đi lặp lại làm giảm tổng giá trị của cái nhìn sâu sắc nếu cái nhìn sâu sắc tương tự được xếp hạng là cái nhìn sâu sắc hàng đầu thời gian qua. Điều này giúp cung cấp một số phương sai ở vị trí hàng đầu để cùng một cái nhìn sâu sắc không xuất hiện ở đầu và trên mặc dù đó là cái nhìn sâu sắc nhất để giữ cho máy chủ tham gia nhiều hơn.

3 - Dự đoán giá trị của các ngôi nhà trên Airbnb

Tại Airbnb, dự đoán giá trị gia đình là trường hợp sử dụng cụ thể của mô hình Giá trị trọn đời của khách hàng, nắm bắt giá trị dự kiến ​​của người dùng trong một khoảng thời gian cố định. Tại các công ty thị trường như Airbnb, việc biết người dùng Giá trị trọn đời cho phép họ phân bổ ngân sách trên các kênh tiếp thị khác nhau hiệu quả hơn, tính giá đấu thầu chính xác hơn cho tiếp thị trực tuyến dựa trên từ khóa và tạo phân khúc niêm yết tốt hơn.

Để mô hình hóa giá trị trọn đời, Airbnb đã phát triển các công cụ học máy giúp loại bỏ công việc kỹ thuật đằng sau các mô hình học máy ion hóa sản phẩm. Cụ thể, có 4 nhiệm vụ trong quy trình ML của họ cho nhiệm vụ này:

  • Kỹ thuật tính năng
  • Tạo mẫu và đào tạo
  • Thực hiện lựa chọn mô hình
  • Đưa nguyên mẫu mẫu vào sản xuất

Ở giai đoạn Kỹ thuật tính năng, Airbnb đã sử dụng kho lưu trữ tính năng nội bộ Zipline, cung cấp các tính năng ở các mức độ chi tiết khác nhau, chẳng hạn như máy chủ, khách, danh sách hoặc cấp thị trường. Bản chất cộng đồng của công cụ nội bộ này cho phép các nhà khoa học dữ liệu của họ sử dụng nhiều tính năng chất lượng cao, được hiệu đính mà những người khác đã chuẩn bị cho các dự án trong quá khứ. Nếu không có tính năng mong muốn, người dùng có thể tạo tính năng của riêng mình bằng tệp cấu hình tính năng.

Ở giai đoạn Tạo mẫu và Huấn luyện, Airbnb đã xây dựng các đường ống dữ liệu, có sẵn trong Scikit-Learn và Spark, cho phép các nhà khoa học dữ liệu của họ chỉ định các bản thiết kế cấp cao mô tả cách các tính năng nên được chuyển đổi và mô hình nào sẽ được đào tạo. Ở mức cao, họ đã sử dụng các đường ống để chỉ định chuyển đổi dữ liệu cho các loại tính năng khác nhau, tùy thuộc vào việc các tính năng đó thuộc loại nhị phân, phân loại hoặc số. Ưu điểm của việc viết các nguyên mẫu với các đường ống là nó trừu tượng hóa các biến đổi dữ liệu tẻ nhạt bằng cách sử dụng các biến đổi dữ liệu. Nói chung, các phép biến đổi này đảm bảo rằng dữ liệu sẽ được chuyển đổi một cách nhất quán trong quá trình đào tạo và chấm điểm, giải quyết một vấn đề chung về sự không nhất quán chuyển đổi dữ liệu khi chuyển một nguyên mẫu vào sản xuất.

Ở giai đoạn Chọn mẫu, Airbnb đã sử dụng các khung AutoML của họ để tăng tốc quá trình. Bằng cách khám phá nhiều mô hình khác nhau, họ đã tìm ra loại mô hình nào có xu hướng hoạt động tốt nhất. Ví dụ, họ đã học được rằng các cây tăng cường độ dốc eXtreme (XGBoost) vượt trội đáng kể so với các mô hình chuẩn như mô hình phản hồi trung bình, mô hình hồi quy sườn và cây quyết định đơn.

Cuối cùng, để đưa các nguyên mẫu mô hình vào sản xuất, Airbnb đã xây dựng một khung gọi là ML Automator tự động chuyển một máy tính xách tay Jupyter thành một đường ống học máy Airflow. Khung này được thiết kế dành riêng cho các nhà khoa học dữ liệu đã quen với việc viết các nguyên mẫu bằng Python và muốn đưa mô hình của họ vào sản xuất với kinh nghiệm hạn chế về kỹ thuật dữ liệu.

4 - Chống gian lận tài chính

Chống gian lận tài chính là một trong những nhiệm vụ quan trọng nhất tại Airbnb để đảm bảo sự tin tưởng vào nền tảng của họ. Công ty đã tận dụng việc học máy, thử nghiệm và phân tích để xác định và chặn những kẻ lừa đảo đồng thời giảm thiểu tác động đến phần lớn người dùng tốt của mình.

Giống như tất cả các doanh nghiệp trực tuyến, Airbnb phải đối mặt với những kẻ lừa đảo cố gắng sử dụng thẻ tín dụng bị đánh cắp. Khi chủ thẻ thực sự nhận ra thẻ của họ đã bị đánh cắp và thông báo các khoản phí trái phép trên hóa đơn của họ, công ty thẻ tín dụng phát hành cái mà gọi là một khoản bồi hoàn, một và các thương gia trả lại tiền. Airbnb phát hiện gian lận tài chính theo một số cách, nhưng phương pháp phù hợp của họ sử dụng các mô hình học máy (ML) được đào tạo trên các ví dụ trước đây về hành vi gian lận được xác nhận và xác nhận.

Để ngăn chặn việc sử dụng thẻ tín dụng bị đánh cắp, mô hình bồi hoàn của họ kích hoạt một số ma sát để đảm bảo rằng khách thực sự được ủy quyền sử dụng thẻ đó, bao gồm ủy quyền vi mô (đặt hai ủy quyền nhỏ trên thẻ tín dụng, mà chủ thẻ phải xác định bằng cách đăng nhập vào bảng sao kê ngân hàng trực tuyến của họ), Bảo mật 3-D (cho phép các công ty thẻ tín dụng xác thực trực tiếp chủ thẻ thông qua mật khẩu hoặc thách thức SMS) và xác minh báo cáo thanh toán (yêu cầu chủ thẻ phải tải lên bản sao của bảng sao kê thanh toán được liên kết với lá bài).

5 - Danh sách đề xuất Trang chủ

Rất gần đây, Airbnb đã phát triển kỹ thuật Nhúng danh sách nhằm mục đích cải thiện Đề xuất danh sách tương tự và Cá nhân hóa thời gian thực trong Xếp hạng tìm kiếm. Các phần nhúng là biểu diễn vectơ của các ngôi nhà Airbnb được học từ các phiên tìm kiếm cho phép họ đo lường sự tương đồng giữa các danh sách. Họ mã hóa hiệu quả nhiều tính năng liệt kê, chẳng hạn như vị trí, giá cả, loại danh sách, kiến ​​trúc và kiểu liệt kê, tất cả chỉ sử dụng 32 số float.

Embeddings là một khái niệm từ Xử lý ngôn ngữ tự nhiên được sử dụng để thể hiện từ. Các nhà nghiên cứu từ các lĩnh vực Tìm kiếm trên web, Thương mại điện tử và Thị trường đã nhận ra rằng giống như người ta có thể huấn luyện các từ nhúng bằng cách xử lý một chuỗi các từ trong câu dưới dạng ngữ cảnh, điều tương tự có thể được thực hiện để đào tạo các hành động nhúng của người dùng bằng cách xử lý chuỗi người dùng hành động như bối cảnh. Ví dụ bao gồm học đại diện cho các mục được nhấp hoặc mua hoặc truy vấn và quảng cáo được nhấp. Các nhúng này sau đó đã được sử dụng cho nhiều khuyến nghị trên Web.

Tại Airbnb, họ đã đào tạo và tối ưu hóa các mô hình của mình để tìm hiểu các danh sách nhúng cho 4,5 triệu danh sách đang hoạt động trên Airbnb bằng cách sử dụng hơn 800 triệu phiên nhấp tìm kiếm, dẫn đến việc trình bày danh sách chất lượng cao. Để đánh giá các đặc điểm của danh sách đã được nắm bắt bởi các nhúng, họ đã kiểm tra chúng theo nhiều cách. Đầu tiên, để đánh giá xem sự tương tự về địa lý có được mã hóa hay không, họ đã thực hiện phân cụm k-nghĩa trên các nhúng được học. Tiếp theo, họ đã đánh giá sự tương đồng cosine trung bình giữa các danh sách các loại khác nhau (Toàn bộ nhà riêng, Phòng riêng, Phòng chung) và xác nhận rằng sự tương đồng về cosin giữa các danh sách cùng loại và phạm vi giá cao hơn nhiều so với sự tương đồng giữa các danh sách cùng loại và phạm vi giá.

Tại thời điểm nhúng thử nghiệm Airbnb, thuật toán hiện có cho tính năng Danh sách tương tự của họ bao gồm gọi mô hình Xếp hạng tìm kiếm chính của họ cho cùng một vị trí với danh sách đã cho, theo sau là lọc trên cùng phạm vi giá và danh sách như danh sách đã cho. Do đó, ý tưởng tiếp theo của họ là tận dụng các nhúng trong Xếp hạng tìm kiếm để cá nhân hóa trong phiên theo thời gian thực, trong đó mục đích là hiển thị cho khách nhiều danh sách tương tự với danh sách mà chúng tôi nghĩ rằng họ thích từ khi bắt đầu phiên tìm kiếm và ít danh sách hơn tương tự như những cái chúng tôi nghĩ rằng họ không thích.

Khoa học dữ liệu @ Airbnb

Bên cạnh những cách sử dụng này, Data Science, nói chung, đã được đầu tư rất nhiều tại Airbnb. Từ Repo kiến ​​thức lưu trữ và chuyển giao kiến ​​thức trong toàn tổ chức, đến Superset mở rộng quy mô truy cập dữ liệu và hiểu biết trực quan, từ Dataportal cung cấp các tài nguyên và công cụ có giá trị giải quyết các vấn đề khoa học dữ liệu, cho hệ thống ML tự động có thể làm tăng đáng kể nhà khoa học dữ liệu năng suất theo thứ tự độ lớn, khoa học dữ liệu đã được dân chủ hóa ở cấp độ cá nhân, nhóm và tổ chức. Với cơ sở hạ tầng dữ liệu ổn định, các công cụ nội bộ tinh vi và kho hàng đáng tin cậy, Airbnb chắc chắn là một trong những công ty công nghệ điều khiển dữ liệu tốt nhất sử dụng tốt xu hướng công nghệ này.

Tôi hy vọng bài đăng này có nhiều thông tin và gây tò mò cho bạn như nó đã làm của tôi. Hiện tại, tôi sẽ thực hiện theo kế hoạch du lịch sắp tới của mình, tìm kiếm những địa điểm tuyệt vời và những người chủ nhà có uy tín, biết và đánh giá cao tất cả những công việc học máy mà anh diễn ra sau hậu trường.

- -

Nếu bạn thích tác phẩm này, tôi sẽ thích nó nếu bạn nhấn nút vỗ tay để người khác có thể vấp phải nó. Bạn có thể tìm thấy mã của riêng tôi trên GitHub và nhiều bài viết và dự án khác của tôi tại https://jameskle.com/. Bạn cũng có thể theo dõi tôi trên Twitter, gửi email trực tiếp cho tôi hoặc tìm tôi trên LinkedIn.

Nguồn:

-Làm thế nào Airbnb sử dụng máy học để phát hiện sở thích máy chủ (Bar Ifrach, Giám đốc khoa học dữ liệu @ Airbnb)

-Làm thế nào chúng tôi cung cấp thông tin chi tiết cho chủ nhà (Deepank Gupta, Giám đốc kỹ thuật & Kidai Kwon, Kỹ sư phần mềm @ Airbnb)

-Sử dụng máy học để dự đoán giá trị của các ngôi nhà trên Airbnb (Robert Chang, Nhà khoa học dữ liệu @ Airbnb)

-Phải gian lận tài chính với ma sát mục tiêu (David Press, Nhà khoa học dữ liệu tin cậy @ Airbnb)

  • Liệt kê các nhúng cho các khuyến nghị danh sách tương tự và cá nhân hóa thời gian thực trong tìm kiếm (Mihajlo Grbovic, Nhà khoa học máy học cao cấp @ Airbnb)

Câu chuyện này được xuất bản trong The Startup, ấn phẩm doanh nhân lớn nhất Medium Medium theo sau bởi 320.131 người.

Đăng ký để nhận những câu chuyện hàng đầu của chúng tôi ở đây.