Cách tiến hành thử nghiệm phân tách a/b testing

Bài viết nằm trong chuỗi bài viết nổi bật “Tối ưu hoá tỷ lệ chuyển đổi A-To-Z”, cập nhật thường xuyên

Bài viết vừa rồi giúp bạn chọn ra được những vấn đề có thể thử nghiệm để tối ưu chuyển đổi. Bây giờ chúng ta cần thiết lập giả thuyết, chọn một công cụ thử nghiệm và xây dựng các biến thể để đối chiếu với trang hiện tại (control).

Hiện nay, thị trường không thiếu các công cụ thử nghiệm, một công cụ thậm chí còn được tích hợp thẳng vào Google Analytics và hoàn toàn miễn phí. Tôi hay sử dụng Optimizely và VWO nhiều nhất, nhưng ngoài ra còn có Qubit, Adobe Target, Convert.com và nhiều công cụ khác.

Một điều cần lưu ý là bạn muốn thực hiện những thử nghiệm để tối ưu chuyển đổi một cách cực kỳ nghiêm túc. Bạn cần sự giúp đỡ của web dev hoặc bạn cần tìm hiểu một số HTML, CSS và JavaScript / jQuery.

Nếu bạn chỉ có thể sử dụng trình chỉnh sửa trực quan thì bạn chỉ thực hiện các thay đổi nhỏ, như điều chỉnh nội dung, hay chỉnh màu tiêu đề. Đối với bất kỳ những thử nghiệm nào khác, những thử nghiệm chuyển đổi sẽ không thể thành công bởi các vấn đề về kỹ thuật như mức độ tương thích giữa trình duyệt và thiết bị khác nhau.

Tiến hành các thử nghiệm tối ưu không phải là trò đùa – bạn phải có phương pháp tiến hành một cách đúng đắn. Thử nghiệm tồi thậm chí còn tệ hơn cả không thử nghiệm gì cả vì bạn có thể tin tưởng rằng các giải pháp thay thế hiệu quả hay tối ưu hơn trong khi thực tế, chúng đang làm tổn hại đến tỷ lệ chuyển đổi của bạn.

Theo các nghiên cứu bởi Qubit, các phương pháp thử nghiệm A/B testing kém đang khiến các nhà bán lẻ trực tuyến tiêu tốn tới 13 tỷ đô la mỗi năm do doanh thu bị mất. Đừng xem nhẹ điều này!

Tôi thường nghe nói về các doanh nghiệp chạy 100 bài thử nghiệm trong một năm, nhưng tỷ lệ chuyển đổi của họ lại bằng đúng khi họ bắt đầu. Tại sao? Bởi vì họ đã làm sai. Hầu hết các thử nghiệm của họ là dương tính giả hoặc âm tính giả. Lãng phí lớn về thời gian, tiền bạc và tiềm năng của con người.

Có 3 điều bạn cần chú ý khi quyết định khi nào thử nghiệm hoàn thành.

Bạn cần đảm bảo kích thước mẫu của bạn đủ lớn.

Để tự tin rằng kết quả thử nghiệm của bạn thực sự hợp lệ, bạn cần biết kích thước mẫu bạn cần lớn đến mức nào.

Có một số máy tính ngoài kia cho việc này – như đã đề cập trong bài trước, bạn có thể dùng công cụ này hoặc công cụ này

Bạn cần một số lượng tối thiểu mẫu truy cập và tương tác để có được kết quả đúng về mặt thống kê. Sử dụng số liệu bạn nhận được từ các công cụ trên để làm căn cứ ước lượng là hoàn toàn hợp lệ, nhưng còn nhiều lý do khác khiến bài thử nghiệm của bạn có thể găp vấn đề

VD. Bạn có thể đã mắc sai lầm khi dừng thử nghiệm sớm, ngay sau khi chỉ thấy được kết quả sơ bộ. Để kết quả thử nghiệm phản ánh chính xác thực tế, bạn nên bỏ qua kết quả đó cho đến khi bạn có ít nhất 350 chuyển đổi đối với mỗi biến thể (bạn sẽ còn cần nhiều hơn nếu bạn muốn nghiên cứu cụ thể trên các phân khúc khác nhau).

Nhưng đừng mắc sai lầm khi nghĩ 350 là một con số kỳ diệu. Không phải đâu. Đó chỉ là kinh nghiệm cộng với những kiến thức về thống kê cơ bản

Bạn cần thực hiện thử nghiệm qua nhiều chu kỳ kinh doanh.

Đối với một số trang web có lưu lượng truy cập cao, bạn sẽ đạt được kích thước mẫu cần thiết trong một hoặc hai ngày. Nhưng đó không phải là số mẫu đại diện. Quá trình thử nghiệm không kéo dài đủ một chu kỳ kinh doanh, tất cả các ngày trong tuần, cuối tuần, các giai đoạn của mặt trăng, nguồn lưu lượng truy cập, các lần gửi bản tin email của bạn và tất cả các nguồn truy cập khác.

Vì vậy, đối với một thử nghiệm hợp lệ, cả hai điều kiện phải được đáp ứng: 1/cỡ mẫu thích hợp và 2/khoảng thời gian đủ dài để bao gồm tất cả các yếu tố (một chu kỳ kinh doanh đầy đủ hoặc tốt hơn là hai). Đối với hầu hết các doanh nghiệp, thời gian có thể là 2-4 tuần, hoặc chỉ dừng các thử nghiệm ở mốc 7, 14, 21 hoặc 28 ngày.

Bạn cần kết quả có ý nghĩa thống kê nhất định.

Khi bảng dashboard cập nhật kết quả báo cáo thử nghiệm A / B testing (vd. của Optimizely) cho biết bạn có “95% chance of beating original”, Đó là khi nó đang đặt câu hỏi: Giả sử không có sự khác biệt cơ bản giữa 2 biến thể A và B, xác suất chúng ta thấy được sự khác biệt trong kết quả từ 2 biến thể đó mang lại là bao nhiêu?

Câu trả lời cho câu hỏi đó được gọi là “Ngưỡng ý nghĩa thống kê” (hay còn gọi là significance level) và những kết quả được cho là có ý nghĩa thống kê là những kết quả có ngưỡng ý nghĩa thống kê thấp (ví dụ: 5% hoặc 1%). Bảng dashboard thường lấy 100% trừ đi ngưỡng này (ví dụ: 95% hoặc 99%) và báo cáo kết quả đó là khả năng vượt ngưỡng thống kê (yeah, it’s a bit tricky right?)

Nếu kết quả không có ý nghĩa thống kê, có thể sự chêch lệch về số liệu đo đạc được từ 2 biến thể đang thử nghiệm là do các yếu tố ngẫu nhiên gây ra và không có mối quan hệ nào giữa những thay đổi bạn đã thực hiện.

Nhưng đừng nhầm lẫn ngưỡng ý nghĩa thống kê với tính hợp lệ. Khi công cụ kiểm tra của bạn cho bạn biết có 95% khả năng vượt ngưỡng thống kê (hoặc cao hơn), điều đó không có nghĩa gì nếu bạn không có được số lượng mẫu đủ lớn hay đã thực hiện đầy đủ thời gian thử nghiệm

Hãy luôn đảm bảo rằng khi bạn kết thúc bài kiểm tra của mình, bạn có:

  • Một số lượng mẫu đủ lớn (bạn cần phải tính trước số mẫu cần thiết).
  • Thời gian thử nghiệm đủ dài (~ 2 chu kỳ kinh doanh).
  • Ý nghĩa thống kê (kết quả phải cho thấy 95% khả năng vượt ngưỡng thống kê trở lên).
  • Cho đến khi 2 tiêu chí đầu tiên được thoả mãn, ý nghĩa thống kê có nghĩa là rất ít.

Chạy thử nghiệm riêng cho phân khúc sử dụng máy tính để bàn và thiết bị di động

Mặc dù chạy thử nghiệm A/B testing trên tất cả lưu lượng truy cập của bạn cùng một lúc có vẻ như là một ý tưởng tốt (để có được kích thước mẫu lớn hơn nhanh hơn), nhưng thực tế không phải vậy. Bạn cần phân khúc đối tượng sử dụng di động và đối tượng sử dụng máy tính để bàn trong những bài test khác nhau. (Lưu ý: Bạn có thể kết hợp máy tính bảng với máy tính để bàn.)

Dưới đây là 5 lý do tại sao:

  • Những gì mang lại hiệu quả tốt trên điện thoại di động có thể không hiệu quả trên máy tính để bàn (và ngược lại).
  • Lưu lượng truy cập máy tính để bàn và điện thoại di động của bạn là khác nhau. Vì vậy, trong khi phân khúc máy tính để bàn của bạn có thể có kích thước mẫu đủ lớn, bạn có thể dừng thử nghiệm vì phân khúc di động cần nhiều mẫu hơn.
  • Không phải tất cả lưu lượng truy cập di động là như nhau. Mọi người khi xử dụng các thiết bị / hệ điều hành di động khác nhau hành xử khác nhau.
  • Đối với những thiết bị khác nhau, bạn có thể sẽ muốn thử nghiệm phân tách A/B testing trên những vấn đề khác nhau (ví dụ: mua hàng cho máy tính để bàn vs. đăng ký form trên thiết bị di động).
  • Bạn có thể tạo ra nhiều bài thử nghiệm nhanh hơn. Nếu bạn tạo các thử nghiệm chỉ nhắm mục tiêu vào một danh mục thiết bị duy nhất, bạn sẽ mất ít thời gian phát triển hơn cho mỗi thử nghiệm. Do đó bạn có thể khởi chạy thử nghiệm nhanh hơn.

Không gì có thể thay thế cho kinh nghiệm

Hãy bắt đầu chạy thử nghiệm ngay bây giờ.

Có cần phải tìm hiểu và thực hành thêm khá nhiều nữa, nhưng nội dung trên sẽ giúp bạn thông minh hơn hầu hết những người khác về cách thức chạy thử nghiệm A/B testing rồi.

Bài học

  • Tính toán kích thước mẫu cần thiết trước khi bạn bắt đầu thử nghiệm. Đừng dừng thử nghiệm của bạn cho đến khi đạt được kích thước mẫu đó và bài thử nghiệm tối thiểu phải hoàn thành một (hoặc tốt nhất là hai) chu kỳ kinh doanh,
  • Bạn muốn đạt được ít nhất 95% ý nghĩa thống kê, nhưng khi đã đạt được điều đó, bạn chưa thể dừng bài thử nghiệm của mình. Hãy tiếp tục thử nghiệm cho đến khi các điều kiện trên được đáp ứng.
  • Phân khúc lưu lượng truy cập của bạn. Kiểm tra lưu lượng truy cập từ máy tính để bàn / máy tính bảng và lưu lượng truy cập qua các điện thoại di động một cách riêng biệt về số lượng mẫu, khả năng tương thích, v.v.

Tổng hợp và Dịch từ liệu của Peep trên http://cxl.com/

Bài viết nằm trong chuỗi bài viết nổi bật “Tối ưu hoá tỷ lệ chuyển đổi A-To-Z”, cập nhật thường xuyên

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s