PageRank - Một thuật toán của Google

Posted on: 22/11/2017 , by Son Luu


Chắc hẳn hiện nay, không ai còn xa lạ với gã khổng lồ tìm kiếm – Google. Thành công của trang web này phần lớn nằm ở sự liên quan giữa kết quả đầu ra và từ khóa nhập vào. Để đạt được điều đó, Google sử dụng một hệ thống phức tạp gồm nhiều quá trình và thuật toán khác nhau. Một trong số đó là thuật toán dùng để xếp hạng các website gọi là PageRank.

PageRank sử dụng các đường dẫn (links) giữa các trang web trong kho dữ liệu của Google nhằm đánh giá và xếp hạng độ quan trọng của các trang web ấy. Hướng tiếp cận được dùng cho việc này là biểu diễn vấn đề dưới dạng ma trận. Công thức cụ thể tính độ quan trọng của các website phụ thuộc vào ma trận G (còn gọi là ma trận Google) gồm các tham số (parameters) chính:

  • Hệ số vô hướng \(\alpha \approx 0.85\) (do những người đề ra công thức chọn): hãy tưởng tượng bạn là một người đang lướt web. Khi xem xong một trang web, bạn có hai lựa chọn: một là bấm vào đường dẫn trên trang hiện tại để đến trang tiếp theo, hai là bạn nhảy đến một trang bất kỳ khác nào đó trên mạng. Hệ số này chính là xác suất bạn sẽ theo lựa chọn thứ nhất. Giống như khi chán đọc tin tức trên Kênh 14 ta có thể chọn link vào Youtube xem video hoặc thoát ra và vào Y8 chơi game.
  • Ma trận các đường dẫn H (hyperlink matrix) là quan hệ các đường dẫn của các trang web trong kho dữ liệu dưới dạng ma trận
  • Ma trận dịch chuyển E (teleportation matrix) có vai trò hỗ trợ tính toán trong trường hợp người lướt web tưởng tượng quyết định nhảy sang một trang bất kỳ khác

Với thuật toán này, Google có thể đánh giá chất lượng hay độ quan trọng của một trang web bất kỳ mà không cần đến đánh giá của con người. Từ đây, công cụ tìm kiếm này có thể xếp thứ tự cho một loạt kết quả của một từ khóa dựa trên độ quan trọng của các trang web kết quả - tính năng làm cho Google trội hơn hẳn so với các trang tìm kiếm thông tin cùng thời.

Tham khảo: