Một vị giáo sư đã từng nghiên cứu bản khai thuế của tổng thống Bill Clinton và khá tin chắc là bản số liệu ấy không có số liệu giả; một văn phòng công tố đã buộc tội bảy công ty trong việc gian lận qua thống kê các bảng số liệu; các công ty trong lĩnh vực chứng khoán ngày nay có một công cụ để buộc tội sự gian lận trong số liệu,… Phải chăng có một điều thần bí gì đó? Bạn có bao giờ nghĩ rằng chỉ cần dựa trên một bảng thống kê số liệu đủ lớn, người ta có thể tìm ra các số liệu bị ngụy tạo không?
Vâng, rất bất ngờ là, trong một số tình huống, câu trả lời là có. Trong toán học, có một định luật rất thú vị và đơn giản, được gọi là luật Benford (còn được gọi là Luật Chữ Số Thứ Nhất – First Digit Law), có thể giải thích được điều này.
Câu chuyện bắt đầu vào những năm 80 của thế kỷ 19 khi Simon Newcomb – một nhà thiên văn học nổi tiếng người Mỹ – phát hiện ra một điều kỳ lạ: tần suất xuất hiện của các chữ số đầu tiên trong một tập hợp các số (dĩ nhiên chữ số 0 hầu như không xuất hiện) không phải là 1/9 như ta nghĩ, mà tuân theo sự phân phối logarit, giá trị tần suất này không đồng đều và giảm dần từ 1 đến 9; tuy nhiên ông vẫn chưa giải thích được hiện tượng này.
Thế nhưng tại sao định luật lại mang tên của Benford? Nhà vật lý Frank Benford hơn nửa thế kỷ sau đã tìm hiểu lại hiện tượng kỳ lạ này và sau này được nhiều người biết đến, nhờ đó định luật đã được đặt theo tên ông. Benford đã mở rộng quy mô thí nghiệm bằng cách thu thập hơn 20,229 các số liệu, chúng đến từ những hằng số trong toán học và vật lý, thậm chí gồm cả giá mua nhà, giá điện, địa chỉ trên các con phố, độ dài các con sông, diện tích các mảnh đất, cho đến tỉ lệ tử vong,… và thật kỳ lạ là đa phần số liệu khá khớp với hiện tượng mà Newcomb đã từng công bố; tuy nhiên Benford cũng chưa hoàn toàn giải thích được hiện tượng này.