Khi bạn giao dịch trên Web, nhà cung
cấp dịch vụ thường yêu cầu bạn phải nhận dạng những ký tự "uốn éo",
khó đọc. Bạn phải dùng bàn phím để gõ những ký tự ấy vào một ô nhập liệu và bấm
nút gửi chúng đến máy chủ. Dòng ký tự kỳ dị, vô nghĩa ấy được gọi là captcha. Khi vượt qua một captcha, bạn
như mở một cánh cửa. Captcha thực ra không vô nghĩa, thậm chí có thể có ý nghĩa
sâu sắc: mở ra cánh cửa trên Web để đi vào di sản văn hóa của nhân loại.
Những captcha bắt đầu xuất hiện trên Web (tại Yahoo!) từ năm
2000. Trước đó, các dịch vụ của Yahoo! thường xuyên bị quậy phá bởi bot - phần mềm tự động đăng ký tài khoản ồ ạt. Từ
lời yêu cầu giúp đỡ của Yahoo!, các chuyên gia tại Đại học Carnegie-Mellon (Canergie-Mellon University - CMU) đề xuất giải pháp giúp
phân biệt người và bot trong giao dịch qua mạng: hiển thị một hình ảnh buộc
người đăng ký dịch vụ phải nhận dạng. Hình ảnh được dùng chứa đựng một dòng chữ
mà con người đọc được dễ dàng nhưng phần mềm máy tính thì không.
Luis
von Ahn
Luis von Ahn - một nghiên cứu sinh tại CMU - gọi hình ảnh được
dùng trong giải pháp kiểm tra như vậy là captcha,
hàm nghĩa "capture ya" (nhận ra bạn rồi nhé!). Về sau, từ captcha
được diễn giải "nghiêm túc cố ý", như là cách viết tắt của thuật ngữ "Completely
Automated Public Turing Test to Tell Computers and Humans Apart" (phép thử
Turing phổ biến hoàn toàn tự động để phân biệt máy tính và con người). Captcha
còn được gọi là "phép thử Turing ngược" vì là phép thử do máy tính
thực hiện để hướng đến trí tuệ của con người, trong khi phép thử Turing (do
Turing đề xuất từ năm 1950) là phép thử do con người thực hiện để đánh giá
"trí tuệ" của máy tính.
CAPTCHA chống BOT
Do tiến bộ không ngừng của giải thuật nhận dạng hình ảnh,
dần dần xuất hiện những bot có khả năng đọc được dòng chữ trong hình ảnh khá
chính xác. Điều này khiến captcha cũng trở nên ngày càng phức tạp. Ký tự trong
captcha được tạo ra một cách ngẫu nhiên, bị biến dạng, bị chia cắt một cách
ngẫu nhiên, lại có thể có màu nền biến hóa khó lường như trong kính vạn hoa.
Nhiều captcha trở nên rất khó đọc đối với chính con người!
Gordon Weakliem - một lập trình viên ở Denver (Mỹ) - kể rằng anh thường xuyên đọc
sai captcha tại trang đăng nhập dịch vụ Windows Live của Microsoft. Jacob
Hanson - một giám đốc kỹ thuật ở Salt Lake City (Mỹ) - than phiền rằng có khi
ông phải thử đến lần thứ tư mới vượt qua được captcha, "với những người như mẹ tôi thì việc này còn khó đến mức
nào!". Michael Barrett - chuyên viên bảo mật thông tin tại PayPal -
khẳng định: "Rõ ràng sự phức tạp của
captcha đã đạt đến giới hạn" (không thể phức tạp hơn nữa và nên đơn
giản hơn).
Dù vậy, khẳng định về nguyên lý rằng độ phức tạp của captcha
ở mức nào là đủ cũng là vấn đề... phức tạp. Quả thực, captcha có thể phức tạp đối
với con người nhưng thường được tạo ra theo giải thuật nhất định, khiến những
tác giả của bot có thể đoán nhận. Đây đó trên Web thường có những "chuyên
gia" giấu mặt tung hỏa mù bằng cách huênh hoang rằng họ có thể đánh bại
catcha ở các trang mạng danh tiếng.
Aleksey Kolupaev -
một kỹ sư trẻ trong lĩnh vực nhận dạng hình ảnh tại Kiev (Ukraine) - đường
hoàng khẳng định tại trang mạng của mình rằng phần mềm anh đã "bắt
bài" những captcha tại MySpace và PayPal, có khả năng loại bỏ những chi
tiết gây nhiễu của màu nền để nhận dạng chính xác ký tự trong captcha. Kolupaev
quả quyết: "Không có cánh cửa nào mà không phá được. Mỗi hệ thống đều có
điểm yếu riêng". Kolupaev bán phần mềm đọc captcha của mình cho bất cứ ai
có nhu cầu với giá từ 100 USD đến 5000 USD tùy theo độ phức tạp của captcha.
Anh thực sự tin rằng công việc của mình thúc đẩy việc cải tiến giải thuật tạo
captcha, làm cho giao dịch qua mạng an toàn hơn (!).
Để captcha "thân thiện" hơn đối với con người
nhưng phức tạp đối với bot, những chuyên gia tại Microsoft đề xuất loại captcha
khác: không dùng ký tự, mà dùng hình ảnh loài vật hoặc cây cỏ. Người dùng
Internet sẽ phải quan sát nhiều ảnh thú nuôi khác nhau (được lấy ngẫu nhiên từ
cơ sở dữ liệu của Petfinder.com, gồm vài triệu ảnh) và chỉ ra đúng những ảnh
của chó hoặc của mèo. Hoặc "khó chịu" hơn nữa cho bot: trong một ảnh có
nhiều thứ lộn xộn, phải chọn đúng vị trí của một bó rau diếp!
Ngoài captcha ở dạng hình ảnh, việc sử dụng captcha âm thanh
cũng bắt đầu phổ biến, chủ yếu hướng đến người khiếm thị. Trong captcha âm
thanh có giọng đọc một số từ cùng tiếng ồn gây nhiễu cố ý, buộc con người phải
lắng nghe và dùng bàn phím gõ các từ đó. Tuy nhiên, những tiến bộ trong lĩnh
vực nhận dạng âm thanh vô hình trung làm cho bot có khả năng "lắng
nghe" ngày càng sắc sảo hơn.
"Vòng đời" của CAPTCHA
Gần như đứng ngoài cuộc "chạy đua vũ trang" của
captcha và bot, Luis von Ahn (giờ đây là giáo sư tiến sĩ, giảng dạy khoa học
máy tính tại CMU) lặng lẽ chuyển dự án nghiên cứu của anh tại CMU thành một
doanh nghiệp mang tên reCAPTCHA vào năm
2007, nhằm cung cấp captcha miễn phí cho mọi trang mạng. Đó không phải là những
captcha phức tạp, vẫn thuộc loại captcha của thuở ban sơ, chỉ có hai từ màu đen
trên nền trắng, mà lại là từ có nghĩa hẳn hoi. Dường như quá sức "dễ
nuốt" đối với bot! Tuy vậy, các trang mạng sử dụng captcha lấy từ
reCAPTCHA như Facebook, Craigslist, Ticketmaster,... đều đạt được hiệu quả cao
trong việc ngăn chặn bot.
Để tạo ra captcha, nhóm nghiên cứu của Ahn ghép một "từ
dễ" với một "từ khó". Từ dễ là từ đã được nhận dạng đúng bởi
phần mềm OCR (Optical Character Recognition - phần mềm nhận dạng hình ảnh từ
máy quét). Từ khó là từ mà phần mềm OCR nhận dạng sai hoặc không nhận dạng
được. Nhóm Ahn có rất nhiều từ khó như vậy từ thực tế công việc số hoá những
sách báo cũ, được xuất bản trước thời đại số. Phần mềm OCR thường "chịu
thua" những chữ trên giấy bị mờ, bị lem mực, bị vấy bẩn. Nhờ người dùng
Internet nhận dạng những từ khó, kết quả số hóa sách báo cũ của nhóm Ahn đạt
đến độ chính xác gần như tuyệt đối (trên 99%).
Luis
von Ahn
Trong phương pháp của nhóm Ahn, khi nhận dạng đúng từ dễ
trong captcha, người dùng tạo được "lòng tin" bước đầu rằng từ khó
cũng được nhận dạng đúng. Người dùng từ một địa chỉ IP nhất định có thể phải
vượt qua vài captcha và chịu ít nhiều "thử thách": phải nhận dạng từ
khó giống với số đông người dùng khác. Kết quả nhận dạng của số đông người dùng
được xem là kết quả đúng. Một khi từ khó đã được nhận dạng, nó trở thành từ dễ
trong captcha khác. "Thử thách" như vậy thực ra luôn dễ vượt qua đối
với con người, chỉ khó khăn đối với bot.
Ahn giải thích: "Trên
khắp thế giới, con người phải vượt qua khoảng 200 triệu captcha mỗi ngày. Cho
rằng mỗi lần nhận dạng một captcha mất 10 giây, nhân loại lãng phí 5 triệu giờ
mỗi ngày. Chúng tôi mong muốn lượng thời gian đó đem lại những điều hữu ích,
không mất đi hoàn toàn". Để mọi người hình dung về sự lãng phí thời
gian theo ước tính như vậy, Ahn lưu ý rằng tòa nhà Empire State Building được
xây dựng với 7 triệu giờ công và kênh Panama được tạo ra với 20 triệu giờ công.
Một
captcha lấy từ reCAPTCHA. Chú thích bên dưới captcha giúp người dùng biết rằng
họ đang góp phần vào việc số hóa sách báo cũ.
Tin tưởng vào phương pháp của nhóm Ahn, báo The New York
Time giao cho reCAPTCHA công việc số hóa kho lưu trữ đồ sộ, bao gồm mọi bản in
từ năm 1851 đến năm 1980 (trước khi báo thực hiện việc dàn trang bằng máy
tính).
Nhóm Ahn cũng hợp tác với tổ chức phi lợi nhuận Internet Archive trong dự án số hóa hàng
triệu tựa sách đã hết hạn bản quyền để đưa lên Web (trong đó có nhiều sách từ
các thế kỷ trước).
Với khoảng 100.000 địa chỉ mạng sử dụng captcha được lấy từ
reCAPTCHA, 10 triệu từ khó được nhận dạng mỗi ngày!
Với captcha âm thanh, nhóm Ahn cũng áp dụng phương pháp
tương tự nhằm giúp ích cho việc tạo ra văn bản tường thuật kèm theo những bản
ghi âm được lưu trữ của nhiều cơ quan truyền thông.
Ngày 16/9/2009, Google đạt được thỏa thuận với nhóm Ahn về
việc sáp nhập reCAPTCHA vào Google, nhằm phục vụ cho dự án Google Books. Đó dường
như là sự kết hợp tất yếu của ý tưởng reCAPTCHA giàu tính nhân văn với tôn chỉ
của Google: "Tổ chức thông tin của thế giới".
1
2
3
4
Bình
luận của Kolupaev về captcha từng được dùng tại một số trang mạng danh tiếng:
1.
Ticketmaster: Cách tạo nhiễu thú vị nhưng vì đều dùng đoạn thẳng nên phần nhiễu
dễ bị lọc bỏ.
2.
Microsoft Windows Live: Không dễ loại bỏ những đường gây nhiễu ngẫu nhiên nhưng
loại captcha này cũng khó đọc đối với con người.
3.
Yahoo!: Cách gây nhiễu giống như Microsoft nhưng đường gây nhiễu luôn có bề dầy
nét khác với chữ nên dễ bị lọc bỏ.
4.
YouTube: Vùng màu gây nhiễu có vẻ phức tạp nhưng đều là hình chữ nhật nên việc
nhận dạng ký tự không khó.
NGỌC
GIAO