CAPTCHA, mở cửa!

20/09/2009 16:07

Từ năm 2000, các chuyên gia tại Đại học Carnegie-Mellon (Canergie-Mellon University - CMU) đề xuất giải pháp giúp phân biệt người và "bot" trong giao dịch qua mạng: hiển thị một hình ảnh buộc người đăng ký dịch vụ phải nhận dạng, gọi là "captcha".

Khi bạn giao dịch trên Web, nhà cung cấp dịch vụ thường yêu cầu bạn phải nhận dạng những ký tự "uốn éo", khó đọc. Bạn phải dùng bàn phím để gõ những ký tự ấy vào một ô nhập liệu và bấm nút gửi chúng đến máy chủ. Dòng ký tự kỳ dị, vô nghĩa ấy được gọi là captcha. Khi vượt qua một captcha, bạn như mở một cánh cửa. Captcha thực ra không vô nghĩa, thậm chí có thể có ý nghĩa sâu sắc: mở ra cánh cửa trên Web để đi vào di sản văn hóa của nhân loại.

Những captcha bắt đầu xuất hiện trên Web (tại Yahoo!) từ năm 2000. Trước đó, các dịch vụ của Yahoo! thường xuyên bị quậy phá bởi bot - phần mềm tự động đăng ký tài khoản ồ ạt. Từ lời yêu cầu giúp đỡ của Yahoo!, các chuyên gia tại Đại học Carnegie-Mellon (Canergie-Mellon University - CMU) đề xuất giải pháp giúp phân biệt người và bot trong giao dịch qua mạng: hiển thị một hình ảnh buộc người đăng ký dịch vụ phải nhận dạng. Hình ảnh được dùng chứa đựng một dòng chữ mà con người đọc được dễ dàng nhưng phần mềm máy tính thì không.


Luis von Ahn

Luis von Ahn - một nghiên cứu sinh tại CMU - gọi hình ảnh được dùng trong giải pháp kiểm tra như vậy là captcha, hàm nghĩa "capture ya" (nhận ra bạn rồi nhé!). Về sau, từ captcha được diễn giải "nghiêm túc cố ý", như là cách viết tắt của thuật ngữ "Completely Automated Public Turing Test to Tell Computers and Humans Apart" (phép thử Turing phổ biến hoàn toàn tự động để phân biệt máy tính và con người). Captcha còn được gọi là "phép thử Turing ngược" vì là phép thử do máy tính thực hiện để hướng đến trí tuệ của con người, trong khi phép thử Turing (do Turing đề xuất từ năm 1950) là phép thử do con người thực hiện để đánh giá "trí tuệ" của máy tính.

CAPTCHA chống BOT

Do tiến bộ không ngừng của giải thuật nhận dạng hình ảnh, dần dần xuất hiện những bot có khả năng đọc được dòng chữ trong hình ảnh khá chính xác. Điều này khiến captcha cũng trở nên ngày càng phức tạp. Ký tự trong captcha được tạo ra một cách ngẫu nhiên, bị biến dạng, bị chia cắt một cách ngẫu nhiên, lại có thể có màu nền biến hóa khó lường như trong kính vạn hoa. Nhiều captcha trở nên rất khó đọc đối với chính con người!

Gordon Weakliem - một lập trình viên ở Denver (Mỹ) - kể rằng anh thường xuyên đọc sai captcha tại trang đăng nhập dịch vụ Windows Live của Microsoft. Jacob Hanson - một giám đốc kỹ thuật ở Salt Lake City (Mỹ) - than phiền rằng có khi ông phải thử đến lần thứ tư mới vượt qua được captcha, "với những người như mẹ tôi thì việc này còn khó đến mức nào!". Michael Barrett - chuyên viên bảo mật thông tin tại PayPal - khẳng định: "Rõ ràng sự phức tạp của captcha đã đạt đến giới hạn" (không thể phức tạp hơn nữa và nên đơn giản hơn).

Dù vậy, khẳng định về nguyên lý rằng độ phức tạp của captcha ở mức nào là đủ cũng là vấn đề... phức tạp. Quả thực, captcha có thể phức tạp đối với con người nhưng thường được tạo ra theo giải thuật nhất định, khiến những tác giả của bot có thể đoán nhận. Đây đó trên Web thường có những "chuyên gia" giấu mặt tung hỏa mù bằng cách huênh hoang rằng họ có thể đánh bại catcha ở các trang mạng danh tiếng.

Aleksey Kolupaev - một kỹ sư trẻ trong lĩnh vực nhận dạng hình ảnh tại Kiev (Ukraine) - đường hoàng khẳng định tại trang mạng của mình rằng phần mềm anh đã "bắt bài" những captcha tại MySpace và PayPal, có khả năng loại bỏ những chi tiết gây nhiễu của màu nền để nhận dạng chính xác ký tự trong captcha. Kolupaev quả quyết: "Không có cánh cửa nào mà không phá được. Mỗi hệ thống đều có điểm yếu riêng". Kolupaev bán phần mềm đọc captcha của mình cho bất cứ ai có nhu cầu với giá từ 100 USD đến 5000 USD tùy theo độ phức tạp của captcha. Anh thực sự tin rằng công việc của mình thúc đẩy việc cải tiến giải thuật tạo captcha, làm cho giao dịch qua mạng an toàn hơn (!).

Để captcha "thân thiện" hơn đối với con người nhưng phức tạp đối với bot, những chuyên gia tại Microsoft đề xuất loại captcha khác: không dùng ký tự, mà dùng hình ảnh loài vật hoặc cây cỏ. Người dùng Internet sẽ phải quan sát nhiều ảnh thú nuôi khác nhau (được lấy ngẫu nhiên từ cơ sở dữ liệu của Petfinder.com, gồm vài triệu ảnh) và chỉ ra đúng những ảnh của chó hoặc của mèo. Hoặc "khó chịu" hơn nữa cho bot: trong một ảnh có nhiều thứ lộn xộn, phải chọn đúng vị trí của một bó rau diếp!

Ngoài captcha ở dạng hình ảnh, việc sử dụng captcha âm thanh cũng bắt đầu phổ biến, chủ yếu hướng đến người khiếm thị. Trong captcha âm thanh có giọng đọc một số từ cùng tiếng ồn gây nhiễu cố ý, buộc con người phải lắng nghe và dùng bàn phím gõ các từ đó. Tuy nhiên, những tiến bộ trong lĩnh vực nhận dạng âm thanh vô hình trung làm cho bot có khả năng "lắng nghe" ngày càng sắc sảo hơn.

"Vòng đời" của CAPTCHA

Gần như đứng ngoài cuộc "chạy đua vũ trang" của captcha và bot, Luis von Ahn (giờ đây là giáo sư tiến sĩ, giảng dạy khoa học máy tính tại CMU) lặng lẽ chuyển dự án nghiên cứu của anh tại CMU thành một doanh nghiệp mang tên reCAPTCHA vào năm 2007, nhằm cung cấp captcha miễn phí cho mọi trang mạng. Đó không phải là những captcha phức tạp, vẫn thuộc loại captcha của thuở ban sơ, chỉ có hai từ màu đen trên nền trắng, mà lại là từ có nghĩa hẳn hoi. Dường như quá sức "dễ nuốt" đối với bot! Tuy vậy, các trang mạng sử dụng captcha lấy từ reCAPTCHA như Facebook, Craigslist, Ticketmaster,... đều đạt được hiệu quả cao trong việc ngăn chặn bot.

Để tạo ra captcha, nhóm nghiên cứu của Ahn ghép một "từ dễ" với một "từ khó". Từ dễ là từ đã được nhận dạng đúng bởi phần mềm OCR (Optical Character Recognition - phần mềm nhận dạng hình ảnh từ máy quét). Từ khó là từ mà phần mềm OCR nhận dạng sai hoặc không nhận dạng được. Nhóm Ahn có rất nhiều từ khó như vậy từ thực tế công việc số hoá những sách báo cũ, được xuất bản trước thời đại số. Phần mềm OCR thường "chịu thua" những chữ trên giấy bị mờ, bị lem mực, bị vấy bẩn. Nhờ người dùng Internet nhận dạng những từ khó, kết quả số hóa sách báo cũ của nhóm Ahn đạt đến độ chính xác gần như tuyệt đối (trên 99%).


Luis von Ahn

Trong phương pháp của nhóm Ahn, khi nhận dạng đúng từ dễ trong captcha, người dùng tạo được "lòng tin" bước đầu rằng từ khó cũng được nhận dạng đúng. Người dùng từ một địa chỉ IP nhất định có thể phải vượt qua vài captcha và chịu ít nhiều "thử thách": phải nhận dạng từ khó giống với số đông người dùng khác. Kết quả nhận dạng của số đông người dùng được xem là kết quả đúng. Một khi từ khó đã được nhận dạng, nó trở thành từ dễ trong captcha khác. "Thử thách" như vậy thực ra luôn dễ vượt qua đối với con người, chỉ khó khăn đối với bot.

Ahn giải thích: "Trên khắp thế giới, con người phải vượt qua khoảng 200 triệu captcha mỗi ngày. Cho rằng mỗi lần nhận dạng một captcha mất 10 giây, nhân loại lãng phí 5 triệu giờ mỗi ngày. Chúng tôi mong muốn lượng thời gian đó đem lại những điều hữu ích, không mất đi hoàn toàn". Để mọi người hình dung về sự lãng phí thời gian theo ước tính như vậy, Ahn lưu ý rằng tòa nhà Empire State Building được xây dựng với 7 triệu giờ công và kênh Panama được tạo ra với 20 triệu giờ công.


Một captcha lấy từ reCAPTCHA. Chú thích bên dưới captcha giúp người dùng biết rằng họ đang góp phần vào việc số hóa sách báo cũ.

Tin tưởng vào phương pháp của nhóm Ahn, báo The New York Time giao cho reCAPTCHA công việc số hóa kho lưu trữ đồ sộ, bao gồm mọi bản in từ năm 1851 đến năm 1980 (trước khi báo thực hiện việc dàn trang bằng máy tính).

Nhóm Ahn cũng hợp tác với tổ chức phi lợi nhuận Internet Archive trong dự án số hóa hàng triệu tựa sách đã hết hạn bản quyền để đưa lên Web (trong đó có nhiều sách từ các thế kỷ trước).

Với khoảng 100.000 địa chỉ mạng sử dụng captcha được lấy từ reCAPTCHA, 10 triệu từ khó được nhận dạng mỗi ngày!

Với captcha âm thanh, nhóm Ahn cũng áp dụng phương pháp tương tự nhằm giúp ích cho việc tạo ra văn bản tường thuật kèm theo những bản ghi âm được lưu trữ của nhiều cơ quan truyền thông.

Ngày 16/9/2009, Google đạt được thỏa thuận với nhóm Ahn về việc sáp nhập reCAPTCHA vào Google, nhằm phục vụ cho dự án Google Books. Đó dường như là sự kết hợp tất yếu của ý tưởng reCAPTCHA giàu tính nhân văn với tôn chỉ của Google: "Tổ chức thông tin của thế giới".


1


2


3


4

Bình luận của Kolupaev về captcha từng được dùng tại một số trang mạng danh tiếng:

1. Ticketmaster: Cách tạo nhiễu thú vị nhưng vì đều dùng đoạn thẳng nên phần nhiễu dễ bị lọc bỏ.

2. Microsoft Windows Live: Không dễ loại bỏ những đường gây nhiễu ngẫu nhiên nhưng loại captcha này cũng khó đọc đối với con người.

3. Yahoo!: Cách gây nhiễu giống như Microsoft nhưng đường gây nhiễu luôn có bề dầy nét khác với chữ nên dễ bị lọc bỏ.

4. YouTube: Vùng màu gây nhiễu có vẻ phức tạp nhưng đều là hình chữ nhật nên việc nhận dạng ký tự không khó.

NGỌC GIAO


Ý kiến bạn đọc (0)
Tên   Email

Lên đầu trang