Tuổi 20 của PDF

18/03/2013 10:53

Cách nay 20 năm, Công ty Adobe Systems công bố dạng thức tập tin PDF 1.0 tại triển lãm công nghệ Comdex Fall (Las Vegas - 11/1992).

Đến nay, khi phiên bản 2.0 đang được xét duyệt để trở thành chuẩn mở quốc tế, PDF thực chất đã là "một phần tất yếu của cuộc sống" đối với người dùng máy tính PC và thiết bị di động.

Là người dùng máy tính PC, bạn rất quen thuộc với tập tin DOC của Word, tập tin XLS của Excel, tập tin PPT của PowerPoint,... Dù hoạt động trong lĩnh vực nào, sẽ có lúc bạn phải đọc tài liệu ở dạng thức PDF hoặc bị "làm phiền" bởi yêu cầu chuyển đổi tài liệu của bạn sang dạng thức PDF. Vì sao phải dùng tập tin PDF thay vì dùng chính tập tin nguồn (do bạn đã khởi tạo bằng phần mềm công cụ nào đó) để trao đổi thông tin?

Dạng thức tập tin PDF xuất phát từ giấc mơ "văn phòng không giấy" của John Warnock - người sáng lập Công ty Adobe. Từ năm 1991, Warnock mong muốn không dùng đến giấy tờ trong hoạt động nội bộ của Adobe. Ông viết: "Thử hình dung chúng ta có thể gửi tài liệu chứa văn bản và hình ảnh (như các bài viết trên báo, tạp chí, các cẩm nang kỹ thuật,...) qua thư điện tử. Thử hình dung chúng ta dễ dàng xem được tài liệu như vậy trên bất kỳ máy tính nào, dễ dàng in tài liệu ra giấy bằng máy in tại chỗ khi cần. Nếu thực hiện được điều này, việc quản lý thông tin sẽ thay đổi hoàn toàn".

Ý tưởng của Warnock được đề xuất trong tình trạng mỗi tập tin chỉ có thể được mở xem và in ra giấy bằng chính phần mềm tạo ra nó, cộng thêm điều kiện nhất định (với máy tính không có đủ phông chữ, việc hiển thị nội dung tập tin bị ảnh hưởng). Ngày ấy, không có loại tập tin nào có được tính hoàn chỉnh giống như tài liệu giấy. Khi nhận tài liệu giấy, ai cũng đọc được ngay. Tài liệu giấy có thể mang chữ ký, dấu mộc, giúp người đọc yên tâm về tính xác thực, về xuất xứ của tài liệu.

PDF có thể chứa hình vector sắc nét.

Ý tưởng của Warnock được đề xuất khi Adobe có sẵn công nghệ khá thích hợp: dạng thức tập tin PostScript (PS). Tập tin PS không chỉ chứa nội dung tài liệu mà còn có nhiều câu lệnh mô tả hình thức trang in. Tập tin PS phải được in bằng máy in đắt tiền hiểu được ngôn ngữ PS, gọi là "máy in PS". Máy in PS diễn dịch những câu lệnh PS để tạo ra ảnh của trang in (tập hợp những chấm trên trang in).

Để thực hiện yêu cầu của Warnock, những kỹ sư của Adobe đã cải tiến dạng thức PS thành dạng thức IPS (Interchange PostScript), cuối cùng gọi là PDF (Portable Document Format). Tập tin PDF được tạo ra và chỉnh sửa bởi phần mềm Adobe Acrobat. Sau khi cài đặt Acrobat, những phần mềm khác trên máy tính có thêm chức năng Print PDF, nghĩa là tạo ra tập tin PDF bằng thao tác in. Nếu chỉ cần mở xem tập tin PDF, không cần chỉnh sửa nội dung, có thể dùng phần mềm nhỏ gọn mang tên Acrobat Reader.

Ngoài nội dung tài liệu, tập tin PDF còn chứa dữ liệu ở dạng thức gần với ảnh của trang in, trong đó bao hàm thông tin chi tiết của phông chữ. Do vậy, tập tin PDF có tính hoàn chỉnh: việc in ra giấy được thực hiện nhanh chóng, cho kết quả giống nhau bằng máy tính bất kỳ có Acrobat Reader và máy in thông dụng, không cần máy in PS. Acrobat Reader "in" nội dung tập tin PDF lên màn hình và in ra giấy theo cách giống nhau (kết quả in trên giấy giống hệt những gì hiện trên màn hình).

Đó là điều bình thường đối với người dùng máy tính hiện tại nhưng là sáng tạo công nghệ đoạt giải nhất tại triển lãm Comdex Fall tháng 11/1992. Giải pháp PDF được đánh giá cao một phần vì Adobe tạo ra phần mềm Acrobat và Acrobat Reader trên cả hai hệ điều hành Windows và Mac OS.

PDF là phương tiện chuyển tải tài liệu kỹ thuật.

Qua năm 1993, Adobe phát hành Acrobat với giá 700 USD và Acrobat Reader với giá 50 USD! Thật may, Adobe nhanh chóng "sửa sai" với quyết định hạ giá Acrobat và cung cấp miễn phí Acrobat Reader (sau này đổi tên thành Adobe Reader). Đồng thời, Adobe phát hành tài liệu kỹ thuật mô tả chi tiết dạng thức PDF, giúp mọi người lập trình có thể tự xây dựng phần mềm làm việc với tập tin PDF. PDF dần dần trở thành "chuẩn thực tế" cho việc trao đổi tài liệu. Tài liệu khoa học kỹ thuật hầu như luôn được trao đổi ở dạng thức PDF và thường được bảo vệ bằng mật khẩu (người dùng phải nhập mật khẩu khi mở xem).

Năm 2008, Adobe đệ trình dạng thức PDF 1.7 cho Tổ chức Tiêu chuẩn Quốc tế (International Organization for Standardization) và tự nguyện từ bỏ bản quyền sáng chế dạng thức PDF. Dạng thức PDF 1.7 trở thành chuẩn mở quốc tế, cho phép sử dụng tự do, không phụ thuộc vào Adobe.

Từ đó, phần mềm tạo và đọc PDF nở rộ trên máy tính PC và thiết bị di động. Khi cần phục vụ nhu cầu đọc trên màn hình thiết bị di động, phần mềm tạo và đọc PDF có thể tự do tối ưu hóa dữ liệu PDF (trong khuôn khổ của chuẩn) để tập tin PDF trở nên nhỏ gọn. Điều này giúp bạn hiểu vì sao hai tập tin PDF hiển thị cùng một nội dung trên màn hình nhưng có dung lượng rất khác nhau, dẫn đến chất lượng in rất chênh lệch.

Do PDF là chuẩn mở, loại máy quét có chức năng nhận dạng văn bản in trên giấy và ghi nhận kết quả ở dạng PDF không còn hiếm hoi. Máy in đọc trực tiếp tài liệu PDF cũng ngày càng phổ biến.

Từ lúc khai sinh năm 1992, PDF ngày càng phức tạp. Để thực hiện giấc mơ "văn phòng không giấy", Adobe phát triển dạng thức PDF để tập tin PDF có thể dùng như tờ biểu mẫu. Người nhận biểu mẫu PDF có thể kê khai thông tin cá nhân và gửi lại cho cơ quan phát hành biểu mẫu. Thông tin trong biểu mẫu dễ dàng được đọc vào cơ sở dữ liệu bằng phần mềm. PDF lại có thể chứa mã chương trình JavaScript để tương tác với người dùng, chẳng hạn, kiểm tra dữ liệu nhập vào biểu mẫu, đề nghị người dùng nhập lại cho đúng. Tập tin PDF cho phép người kê khai sử dụng chữ ký số trong tài liệu. Phần mềm đọc PDF như Adobe Reader tự động liên lạc với máy chủ của công ty chứng thực chữ ký số và hiển thị thông báo về hiệu lực của chữ ký số.

PDF là dạng thức phổ biến của sách điện tử.

Tập tin PDF có thể chứa liên kết trỏ đến trang mạng nào đó, có thể chứa hình bitmap, hình vector, có thể chứa âm thanh, phim ảnh. Phần mềm soạn thảo tài liệu PDF (Acrobat, InDesign,...) thường cho phép nhập phim ảnh thuộc nhiều dạng thức, kể cả dạng thức SWF của Flash. Tập tin PDF có chức năng ngày càng trùng lặp với trang mạng HTML nhưng có điểm khác biệt quan trọng: tập tin PDF có tính hoàn chỉnh, mọi thành phần của nội dung nằm trong một tập tin duy nhất.

Tính hoàn chỉnh thúc đẩy tập tin PDF trở thành phương tiện "xuất bản điện tử". Sách/tạp chí xuất bản ở dạng PDF cho phép mở xem không cần mật khẩu nhưng cấm trích lục nội dung, cấm in ra giấy. Quy định cấm được thiết lập khi tạo ra tập tin PDF bằng phần mềm Acrobat hoặc InDesign. Trong trường hợp như vậy, người xem sách/tạp chí PDF bằng Adobe Reader không thể chọn các đoạn văn để sao chép vào tài liệu khác, không thể chọn lệnh Print.

Tuy nhiên, quy định cấm có thể không được tôn trọng ở những phần mềm đọc PDF khác. Do PDF là chuẩn mở, nhanh chóng xuất hiện những phần mềm hoặc dịch vụ miễn phí trên mạng chuyên thực hiện việc "giải phóng PDF": xóa bỏ các quy định cấm trong tập tin PDF! Người dùng tài liệu PDF đôi khi chuyển đổi PDF thành dạng thức XPS (dạng thức tương tự PDF do Microsoft phát triển). Khi đó, các quy định cấm cũng "bỗng dưng" mất hiệu lực.

Để đối phó, dịch vụ xuất bản điện tử thường chọn giải pháp xây dựng phần mềm đọc PDF riêng. Quy định cấm được thiết lập ngay trong phần mềm. Máy chủ cung cấp/sách tạp chí PDF chỉ chấp nhận liên lạc với phần mềm đọc PDF riêng. Tuy nhiên, biện pháp như vậy vẫn có thể bị hóa giải bởi phần mềm nhận diện văn bản trên màn hình.

Trong tương lai khả kiến, PDF tiếp tục giữ vai trò quan trọng trong hoạt động xuất bản, trao đổi và lưu trữ tài liệu. Dạng thức PDF ra đời và phát triển với mục tiêu "không giấy" nhưng PDF và các loại ấn phẩm có lẽ vẫn là bạn đồng hành dài lâu.

NGỌC GIAO

Ý kiến bạn đọc (0)
Tên   Email

Lên đầu trang