I. ĐẶC ĐIỂM TÀI LIỆU SỐ HÓA
1. Khái quát chung
Các năm gần đây, một trong các biện pháp quản lý tài liệu lưu trữ đã được nhắc đến là số hóa tài liệu và trong xã hội đã manh nha thị trường các dịch vụ số hóa tài liệu lưu trữ. Trong bài viết này, tác giả muốn là rõ khái niệm, nội dung số hóa tài liệu, trong đó có tài liệu lưu trữ và những công việc có liên quan đến số hóa tài liệu lưu trữ.
Luật lưu trữ do Quốc hội thông qua ngày 11/11/2011 đã quy định về tài liệu lưu trữ điện tử, không quy định chi tiết đến tài liệu lưu trữ số hóa.
Chúng ta có thể hiểu tóm tắt tài liệu điện tử là một bản ghi được tạo ra, gửi, chuyển giao, nhận được, hoặc lưu trữ, sử dụng bằng phương tiện điện tử. Tài liệu điện tử được hình thành từ hai nguồn chính:
– Một là, bản ghi các thông diệp dữ liệu được khởi tạo từ đầu;
– Hai là, bản ghi các dữ liệu số từ tài liệu truyền thống.
Vậy, tài liệu số hóa có nguồn gốc từ tài liệu điện tử, nhưng không đồng nhất với tài liệu điện tử. Tài liệu số hóa trở thành tài liệu điện tử qua quá trình số hóa dữ liệu. Đây là quá trình chuyển các dạng dữ liệu truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên các phương tiện điện tử và được các phương tiện đó nhận biết được gọi là số hóa dữ liệu và chúng trở thành dữ liệu số. Từ đó, về mặt lý thuyết, ta hiểu số hóa dữ liệu là quá trình chuyển các dạng dữ liệu truyền thống sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết.
2. Mục tiêu của việc số hóa tài liệu lưu trữ
Thông qua các công việc cụ thể của việc số hóa dữ liệu, chúng ta mong muốn đạt được các mục đich là xử lý các quy trình nghiệp vụ lưu trữ được tối ưu. Muốn đạt được những mục tiêu đó, các kho lưu trữ phải thực hiện các thao tác thuộc quy trình số hóa tài liệu là chuyển đổi tài liệu lưu trữ dạng thông thường, vẫn quen gọi là tài liệu có “tín hiệu tương tự” (analog) sang dạng tài liệu số, hoặc dữ liệu số (digital). Từ đó, chúng ta đạt được những mục tiêu cơ bản như:
a) Kéo dài tuổi thọ của tài liệu lưu trữ bản gốc.
Đây cũng chính là giải pháp của quy trình bảo quản và bảo hiểm tài liệu lưu trữ mà bấy lâu, cơ quan quản lý ngành lưu trữ vẫn đang trăn trở.
b) Đồng nhất các loại hình tài liệu
Với phương pháp quản lý tài liệu lưu trữ truyền thống, chúng ta phải bảo quản tài liệu với các vật mang tin của từng loại hình tài liệu lưu trữ riêng, như: tài liệu giấy, tài liệu phim ảnh, phim điện ảnh, tài liệu ghi âm…, vì các chế độ bảo quản tài liệu như chế độ nhiệt độ, độ ẩm, ánh sáng khác nhau; hoặc thiết bị phục vụ khai thác, sử dụng từng tài liệu đó cũng khác nhau. Nhưng với dữ liệu số, chúng ta đã loại trừ được hầu hết sự khác biệt đó, tạo thuận lợi cho người sử dụng.
c) Quản lý, khai thác tập trung
Với sự tối ưu đã phân tích trên, đương nhiên, toàn bộ các dữ liệu số hóa, không phân biệt chúng có nguồn gốc từ tài liệu có vật mang tin gì, đều có thể quản lý trong một cơ sở dữ liệu, tạo sự tối ưu cho người sử dụng. Thông qua việc số hóa tài liệu lưu trữ, độc giả không phụ thuộc vào các kho bảo quản riêng biệt tài liệu lưu trữ khác nhau, và không phải gắn mình vào một không gian nhất định của một phòng đọc khi khai thác, sử dụng tài liệu lưu trữ. Từ đó, các cơ quan lưu trữ có thể tạo cho độc giả tăng khả năng tiếp cận, sử dụng tài liệu được nhanh chóng, chính xác và tiện lợi.
3. Thuận lợi và khó khăn khi số hóa tài liệu lưu trữ
Khi đặt yêu cầu số hóa tài liệu lưu trữ, cũng không nên tuyệt đối hóa một chiều về sự tối ưu của chúng, để chúng ta biết trước các điều kiện nào cần có, để có thể xây dựng được một đề án số hóa tài liệu lưu trữ cho cơ quan mình. Với mục tiêu được đặt ra, ta cần biết được chi tiết những ưu điểm và hạn chế của dữ liệu số hóa.
a) Ưu điểm là:
– Giúp việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng. Ưu điểm này bao gồm tổng hoà các thuận tiện trong công tác quản lý, bảo quản, bảo vệ, khai thác và sử dụng tài liệu lưu trữ với một ngân hàng dữ liệu số;
– Linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau. Sự chuyển đổi phổ biến nhất là chuyển đổi định dạng các file tài liệu. Ví dụ, ta đang có một file word, có thể chuyển sang định dạng PDF nhờ một chương trình ứng dụng để chuyển đổi nó. Ứng dụng đó có thể là một chương trình độc lập, hoặc là một kỹ thuật nhúng tích hợp vào chương trình word, hoặc là một ứng dụng on line…Dữ liệu sau khi chuyển đổi sẽ được sử dụng linh hoạt hơn.
– Giảm chi phí tối đa cho việc quản lý tài liệu lưu trữ. Chúng ta hiểu tiết kiệm không gian bảo quản tài liệu lưu trữ một cách tương đối, vì theo quy định của Luật lưu trữ, tài liệu lưu trữ đã được số hóa, vẫn phải bảo quản an toàn tài liệu bản gốc.
– Có khả năng chỉnh sửa và tái sử dụng dữ liệu. Ở thuận lợi này ta cần hiểu “khả năng chỉnh sửa” theo đúng nguyên tắc quản lý tài liệu lưu trữ là không được chỉnh sửa nội dung tài liệu, mà chỉ chỉnh sửa chất lượng mang tin, như tài liệu bị mờ, bị hư hỏng nặng cần chỉnh sửa…
b) Những hạn chế cần khắc phục của tài liệu số hóa là:
– Khi bắt đầu xây dựng một đề án số hóa tài liệu lưu trữ, cần phải đầu tư ban đầu về công nghệ, cơ sở hạ tầng công nghệ thông tin và các thiết bị khác, ví dụ, cần phải đầu tư mua sắm, hoặc thuê từng phần các thiết bị phần cứng như máy tính, máy in, máy quét ảnh và các chương trình phần mềm để quản lý và tra tìm tài liệu. Khi đã có đầy đủ các thiết bị phần cứng, phần mềm, việc thực hiện số hóa tài liệu có thể thuê các cơ quan chuyên môn thực hiện. Ngoài ra, điều rất quan trọng là phải đầu tư cho yêu cầu đào tạo con người theo các mức độ khác nhau như đào tạo công chức làm quản lý, công chức, viên chức tác nghiệp và những cán bộ kỹ thuật, cán bộ chuyên tin.
– Bất tiện thứ hai là dữ liệu số hóa dễ bị sao chép và sửa đổi trái phép. Điều này có thể khắc phục giản đơn đối với những người chuyên làm công tác quản trị mạng, nhưng không giản đơn đối với toàn bộ công chức, viên chức của cả một cơ quan, tổ chức có sử dụng cơ sở dữ liệu số hóa. Với phương pháp bảo vệ dữ liệu ở ba cấp: cấp mạng, cấp cơ sở dữ liệu và cấp người sử dụng, người ta có thể loại trừ được sự bất tiện này. Nhưng một cơ quan đông người, rất khó có thể quản lý được từng người ở từng cấp. Ví dụ, cấp độ 3 là bảo vệ dữ liệu ở người sử dụng, một số người trong cơ quan tổ chức được quyền miễn trừ nguyên tắc này để họ có đủ quyền, kể quyền quản trị cơ sở dữ liệu. Nhưng chính một số cá nhân có quyền quản trị mạng lại sao chép cho riêng mình toàn bộ cơ sở dữ liệu thì sao (?)…
– Khó khăn thứ ba, cũng như đã đề cập một phần ở phần viết trên là, việc triển khai sử dụng cơ sở dữ liệu số hóa phải đào tạo đồng bộ và có hệ thống để tất cả cán bộ công chức, viên chức của cơ quan, tổ chức đều có thể sử dụng được tài liệu số đúng phương pháp và nguyên tắc.
– Một khó khăn có liên qua đến vấn đề đã nêu, là chế độ bảo mật dữ liệu. Thông thường, tài liệu còn chế độ mật thì chưa được số hóa. Nhưng sự phân biệt giữa tài mật và không mật chỉ là tương đổi. Nhiều tài liệu được sử dụng rộng rãi, nhưng qua diễn biến xã hội ở trong nước và quan hệ quốc tế, tài liệu đó có thể phục hồi độ mật. Vì vậy, trong một sơ sở dữ liệu, có thể không bị mất dữ liệu, hoặc không bị sao chép, nhưng bị lộ thông tin tài liệu mật.
II. QUY TRÌNH SỐ HÓA TÀI LIỆU
Do mục tiêu số hóa tài liệu khác nhau, mà có thể đặt ra các bước số hóa tài liệu khác nhau phù hợp đối với từng cơ quan, tổ chức. Cục Văn tthư và Lưu trữ Nhà nước đặt ra quy trình số hóa tài liệu lưu trữ gồm 12 bước theo Quyết định số 176/QĐ-VTLTNN ngày 21/10/2011 với yêu cầu phân loại ảnh và sao lưu ảnh. Nhưng nếu với yêu cầu phổ thông, quá trình thực hiện số hóa tài liệu lưu trữ chỉ giản đơn có 5 bước là:
Bước 1. Nhận tài liệu lưu trữ đã được lựa chọn để thực hiện số hóa. Việc lựa chọn này là cần thiết, vì không có một cơ quan, tổ chức nào lại có thể số hóa một lần cả kho lưu trữ của mình. Tiêu chuẩn để số hóa tùy thuộc vào mục tiêu của chủ sở hữu tài liệu lưu trữ. Ví dụ, số hóa để bảo hiểm tài liệu lưu trữ, thì tài liệu được chọn phải là tài liệu thuộc diện quý, hiếm theo quy định của pháp luật.
Bước 2. Chuẩn bị tài liệu. Công việc bao gồm:
– Lấy ra các bìa cứng, ghim kẹp; làm phẳng các trang tài liệu; Phân loại TL, tách riêng những TL rách, hư hỏng, nếu việc số hóa áp dụng cho các hồ sơ lưu trữ và dùng kỹ thuật scan từng tờ tài liệu. Nếu việc số hóa các tư liệu lưu trữ dạng đóng quyển, thì có thể áp dụng công nghệ mới tiến bộ hơn như Bookscan cho việc số hóa tài liệu lưu trữ.
Bước 3. Scan và thiết lập hệ thống ảnh; đặt tên file; đặt định dạng; đóng, ghim lại theo tổ chức tài liệu ban đầu; tạo siêu siêu dữ liệu (metadata).
Đây là bước quyết định nhất để chuyển đổi tài liệu truyền thống sang tài liệu số hóa. Danh mục tài liệu số hóa được lập và nhúng (gắn) và tài liệu thông qua một phần mềm ứng dụng và tạo ra metadata. Đồng thời, tài liệu được đặt định dạng theo sự lựa chọn được định trước.
Bước 4. Kiểm tra chất lượng tài liệu đã được số hóa và làm lại những ảnh không đạt yêu cầu.
Bước 5. Nghiệm thu, bàn giao tài liệu lưu trữ.
Công việc bao gồm bàn giao tài liệu số hóa và bàn giao tài liệu gốc. Nếu tài liệu số hóa là tài liệu lưu trữ của một Lưu trữ lich sử thì với những văn bản không đóng quyển trong một hồ sơ, việc bàn giao phải được kiểm tra chặt chẽ từng trang tài liệu để bảo đảm đầy đủ như tài liệu ban đầu đã nhận ở bước 1.
III. MỘT SỐ CÔNG VIỆC PHẢI THỰC HIỆN ĐỒNG THỜI KHI THỰC HIỆN SỐ HÓA TÀI LIỆU LƯU TRỮ
1. Chọn định dạng các file ảnh.
Định dạng file là những phần mở rộng ở cuối một tên file (đuôi file), biểu thị file đó thuộc định dạng nào.Thông tin đuôi file được hệ điều hành sử dụng để mở ra chương trình phù hợp. Ví dụ: *.txt là loại file chữ viết và được xử lý bằng một chương trình văn bản tương ứng.Các định dạng file ảnh khác nhau mang lại dung lượng ổ đĩa, cũng như chất lượng ảnh khác nhau.Các định dạng phổ biến được áp dụng cho file dữ liệu ảnh là: JPEG, TIFF, GIF, PNG, RAW… Mỗi định dạng này đều có những ưu thế và những hạn chế riêng. Tính năng và cách lựa chọn một định dạng cho một khối tài liệu số hóa, đề nghị độc giả tự nghiên cứu, vì lý do hạn chế trang viết của một bài báo, nên chúng tôi xin không viết ra ở đây.
2. Chọn vật mang tin để quản lý tài liệu số hóa.
Vật mang tin là các phương tiện lưu giữ và truyền đạt thông tin trên mọi chất liệu từ khi có chữ viết đến nay như đất nung, đá, vỏ, lá cây, lụa, mai rùa, tre, giấy… Với sự tiến bộ của khoa học và công nghệ, đã xuất hiện thêm tài liệu công nghệ mới, tài liệu nghe nhìn hiện đại, như đĩa CD, CD-ROM, DVD, băng từ, video, vi phim, vi phiếu, ổ cứng máy tính, v.v…thì điều quan tâm nhất của công tác lưu trữ tài liệu là độ bền của từng loại vật mang tin.
Với khả của cơ quan là chủ sở hữu tài liệu, mỗi một dự án số hóa tài liệu đều chọn vật mang tin thích hợp để quản lý các dữ liệu số của mình.
Sau đây chúng ta tham khảo kết quả nghiên cứu sơ bộ của Dự án bảo hiểm tài liệu lưu trữ của Cục Văn thư và Lưu trữ Nhà nước kết hợp với kết quả nghiên cứu của tác giả là:
Đĩa CD: có tuổi thọ 5 năm;
Đĩa DVD: (Digital Versatile Disc) là đĩa lưu trữ dữ liệu, cung cấp dung lượng lớn xấp xỉ 7 lần so với đĩa CD) có tuổi thọ 8 năm;
Ổ cứng (HDD): có tuổi thọ 10 năm;
Thiết bị lưu trữ mạng – NAS (Network Attached Storage): có tuổi thọ 20 năm;
Băng từ: có tuổi thọ 25 năm;
Giấy công nghiệp (chưa khử axit): có tuổi thọ 50 – 60 năm;
Giấy dó: có tuổi thọ 200-400 năm;
Microfilm: có tuổi thọ 500 năm;
Giấy chuyên dụng lưu trữ: có tuổi thọ 500-1.000 năm, hoặc lâu hơn…
3. Thiết lập hệ thống siêu dữ liệu
Siêu dữ liệu (Metadata) là thông tin mô tả nội dung của tài liệu số hóa, mà người làm lưu trữ vẫn quen gọi là thông tin cấp II tài liệu lưu trữ. Siêu dữ liệu là dữ liệu để mô tả dữ liệu, hoặc dữ liệu về dữ liệu. Khi dữ liệu được cung cấp cho người dùng cuối, Siêu dữ liệu sẽ cung cấp những thông tin cho phép người quản lý tin và dùng tin hiểu rõ hơn bản chất của dữ liệu mà họ đang có. Cụ thể, những thông tin này giúp cho người dùng tin tìm ra được tài liệu mà họ đang cần và giúp họ hiểu những thông tin khác có liên quan. Với sự tối ưu của Siêu dữ liệu, nên có độc giả còn nói là “bể chứa thông tin về dữ liệu”. Thông qua Siêu dữ liệu, độc giả có thể nhận biết từng chi tiết kỹ thuật như: kích thước cơ bản của cơ sở dữ liệu, danh mục nghiệp vụ của những loại dữ liệu khác nhau. Những mô tả này hướng dẫn người dùng tin tìm đúng loại dữ liệu, qua đó, giúp họ hiểu được ý nghĩa của dữ liệu và phương pháp tiếp cận chúng.
Nhìn chung, Siêu dữ liệu bao gồm một số loại thông tin cơ bản như: thông tin mô tả về bản thân dữ liệu của Siêu dữ liệu; thông tin về dữ liệu mà Siêu dữ liệu mô tả và thông tin về cơ quan, tổ chức và cá nhân liên quan đến dữ liệu mà Siêu dữ liệu đã mô tả.
Nhưng đặc điểm chính và sự tối ưu của Siêu dữ liệu không phải chỉ dừng lại ở đó. Vì nếu chỉ có như thế (như mô tả trên), thì với công cụ truyền thống, chúng ta cũng có thể làm được, thông qua việc biên mục chi tiết các Bộ thẻ thư viện, Mục lục hồ sơ lưu trữ, Sách hướng dẫn các phông lưu trữ…
Giá trị mà chúng tôi coi là quan trọng nhất của việc số hóa tài liệu lưu trữ có thể là tìm tin tự động thông qua kỹ thuật nhúng (gắn) thông tin của Siêu dữ liệu vào dữ liệu số hóa nhờ một phần mềm chuyên dụng. Chính một trong những phức tạp cần giải quyết của một Dự án số hóa tài liệu lưu trữ cũng nằm đây.
Mối liên hệ, vị trí giữa Siêu dữ liệu và tài nguyên thông tin mà nó mô tả được thể hiện ở một trong hai cách sau:
Với công cụ tra cứu truyền thống, phần tử của thông tin cấp II được chứa trong một biểu ghi, hoặc ở công cụ tra cứu khác nằm tách biệt bên ngoài đối tượng mô tả. Như vậy, thông tin mô tả để quan lý và tra tìm tài liệu được lưu trữ bên ngoài bên ngoài đối tượng mô tả.
Với cơ sở dữ liệu được số hóa thành tài liệu điện tử, các phần tử Siêu dữ liệu có khả năng nhúng (gắn) vào bên trong tài nguyên mà nó mô tả, để quản lý và tra tìm tài liệu tự động hóa. Chính sự tối ưu này tạo ra độ phức tạp cho lao động số hóa. Từ đó chúng ta, người làm lưu trữ không thể hiểu số hóa tài liệu lưu trữ một cách giản đơn chỉ là scan, hoặc chụp tài liệu để lưu vào máy tính, vì đó chỉ là lao động kỹ thuật của các nhân viên.
Việc nhúng (gắn) vào bên trong tài nguyên mà nó mô tả cần một chuẩn mô tả thông dụng hiện nay là “Dublin Core Metadata”, “MARC21/UNIMARC, ISO-2709”… mà chúng ta không cần viết ra ở đây, vì tốn khá nhiều giấy, mực và để dành cho các bài viết chuyên đề khác.
(PGS-TS. Dương Văn Khảm giảng viên cao cấp Trường Đại học Nội vụ Hà Nội
Nguồn: www.vanthuluutru.dongnai.gov.vn)