iText pdfOCR là một phần của SDK PDF iText 7 nổi tiếng, cung cấp chức năng Nhận dạng ký tự quang học (Optical Character Recognition – OCR) để chuyển đổi văn bản in trong các tài liệu và hình ảnh được quét thành định dạng có thể tìm kiếm đầy đủ, tuân thủ PDF / A-3u (phiên bản PDF 1.7) và truy cập các văn bản đó một cách dễ dàng hơn và nhanh hơn. Nếu không có văn bản có thể đọc bằng máy, các tài liệu được in hoặc quét không thể được tìm kiếm, được lập chỉ mục hoặc được thích. Các hành động tiếp theo hợp lý có thể là trích xuất dữ liệu với iText pdf2Data, bảo vệ nội dung an toàn với iText pdfSweep hoặc tài liệu đa ngôn ngữ với iText pdfCalligraph. Với việc tái sử dụng dữ liệu với trình tạo tài liệu mã thấp iText DITO® thường được coi chức năng cuối cùng làm cho mọi thứ càng trở nên hoàn hảo.
Phần bổ trợ iText pdfOCR được xây dựng dưa trên công nghệ công cụ Tesseract OCR . Tesseract hỗ trợ hơn 100 ngôn ngữ và được phát triển bởi Hewlett-Packard (’85) và được phát hành theo giấy phép nguồn mở Apache vào năm 2005. Kể từ năm 2006, sự phát triển của Tesseract đã được Google tài trợ.
Ông Yeonsu Kim, Giám đốc điều hành (CEO) của iText Group NV phát biểu: “Đại dịch COVID-19 đã khiến các công ty đẩy nhanh các dự án chuyển đổi kỹ thuật số của họ, các tổ chức buộc phải khám phá những cách mới để truy cập và quản lý dữ liệu hiện có và mới của họ. Với việc trở thành người dẫn đầu trong không gian tài liệu kỹ thuật số, chúng tôi rất vui mừng khi luôn đi đầu trong lĩnh vực này, Tôi rất tự hào công bố bổ sung mới nhất cho thư viện PDF của chúng tôi cho thế giới mới ngày nay: nhờ vào các khả năng Nhận dạng ký tự quang học của iText pdfOCR, nhiều cơ hội mới sẽ mở ra cho người dùng và doanh nghiệp muốn tối đa hóa tiềm năng dữ liệu của họ”.
Ông Yeonsu Kim cho biết thêm: “Giữ đúng với nguồn gốc nguồn mở của mình, chúng tôi đã quyết định xây dựng iText pdfOCR dựa trên Công cụ Tesseract OCR nguồn mở. Với điều này, chúng tôi muốn xác nhận lại vị trí của mình là một công ty nguồn mở – một giá trị được đánh giá cao bởi hàng triệu người dùng và khách hàng của chúng tôi”.
Ông Tony Van den Zegel, Phó giám đốc phụ trách mảng Sản phẩm & Tiếp thị của iText Group NV và Tổng giám đốc của iText Software Bỉ, nhận xét: “Với bổ sung mới này vào thư viện PDF của chúng tôi, giờ đây, các nhà phát triển có thể tận dụng dữ liệu bị khóa trong các tài liệu mà cho đến bây giờ, không thể truy cập được. Sản phẩm mới nhất của chúng tôi cho phép họ mở rộng khả năng xử lý công việc kỹ thuật số bằng cách truy cập dữ liệu được chôn trong các tệp được quét và triển khai nó cho bất kỳ hành động hoặc mục đích nào mà họ hoặc người dùng cuối của họ muốn”.
Các ứng dụng của iText pdf rất đa dạng, ví dụ: việc lưu trữ tài liệu lịch sử, các bản dịch tài liệu pháp lý, nhập dữ liệu tự động, trong khi việc xử lý tất cả các loại ứng dụng vật lý hoặc khiếu nại và viêc sắp xếp các tài liệu được in hoặc quét không thể chỉnh sửa được.