Cách chuyển đổi tệp PDF thành văn bản có thể chỉnh sửa bằng dòng lệnh trong Linux
Có nhiều lý do tại sao bạn có thể muốn chuyển đổi tệp PDF thành văn bản có thể chỉnh sửa. Có thể bạn cần sửa lại một tài liệu cũ và tất cả những gì bạn có là phiên bản PDF của nó. Chuyển đổi tập tin PDF trong Windows rất dễ, nhưng nếu bạn đang sử dụng Linux?
Đừng lo lắng. Chúng tôi sẽ chỉ cho bạn cách dễ dàng chuyển đổi các tệp PDF thành văn bản có thể chỉnh sửa bằng cách sử dụng công cụ dòng lệnh có tên pdftotext, đó là một phần của gói Poppler-utils. Công cụ này có thể đã được cài đặt. Để kiểm tra xem pdftotext có được cài đặt trên hệ thống của bạn hay không, hãy nhấn phím Ctrl + Alt + Tỏ để mở cửa sổ đầu cuối. Gõ lệnh sau tại dấu nhắc và nhấn vào Enter Enter.
dpkg -s poppler-utils
LƯU Ý: Khi chúng tôi nói nhập một nội dung nào đó trong bài viết này và có các trích dẫn xung quanh văn bản, KHÔNG gõ các trích dẫn, trừ khi chúng tôi chỉ định khác.
Nếu pdftotext chưa được cài đặt, hãy gõ lệnh sau tại dấu nhắc và nhấn vào Enter Enter.
sudo apt-get cài đặt poppler-utils
Nhập mật khẩu của bạn khi được nhắc và nhấn vào Enter Enter.
Có một số công cụ có sẵn trong gói poppler-utils để chuyển đổi PDF sang các định dạng khác nhau, thao tác với các tệp PDF và trích xuất thông tin từ các tệp.
Sau đây là lệnh cơ bản để chuyển đổi tệp PDF thành tệp văn bản có thể chỉnh sửa. Nhấn phím Ctrl + Alt + T, để mở cửa sổ Terminal, nhập lệnh tại dấu nhắc và nhấn vào Enter Enter.
pdftotext /home/lori/Document/Sample.pdf /home/lori/Document/Sample.txt
Thay đổi đường dẫn đến từng tệp để tương ứng với vị trí và tên của tệp PDF gốc của bạn và nơi bạn muốn lưu tệp văn bản kết quả. Ngoài ra, thay đổi tên tệp để tương ứng với tên tệp của bạn.
Tệp văn bản được tạo và có thể được mở giống như bạn mở bất kỳ tệp văn bản nào khác trong Linux.
Văn bản được chuyển đổi có thể có ngắt dòng ở những nơi bạn không muốn. Ngắt dòng được chèn sau mỗi dòng văn bản trong tệp PDF.
Bạn có thể giữ nguyên bố cục của tài liệu của mình (đầu trang, chân trang, phân trang, v.v.) khỏi tệp PDF gốc trong tệp văn bản đã chuyển đổi bằng cách sử dụng cờ.
pdftotext -layout /home/lori/Document/Sample.pdf /home/lori/Document/Sample.txt
Nếu bạn chỉ muốn chuyển đổi một phạm vi trang trong tệp PDF, hãy sử dụng các cờ của C -F và và -L-((chữ thường chữ viết tắt) để chỉ định các trang đầu tiên và cuối cùng trong phạm vi bạn muốn chuyển đổi.
pdftotext -f 5 -l 9 /home/lori/Document/Sample.pdf /home/lori/Document/Sample.txt
Để chuyển đổi một tệp PDF được bảo vệ và mã hóa bằng mật khẩu của chủ sở hữu, hãy sử dụng cờ của Wap -opw '(ký tự đầu tiên trong cờ là một chữ cái thường Chữ O O, không phải là số 0).
pdftotext -opw 'mật khẩu' /home/lori/Document/Sample.pdf /home/lori/Document/Sample.txt
Thay đổi mật khẩu của Nhật Bản thành một mật khẩu được sử dụng để bảo vệ tệp PDF gốc đang được chuyển đổi. Đảm bảo có dấu ngoặc đơn, không gấp đôi, xung quanh mật khẩu.
Nếu tệp PDF được bảo vệ và mã hóa bằng mật khẩu người dùng, hãy sử dụng cờ của -vwv thay vì cờ -opw '. Phần còn lại của lệnh là như nhau.
Bạn cũng có thể chỉ định loại ký tự cuối dòng được áp dụng cho văn bản đã chuyển đổi. Điều này đặc biệt hữu ích nếu bạn có kế hoạch truy cập tệp trên một hệ điều hành khác như Windows hoặc Mac. Để thực hiện việc này, hãy sử dụng cờ của Wap -eol (ký tự ở giữa trong cờ là một chữ cái viết thường unix xông, ăn trưa, hay đá mac).
GHI CHÚ: Nếu bạn không chỉ định tên tệp cho tệp văn bản, pdftotext sẽ tự động sử dụng cơ sở của tên tệp PDF và thêm tiện ích mở rộng .txt. Ví dụ, tập tin của tập tin. Nếu tệp văn bản được chỉ định là Trực tuyến - Văn bản, văn bản đã chuyển đổi được gửi đến thiết bị xuất chuẩn, có nghĩa là văn bản được hiển thị trong cửa sổ Terminal và không được lưu vào một tệp.
Để đóng cửa sổ Terminal, nhấp vào nút X X ở góc trên bên trái.
Để biết thêm thông tin về lệnh pdftotext, hãy nhập trang man man pdftotext vào dấu nhắc trong cửa sổ Terminal.