与文本文件不同,您不能直接编辑 PDF。 有多种方法可以使用文本生成 PDF 文件。 但是,如果您想反过来将 PDF 转换为文本文件怎么办?
幸运的是,Linux 允许您从终端轻松修改这些文件。 本文将演示如何在 Linux 上将 PDF 文件转换为文本文档。
从终端将 PDF 转换为文本
Poppler 是一个用于渲染和修改 PDF 文件的软件库。 它包含一个实用程序,称为 pdf转文本,允许用户从 PDF 生成文本文件。 自从 poppler-utils 不是标准 Linux 包的一部分,您必须使用包管理器手动安装它。
在 Ubuntu 和 Debian 上:
sudo apt install poppler-utils
在 Arch Linux 上安装 Poppler:
sudo pacman -S poppler
安装 poppler-utils CentOS 上的软件包, Fedora和其他基于 RHEL 的发行版很容易。
sudo dnf install poppler-utils
sudo yum install poppler-utils
将整个 PDF 转换为文本
pdftotext 命令的基本语法是:
pdftotext [options] pdffile textfile
…在哪里 pdf文件 是 PDF 文件的绝对或相对路径,并且 文本文件 是输出文件的名称。
为了 example, 转换 lorem-ipsum.pdf 到文本文件:
pdftotext lorem-ipsum.pdf text.txt
如果您要转换的文件有水印或未对齐的文本,您可以使用 -nodiag 旗帜。
pdftotext -nodiag lorem-ipsum.pdf random.text
处理特定范围内的页面
使用 -F 和 -l 如果要转换特定范围内的页面,请标记。 为了 example将第一页转换为第五页 lorem-ipsum.pdf 到文本:
pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt
仅转换 PDF 文件的第一页:
pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt
将受密码保护的 PDF 文件转换为文本
Pdftotext 甚至可以将受密码保护的 PDF 转换为文本文件。 这 -upw 和 -opw 标志,代表 用户密码 和 所有者密码 分别在转换 PDF 文件时注意身份验证过程。
pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt
确保更换 密码 使用 PDF 文件的密码。
您还可以组合多个标志以获得所需的输出。 为了 example将受密码保护的 PDF 的第一到第三页转换为文本:
pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt
以图形方式将 PDF 转换为文本文件
如果您不喜欢使用命令行,您可以使用 Calibre 等图形软件将 PDF 转换为文本文件。 它是一个电子书管理应用程序,可用于查看、组织和修改系统上的 PDF 文件。
Calibre 在官方 Linux 发行版存储库中可用,任何人都可以使用包管理器下载它。
在 Ubuntu 和 Debian 上安装 Calibre:
sudo apt install calibre
在 Arch Linux 上:
sudo pacman -S calibre
在基于 RHEL 的发行版上,例如 CentOS 和 Fedora,您可以使用 DNF 或 Yum 下载 Calibre。
sudo dnf install calibre
sudo yum install calibre
如何使用 Calibre 转换 PDF 文件
安装后,使用 应用程序菜单. 或者,您可以通过键入以下命令从终端启动 Calibre:
calibre
使用带有 Calibre 的 PDF 生成文本文件:
- 点击 添加书籍 菜单中的选项。
- 找到并选择要转换的 PDF 文件。
- 从中心面板突出显示 PDF 文件并选择 转换书籍 从菜单中。
- 来自 输出格式 下拉,选择 TXT.
- 最后,点击 好的 接着说。
Calibre 现在将开始将指定的 PDF 文件转换为文本文档。 您可以通过单击检查进程的状态 工作 选项,位于窗口的右下角。
在 Linux 中处理 PDF 文件
当您想与某人共享文档时,在共享之前将其转换为 PDF 是最有效的方式。 以前,用户必须在系统上安装专用的 PDF 查看器才能显示 PDF 文件,但现在,几乎每个浏览器都内置了 PDF 查看器。
您可以找到几个允许用户轻松查看和编辑 PDF 文件的应用程序。 许多 Linux 安装附带 LibreOffice,这是一个办公软件套件,可用作 PDF 编辑器。