如何在 Linux 上将 PDF 文件转换为文本文档

与文本文件不同,您不能直接编辑 PDF。 有多种方法可以使用文本生成 PDF 文件。 但是,如果您想反过来将 PDF 转换为文本文件怎么办?

幸运的是,Linux 允许您从终端轻松修改这些文件。 本文将演示如何在 Linux 上将 PDF 文件转换为文本文档。

从终端将 PDF 转换为文本

Poppler 是一个用于渲染和修改 PDF 文件的软件库。 它包含一个实用程序,称为 pdf转文本,允许用户从 PDF 生成文本文件。 自从 poppler-utils 不是标准 Linux 包的一部分,您必须使用包管理器手动安装它。

在 Ubuntu 和 Debian 上:

sudo apt install poppler-utils

在 Arch Linux 上安装 Poppler:

sudo pacman -S poppler

安装 poppler-utils CentOS 上的软件包, Fedora和其他基于 RHEL 的发行版很容易。

sudo dnf install poppler-utils
sudo yum install poppler-utils

将整个 PDF 转换为文本

pdftotext 命令的基本语法是:

pdftotext [options] pdffile textfile

…在哪里 pdf文件 是 PDF 文件的绝对或相对路径,并且 文本文件 是输出文件的名称。

为了 example, 转换 lorem-ipsum.pdf 到文本文件:

pdftotext lorem-ipsum.pdf text.txt

如果您要转换的文件有水印或未对齐的文本,您可以使用 -nodiag 旗帜。

pdftotext -nodiag lorem-ipsum.pdf random.text

处理特定范围内的页面

使用 -F-l 如果要转换特定范围内的页面,请标记。 为了 example将第一页转换为第五页 lorem-ipsum.pdf 到文本:

pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

仅转换 PDF 文件的第一页:

pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

将受密码保护的 PDF 文件转换为文本

Pdftotext 甚至可以将受密码保护的 PDF 转换为文本文件。 这 -upw-opw 标志,代表 用户密码所有者密码 分别在转换 PDF 文件时注意身份验证过程。

pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

确保更换 密码 使用 PDF 文件的密码。

您还可以组合多个标志以获得所需的输出。 为了 example将受密码保护的 PDF 的第一到第三页转换为文本:

pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

以图形方式将 PDF 转换为文本文件

如果您不喜欢使用命令行,您可以使用 Calibre 等图形软件将 PDF 转换为文本文件。 它是一个电子书管理应用程序,可用于查看、组织和修改系统上的 PDF 文件。

Calibre 在官方 Linux 发行版存储库中可用,任何人都可以使用包管理器下载它。

在 Ubuntu 和 Debian 上安装 Calibre:

sudo apt install calibre

在 Arch Linux 上:

sudo pacman -S calibre

在基于 RHEL 的发行版上,例如 CentOS 和 Fedora,您可以使用 DNF 或 Yum 下载 Calibre。

sudo dnf install calibre
sudo yum install calibre

如何使用 Calibre 转换 PDF 文件

安装后,使用 应用程序菜单. 或者,您可以通过键入以下命令从终端启动 Calibre:

calibre

使用带有 Calibre 的 PDF 生成文本文件:

  1. 点击 添加书籍 菜单中的选项。
  2. 找到并选择要转换的 PDF 文件。
  3. 从中心面板突出显示 PDF 文件并选择 转换书籍 从菜单中。
  4. 来自 输出格式 下拉,选择 TXT.
  5. 最后,点击 好的 接着说。

Calibre 现在将开始将指定的 PDF 文件转换为文本文档。 您可以通过单击检查进程的状态 工作 选项,位于窗口的右下角。

在 Linux 中处理 PDF 文件

当您想与某人共享文档时,在共享之前将其转换为 PDF 是最有效的方式。 以前,用户必须在系统上安装专用的 PDF 查看器才能显示 PDF 文件,但现在,几乎每个浏览器都内置了 PDF 查看器。

您可以找到几个允许用户轻松查看和编辑 PDF 文件的应用程序。 许多 Linux 安装附带 LibreOffice,这是一个办公软件套件,可用作 PDF 编辑器。