pdfgrep – 在 PDF 文档中搜索文本

Linux 中的 grep 命令用于在任何文件中搜索特定的文本字符串。 这是一个非常强大的工具,您可以通过搜索新行、没有大写字母的行等多种方式来使用它。 但是,grep 命令不适用于 PDF 文件。

这就是 pdfgrep 命令的用武之地。它本质上是“grep”,但适用于 PDF 文件。 在本教程中,我将指导您完成该命令的使用和安装过程。

安装 pdfgrep

这个命令,虽然它没有随所有 Linux 发行版一起提供,但在所有包管理器的官方存储库中都可用。 要安装它,您可以使用以下命令,具体取决于您的 Linux 发行版:

# On Debian and Ubuntu-based distributions sudo apt update && sudo apt install pdfgrep # On Fedora Workstation sudo dnf install pdfgrep # On Arch Linux sudo pacman -S pdfgrep 
安装 pdfgrep Fedora

pdfgrep 的使用

如果您以前使用过 grep 命令,那么您会觉得这个实用程序很熟悉。 该命令的基本用法如下:

pdfgrep Search_String FILENAME.pdf 
在 PDF 中搜索文本

也许您希望执行不区分大小写的搜索,因为搜索字符串在文档中可以大写。 您可以使用 --ignore-case 用命令标记。

pdfgrep --ignore-case Search_Strng FILENAME.pdf 
搜索文本时忽略大小写搜索文本时忽略大小写

您还可以使用 -c 选项和完整命令直接在终端中获取搜索结果的总数:

pdfgrep --ignore-case Search_Strng FILENAME.pdf --count 

由于 PDF 文档具有页码,因此您还可以获得搜索字符串所在的页码。 您可以使用 --page-number 选项以及整个命令:

pdfgrep --page-number --ignore-case Search_String FILENAME.pdf 
在搜索结果中显示页码在搜索结果中显示页码

还有一种方法可以让您在受密码保护的 PDF 文件中进行搜索。 保持命令的其余部分相同,然后添加 --password 选项以及锁定文档的密码。

pdfgrep --password YOUR-PASSWORD Search_String FILENAME.pdf 

概括

在我看来,使 pdfgrep 伟大的原因在于它与 grep 命令的相似性,因此通过不让他们记住基本相同功能的新命令和选项,使用户更容易。

参考

pdfgrep 上的 Arch Linux 手册页