本页概述了 DocFetcher Pro 和 DocFetcher Server 的所有主要功能,面向不熟悉 DocFetcher 的用户。如果您已经熟悉,可能会发现比较页面及其子页面更有帮助。
下面的所有屏幕截图显示的是 DocFetcher Pro 的用户界面。DocFetcher Server 的网页界面看起来类似,嵌套在浏览器窗口内。
用户界面

如上面屏幕截图所示,DocFetcher Pro 的主窗口由以下部分组成:
- 搜索框:在这里输入要搜索的词语。
- 结果面板:搜索结果显示在这里。这些是包含您在搜索框中输入的词语的文件、文件夹或 Outlook 邮件。
- 预览窗格:显示结果面板中当前选中的文件或 Outlook 邮件的纯文本预览。文本中的匹配项会被高亮显示。
- 文件大小最小值/最大值过滤器:可以在这里按最小和/或最大文件大小过滤搜索结果。 Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- 容器类型面板:在这里设置是否在搜索结果中包含文件夹和压缩文件。在 DocFetcher 中,搜索结果不包含文件夹和压缩文件,只包含文件和 Outlook 邮件。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- 文档类型面板:可以在这里按文件类型过滤搜索结果。
- 自定义类型面板:文档类型面板的替代选项。在这里您可以定义自己的文件类型来过滤搜索结果。定义基于对文件名的通配符模式或正则表达式匹配。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- 搜索范围面板:该面板有两个目的:按位置过滤搜索结果,以及管理您的“索引”(将在下面解释)。索引可以添加、更新和删除。每个索引对应您计算机上的某个可搜索位置。
- 各种控件:搜索按钮右侧的三个控件分别是:当前可见搜索结果的数量、打开用户手册的按钮和打开程序偏好设置的按钮。
强大的查询语法

上面的屏幕截图显示了您可以在 DocFetcher、DocFetcher Pro 和 DocFetcher Server 中输入的复杂搜索查询的一个示例。该示例查询的意思是:查找包含 (1) 短语 "reproduction or redistribution" 和 (2) 单词 "documentation" 和 "agreement" 且两者相距不超过三个单词的所有文档。
查询语法由底层的搜索引擎 Apache Lucene 驱动。以下是其主要功能的简要介绍:
- 布尔运算符: (狗 OR 猫) AND 鼠标 NOT 马
- 短语搜索,即按特定顺序查找单词: "狗 猫 鼠标"
- 必需项目: +狗 +猫
- 通配符:占位符 * 和 ? 分别匹配“零个或多个”和“一个”字符。示例:
- 鸭?匹配鸭子、鸭蛋、...
- 鸭*匹配鸭、鸭子、鸭蛋、鸭绿、...
- *能*匹配能量、能力、生成器、...
- 模糊搜索,即查找与给定单词相似的单词。例如,搜索漫游~将找到包含类似漫步和漫游者等单词的文档。
- 邻近搜索,即查找相距不超过一定数量单词的单词。示例: "documentation agreement"~3
基于索引的搜索
基于索引的搜索:DocFetcher、DocFetcher Pro 和 DocFetcher Server 在文件的文件名和文件内容中搜索单词,以及在 Outlook 邮件的字段和正文中搜索单词。但是,为了提高效率,搜索运行在所谓的索引上,而不是直接在文件和邮件上。索引本质上是一个字典,程序可以在其中快速查找任何给定单词在哪些文件或邮件中包含该单词。
权衡:快速搜索与索引创建:基于索引的搜索是一个绝佳的想法,因为它比无索引搜索快几个数量级:DocFetcher、DocFetcher Pro 和 DocFetcher Server 通常可以在不到一秒的时间内找到数千个匹配文件。主要的缺点是必须先创建索引——这个过程称为建索引——这可能需要一些时间,具体取决于文件和邮件的总数量及其各自的大小。
快速建索引和“只给需要的内容建索引”理念:必须创建索引的缺点因以下事实得到缓解:在 DocFetcher、DocFetcher Pro 和 DocFetcher Server 中建索引相当快速:每分钟 200 个文件是非常正常的建索引速度。此外,这三个程序遵循“只给需要的内容建索引”的理念:开箱即用时,您计算机上的任何内容都不会被索引,完全由您决定给什么建索引。这与其他搜索软件形成鲜明对比,后者开箱即用时会浪费大量时间和计算机资源来给几乎所有内容建索引,因为它们不相信您能自己做决定。更不用提这种“给所有内容建索引”方法的隐私影响...
索引创建与索引更新:最后但同样重要的是,给特定文件夹建索引通常只有在第一次才耗时(如果真的耗时的话)。之后,每当您运行所谓的索引更新时,程序会智能地只给新增和修改的文件建索引,跳过其他所有内容。在实践中,通常只有相对少数的文件被添加或修改,所以索引更新通常花费很少时间。
创建索引

上面的屏幕截图显示了 DocFetcher Pro 的建索引对话框。这是您在创建新索引时看到的配置对话框。显著特点:
- 可自定义的纯文本和 zip 扩展名:程序识别纯文本文件和 zip 档案的文件扩展名可以自定义。在处理源代码时,自定义纯文本文件扩展名非常有用。
- 包含和排除规则:您可以定义规则,基于通配符或正则表达式匹配来包含或排除某些文件。该表格在 DocFetcher 中也存在,但通配符和包含规则仅在 DocFetcher Pro 和 DocFetcher Server 中可用。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- 索引的自动更新:如果选中了“自动更新索引”复选框,程序将监视已索引文件夹的文件更改,并在检测到更改时自动更新索引。
- 建索引队列:可以将多个建索引作业排入队列,每个作业在单独的选项卡上。
- 保存和加载建索引设置:这个“罐子”按钮打开一个菜单,用于保存和加载建索引设置。如果您需要定义大量包含和排除规则,这非常方便。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
支持的文档格式
- AbiWord (abw, abw.gz, zabw)
- EPUB (epub)
- FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- FLAC 元数据 (flac)
- HTML (html, xhtml, ...)
- JPEG Exif 元数据 (jpg, jpeg)
- MP3 元数据 (mp3)
- Microsoft 编译 HTML 帮助 (chm)
- Microsoft Office 2007 年前版本 (doc, xls, ppt, ...)
- Microsoft Office 2007 年及更新版本 (docx, xlsx, pptx, ...)
- Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Microsoft Outlook PST (pst) *
- Microsoft Visio (vsd, vss, vst, vsw)
- Mobipocket (mobi) —— 当前支持仅为实验性质 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- OpenDocument (odt, ods, odg, odp, ...)
- Portable Document Format (pdf)
- 纯文本(可自定义扩展名)
- Rich Text Format (rtf)
- Scalable Vector Graphics (svg)
对于上述列表中未包含的任何文件格式,至少可以给文件名建索引。此外,任何可通过特定文件扩展名识别的文件格式都可以强制作为纯文本建索引,因为纯文本文件扩展名是可自定义的。
* PST 和 OST 文件支持的限制
无邮件预览:由于技术原因,DocFetcher、DocFetcher Pro 和 DocFetcher Server 都无法用 Outlook 打开搜索结果中的邮件。邮件只能在程序的纯文本预览窗格中显示。在 Outlook 中打开邮件的能力可能会在 DocFetcher Pro 的未来主要版本(v2.0 或更高版本)中添加。该功能无法在 DocFetcher Server 中实现,因为用户的 Outlook 实例和包含邮件的 PST 或 OST 文件可能位于不同的计算机上。
优先选择 PST 而非 OST:虽然 DocFetcher Pro 和 DocFetcher Server 可以在一定程度上读取 OST 文件,但要注意 OST 文件实际上只是缓存文件,Outlook 在其中临时存储来自在线账户的*部分*数据以供离线使用。因此,如果您给 OST 文件建索引,您会发现许多本应看到的邮件和邮件附件简单地不存在。PST 文件是 Outlook 用于完整、长期存储邮件的格式,所以只要可能,始终优先给 PST 文件建索引而非 OST 文件。有关 PST 和 OST 文件的更多信息以及如何导出到 PST 文件的说明,请参阅 Microsoft 的这个页面。
大型 PST 和 OST 文件:要给 PST 或 OST 文件建索引,应用程序必须将整个文件加载到 RAM 中。因此,不支持给大于可用 RAM 量的 PST 或 OST 文件建索引(例如,30 GB PST 文件对比 16 GB RAM),尝试这样做会导致应用程序崩溃。要解决这个问题,您可以将大型 PST 或 OST 文件从建索引中排除,或者升级您的 RAM。在 RAM 升级的情况下,请注意所需的 RAM 总量要大于 PST 或 OST 文件,因为操作系统和其他进程会占用一部分 RAM。
关于尽力而为建索引的免责声明
与几乎所有搜索软件一样,DocFetcher、DocFetcher Pro 和 DocFetcher Server 在尽力而为的基础上支持上述列出的各种文件格式。这意味着,例如,如果您尝试给 10,000 个文件建索引,软件可能只能成功给 9,500 个文件建索引(即 95%),而在剩余的 500 个文件上失败。当然,实际成功率取决于您的数据集。
此外,即使某个特定文件被成功建索引,软件也可能无法提取其中的一些文本,特别是在处理如 "doc" 或 "xls" 等旧文件格式时。例如,它可能无法从古老的 Excel 文件中提取一些单元格注释或元数据。
无论如何,DocFetcher Pro 和 DocFetcher Server 在给文件建索引方面很可能会比旧版的 DocFetcher 做得更好。
如果您在建索引期间看到特别高的失败率,请务必报告问题,并附上一些测试文件。但是,不保证问题可以解决。
支持的档案格式
- 7z 档案 (7z),支持到 7z 格式的 v0.3 版本
- 7z 档案 (7z),支持到 7z 格式的 v0.4 版本(自 7-Zip 9.34 起,从 2014-11-23 开始) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Rar 档案 (rar) —— 不支持 RAR 5.0 格式
- Tar 和 Tar.* 档案:
- tar, tar.gz, tgz, tar.bz2, tb2, tbz
- tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Zip 档案(可自定义扩展名)
其他显著特点
跨平台:DocFetcher、DocFetcher Pro 和 DocFetcher Server 可以在 Windows、Linux 和 macOS 上运行。此外,DocFetcher Server 可以从任何安装了最新版本 Chrome、Firefox、Safari 或 Edge 的桌面计算机访问。
便携版本:针对 Windows、Linux 和 macOS 的 DocFetcher Pro 软件包都提供便携版和非便携版。便携版的优势在于它允许您将便携版 DocFetcher Pro、其索引和已索引文档打包在一起,以各种方式使用:
- 您可以在 USB 驱动器上携带这个打包。
- 您可以将它存档在某些备份介质上。
- 您可以将它放在加密卷中。
- 您可以将它放在云盘中并在计算机之间同步。
请注意,对于 DocFetcher Pro,不允许将此类便携打包重新分发给其他用户,因为每个购买的副本都绑定到单个用户。(每个接收用户都必须购买自己的副本。)然而,开源的 DocFetcher 允许重新分发。
Unicode 支持:DocFetcher、DocFetcher Pro 和 DocFetcher Server 对所有主要格式都提供了坚如磐石的 Unicode 支持,包括 Microsoft Office、OpenDocument、PDF、HTML、RTF 和纯文本文件。
给网络驱动器建索引:DocFetcher、DocFetcher Pro 和 DocFetcher Server 可以给网络驱动器和云驱动器建索引。更一般地说,如果数据结构可以作为操作系统中看起来像文件系统的东西挂载,那么这三个程序都能够给它建索引。
HTML 配对检测:在建索引期间,DocFetcher、DocFetcher Pro 和 DocFetcher Server 会检测 HTML 文件配对(例如,名为 文档.html 的文件和名为 文档_files 的文件夹),并将每个配对视为一个文档。这个功能初看似乎相当无用,但事实证明,在处理 HTML 文件时,这显著提高了搜索结果的质量,因为 HTML 文件夹内的所有“杂乱”内容都从结果中消失了。