Header Image

本頁面概述了 DocFetcher Pro 和 DocFetcher Server 的所有主要功能,適合不熟悉 DocFetcher 的使用者。如果您已經熟悉,那麼比較頁面及其子頁面可能對您更有幫助。

以下所有螢幕截圖顯示的是 DocFetcher Pro 的使用者介面。DocFetcher Server 的 Web 介面外觀相似,並嵌入在瀏覽器視窗中。

使用者介面

主視窗

如上圖所示,DocFetcher Pro 的主視窗包含以下幾個部分:

  1. 搜尋欄位:在此處輸入要搜尋的詞語。
  2. 結果面板:搜尋結果會顯示在此處。這些是包含您在搜尋欄位中輸入的詞語的檔案、資料夾或 Outlook 電子郵件。
  3. 預覽窗格:顯示目前在結果面板中選取的檔案或 Outlook 電子郵件的純文字預覽。文字中的相符項目會反白顯示。
  4. 檔案大小最小值/最大值 篩選器:可在此處依最小和/或最大檔案大小篩選搜尋結果。 Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  5. 容器類型 面板:在此設定搜尋結果中是否應包含資料夾和封存檔。在 DocFetcher 中,資料夾和封存檔不包含在搜尋結果中,只有檔案和 Outlook 電子郵件。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  6. 文件類型面板:可在此處依檔案類型篩選搜尋結果。
  7. 自訂類型面板:文件類型面板的替代方案。您可以在此處定義自己的檔案類型來篩選搜尋結果。定義是基於檔名與萬用字元模式或規則運算式的比對。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  8. 搜索範圍面板:此面板有兩個用途:依位置篩選搜尋結果,以及管理您的「索引」(將在下面解釋)。可以新增、更新和移除索引。每個索引對應您電腦上的一個可搜尋位置。
  9. 各種控制項:搜尋 按鈕右側的三個控制項是:目前可見的搜尋結果數量、一個開啟用戶手冊的按鈕,以及一個開啟程式偏好的按鈕。

強大的查詢語法

查詢語法

上面的螢幕截圖顯示了您可以在 DocFetcher、DocFetcher Pro 和 DocFetcher Server 中輸入的複雜搜尋查詢範例。該範例查詢的意思是:尋找所有包含 (1) 片語 「reproduction or redistribution」,以及 (2) 「documentation」 和 「agreement」 這兩個詞相距不超過三個詞的文件。

查詢語法由底層的搜尋引擎Apache Lucene提供支援。以下是其主要功能的快速摘要:

  • 布林運算符:(狗 OR 貓) AND 老鼠 NOT 馬
  • 片語搜尋,即依特定順序尋找詞語:"狗 貓 老鼠"
  • 必需項目:+狗 +貓
  • 萬用字元:預留位置字元 *? 分別用於比對「零個或多個」字元和「正好一個」字元。範例:
    • luc?符合 lucyluca等…
    • luc*符合 luclucylucklucene等…
    • *ene*符合 luceneenergygenerator等…
  • 模糊搜尋,即尋找與給定詞語相似的詞語。例如,搜尋 roam~會找到包含 foamroams等詞語的文件。
  • 鄰近搜尋,即尋找相距不超過特定詞數的詞語。範例:"documentation agreement"~3

基於索引的搜尋

基於索引的搜尋:DocFetcher、DocFetcher Pro 和 DocFetcher Server 會在檔案的檔名和檔案內容,以及 Outlook 電子郵件的欄位和內文中搜尋詞語。然而,為了效率起見,搜尋是在所謂的索引上執行,而不是直接在檔案和電子郵件上。索引本質上是一個字典,程式可以透過它快速查詢任何給定詞語存在於哪些檔案或電子郵件中。

權衡:快速搜尋與索引建立:基於索引的搜尋是一個很好的主意,因為它比沒有索引的搜尋快上好幾個數量級:DocFetcher、DocFetcher Pro 和 DocFetcher Server 通常可以在不到一秒的時間內找到數千個相符的檔案。主要缺點是必須先建立索引——這個過程稱為建索引——這可能會花一些時間,具體取決於檔案和電子郵件的總數以及它們各自的大小。

快速建索引與「只索引您需要的」理念:必須建立索引的缺點因 DocFetcher、DocFetcher Pro 和 DocFetcher Server 的建索引速度相當快而得到緩解:每分鐘 200 個檔案是一個相當正常的建索引速度。此外,這三個程式遵循「只索引您需要的」理念:開箱即用,您電腦上的任何東西都不會被索引,完全由您決定要索引什麼。這與其他搜尋軟體形成對比,後者開箱即用時會浪費大量時間和電腦資源來索引基本上所有東西,因為它們不相信您能自己決定。更不用說這種「索引一切」方法所帶來的隱私問題了……

索引建立與索引更新:最後但同樣重要的是,對特定資料夾建索引通常只有在第一次時最耗時(如果有的話)。之後,每當您執行所謂的索引更新時,程式會足夠聰明,只索引新的和修改過的檔案,跳過其他所有檔案。在實務上,通常只有相對少量的檔案被新增或修改,所以索引更新通常花費很少時間。

建立索引

建索引對話框

上面的螢幕截圖顯示了 DocFetcher Pro 的建索引對話框。這是您在建立新索引時看到的設定對話框。值得注意的功能:

  1. 可自訂的純文字和 zip 副檔名:程式用以識別純文字檔案和 zip 封存檔的副檔名可以自訂。在處理原始碼時,自訂純文字檔案副檔名很有用。
  2. 包含和排除規則:您可以定義規則,根據萬用字元或規則運算式比對來包含或排除某些檔案。此表格也存在於 DocFetcher 中,但萬用字元和包含規則僅在 DocFetcher Pro 和 DocFetcher Server 中可用。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  3. 自動更新索引:如果勾選了「自動更新索引」核取方塊,程式將會監看已索引的資料夾以偵測檔案變更,並在偵測到變更時自動更新索引。
  4. 建索引佇列:可以將多個建索引工作排入佇列,每個工作位於一個單獨的標籤頁上。
  5. 儲存和載入建索引設定:這個「罐子」按鈕會開啟一個用於儲存和載入建索引設定的選單。當您需要定義大量包含和排除規則時,這非常方便。 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server

支援的文件格式

  • AbiWord (abw, abw.gz, zabw)
  • EPUB (epub)
  • FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • FLAC metadata (flac)
  • HTML (html, xhtml, …)
  • JPEG Exif metadata (jpg, jpeg)
  • MP3 metadata (mp3)
  • Microsoft Compiled HTML Help (chm)
  • Microsoft Office pre-2007 (doc, xls, ppt, …)
  • Microsoft Office 2007 and newer (docx, xlsx, pptx, …)
  • Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Microsoft Outlook PST (pst) *
  • Microsoft Visio (vsd, vss, vst, vsw)
  • Mobipocket (mobi) — 目前支援為實驗性質 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • OpenDocument (odt, ods, odg, odp, …)
  • Portable Document Format (pdf)
  • 純文字(可自訂副檔名)
  • Rich Text Format (rtf)
  • Scalable Vector Graphics (svg)

對於未包含在上述清單中的任何檔案格式,至少可以索引其檔名。此外,任何可由特定副檔名識別的檔案格式都可以被強制作為純文字進行索引,因為純文字檔案的副檔名是可自訂的。

* PST 和 OST 檔案支援的限制

無電子郵件預覽:由於技術原因,DocFetcher、DocFetcher Pro 和 DocFetcher Server 都無法在搜尋結果中用 Outlook 開啟電子郵件。電子郵件只能顯示在程式的純文字預覽窗格中。在 DocFetcher Pro 的未來主要版本(v2.0 或更高版本)中,可能會新增在 Outlook 中開啟電子郵件的功能。此功能無法在 DocFetcher Server 中實現,因為使用者的 Outlook 實例和包含電子郵件的 PST 或 OST 檔案可能位於不同的電腦上。

PST 優先於 OST:雖然 DocFetcher Pro 和 DocFetcher Server 可以在一定程度上讀取 OST 檔案,但請注意,OST 檔案實際上只是快取檔案,Outlook 會暫時將線上帳戶的*部分*資料儲存在其中以供離線使用。因此,如果您索引 OST 檔案,您會發現許多您期望看到的電子郵件和電子郵件附件根本不存在。PST 檔案是 Outlook 用於完整、長期儲存電子郵件的檔案,因此在可能的情況下,請始終優先索引 PST 檔案而非 OST 檔案。有關 PST 和 OST 檔案的更多資訊,以及如何匯出到 PST 檔案的說明,請參閱此 Microsoft 頁面

大型 PST 和 OST 檔案:要索引 PST 或 OST 檔案,應用程式必須將整個檔案載入到 RAM 中。因此,不支援索引大於可用 RAM 量的 PST 或 OST 檔案(例如,30 GB 的 PST 檔案對比 16 GB 的 RAM),嘗試這樣做會導致應用程式崩潰。要處理此問題,您可以從索引中排除大型 PST 或 OST 檔案,或升級您的 RAM。在升級 RAM 的情況下,請注意所需的總 RAM 量要大於 PST 或 OST 檔案,因為作業系統和其他處理程序會佔用部分 RAM。

關於盡力而為建索引的免責聲明

與幾乎所有搜尋軟體一樣,DocFetcher、DocFetcher Pro 和 DocFetcher Server 在*盡力而為的基礎上*支援上面列出的各種檔案格式。這意味著,例如,如果您嘗試索引 10,000 個檔案,那麼軟體可能只成功索引 9,500 個檔案(即 95%),而對剩餘的 500 個檔案失敗。當然,實際的成功率取決於您的資料集。

此外,即使某個特定檔案被成功索引,軟體也可能無法從中提取某些文字,尤其是在處理像 「doc」 或 「xls」 這樣的舊檔案格式時。例如,它可能無法從古老的 Excel 檔案中提取某些儲存格註解或中繼資料。

無論如何,DocFetcher Pro 和 DocFetcher Server 在索引檔案方面很可能會比舊版的 DocFetcher 做得更好。

如果您在建索引過程中看到特別高的失敗率,請務必回報問題,並附上一些測試檔案。但是,不保證問題可以得到解決。

支援的封存格式

  • 7z 封存檔 (7z),最高支援 v0.3 版的 7z 格式
  • 7z 封存檔 (7z),最高支援 v0.4 版的 7z 格式(自 7-Zip 9.34,2014-11-23 起) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Rar 封存檔 (rar) — 支援 RAR 5.0 格式
  • Tar 和 Tar.* 封存檔:
    • tar, tar.gz, tgz, tar.bz2, tb2, tbz
    • tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Zip 封存檔(可自訂副檔名)

其他值得注意的功能

跨平台:DocFetcher、DocFetcher Pro 和 DocFetcher Server 可以在 Windows、Linux 和 macOS 上執行。此外,可以從任何安裝了最新版 Chrome、Firefox、Safari 或 Edge 的桌上型電腦存取 DocFetcher Server。

可攜式版本:適用於 Windows、Linux 和 macOS 的 DocFetcher Pro 套件均提供可攜式和非可攜式版本。可攜式版本很有用,因為它允許您將可攜式 DocFetcher Pro、其索引和已索引的文件捆綁在一起,以多種方式使用:

  • 您可以將此捆綁包放在 USB 隨身碟上隨身攜帶。
  • 您可以將其封存在某些備份媒體上。
  • 您可以將其放入加密磁碟區。
  • 您可以將其放入雲端硬碟並在多台電腦之間同步。

請注意,不允許將此類可攜式捆綁包轉發給其他使用者,因為每個購買的 DocFetcher Pro 副本都與單一使用者綁定。(每個接收使用者都必須購買自己的副本。)然而,開源的 DocFetcher 允許轉發。

Unicode 支援:DocFetcher、DocFetcher Pro 和 DocFetcher Server 為所有主要格式提供堅若磐石的 Unicode 支援,包括 Microsoft Office、OpenDocument、PDF、HTML、RTF 和純文字檔案。

索引網路磁碟機:DocFetcher、DocFetcher Pro 和 DocFetcher Server 可以索引網路磁碟機以及雲端硬碟。更一般地說,如果一個資料結構可以被掛載為作業系統中看起來像檔案系統的東西,那麼這三個程式都能夠索引它。

無限層級的封存檔巢狀結構:DocFetcher、DocFetcher Pro 和 DocFetcher Server 支援無限層級的封存檔巢狀結構。換句話說,它們可以讀取封存檔中的封存檔中的封存檔……範例:
C:\封存檔1.7z\封存檔2.rar\封存檔3.zip

偵測 HTML 配對:在建索引期間,DocFetcher、DocFetcher Pro 和 DocFetcher Server 會偵測成對的 HTML 檔案(例如,名為 某個檔案.html 的檔案和名為 某個檔案_files 的資料夾),並將每對視為單一文件。此功能起初可能看似無用,但事實證明,在處理 HTML 檔案時,這會顯著提高搜尋結果的品質,因為 HTML 資料夾內的所有「雜亂」內容都會從結果中消失。