Header Image

Ця сторінка містить огляд усіх основних функцій DocFetcher Pro і DocFetcher Server, призначених для тих, хто не знайомий з DocFetcher. Якщо ви знайомі, вам може бути кориснішою сторінка Порівняння та її підсторінки.

Усі знімки екрана нижче показують інтерфейс користувача DocFetcher Pro. Веб-інтерфейс DocFetcher Server виглядає схоже і розміщений у вікні браузера.

Інтерфейс користувача

Основне вікно

Як показано на знімку екрана вище, основне вікно DocFetcher Pro складається з наступних частин:

  1. Поле пошуку: Введіть тут слова для пошуку.
  2. Панель результатів: Тут відображаються результати пошуку. Це файли, папки або електронні листи Outlook, які містять слова, які ви ввели в полі пошуку.
  3. Область попереднього перегляду: Показує попередній перегляд файлу або електронного листа Outlook, наразі вибраного в панелі результатів, лише в текстовому форматі. Збіги в тексті виділені.
  4. Фільтр Найменший/найбільший розмір файлу: Тут можна відфільтрувати результати пошуку за найменшим і/або найбільшим розміром файлу. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  5. Панель Типи контейнерів: Тут налаштовується, чи включати папки та архіви в результати пошуку. У DocFetcher папки та архіви не включаються в результати пошуку, лише файли і електронні листи Outlook. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  6. Панель типів документів: Тут можна відфільтрувати результати пошуку за типом файлу.
  7. Панель типів за замовчуванням: Альтернатива панелі типів документів. Тут ви можете визначити власні типи файлів для фільтрації результатів пошуку. Визначення базуються на зіставленні шаблонів масок або регулярних виразів з іменами файлів. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  8. Панель області пошуку: Ця панель має два призначення: фільтрація результатів пошуку за місцезнаходженням і управління вашими «індексами», які пояснюються нижче. Індекси можна додавати, оновлювати і видаляти. Кожен індекс відповідає якомусь місцю для пошуку на вашому комп’ютері.
  9. Різні елементи керування: Три елементи керування праворуч від кнопки Пошук: кількість наразі видимих результатів пошуку, кнопка для відкриття посібника користувача і кнопка для відкриття налаштувань програми.

Потужний синтаксис запитів

Синтаксис запитів

Наведений вище знімок екрана показує приклад типів складних пошукових запитів, які ви можете вводити в DocFetcher, DocFetcher Pro і DocFetcher Server. Приклад запиту означає: знайти всі документи, що містять (1) фразу «reproduction or redistribution» і (2) слова «documentation» і «agreement» на відстані не більше трьох слів одне від одного.

Синтаксис запитів забезпечується базовим пошуковим двигуном Apache Lucene. Ось короткий огляд його основних функцій:

  • Булеві оператори: (собака OR кіт) AND миша NOT кінь
  • Пошук фраз, тобто пошук слів у певному порядку: "собака кіт миша"
  • Обов’язкові терміни: +собака +кіт
  • Маски: Символи-замінники * і ? для зіставлення з „нуль або більше“ символів і „рівно один“ символ відповідно. Приклади:
    • люс? зіставляється з люся, люса, …
    • люс* зіставляється з люс, люся, люск, люсін, …
    • *ене* зіставляється з люсін, енергія, генератор, …
  • Нечіткий пошук, тобто пошук слів, що подібні до вказаного слова. Наприклад, пошук бродити~ знайде документи, що містять слова на кшталт піна і бродить.
  • Пошук за близькістю, тобто пошук слів, які знаходяться на відстані не більше певної кількості слів одне від одного. Приклад: "documentation agreement"~3

Пошук на основі індексу

Пошук на основі індексу: DocFetcher, DocFetcher Pro і DocFetcher Server шукають слова в іменах і вмісті файлів, а також у полях і тілі електронних листів Outlook. Однак, з міркувань ефективності, пошук виконується за так званими індексами, а не безпосередньо в файлах і електронних листах. Індекс - це по суті словник, де програма може швидко знайти для будь-якого слова, які файли чи електронні листи містять це слово.

Компроміс: швидкий пошук і створення індексу: Пошук на основі індексу - це чудова ідея, оскільки він на порядки швидший за пошук без індексів: DocFetcher, DocFetcher Pro і DocFetcher Server зазвичай можуть знайти тисячі відповідних файлів менш ніж за секунду. Основний недолік полягає в тому, що індекси наперед потрібно створити - процес, відомий як індексація - і це може зайняти певний час в залежності від загальної кількості файлів і електронних листів та їх індивідуальних розмірів.

Швидка індексація і філософія «індексуй лише те, що потрібно»: Недолік необхідності створення індексу пом’якшується тим фактом, що індексація в DocFetcher, DocFetcher Pro і DocFetcher Server досить швидка: 200 файлів на хвилину - це досить нормальна швидкість індексації. Крім того, ці три програми дотримуються філософії «індексуй лише те, що потрібно»: за замовчуванням ніщо на вашому комп’ютері не індексується, і ви повністю самі вирішуєте, що індексувати. Це контрастує з іншими пошуковими програмами, які за замовчуванням марнують купу часу і обчислювальної потужності, індексуючи по суті все, оскільки вони не довіряють вам самим приймати рішення. Не кажучи вже про порушення приватності цього підходу «індексувати все»…

Створення індексу проти оновлення індексу: Нарешті, індексація конкретної папки звичайно є часовитратною лише першого разу, якщо взагалі. Потім, коли ви запускаєте так зване оновлення індексу, програма буде достатньо розумною, щоб індексувати лише нові і змінені файли, оминаючи все інше. На практиці зазвичай лише относно невелика кількість файлів буде додана чи змінена, тому оновлення індексу зазвичай займає небагато часу.

Створення індексів

Діалог індексації

Наведений вище знімок екрана показує діалог індексації DocFetcher Pro. Це діалог конфігурації, який ви бачите під час створення нового індексу. Помітні функції:

  1. Налаштовувані розширення простого тексту і zip: Розширення файлів, за якими програма розпізнає файли простого тексту і zip-архіви, можна налаштувати. Налаштування розширень файлів простого тексту корисне при роботі з вихідним кодом.
  2. Правила включення і виключення: Ви можете визначити правила для включення або виключення певних файлів на основі зіставлення з масками або регулярними виразами. Ця таблиця також існує в DocFetcher, але маски і правило включення доступні лише в DocFetcher Pro і DocFetcher Server. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  3. Автоматичне оновлення індексів: Якщо прапорець «Автоматично оновити індекс» відмічено, програма слідкуватиме за індексованою папкою щодо змін файлів і автоматично оновлюватиме індекс, коли зміна виявлена.
  4. Черга індексації: Можна поставити в чергу кілька завдань індексації, кожне завдання на окремій вкладці.
  5. Збереження і завантаження налаштувань індексації: Ця кнопка «банка» відкриває меню для збереження і завантаження налаштувань індексації. Це стає в нагоді, якщо вам потрібно визначити багато правил включення і виключення. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server

Підтримувані формати документів

  • AbiWord (abw, abw.gz, zabw)
  • EPUB (epub)
  • FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • FLAC metadata (flac)
  • HTML (html, xhtml, …)
  • JPEG Exif metadata (jpg, jpeg)
  • MP3 metadata (mp3)
  • Microsoft Compiled HTML Help (chm)
  • Microsoft Office pre-2007 (doc, xls, ppt, …)
  • Microsoft Office 2007 and newer (docx, xlsx, pptx, …)
  • Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Microsoft Outlook PST (pst) *
  • Microsoft Visio (vsd, vss, vst, vsw)
  • Mobipocket (mobi) — підтримка наразі експериментальна Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • OpenDocument (odt, ods, odg, odp, …)
  • Portable Document Format (pdf)
  • Plain Text (налаштовувані розширення)
  • Rich Text Format (rtf)
  • Scalable Vector Graphics (svg)

Для будь-якого формату файлу, не включеного в наведений вище список, принаймні ім’я файлу може бути проіндексоване. Також, будь-який формат файлу, який можна ідентифікувати за конкретним розширенням, можна примусово проіндексувати як простий текст, оскільки розширення файлів простого тексту можна налаштовувати.

* Обмеження підтримки файлів PST і OST

Немає попереднього перегляду електронних листів: З технічних причин ні DocFetcher, ні DocFetcher Pro, ні DocFetcher Server не можуть відкривати електронні листи з результатів пошуку за допомогою Outlook. Електронні листи можна показувати лише в області попереднього перегляду програми в текстовому форматі. Можливість відкривати електронні листи в Outlook може бути додана в майбутньому основному випуску DocFetcher Pro (v2.0 або пізніше). Це не можна реалізувати в DocFetcher Server, оскільки екземпляр Outlook користувача і файл PST або OST, що містить електронний лист, можуть знаходитися на потенційно різних комп’ютерах.

Надавайте перевагу PST над OST: Хоча DocFetcher Pro і DocFetcher Server можуть читати OST-файли до певної міри, майте на увазі, що OST-файли насправді є лише файлами кешу, де Outlook тимчасово зберігає певну частину даних з онлайн-облікового запису для автономного використання. Тому, якщо ви індексуєте OST-файли, ви виявите, що багато електронних листів і вкладень, які ви очікуєте побачити, просто там немає. PST-файли - це те, що Outlook використовує для повного, довгострокового зберігання електронних листів, тому завжди надавайте перевагу індексації PST-файлів над OST-файлами, де це можливо. Для додаткової інформації про PST і OST файли та інструкцій щодо експорту в PST-файли див. цю сторінку Microsoft.

Великі PST і OST файли: Для індексації PST або OST файлу застосунок повинен завантажити весь файл у оперативну пам’ять. Тому індексація PST або OST файлів, які більші за доступну кількість оперативної пам’яті (напр., 30 ГБ PST-файл проти 16 ГБ оперативної пам’яті), не підтримується, і спроби зробити це призведуть до збою застосунку. Щоб впоратися з цією проблемою, ви можете або виключити великий PST або OST файл з індексації, або оновити оперативну пам’ять. У випадку оновлення оперативної пам’яті зверніть увагу, що загальна кількість необхідної оперативної пам’яті більша за PST або OST файл через той факт, що операційна система і інші процеси займають частину цієї оперативної пам’яті.

Застереження щодо індексації на основі максимальних зусиль

Як і практично все пошукове програмне забезпечення, DocFetcher, DocFetcher Pro і DocFetcher Server підтримують різні формати файлів, перелічені вище, на основі максимальних зусиль. Це означає, наприклад, що якщо ви спробуєте проіндексувати 10 000 файлів, то програмне забезпечення може успішно проіндексувати лише 9500 файлів (тобто 95%), не справившись з рештою 500 файлів. Звичайно, фактичний відсоток успіху залежить від вашого набору даних.

Крім того, навіть якщо конкретний файл успішно проіндексовано, програмне забезпечення може не спромогтися виділити частину тексту з нього, особливо при роботі зі старими форматами файлів, наприклад «doc» або «xls». Наприклад, воно може не спромогтися виділити деякі коментарі комірок або метадані з стародавніх файлів Excel.

У будь-якому випадку, DocFetcher Pro і DocFetcher Server, швидше за все, краще справлятимуться з індексацією файлів, ніж старий DocFetcher.

Якщо ви спостерігаєте особливо високий відсоток помилок під час індексації, обов’язково повідомте про проблему, прикріпивши деякі тестові файли. Однак немає гарантії, що проблему можна буде вирішити.

Підтримувані формати архівів

  • 7z архіви (7z), до версії v0.3 формату 7z
  • 7z архіви (7z), до версії v0.4 формату 7z (від 7-Zip 9.34, з 2014-11-23) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Rar архіви (rar) — формат RAR 5.0 не підтримується
  • Tar і Tar.* архіви:
    • tar, tar.gz, tgz, tar.bz2, tb2, tbz
    • tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Zip архіви (налаштовувані розширення)

Інші помітні функції

Кросплатформеність: DocFetcher, DocFetcher Pro і DocFetcher Server можна запускати на Windows, Linux і macOS. Крім того, до DocFetcher Server можна отримати доступ з будь-якого настільного комп’ютера з актуальною версією Chrome, Firefox, Safari або Edge.

Портативна версія: Пакети DocFetcher Pro для Windows, Linux і macOS кожен постачається у портативній і непортативній версіях. Портативна версія корисна тим, що дозволяє об’єднати портативну версію DocFetcher Pro, її індекси і індексовані документи для використання різними способами:

  • Ви можете носити цей пакунок на USB-накопичувачі.
  • Ви можете заархівувати його на якомусь резервному носії.
  • Ви можете помістити його в шифрований том.
  • Ви можете помістити його в хмарное сховище і синхронізувати між комп’ютерами.

Зверніть увагу, що перерозподіл таких портативних пакунків іншим користувачам не дозволяється для DocFetcher Pro, оскільки кожна придбана копія прив’язана до одного користувача. (Кожен користувач, який отримує, мав би купити власну копію.) Перерозподіл дозволяється для DocFetcher з відкритим вихідним кодом.

Підтримка Unicode: DocFetcher, DocFetcher Pro і DocFetcher Server мають надійну підтримку Unicode для всіх основних форматів, включаючи Microsoft Office, OpenDocument, PDF, HTML, RTF і файли простого тексту.

Індексація мережевих дисків: DocFetcher, DocFetcher Pro і DocFetcher Server можуть індексувати мережеві диски, а також хмарні диски. Загалом кажучи, якщо структуру даних можна підключити як щось, що виглядає як файлова система в ОС, то всі три програми можуть її індексувати.

Необмежена кількість рівнів вложеності архівів: DocFetcher, DocFetcher Pro і DocFetcher Server підтримують необмежену кількість рівнів вложеності архівів. Іншими словами, вони можуть читати архіви всередині архівів всередині архівів… Приклад:
C:\\архів1.7z\\архів2.rar\\архів3.zip

Виявлення HTML-пар: Під час індексації DocFetcher, DocFetcher Pro і DocFetcher Server виявляють пари HTML-файлів (напр., файл з назвою приклад.html і папку з назвою приклад_files) і обробляють кожну пару як один документ. Ця функція може здаватися досить марною на перший погляд, але виявилося, що це драматично покращує якість результатів пошуку при роботі з HTML-файлами, оскільки всі «зайві елементи» всередині HTML-папок зникають з результатів.