이 페이지는 DocFetcher를 잘 모르는 사용자를 위해 DocFetcher Pro와 DocFetcher Server의 모든 주요 기능을 개괄적으로 설명합니다. 만약 이미 잘 알고 계시다면, 비교페이지와 그 하위 페이지들이 더 도움이 될 것입니다.
아래의 모든 스크린샷은 DocFetcher Pro의 사용자 인터페이스를 보여줍니다. DocFetcher Server의 웹 인터페이스는 비슷하게 보이며 브라우저 창 안에 포함되어 있습니다.
사용자 인터페이스

위의 스크린샷에서 보듯이, DocFetcher Pro의 메인 창은 다음과 같은 부분들로 구성되어 있습니다:
- 검색 필드: 검색할 단어를 여기에 입력합니다.
- 결과 창: 검색 결과가 여기에 표시됩니다. 이것들은 검색 필드에 입력한 단어를 포함하는 파일, 폴더 또는 Outlook 이메일입니다.
- 미리보기 창: 결과 창에서 현재 선택된 파일이나 Outlook 이메일의 텍스트 전용 미리보기를 보여줍니다. 텍스트의 일치하는 부분은 강조 표시됩니다.
- 최소/최대 파일 크기 필터: 여기서 최소 및/또는 최대 파일 크기로 검색 결과를 필터링할 수 있습니다. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- 컨테이너 형식 창: 폴더와 아카이브를 검색 결과에 포함할지 여부를 여기서 설정합니다. DocFetcher에서는 폴더와 아카이브가 검색 결과에 포함되지 않고, 파일과 Outlook 이메일만 포함됩니다. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- 문서 형식 창: 여기서 파일 형식으로 검색 결과를 필터링할 수 있습니다.
- 사용자 지정 형식 창: 문서 형식 창의 대안입니다. 여기서 검색 결과를 필터링할 자신만의 파일 형식을 정의할 수 있습니다. 정의는 파일명에 대한 와일드카드 패턴이나 정규 표현식 일치를 기반으로 합니다. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- 검색 범위 창: 이 창은 두 가지 목적이 있습니다: 위치별로 검색 결과를 필터링하는 것과 아래에서 설명할 “인덱스”를 관리하는 것입니다. 인덱스는 추가, 업데이트, 제거할 수 있습니다. 각 인덱스는 컴퓨터상의 검색 가능한 위치에 해당합니다.
- 다양한 컨트롤: 검색 버튼 오른쪽의 세 가지 컨트롤은 다음과 같습니다: 현재 표시되는 검색 결과의 수, 사용 설명서를 여는 버튼, 프로그램 설정을 여는 버튼입니다.
강력한 질의 구문

위 스크린샷은 DocFetcher, DocFetcher Pro, DocFetcher Server에 입력할 수 있는 복잡한 검색 질의의 한 예를 보여줍니다. 예시 질의의 의미는 다음과 같습니다: (1) “reproduction or redistribution” 구문을 포함하고, (2) “documentation”과 “agreement” 단어가 최대 세 단어 이내로 떨어진 모든 문서를 찾습니다.
질의 구문은 기본 검색 엔진인 Apache Lucene에 의해 구동됩니다. 주요 기능은 다음과 같습니다:
- 불린 연산자: (개 OR 고양이) AND 쥐 NOT 말
- 구문 검색, 즉 특정 순서로 단어 찾기: "개 고양이 쥐"
- 필수 용어: +개 +고양이
- 와일드카드: 각각 ‘0개 이상의 문자’와 ‘정확히 하나의 문자’를 의미하는 자리 표시자 문자 *와 ?. 예시:
- luc?는 lucy, luca등과 일치합니다.
- luc*는 luc, lucy, luck, lucene등과 일치합니다.
- *ene*는 lucene, energy, generator등과 일치합니다.
- 퍼지 검색, 즉 주어진 단어와 유사한 단어 찾기. 예를 들어, roam~을 검색하면 foam, roams와 같은 단어를 포함하는 문서가 나타납니다.
- 근접 검색, 즉 특정 단어 수 이내로 떨어진 단어 찾기. 예시: "documentation agreement"~3
인덱스 기반 검색
인덱스 기반 검색: DocFetcher, DocFetcher Pro, DocFetcher Server는 파일의 이름과 내용, 그리고 Outlook 이메일의 필드와 본문에서 단어를 검색합니다. 그러나 효율성을 위해 검색은 파일과 이메일에서 직접 실행되는 것이 아니라 소위 인덱스에서 실행됩니다. 인덱스는 본질적으로 프로그램이 주어진 단어를 포함하는 파일이나 이메일을 신속하게 찾아볼 수 있는 사전입니다.
장단점: 빠른 검색과 인덱스 생성: 인덱스 기반 검색은 인덱스 없이 검색하는 것보다 훨씬 빠르기 때문에 훌륭한 아이디어입니다. DocFetcher, DocFetcher Pro, DocFetcher Server는 일반적으로 1초 이내에 수천 개의 일치하는 파일을 찾을 수 있습니다. 주된 단점은 인덱스를 먼저 생성해야 한다는 것인데, 이 과정을 인덱싱이라고 하며, 총 파일 및 이메일 수와 개별 크기에 따라 시간이 걸릴 수 있습니다.
빠른 인덱싱과 “필요한 것만 인덱싱” 철학: 인덱스를 생성해야 하는 단점은 DocFetcher, DocFetcher Pro, DocFetcher Server의 인덱싱이 매우 빠르다는 사실로 완화됩니다. 분당 200개 파일은 매우 일반적인 인덱싱 속도입니다. 또한, 세 프로그램은 “필요한 것만 인덱싱” 철학을 따릅니다. 기본적으로 컴퓨터의 어떤 것도 인덱싱되지 않으며, 무엇을 인덱싱할지는 전적으로 사용자에게 달려 있습니다. 이는 기본적으로 거의 모든 것을 인덱싱하여 엄청난 시간과 컴퓨터 성능을 낭비하는 다른 검색 소프트웨어와 대조적입니다. 사용자가 스스로 결정할 수 없다고 믿기 때문입니다. 이 “모든 것 인덱싱” 접근 방식의 개인 정보 보호 문제는 말할 것도 없습니다…
인덱스 생성 대 인덱스 업데이트: 마지막으로, 특정 폴더를 인덱싱하는 것은 처음 한 번만 시간이 많이 걸릴 뿐입니다. 그 후, 소위 인덱스 업데이트를 실행할 때마다 프로그램은 새 파일과 수정된 파일만 지능적으로 인덱싱하고 나머지는 건너뜁니다. 실제로는 비교적 적은 수의 파일만 추가되거나 수정되므로 인덱스 업데이트는 일반적으로 시간이 거의 걸리지 않습니다.
인덱스 생성

위 스크린샷은 DocFetcher Pro의 인덱싱 대화 상자를 보여줍니다. 이것은 새 인덱스를 생성할 때 보게 되는 구성 대화 상자입니다. 주목할 만한 기능은 다음과 같습니다:
- 사용자 지정 가능한 일반 텍스트 및 zip 확장자: 프로그램이 일반 텍스트 파일과 zip 아카이브를 인식하는 파일 확장자를 사용자 지정할 수 있습니다. 일반 텍스트 파일 확장자를 사용자 지정하는 것은 소스 코드를 다룰 때 유용합니다.
- 포함 및 제외 규칙: 와일드카드 또는 정규 표현식 일치를 기반으로 특정 파일을 포함하거나 제외하는 규칙을 정의할 수 있습니다. 이 테이블은 DocFetcher에도 있지만 와일드카드와 포함 규칙은 DocFetcher Pro와 DocFetcher Server에서만 사용할 수 있습니다. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- 인덱스 자동 업데이트: “인덱스 자동 업데이트” 확인란을 선택하면 프로그램이 인덱싱된 폴더의 파일 변경 사항을 감시하고 변경이 감지되면 자동으로 인덱스를 업데이트합니다.
- 인덱싱 대기열: 여러 인덱싱 작업을 대기열에 추가할 수 있으며 각 작업은 별도의 탭에 있습니다.
- 인덱싱 설정 저장 및 불러오기: 이 “병” 모양 버튼은 인덱싱 설정을 저장하고 불러오는 메뉴를 엽니다. 많은 포함 및 제외 규칙을 정의해야 할 때 유용합니다. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
지원되는 문서 형식
- AbiWord (abw, abw.gz, zabw)
- EPUB (epub)
- FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- FLAC 메타데이터 (flac)
- HTML (html, xhtml, …)
- JPEG Exif 메타데이터 (jpg, jpeg)
- MP3 메타데이터 (mp3)
- Microsoft Compiled HTML Help (chm)
- Microsoft Office 2007 이전 버전 (doc, xls, ppt, …)
- Microsoft Office 2007 및 최신 버전 (docx, xlsx, pptx, …)
- Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Microsoft Outlook PST (pst) *
- Microsoft Visio (vsd, vss, vst, vsw)
- Mobipocket (mobi) — 지원은 현재 실험적입니다 Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- OpenDocument (odt, ods, odg, odp, …)
- Portable Document Format (pdf)
- 일반 텍스트 (사용자 지정 가능한 확장자)
- Rich Text Format (rtf)
- Scalable Vector Graphics (svg)
위 목록에 포함되지 않은 파일 형식의 경우 최소한 파일 이름은 인덱싱할 수 있습니다. 또한, 일반 텍스트 파일 확장자는 사용자 지정이 가능하므로 특정 파일 확장자로 식별할 수 있는 모든 파일 형식을 강제로 일반 텍스트로 인덱싱할 수 있습니다.
* PST 및 OST 파일 지원의 한계
이메일 미리보기 없음: 기술적인 이유로 DocFetcher, DocFetcher Pro, DocFetcher Server 모두 검색 결과의 이메일을 Outlook에서 열 수 없습니다. 이메일은 프로그램의 텍스트 전용 미리보기 창에만 표시될 수 있습니다. Outlook에서 이메일을 여는 기능은 DocFetcher Pro의 향후 주요 릴리스(v2.0 이상)에서 추가될 수 있습니다. 사용자의 Outlook 인스턴스와 이메일이 포함된 PST 또는 OST 파일이 서로 다른 컴퓨터에 있을 수 있으므로 DocFetcher Server에서는 구현할 수 없습니다.
OST보다 PST 선호: DocFetcher Pro와 DocFetcher Server는 OST 파일을 어느 정도 읽을 수 있지만, OST 파일은 실제로 Outlook이 오프라인 사용을 위해 온라인 계정의 데이터 일부를 임시로 저장하는 캐시 파일일 뿐이라는 점에 유의해야 합니다. 따라서 OST 파일을 인덱싱하면 예상했던 많은 이메일과 이메일 첨부 파일이 없는 것을 발견하게 될 것입니다. PST 파일은 Outlook이 이메일을 완전하고 장기적으로 저장하는 데 사용하는 것이므로 가능한 경우 항상 OST 파일보다 PST 파일을 인덱싱하는 것을 선호하십시오. PST 및 OST 파일에 대한 자세한 정보와 PST 파일로 내보내는 방법에 대한 지침은 Microsoft의 이 페이지를 참조하십시오.
대용량 PST 및 OST 파일: PST 또는 OST 파일을 인덱싱하려면 응용 프로그램이 전체 파일을 RAM으로 로드해야 합니다. 따라서 사용 가능한 RAM 용량보다 큰 PST 또는 OST 파일(예: 30GB PST 파일 대 16GB RAM)을 인덱싱하는 것은 지원되지 않으며, 시도할 경우 응용 프로그램이 충돌합니다. 이 문제를 해결하려면 대용량 PST 또는 OST 파일을 인덱싱에서 제외하거나 RAM을 업그레이드할 수 있습니다. RAM을 업그레이드하는 경우, 운영 체제 및 기타 프로세스가 RAM의 일부를 차지하므로 필요한 총 RAM 용량은 PST 또는 OST 파일보다 크다는 점에 유의하십시오.
최선 노력 인덱싱에 대한 고지 사항
거의 모든 검색 소프트웨어와 마찬가지로 DocFetcher, DocFetcher Pro, DocFetcher Server는 위에 나열된 다양한 파일 형식을 최선 노력 기준으로 지원합니다. 예를 들어, 10,000개의 파일을 인덱싱하려고 하면 소프트웨어는 9,500개(즉, 95%)의 파일만 성공적으로 인덱싱하고 나머지 500개 파일에서는 실패할 수 있습니다. 물론 실제 성공률은 데이터 세트에 따라 다릅니다.
또한, 특정 파일이 성공적으로 인덱싱되더라도 소프트웨어는 특히 “doc” 또는 “xls”와 같은 오래된 파일 형식을 다룰 때 일부 텍스트를 추출하지 못할 수 있습니다. 예를 들어, 오래된 Excel 파일에서 일부 셀 주석이나 메타데이터를 추출하지 못할 수 있습니다.
어쨌든 DocFetcher Pro와 DocFetcher Server는 이전 DocFetcher보다 파일을 더 잘 인덱싱할 가능성이 높습니다.
인덱싱 중에 특히 높은 실패율을 발견하면 테스트 파일을 첨부하여 문제를 보고해 주십시오. 그러나 문제가 해결될 것이라는 보장은 없습니다.
지원되는 아카이브 형식
- 7z 아카이브 (7z), 7z 형식 v0.3까지
- 7z 아카이브 (7z), 7z 형식 v0.4까지 (7-Zip 9.34부터, 2014-11-23) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Rar 아카이브 (rar) — RAR 5.0 형식은 지원되지 않음
- Tar 및 Tar.*아카이브:
- tar, tar.gz, tgz, tar.bz2, tb2, tbz
- tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Zip 아카이브 (사용자 지정 가능한 확장자)
기타 주목할 만한 기능
크로스 플랫폼: DocFetcher, DocFetcher Pro, DocFetcher Server는 Windows, Linux, macOS에서 실행할 수 있습니다. 또한, DocFetcher Server는 최신 버전의 Chrome, Firefox, Safari 또는 Edge가 설치된 모든 데스크톱 컴퓨터에서 액세스할 수 있습니다.
포터블 버전: Windows, Linux, macOS용 DocFetcher Pro 패키지는 각각 포터블 버전과 비포터블 버전으로 제공됩니다. 포터블 버전은 포터블 DocFetcher Pro, 해당 인덱스 및 인덱싱된 문서를 함께 묶어 다양한 방식으로 사용할 수 있다는 점에서 유용합니다:
- 이 번들을 USB 드라이브에 담아 휴대할 수 있습니다.
- 백업 매체에 보관할 수 있습니다.
- 암호화된 볼륨에 넣을 수 있습니다.
- 클라우드 드라이브에 넣고 컴퓨터 간에 동기화할 수 있습니다.
DocFetcher Pro의 경우 구매한 각 사본이 단일 사용자에게 귀속되므로 이러한 포터블 번들을 다른 사용자에게 재배포하는 것은 허용되지 않습니다. (모든 수신 사용자는 자신의 사본을 구매해야 합니다.) 그러나 오픈 소스 DocFetcher에서는 재배포가 허용됩니다.
유니코드 지원: DocFetcher, DocFetcher Pro, DocFetcher Server는 Microsoft Office, OpenDocument, PDF, HTML, RTF 및 일반 텍스트 파일을 포함한 모든 주요 형식에 대해 견고한 유니코드 지원을 제공합니다.
네트워크 드라이브 인덱싱: DocFetcher, DocFetcher Pro, DocFetcher Server는 네트워크 드라이브와 클라우드 드라이브를 인덱싱할 수 있습니다. 더 일반적으로, 데이터 구조가 OS에서 파일 시스템처럼 보이는 것으로 마운트될 수 있다면 세 프로그램 모두 이를 인덱싱할 수 있습니다.
HTML 쌍 감지: 인덱싱 중에 DocFetcher, DocFetcher Pro, DocFetcher Server는 HTML 파일 쌍(예: \ 예시.html이라는 파일과 \ 예시_files라는 폴더)을 감지하고 각 쌍을 단일 문서로 처리합니다. 이 기능은 처음에는 다소 쓸모없어 보일 수 있지만, HTML 파일을 다룰 때 HTML 폴더 안의 모든 “잡동사니”가 결과에서 사라지기 때문에 검색 결과의 품질을 극적으로 향상시키는 것으로 나타났습니다.