Trang này là tổng quan về tất cả các tính năng chính của DocFetcher Pro và DocFetcher Server, dành cho những ai chưa quen với DocFetcher. Nếu bạn đã quen, bạn có thể thấy trang so sánh và các trang con của nó hữu ích hơn.
Tất cả ảnh chụp màn hình bên dưới hiển thị giao diện người dùng của DocFetcher Pro. Giao diện web của DocFetcher Server trông tương tự và được nhúng trong cửa sổ trình duyệt.
Giao diện người dùng

Như được hiển thị trong ảnh chụp màn hình phía trên, cửa sổ chính của DocFetcher Pro bao gồm các phần sau:
- Ô tìm kiếm: Nhập từ khóa cần tìm vào đây.
- Vùng kết quả: Kết quả tìm kiếm được hiển thị ở đây. Đây là các tệp, thư mục hoặc email Outlook chứa từ khóa bạn đã nhập trong ô tìm kiếm.
- Ngăn xem trước: Hiển thị bản xem trước chỉ văn bản của tệp hoặc email Outlook hiện được chọn trong vùng kết quả. Các từ khớp trong văn bản được tô sáng.
- Bộ lọc kích thước tệp nhỏ nhất/lớn nhất: Kết quả tìm kiếm có thể được lọc theo kích thước tệp tối thiểu và/hoặc tối đa ở đây. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- Ngăn loại thùng chứa: Cài đặt ở đây để quyết định xem thư mục và archive có được bao gồm trong kết quả tìm kiếm hay không. Trong DocFetcher, thư mục và archive không được hiển thị trong kết quả tìm kiếm, chỉ có tệp và email Outlook. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Ngăn loại tài liệu: Kết quả tìm kiếm có thể được lọc theo loại tệp ở đây.
- Ngăn loại tùy chỉnh: Một thay thế cho ngăn loại tài liệu. Ở đây bạn có thể định nghĩa các loại tệp riêng để lọc kết quả tìm kiếm. Các định nghĩa dựa trên việc khớp các mẫu ký tự đại diện hoặc biểu thức chính quy với tên tệp. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- Ngăn phạm vi tìm kiếm: Ngăn này có hai mục đích: Lọc kết quả tìm kiếm theo vị trí và quản lý “chỉ mục” của bạn, sẽ được giải thích bên dưới. Chỉ mục có thể được thêm, cập nhật và xóa. Mỗi chỉ mục tương ứng với một vị trí có thể tìm kiếm trên máy tính của bạn.
- Các điều khiển khác nhau: Ba điều khiển bên phải nút tìm kiếm là: số lượng kết quả tìm kiếm hiện đang hiển thị, nút mở sách hướng dẫn sử dụng và nút mở tùy chỉnh chương trình.
Cú pháp truy vấn mạnh mẽ

Ảnh chụp màn hình trên cho thấy một ví dụ về các loại truy vấn tìm kiếm phức tạp mà bạn có thể nhập vào DocFetcher, DocFetcher Pro và DocFetcher Server. Truy vấn ví dụ có nghĩa là: Tìm tất cả tài liệu chứa (1) cụm từ “reproduction or redistribution” và (2) từ “documentation” và “agreement” cách nhau tối đa ba từ.
Cú pháp truy vấn được hỗ trợ bởi công cụ tìm kiếm nền tảng Apache Lucene. Dưới đây là tóm tắt nhanh các tính năng chính của nó:
- Toán tử Boolean: (chó OR mèo) AND chuột NOT ngựa
- Tìm kiếm cụm từ, tức là tìm từ theo thứ tự cụ thể: "chó mèo chuột"
- Thuật ngữ bắt buộc: +chó +mèo
- Ký tự đại diện: Ký tự giữ chỗ * và ? để khớp với ‘không hoặc nhiều’ ký tự và ‘chính xác một’ ký tự, tương ứng.
- luc? khớp với lucy, luca, …
- luc* khớp với luc, lucy, luck, lucene, …
- *ene* khớp với lucene, energy, generator, …
- Tìm kiếm mờ, tức là tìm từ tương tự với một từ cho trước. Ví dụ, tìm kiếm roam~ sẽ hiển thị tài liệu chứa từ như foam và roams.
- Tìm kiếm gần kề, tức là tìm từ cách nhau không quá một số từ nhất định. Ví dụ: "documentation agreement"~3
Tìm kiếm dựa trên chỉ mục
Tìm kiếm dựa trên chỉ mục: DocFetcher, DocFetcher Pro và DocFetcher Server tìm kiếm từ trong tên tệp và nội dung tệp, cũng như trong các trường và nội dung của email Outlook. Tuy nhiên, để đảm bảo hiệu quả, việc tìm kiếm chạy trên cái gọi là chỉ mục, thay vì trực tiếp trên tệp và email. Chỉ mục về cơ bản là một từ điển nơi chương trình có thể nhanh chóng tra cứu với bất kỳ từ nào để biết tệp hoặc email nào chứa từ đó.
Đánh đổi: tìm kiếm nhanh và tạo chỉ mục: Tìm kiếm dựa trên chỉ mục là một ý tưởng tuyệt vời vì nó nhanh hơn hàng bậc độ lớn so với tìm kiếm không có chỉ mục: DocFetcher, DocFetcher Pro và DocFetcher Server thường có thể tìm thấy hàng nghìn tệp khớp trong vòng chưa đầy một giây. Nhược điểm chính là chỉ mục phải được tạo trước — một quá trình được gọi là lập chỉ mục — và điều này có thể mất một thời gian tùy thuộc vào tổng số tệp và email, và kích thước riêng lẻ của chúng.
Lập chỉ mục nhanh và triết lý “chỉ lập chỉ mục những gì bạn cần”: Nhược điểm của việc phải tạo chỉ mục được giảm bớt bởi thực tế là việc lập chỉ mục trong DocFetcher, DocFetcher Pro và DocFetcher Server khá nhanh: 200 tệp mỗi phút là tốc độ lập chỉ mục khá bình thường. Ngoài ra, ba chương trình này tuân theo triết lý “chỉ lập chỉ mục những gì bạn cần”: Ban đầu, không có gì trên máy tính của bạn được lập chỉ mục, và bạn hoàn toàn có quyền quyết định những gì cần được lập chỉ mục. Điều này khác với các phần mềm tìm kiếm khác - chúng ngay từ đầu đã lãng phí rất nhiều thời gian và tài nguyên máy tính để lập chỉ mục về cơ bản mọi thứ, vì chúng không tin tưởng người dùng tự quyết định. Chưa kể đến những tác động riêng tư của cách tiếp cận “lập chỉ mục mọi thứ” này…
Tạo chỉ mục so với cập nhật chỉ mục: Cuối cùng nhưng không kém phần quan trọng, việc lập chỉ mục một thư mục cụ thể thường chỉ tốn thời gian trong lần đầu tiên, nếu có. Sau đó, bất cứ khi nào bạn chạy cái gọi là cập nhật chỉ mục, chương trình sẽ đủ thông minh để chỉ lập chỉ mục các tệp mới và đã sửa đổi, bỏ qua mọi thứ khác. Trong thực tế, thường chỉ có một số lượng tương đối nhỏ tệp được thêm hoặc sửa đổi, vì vậy việc cập nhật chỉ mục thường mất ít thời gian.
Tạo chỉ mục

Ảnh chụp màn hình trên cho thấy hộp thoại lập chỉ mục của DocFetcher Pro. Đây là hộp thoại cấu hình bạn thấy khi tạo chỉ mục mới. Các tính năng đáng chú ý:
- Phần mở rộng văn bản thuần túy và zip có thể tùy chỉnh: Phần mở rộng tệp mà chương trình nhận diện tệp văn bản thuần túy và archive zip có thể được tùy chỉnh. Tùy chỉnh phần mở rộng tệp văn bản thuần túy hữu ích khi xử lý mã nguồn.
- Quy tắc bao gồm và loại trừ: Bạn có thể định nghĩa quy tắc để bao gồm hoặc loại trừ một số tệp nhất định dựa trên khớp ký tự đại diện hoặc biểu thức chính quy. Bảng này cũng tồn tại trong DocFetcher, nhưng ký tự đại diện và quy tắc bao gồm chỉ có sẵn trong DocFetcher Pro và DocFetcher Server. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Cập nhật chỉ mục tự động: Nếu hộp “Cập nhật chỉ mục tự động” được chọn, chương trình sẽ theo dõi thư mục đã lập chỉ mục để phát hiện thay đổi tệp và cập nhật chỉ mục tự động khi phát hiện thay đổi.
- Hàng đợi lập chỉ mục: Nhiều công việc lập chỉ mục có thể được xếp hàng đợi, mỗi công việc trên một tab riêng biệt.
- Lưu và tải cài đặt lập chỉ mục: Nút “lọ” này mở menu để lưu và tải cài đặt lập chỉ mục. Điều này rất hữu ích nếu bạn cần định nghĩa nhiều quy tắc bao gồm và loại trừ. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
Định dạng tài liệu được hỗ trợ
- AbiWord (abw, abw.gz, zabw)
- EPUB (epub)
- FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Siêu dữ liệu FLAC (flac)
- HTML (html, xhtml, …)
- Siêu dữ liệu JPEG Exif (jpg, jpeg)
- Siêu dữ liệu MP3 (mp3)
- Microsoft Compiled HTML trợ giúp (chm)
- Microsoft Office trước 2007 (doc, xls, ppt, …)
- Microsoft Office 2007 và mới hơn (docx, xlsx, pptx, …)
- Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Microsoft Outlook PST (pst) *
- Microsoft Visio (vsd, vss, vst, vsw)
- Mobipocket (mobi) — hỗ trợ hiện đang thử nghiệm Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- OpenDocument (odt, ods, odg, odp, …)
- Định dạng tài liệu di động (pdf)
- Văn bản thuần túy (phần mở rộng có thể tùy chỉnh)
- Định dạng văn bản phong phú (rtf)
- Đồ họa vector có thể mở rộng (svg)
Đối với bất kỳ định dạng tệp nào không có trong danh sách trên, ít nhất tên tệp có thể được lập chỉ mục. Ngoài ra, bất kỳ định dạng tệp nào có thể nhận dạng được bằng phần mở rộng tệp cụ thể đều có thể được buộc lập chỉ mục như văn bản thuần túy, vì các phần mở rộng tệp văn bản thuần túy có thể tùy chỉnh được.
* Hạn chế của việc hỗ trợ tệp PST và OST
Không có xem trước email: Vì lý do kỹ thuật, DocFetcher, DocFetcher Pro và DocFetcher Server đều không thể mở email trong kết quả tìm kiếm bằng Outlook. Email chỉ có thể được hiển thị trong ngăn xem trước chỉ văn bản của chương trình. Khả năng mở email trong Outlook có thể được thêm vào trong phiên bản chính lớn tương lai của DocFetcher Pro (v2.0 trở lên). Tính năng này không thể được triển khai trong DocFetcher Server vì phiên bản Outlook của người dùng và tệp PST hoặc OST chứa email có thể nằm trên các máy khác nhau.
Ưu tiên PST hơn OST: Mặc dù DocFetcher Pro và DocFetcher Server có thể đọc tệp OST ở một mức độ nào đó, cần lưu ý rằng tệp OST về bản chất chỉ là tệp bộ nhớ đệm — nơi Outlook tạm thời lưu trữ một phần dữ liệu từ tài khoản trực tuyến để sử dụng ngoại tuyến. Do đó, nếu bạn lập chỉ mục tệp OST, bạn sẽ thấy rằng nhiều email và tệp đính kèm mà bạn mong đợi thấy đơn giản là không có ở đó. Tệp PST là định dạng Outlook sử dụng để lưu trữ email hoàn chỉnh, dài hạn, vì vậy luôn ưu tiên lập chỉ mục tệp PST hơn tệp OST khi có thể. Để biết thêm thông tin về tệp PST và OST, và hướng dẫn cách xuất ra tệp PST, xem trang này từ Microsoft.
Tệp PST và OST lớn: Để lập chỉ mục tệp PST hoặc OST, ứng dụng phải tải toàn bộ tệp vào RAM. Do đó, việc lập chỉ mục tệp PST hoặc OST lớn hơn lượng RAM có sẵn (ví dụ: tệp PST 30 GB so với RAM 16 GB) không được hỗ trợ, và việc cố gắng thực hiện điều này sẽ làm ứng dụng bị crash. Để giải quyết vấn đề này, bạn có thể loại trừ tệp PST hoặc OST lớn khỏi việc lập chỉ mục, hoặc nâng cấp RAM. Trong trường hợp nâng cấp RAM, lưu ý rằng tổng lượng RAM cần thiết lớn hơn tệp PST hoặc OST, do hệ điều hành và các quy trình khác chiếm một phần RAM đó.
Tuyên bố miễn trừ về lập chỉ mục tận dụng tối đa
Giống như hầu hết tất cả phần mềm tìm kiếm, DocFetcher, DocFetcher Pro và DocFetcher Server hỗ trợ các định dạng tệp được liệt kê ở trên trên cơ sở tận dụng tối đa. Điều này có nghĩa là, ví dụ, nếu bạn cố gắng lập chỉ mục 10.000 tệp, thì phần mềm có thể chỉ thành công trong việc lập chỉ mục 9.500 tệp (tức là 95%), trong khi thất bại với 500 tệp còn lại. Tỷ lệ thành công thực tế tất nhiên phụ thuộc vào bộ dữ liệu của bạn.
Hơn nữa, ngay cả khi một tệp cụ thể được lập chỉ mục thành công, phần mềm có thể thất bại trong việc trích xuất một số văn bản trong đó, đặc biệt khi xử lý các định dạng tệp cũ như “doc” hoặc “xls”. Ví dụ, nó có thể thất bại trong việc trích xuất một số bình luận ô hoặc siêu dữ liệu từ tệp Excel cổ.
Trong mọi trường hợp, DocFetcher Pro và DocFetcher Server rất có khả năng thực hiện tốt hơn trong việc lập chỉ mục tệp so với DocFetcher cũ hơn.
Nếu bạn quan sát thấy tỷ lệ thất bại đặc biệt cao trong quá trình lập chỉ mục, hãy báo cáo vấn đề, kèm theo một số tệp thử nghiệm. Tuy nhiên, không có đảm bảo rằng vấn đề có thể được giải quyết.
Định dạng Archive được hỗ trợ
- Archive 7z (7z), lên đến phiên bản v0.3 của định dạng 7z
- Archive 7z (7z), lên đến phiên bản v0.4 của định dạng 7z (từ 7-Zip 9.34, ngày 2014-11-23) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Archive Rar (rar) — định dạng RAR 5.0 không được hỗ trợ
- Archive Tar và Tar.*:
- tar, tar.gz, tgz, tar.bz2, tb2, tbz
- tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Archive Zip (phần mở rộng có thể tùy chỉnh)
Các tính năng đáng chú ý khác
Đa nền tảng: DocFetcher, DocFetcher Pro và DocFetcher Server có thể chạy trên Windows, Linux và macOS. Ngoài ra, DocFetcher Server có thể được truy cập từ bất kỳ máy tính để bàn nào có phiên bản cập nhật của Chrome, Firefox, Safari hoặc Edge được cài đặt.
Phiên bản portable: Các gói DocFetcher Pro cho Windows, Linux và macOS đều có phiên bản portable và không portable. Phiên bản portable hữu ích vì nó cho phép bạn đóng gói DocFetcher Pro portable, các chỉ mục của nó và các tài liệu đã lập chỉ mục, để sử dụng theo nhiều cách:
- Bạn có thể mang gói này trên ổ USB.
- Bạn có thể lưu trữ nó trên một số phương tiện sao lưu.
- Bạn có thể đặt nó trong một volume được mã hóa.
- Bạn có thể đặt nó trong ổ đĩa đám mây và đồng bộ hóa trên các máy tính.
Xin lưu ý rằng việc phân phối lại các gói portable như vậy cho những người dùng khác là không được phép với DocFetcher Pro, vì mỗi bản sao đã mua được gắn với một người dùng duy nhất. (Mỗi người dùng nhận sẽ phải mua bản sao của riêng họ.) Tuy nhiên, việc phân phối lại được phép với DocFetcher mã nguồn mở.
Hỗ trợ Unicode: DocFetcher, DocFetcher Pro và DocFetcher Server đi kèm với hỗ trợ Unicode vững chắc cho tất cả các định dạng chính, bao gồm Microsoft Office, OpenDocument, PDF, HTML, RTF và tệp văn bản thuần túy.
Lập chỉ mục ổ đĩa mạng: DocFetcher, DocFetcher Pro và DocFetcher Server có thể lập chỉ mục ổ đĩa mạng cũng như ổ đĩa đám mây. Tổng quát hơn, nếu một cấu trúc dữ liệu có thể được mount như thứ gì đó trông giống như hệ thống tệp trong hệ điều hành, thì cả ba chương trình đều có thể lập chỉ mục cho nó.
Phát hiện cặp HTML: Trong quá trình lập chỉ mục, DocFetcher, DocFetcher Pro và DocFetcher Server phát hiện các cặp tệp HTML (ví dụ: tệp có tên mau.html và thư mục có tên mau_files), và xử lý mỗi cặp như một tài liệu duy nhất. Tính năng này có thể có vẻ khá vô dụng lúc đầu, nhưng hóa ra nó làm tăng đáng kể chất lượng kết quả tìm kiếm khi bạn xử lý tệp HTML, vì tất cả “lộn xộn” bên trong các thư mục HTML biến mất khỏi kết quả.