דף זה הוא סקירה כללית של כל התכונות העיקריות של DocFetcher Pro ו-DocFetcher Server, המיועדת לאלו שאינם מכירים את DocFetcher. אם אתם כן מכירים, ייתכן שתמצאו את דף ה`השוואה </he/comparison/>`__ ותת-הדפים שלו יותר מועילים.
כל צילומי המסך שלהלן מציגים את ממשק המשתמש של DocFetcher Pro. ממשק הרשת של DocFetcher Server נראה דומה ומוטמע בתוך חלון דפדפן.
ממשק המשתמש

כפי שמוצג בצילום המסך לעיל, החלון הראשי של DocFetcher Pro מורכב מהחלקים הבאים:
- שדה חיפוש: כאן יש להכניס את המילים שעליהן רוצים לחפש.
- חלונית תוצאות: תוצאות החיפוש מוצגות כאן. אלו הם הקבצים, התיקיות או הודעות הדוא"ל של Outlook המכילים את המילים שהזנתם בשדה החיפוש.
- חלונית התצוגה המקדימה: מציגה תצוגה מקדימה של טקסט בלבד של הקובץ או הודעת הדוא"ל של Outlook הנבחרת כרגע בחלונית התוצאות. התאמות בטקסט מודגשות.
- מסנן גודל קובץ מינימלי/מקסימלי: תוצאות החיפוש יכולות להיות מסוננות לפי גודל קובץ מינימלי ו/או מקסימלי כאן. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- חלונית סוגי מכולות: מגדירים כאן האם תיקיות וארכיונים צריכים להיכלל בתוצאות החיפוש. ב-DocFetcher, תיקיות וארכיונים אינם נכללים בתוצאות החיפוש, רק קבצים והודעות דוא"ל של Outlook. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- חלונית סוגי מסמכים: תוצאות החיפוש יכולות להיות מסוננות לפי סוג קובץ כאן.
- חלונית סוגי משתמש: חלופה לחלונית סוגי מסמכים. כאן ניתן להגדיר סוגי קבצים משלכם לסינון תוצאות החיפוש. ההגדרות מבוססות על התאמת דפוסי תווים כלליים או ביטויים רגולריים מול שמות קבצים. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- חלונית תחום חיפוש: לחלונית זו יש שני מטרות: סינון תוצאות החיפוש לפי מיקום, וניהול "האינדקסים" שלכם, שמוסברים להלן. אינדקסים יכולים להתווסף, להתעדכן ולהיות מוסרים. כל אינדקס מתאים למיקום מסויים הניתן לחיפוש במחשב שלכם.
- פקדים שונים: שלושת הפקדים מימין לכפתור חיפוש הם: מספר תוצאות החיפוש הנראות כרגע, כפתור לפתיחת מדריך למשתמש, וכפתור לפתיחת העדפות התוכנית.
תחביר שאילתה עוצמתי

צילום המסך לעיל מציג דוגמה לסוגי השאילתות המורכבות שניתן להזין ב-DocFetcher, DocFetcher Pro ו-DocFetcher Server. השאילתה בדוגמה אומרת: מצא את כל המסמכים המכילים (1) את הצירוף "reproduction or redistribution", ו-(2) את המילים "documentation" ו-"agreement" במרחק של לא יותר משלוש מילים.
תחביר השאילתה מופעל על ידי מנוע החיפוש הבסיסי Apache Lucene. הנה סקירה מהירה של התכונות העיקריות שלו:
- אופרטורים בוליאנים: (כלב OR חתול) AND עכבר NOT סוס
- חיפוש צירוף מילים, כלומר מיצוי מילים בסדר ספציפי: "כלב חתול עכבר"
- מונחים נדרשים: +כלב +חתול
- תווים כלליים: תווי מקום * ו-? להתאמת 'אפס או יותר' תווים ו-'בדיוק תו אחד' בהתאמה. דוגמאות:
- אור? מתאים ל-אורח, אורי, ...
- אור* מתאים ל-אור, אורח, אורי, אורחים, ...
- *אור* מתאים ל-אור, אורח, אורי, אורחים, ...
- חיפוש מטושטש, כלומר מיצוי מילים הדומות למילה נתונה. לדוגמה, חיפוש של לומד~ יחזיר מסמכים המכילים מילים כמו לומדים ו-לומדות.
- חיפוש קרבה, כלומר מיצוי מילים שאינן במרחק של יותר ממספר מסוים של מילים. דוגמה: "documentation agreement"~3
חיפוש מבוסס אינדקס
חיפוש מבוסס אינדקס: DocFetcher, DocFetcher Pro ו-DocFetcher Server מחפשים מילים בשם הקובץ ובתוכן הקובץ של קבצים, כמו גם בשדות ובגוף של הודעות דוא"ל של Outlook. אולם, לצורך יעילות, החיפוש רץ על אינדקסים כשהם נקראים, ולא על הקבצים והודעות הדוא"ל באופן ישיר. אינדקס הוא בעצם מילון שבו התוכנית יכולה לחפש במהירות עבור כל מילה נתונה אילו קבצים או הודעות דוא"ל מכילים את אותה מילה.
חילופי דברים: חיפוש מהיר ויצירת אינדקס: חיפוש מבוסס אינדקס הוא רעיון מצוין כי הוא מהיר בסדרי גודל מחיפוש ללא אינדקסים: DocFetcher, DocFetcher Pro ו-DocFetcher Server יכולים בדרך כלל למצוא אלפי קבצים תואמים בפחות משנייה. העיקרון העיקרי הוא שהאינדקסים צריכים להיות נוצרים תחילה --- תהליך הנקרא אינדוקסציה --- וזה יכול לקחת זמן בהתאם למספר הכולל של קבצים והודעות דוא"ל, ולגדלים האינדיבידואלים שלהם.
אינדוקסציה מהירה ופילוסופיית "אינדקס רק מה שאתה צריך": העיקרון של הזדקקות ליצור אינדקס ממותן על ידי העובדה שאינדוקסציה ב-DocFetcher, DocFetcher Pro ו-DocFetcher Server היא מהירה במידה רבה: 200 קבצים לדקה היא מהירות אינדוקסציה רגילה במידה רבה. בנוסף, שלושת התוכניות נוהגות לפי פילוסופיית "אינדקס רק מה שאתה צריך": מיד מהקופסה, שום דבר במחשב שלכם אינו מאונדקס, וזה תלוי באופן מלא בכם להחליט מה יאונדקס. זה בניגוד לתוכנות חיפוש אחרות שמפזרות מהקופסה טונות של זמן וכוח מחשב כדי לאנדקס בעצם הכול, מאחר שהן לא מאמינות לכם להחליט בעצמכם. שלא לדבר על השלכות הפריבטיות של גישת "אנדקס הכול" זו...
יצירת אינדקס לעומת עדכון אינדקס: אחרון אך לא פחות חשוב, אינדוקסציה של תיקייה ספציפית היא בדרך כלל דורשת זמן רק בפעם הראשונה, אם בכלל. לאחר מכן, בכל פעם שאתם מריצים עדכון אינדקס כשהוא נקרא, התוכנית תהיה חכמה מספיק לאנדקס רק קבצים חדשים ומשונים, ותדלג על כל השאר. בפרקטיקה, בדרך כלל רק מספר קטן יחסית של קבצים יתווספו או ישונו, אז עדכון אינדקס לוקח בדרך כלל מעט זמן.
יצירת אינדקסים

צילום המסך לעיל מציג את דיאלוג האינדוקסציה של DocFetcher Pro. זה דיאלוג התצורה שאתם רואים בעת יצירת אינדקס חדש. תכונות בולטות:
- סיומות טקסט רגיל ו-zip ניתנים להתאמה אישית: סיומות הקובץ שבאמצעותם התוכנית מזהה קבצי טקסט רגיל וארכיוני zip ניתנים להתאמה אישית. התאמה אישית של סיומות קבצי טקסט רגיל מועילה בעת טיפול בקוד מקור.
- כללי הכללה והחרגה: ניתן להגדיר כללים להכליל או להחריג קבצים מסוימים בהתבסס על התאמת תווים כלליים או ביטויים רגולריים. טבלה זו קיימת גם ב-DocFetcher, אך תווים כלליים וכלל ההכללה זמינים רק ב-DocFetcher Pro ו-DocFetcher Server. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- עדכון אוטומטי של אינדקסים: אם תיבת הסימון "עדכן אוטומטית את האינדקס" מסומנת, התוכנית תצפה בתיקייה המאונדקסת לשינויים בקבצים ותעדכן את האינדקס באופן אוטומטי כאשר יזוהה שינוי.
- תור אינדוקסציה: עבודות אינדוקסציה מרובות יכולות להיות בתור, כשכל עבודה בכרטיסייה נפרדת.
- שמירה וטעינה של הגדרות אינדוקסציה: כפתור ה"צנצנת" הזה פותח תפריט לשמירה וטעינה של הגדרות אינדוקסציה. זה שימושי אם אתם צריכים להגדיר הרבה כללי הכללה והחרגה. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
פורמטים נתמכים של מסמכים
- AbiWord (abw, abw.gz, zabw)
- EPUB (epub)
- FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- FLAC metadata (flac)
- HTML (html, xhtml, ...)
- JPEG Exif metadata (jpg, jpeg)
- MP3 metadata (mp3)
- Microsoft Compiled HTML Help (chm)
- Microsoft Office pre-2007 (doc, xls, ppt, ...)
- Microsoft Office 2007 and newer (docx, xlsx, pptx, ...)
- Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Microsoft Outlook PST (pst) *
- Microsoft Visio (vsd, vss, vst, vsw)
- Mobipocket (mobi) --- support is currently experimental Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- OpenDocument (odt, ods, odg, odp, ...)
- Portable Document Format (pdf)
- Plain Text (customizable extensions)
- Rich Text Format (rtf)
- Scalable Vector Graphics (svg)
עבור כל פורמט קובץ שאינו כלול ברשימה לעיל, לפחות שם הקובץ יכול להיות מאונדקס. גם, כל פורמט קובץ הניתן לזיהוי על ידי סיומת קובץ ספציפית יכול להיות מאונדקס בכוח כטקסט רגיל, מאחר שסיומות קבצי הטקסט הרגיל ניתנים להתאמה אישית.
* מיגבלות תמיכה בקבצי PST ו-OST
ללא תצוגה מקדימה של דוא"ל: מסיבות טכניות, לא DocFetcher ולא DocFetcher Pro ולא DocFetcher Server יכולים לפתוח הודעות דוא"ל בתוצאות החיפוש עם Outlook. הודעות הדוא"ל יכולות להיות מוצגות רק בחלונית התצוגה המקדימה של טקסט בלבד של התוכנית. היכולת לפתוח הודעות דוא"ל ב-Outlook עשויה להיות מוספת בגירסה עיקרית עתידית של DocFetcher Pro (גירסה 2.0 או מאוחר יותר). זה לא יכול להיות מיושם ב-DocFetcher Server מאחר שמופע ה-Outlook של המשתמש וקובץ ה-PST או OST המכיל את הדוא"ל נמצאים במחשבים שונים פוטנציאלים.
העדפת PST על פני OST: בעוד ש-DocFetcher Pro ו-DocFetcher Server יכולים לקרוא קבצי OST במידה מסוימת, היזהרו שקבצי OST הם בעצם רק קבצי מטמון שבהם Outlook שומר זמנית חלק מהנתונים מחשבון מקוון לשימוש לא מקוון. לכן, אם תאנדקסו קבצי OST, תגלו שהודעות דוא"ל רבות וקבצים מצורפים להודעות דוא"ל שהייתם מצפים לראות פשוט אינן שם. קבצי PST הם אילו ש-Outlook משתמש בהם לאחסון מלא וארוך טווח של הודעות דוא"ל, אז העדיפו תמיד אינדוקס של קבצי PST על פני אינדוקס של קבצי OST כאשר זה אפשרי. למידע נוסף על קבצי PST ו-OST, והוראות כיצד לייצא לקבצי PST, ראו דף זה ממיקרוסופט.
קבצי PST ו-OST גדולים: כדי לאנדקס קובץ PST או OST, היישום צריך לטעון את כל הקובץ לזיכרון רם. לכן, אינדוקס של קבצי PST או OST הגדולים מכמות הזיכרון רם הזמין (למשל, קובץ PST של 30 גיגהבייט מול 16 גיגהבייט זיכרון רם) אינו נתמך, וניסיונות לעשות זאת יקרוסו את היישום. כדי להתמודד עם בעיה זו, אתם יכולים או להחריג את קובץ ה-PST או OST הגדול מהאינדוקס, או לשדרג את הזיכרון רם שלכם. במקרה של שדרוג זיכרון רם, שימו לב שכמות הזיכרון רם הכוללת הנדרשת גדולה יותר מקובץ ה-PST או OST, בשל העובדה שמערכת ההפעלה ותהליכים אחרים תופסים חלק מאותו זיכרון רם.
הצהרה על אינדוקס מבוסס מאמץ מיטב
כמו פשוט כל תוכנות החיפוש, DocFetcher, DocFetcher Pro ו-DocFetcher Server תומכות בפורמטי הקבצים השונים הרשומים לעיל על בסיס מאמץ מיטב. זה אומר, לדוגמה, אם תנסו לאנדקס 10,000 קבצים, אז התוכנה עשויה לאנדקס בהצלחה רק 9,500 קבצים (כלומר, 95%), בעוד תכשל על 500 הקבצים הנותרים. כמובן ששיעור ההצלחה המשפיע תלוי במערך הנתונים שלכם.
יתר על כן, אפילו אם קובץ מסוים מאונדקס בהצלחה, התוכנה עשויה לכשל בחילוץ חלק מהטקסט בו, במיוחד בעת טיפול בפורמטי קבצים ישנים כמו "doc" או "xls". לדוגמה, היא עשויה לכשל בחילוץ חלק מהערות תאים או מטאדאטה מקבצי Excel עתיקים.
בכל מקרה, DocFetcher Pro ו-DocFetcher Server כנראה יעשו עבודה טובה יותר באינדוקס קבצים מאשר ה-DocFetcher הישן יותר.
אם אתם רואים שיעור כשלון גבוה במיוחד במהלך האינדוקס, בהחלט דווחו על הבעיה, עם חלק מקבצי הבדיקה מצורפים. אולם, אין הבטחה שהבעיה תוכל להיפתר.
פורמטי ארכיון נתמכים
- 7z archives (7z), up to version v0.3 of the 7z format
- 7z archives (7z), up to version v0.4 of the 7z format (since 7-Zip 9.34, from 2014-11-23) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Rar archives (rar) --- RAR 5.0 format not supported
- Tar and Tar.* archives:
- tar, tar.gz, tgz, tar.bz2, tb2, tbz
- tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Zip archives (customizable extensions)
תכונות נוספות בולטות
רב-פלטפורמה: DocFetcher, DocFetcher Pro ו-DocFetcher Server יכולים לרוץ על Windows, Linux ו-macOS. בנוסף, DocFetcher Server יכול להיות נגיש מכל מחשב שולחני עם גירסה עדכנית של Chrome, Firefox, Safari או Edge מותקנת.
גירסה ניידת: החבילות של DocFetcher Pro עבור Windows, Linux ו-macOS באות כל אחת בגירסה ניידת ולא ניידת. הגירסה הניידת שימושית בכך שהיא מאפשרת לכם לארוז את DocFetcher Pro הנייד, האינדקסים שלו והמסמכים המאונדקסים, לשימוש בדרכים שונות:
- אתם יכולים לשאת את החבילה הזו על כונן USB.
- אתם יכולים לארכב אותה באמצעי גיבוי כלשהו.
- אתם יכולים לשים אותה בנפח מוצפן.
- אתם יכולים לשים אותה בכונן ענן ולסנכרן אותה בין מחשבים.
אנא שימו לב שהפצה מחדש של חבילות ניידות כאלו למשתמשים אחרים אינה מותרת עם DocFetcher Pro, מאחר שכל עותק שנרכש מקושר למשתמש יחיד. (כל משתמש מקבל יצטרך לקנות עותק משלו בעצמו.) הפצה מחדש מותרת עם DocFetcher הקוד הפתוח, אולם.
תמיכה ב-Unicode: DocFetcher, DocFetcher Pro ו-DocFetcher Server באים עם תמיכה רוק-סוליד ב-Unicode עבור כל הפורמטים העיקריים, כולל Microsoft Office, OpenDocument, PDF, HTML, RTF וקבצי טקסט רגיל.
אינדוקס של כונני רשת: DocFetcher, DocFetcher Pro ו-DocFetcher Server יכולים לאנדקס כונני רשת כמו גם כונני ענן. באופן כללי יותר, אם מבנה נתונים יכול להיות מועלה כמשהו שנראה כמו מערכת קבצים במערכת ההפעלה, אז כל שלוש התוכניות מסוגלות לאנדקס אותו.
זיהוי צמדי HTML: במהלך האינדוקס, DocFetcher, DocFetcher Pro ו-DocFetcher Server מזהים צמדים של קבצי HTML (לדוגמה, קובץ בשם דוגמה.html ותיקייה בשם דוגמה_files), ומתייחסים לכל צמד כמסמך יחיד. תכונה זו עשויה להיראות חסרת תועלת למדי בהתחלה, אך התברר שזה משפר באופן דרמטי את איכות תוצאות החיפוש כאשר אתם עוסקים בקבצי HTML, מאחר שכל ה"עומס" בתוך תיקיות ה-HTML נעלם מהתוצאות.