Header Image

< חזור לעמוד האב

שיפוץ מקיף של טבלת התבניות

טבלת התבניות בתיבת הדו-שיח של יצירת האינדקס ב-DocFetcher Pro וטבלת התבניות בחלונית יצירת האינדקס ב-DocFetcher Server שונות מזו שב-DocFetcher בדרכים הבאות:

  • בנוסף לביטויים רגולריים, באפשרותך להשתמש בתווים כלליים * ו-? הפחות חזקים, אך גם הרבה יותר פשוטים, לכתיבת כללי התאמה. התו הכללי * הוא מציין עבור אפס או יותר תווים, בעוד שהתו הכללי ? הוא מציין עבור תו אחד בדיוק.
  • פעולת "כלול" חדשה בנוסף לפעולת "הוצא".
  • פעולת "Detect mime type" אינה קיימת עוד. אם ברצונך לאנדקס קבצים ללא סיומת קובץ כקבצי טקסט, השתמש בתיבת הסימון עם אותו תיאור מתחת לטבלת התבניות.
  • התאמה יכולה להיות רגישה לאותיות קטנות וגדולות או לא רגישה. ב-DocFetcher לעומת זאת, ההתאמה תמיד רגישה לאותיות.
  • ניתן לבצע התאמה לא רק מול קבצים רגילים, אלא גם מול תיקיות וקבצי ארכיון.
  • ב-Windows, כאשר כללים מותאמים מול נתיבי קבצים, האחרונים ישתמשו בתו \ כמפריד נתיב, לא בתו /. דוגמה: C:\נתיב\אל\קובץ.docx, במקום C:/נתיב/אל/קובץ.docx.

כתוצאה מכך, כך נראית טבלת התבניות ב-DocFetcher Pro:

טבלת תבניות

טבלת התבניות ב-DocFetcher Server נראית זהה, אך widget הבדיקה "‮התבנית הנבחרת תואמת את הקובץ הבא" מתחת לטבלה אינו זמין כרגע. Server Not available in DocFetcher Server

לחץ כאן לדיון מפורט על טבלת התבניות ב-DocFetcher, DocFetcher Pro ו-DocFetcher Server.

כך נוצר השיפוץ של טבלת התבניות ב-DocFetcher Pro ו-DocFetcher Server. בואו נתחיל מההתחלה: בתיבת הדו-שיח של יצירת האינדקס ב-DocFetcher, יש טבלת תבניות לביצוע פעולות מסוימות על קבצים התואמים לתבניות מסוימות במהלך האינדוקסציה:

טבלת תבניות מ-DocFetcher

התבניות צריכות להיות מה שנקרא "ביטויים רגולריים", ולגבי פעולות, שתיים זמינות ב-DocFetcher: הוצאת הקובץ התואם מהאינדוקסציה, ו-"זיהוי mime-type", כלומר, ניסיון לנחש את הדרך הנכונה לפענח את הקובץ התואם על סמך תוכן הקובץ ולא על סמך שם הקובץ. עד כאן, הכל טוב. אבל בפועל מתברר שהיישום שלעיל כולל מספר בעיות:

  • מעט מאד אנשים יודעים כיצד לכתוב ביטויים רגולריים.
  • לפעמים רוצים לאנדקס רק קבצים מסוימים, ולא לבזבז זמן אינדוקסציה שלא לצורך על דברים אחרים. לדוגמה, לאנדקס רק קבצי "txt" ולא דבר אחר. DocFetcher יכול לעשות זאת, אבל זה כרוך בתחבולות ביטויים רגולריים מתקדמות למדי.
  • לפעמים רוצים להוציא מהאינדוקסציה את כל הקבצים התואמים לתבנית מסוימת, למעט כל הקבצים התואמים לתבנית אחרת מסוימת. לדוגמה, להוציא מהאינדוקסציה את כל קבצי ה-PDF, למעט קבצי PDF שהשמות שלהם מתחילים ב-"דוח_". שוב, ב-DocFetcher זה מחייב שימוש מתקדם בביטויים רגולריים.
  • בכלל, זיהוי mime-type הוא די חסר תועלת כי: (1) הסיומת של הקובץ כמעט תמיד נכונה ולכן ברוב המקרים זה כל מה שנדרש כדי להבין את פורמט הקובץ. (2) כשהסיומת של הקובץ לא נכונה ונדרש זיהוי mime-type, האחרון מתברר כלא מיוחד אמין בכל מקרה. (3) אף אחד לא טורח ו/או לא יודע כיצד לכתוב כללי התאמה למקרים נדירים שבהם זיהוי mime-type יהיה באמת נדרש. עם זאת, בהקשר של DocFetcher מתברר שלזיהוי mime-type יש מקרה שימוש חשוב אחד: לגרום לתוכנה להתייחס לקבצים ללא סיומת קובץ כקבצי טקסט רגילים, לדוגמה, קבצים בשם README. עם זאת עם זאת, כדי לבצע זאת, צריך לכתוב את הביטוי הרגולרי המעורפל הזה: [^.]*
  • זיהוי mime-type עשוי להיכשל בזיהוי קובץ כקובץ טקסט רגיל אם הקובץ מכיל נתונים בינאריים.
  • עקב העובדה שהגרסה הנישאת של DocFetcher צריכה לרוץ על כל הפלטפורמות הנתמכות, כאשר כללי התאמה נבדקים מול נתיבי קבצים, האחרונים תמיד משתמשים בתו / כמפריד נתיב, גם ב-Windows, מה שהוא די לא אינטואיטיבי לרוב משתמשי Windows.

בקיצור, טבלת התבניות של DocFetcher היא בלגן חמ, והשיכתוב שהגיע עם DocFetcher Pro היה הזדמנות טובה לנקות את הכל:

  • תווים כלליים נוספו והוגדרו כברירת המחדל כך שעכשיו אפילו בני תמותה רגילים יכולים לכתוב כללי התאמה.
  • פעולת "כלול" מכסה הן את המקרה שבו רוצים לאנדקס רק סוג מסוים של קובץ, והן את המקרה שבו רוצים להגדיר חריגות לכללי התאמה. אפילו חריגות לחריגות אפשריות עכשיו.
  • פעולת "Detect mime type" הכללית חסרת תועלת הוסרה, ומקרה השימוש העיקרי שלה, אינדוקס של קבצים ללא סיומת קובץ כקבצי טקסט, מכוסה על ידי תיבת סימון פשוטה מתחת לטבלת התבניות. ותיבת סימון זו עובדת אפילו אם הקובץ מכיל נתונים בינאריים.
  • בעיית מפריד הנתיבים של Windows נפתרה.
  • ודברים אחרים (רגישות לאותיות והתאמה מול קבצים/תיקיות/ארכיונים) נוספו לטובת המאורע.

טעינה ושמירה של הגדרות אינדוקסציה

הערה: תכונה זו זמינה כרגע רק ב-DocFetcher Pro, לא ב-DocFetcher Server. Server Not available in DocFetcher Server

הבעיה: ב-DocFetcher, בכל פעם שאתה יוצר אינדקס חדש, אתה צריך להזין את כל הכללים בטבלת התבניות אחד אחר השני. זה הופך לדי מעיק אם יש לך הרבה כללים כאלה. אין פשוט דרך לטעון ולשמור אותם.

טבלת תבניות מ-DocFetcher, ריבוי רשומות

ב-DocFetcher Pro, הבעיה שלעיל נפתרת כדלקמן: בפינה הימנית העליונה של תיבת הדו-שיח של יצירת האינדקס ב-DocFetcher Pro, יושב כפתור קטן ולא בולט של "צנצנת עם מסמך". לחיצה על כפתור זה פותחת תפריט המכיל פעולות שונות לטעינה ושמירה של הגדרות אינדוקסציה:

תפריט לטעינה ושמירה של הגדרות אינדוקסציה

לחיצה על "שמור הגדרות" פותחת את תיבת הדו-שיח הזו:

תיבת דו-שיח לשמירת הגדרות אינדוקסציה

בעצם, מה שאתה יכול לעשות עם תיבת דו-שיח זו הוא או לשמור את הגדרות האינדוקסציה הנראות כרגע למקום חדש בעל שם, לדוגמה, "הגדרות אינדוקסציה חדשות שלי", או לשמור את הגדרות האינדוקסציה הנראות כרגע כברירת המחדל החדשה.

ברירת מחדל זו נקראת "ברירת מחדל מותאמת אישית" ותיטען אוטומטית בעת יצירת אינדקסים חדשים. יש גם "ברירת מחדל של היצרן", שהיא ברירת המחדל ש-DocFetcher Pro משתמש בה מיד מהקופסה. ההגדרות המבושות שיצרת, כלומר "ברירת מחדל מותאמת אישית" ו-"ברירת מחדל של היצרן", יכולות כולן להיטען דרך התפריט המוצג לעיל.

כדי להשלים את התמונה, התפריט גם מאפשר לך לייבא ולייצא את כל הגדרות האינדוקסציה שלך כך שתוכל להשתמש בהן שוב בעת התקנת DocFetcher Pro בסביבה חדשה.

שיפורים חשובים נוספים

תמיכה ב-FB2: DocFetcher Pro ו-DocFetcher Server תומכים בפורמט הספר הדיגיטלי FB2. קבצי FB2 המדחוסים ב-Zip, עם סיומת קובץ fb2.zip או fbz, נתמכים "באופן רימי", כלומר, DocFetcher Pro ו-DocFetcher Server רואים בכל קובץ כזה קובץ יחיד ולא כקובץ העטוף בארכיון zip.

תמיכה ניסויית ב-Mobipocket: DocFetcher Pro ו-DocFetcher Server תומכים בפורמט הספר הדיגיטלי Mobipocket, עם סיומת קובץ "mobi". עם זאת, שים לב שבעוד ש-DocFetcher Pro ו-DocFetcher Server בסך הכל עושים עבודה טובה בהוצאת טקסט מקבצי mobi, הם כרגע או נכשלים בהוצאת חלק קטן מהטקסט בסוף הקובץ, או במקרים מסוימים נכשלים לחלוטין. לכן, התמיכה ב-Mobipocket מסומנת כרגע כניסויית.

תמיכה בארכיוני 7z בפורמט v0.4 הנוכחי: DocFetcher יכול לקרוא ארכיוני 7z עד גרסה v0.3 של פורמט ארכיון 7z. DocFetcher Pro ו-DocFetcher Server יכולים גם לקרוא ארכיוני 7z בפורמט v0.4 הנוכחי. פורמט v0.4 זה הוצג עם 7-Zip 9.34, ששוחרר ב-23-11-2014.

תמיכה מורחבת בארכיוני tar: DocFetcher תומך בסיומות ארכיון tar הבאות: tar, tar.gz, tgz, tar.bz2, tb2, tbz. DocFetcher Pro ו-DocFetcher Server תומכים בנוסף בסיומות ארכיון tar הבאות: tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz

אינדוקס של שמות תיקיות וארכיונים: בניגוד ל-DocFetcher, DocFetcher Pro ו-DocFetcher Server מאנדקסים לא רק קבצים רגילים, אלא גם תיקיות וקבצי ארכיון --- או בדיוק יותר, את השמות של תיקיות וקבצי ארכיון. כך שתיקיות וקבצי ארכיון יופיעו בתוצאות החיפוש של DocFetcher Pro ו-DocFetcher Server. יש גם חלונית סוגי מכולות בצד השמאלי של חלון היישום הראשי להוצאת תיקיות ו/או ארכיונים מתוצאות החיפוש.

חיפוש אחר תיקיות וארכיונים

MacOS: Daemon לעדכון אוטומטי של אינדקס: DocFetcher ו-DocFetcher Pro מסוגלים לעדכון אינדקס אוטומטי, כלומר, במקום להצטרך להשקיע עדכוני אינדקס באופן ידני, עדכוני אינדקס מושקים על ידי התוכנה שנדה כאשר מאותרים שינויים בקבצים. עם זאת, פונקציונליות זו זמינה רק בעוד שתי התוכנות באמת רצות. כאשר הן לא רצות, נדרש תהליך daemon נפרד כדי למלא את הפער. ב-DocFetcher, ה-daemon זמין רק ב-Windows ו-Linux, בעוד שב-DocFetcher Pro, הוא זמין גם ב-macOS. במה שנוגע ל-DocFetcher Server, אין צורך ב-daemon כיום שהשרת מתוכנן לרוץ באופן רציף. Server Not available in DocFetcher Server

אינדוקס חכם יותר של שמות קבצים: אינדוקס של שמות קבצים ב-DocFetcher Pro ו-DocFetcher Server חכם יותר מאשר ב-DocFetcher. לדוגמה, אם DocFetcher נתקל בקובץ בשם מצא_קובץ_זה.pdf, הוא רואה ב-"מצא_קובץ_זה" מילה אחת, לא כשלוש מילים נפרדות המחוברות זו לזו. כך ש-DocFetcher ימצא את הקובץ הזה רק אם אתה באמת תקליד "מצא_קובץ_זה" בשדה החיפוש של DocFetcher. DocFetcher Pro ו-DocFetcher Server לעומת זאת ימצאו את הקובץ אם אתה תקליד "מצא_קובץ_זה" או כל אחת משלוש המילים היחידות. באופן כללי, מה ש-DocFetcher Pro ו-DocFetcher Server עושים הוא לזהות תווים כמו הקו התחתון כמפרידי מילים פוטנציאליים.

אינדוקס חכם יותר של שמות קבצים

אינדוקס שמות קבצים במקרה של שגיאות: אם DocFetcher Pro ו-DocFetcher Server נכשלים בקריאת תוכן של קובץ בשל שגיאה כלשהי או בשל הגנת סיסמה, שם הקובץ עדיין מאונדקס. ב-DocFetcher לעומת זאת, הקובץ נדלג לחלוטין.

אין שגיאות עם מבני תיקיות מקוננים עמוקים: כאשר מנסים לאנדקס מבני תיקיות מקוננים עמוקים, כמו C:\תיקיי41\תיקיי42\...\תיקיי4599\תיקיי45100, DocFetcher נוטה להיכשל עם שגיאת "מיררכיית התיקיות עמוקה מדי". בזרגון של מתכנתים, זה נקרא "stack overflow". DocFetcher Pro ו-DocFetcher Server לעומת זאת חסינים לחלוטין מסוג זה של שגיאות.

ייצוא CSV של שגיאות אינדוקסציה: ב-DocFetcher Pro, באפשרותך לייצא את טבלת הקבצים שהתוכנה נכשלה בקריאתם במהלך האינדוקסציה לקובץ CSV. זה ניתן לביצוע דרך תפריט הקשר של טבלת השגיאות, כפי שמוצג בצילום המסך הבא. תכונה זו אינה זמינה כרגע ב-DocFetcher Server. Server Not available in DocFetcher Server

ייצוא CSV של שגיאות אינדוקסציה

הפעלה וכיבוי של מעקב אחר תיקיות ללא בניה מחדש של האינדקס: ההגדרה "Watch folders for file changes" של DocFetcher, המוכרת גם כמעקב אחר תיקיות, היא הגדרה לכל אינדקס שכאשר היא מופעלת גורמת לתוכנה לעדכן אוטומטית את האינדקס בכל פעם שהיא מאתרת שינויים בקבצים בתיקיה המאונדקסת. הבעיה היא שאם אתה רוצה להפעיל או לכבות את ההגדרה הזו באינדקס מסוים, אתה צריך לבנות מחדש את כל האינדקס. ב-DocFetcher Pro, באפשרותך להפעיל ולכבות הגדרה זו ללא בניה מחדש של האינדקס, דרך תפריט הקשר של חלונית טווח החיפוש. בנוסף, ההגדרה שונתה ל-"עדכן אוטומטית את האינדקס". פונקציונליות דומה קיימת ב-DocFetcher Server.

עדכן אוטומטית את האינדקס

חיפוש ובניה מחדש של אינדקס באופן זמני: ב-DocFetcher, אם אתה בוחר לבנות מחדש אינדקס, האינדקס הזה הופך לבלתי זמין לחיפוש בעוד הבניה מחדש בעיצומה. ב-DocFetcher Pro ו-DocFetcher Server לעומת זאת, האינדקס נשאר בר חיפוש במהלך הבניה מחדש. (בדיוק יותר, עותק ישן של האינדקס נשאר בר חיפוש בעוד האינדקס האמיתי נבנה מחדש ברקע.)

Windows: תיקון טיפול בנתיבי UNC: ב-DocFetcher, הטיפול בנתיבי UNC ב-Windows קרוס באופן חמור ועוצב מחדש מהיסוד ב-DocFetcher Pro. העיצוב מחדש הועבר אז גם ל-DocFetcher Server.

תיבת דו-שיח אינדוקסציה לא-מודלית: בניגוד לתיבת הדו-שיח של יצירת האינדקס של DocFetcher, זו שב-DocFetcher Pro היא "לא-מודלית", כלומר היא לא מחוברת לחלון התוכנה הראשי ולא חוסמת קלט לחלון התוכנה הראשי בעוד היא פתוחה. היתרון העיקרי של זה הוא שבעוד תהליכי אינדוקסציה רצים, באפשרותך למזער את חלון התוכנה הראשי, אבל להשאיר את תיבת הדו-שיח של יצירת האינדקס נראית וחנויה בצד. זה מאפשר לך לעקוב אחר תהליכי האינדוקסציה בעוד השגת עבודה ביישומים אחרים. תכונה זו אינה ברת יישום ב-DocFetcher Server. Server Not available in DocFetcher Server

תיבת דו-שיח אינדוקסציה לא-מודלית

ניגון צליל אחרי אינדוקסציה: באופן ברירת מחדל, DocFetcher Pro מנגן צליל "סויים" אחרי אינדוקסציה. אפשר לכבות זאת בהעדפות. תכונה זו אינה זמינה כרגע ב-DocFetcher Server. Server Not available in DocFetcher Server

ניגון צליל אחרי אינדוקסציה

אינדוקס של טקסט יפני: DocFetcher כולל אפשרות הנקראת "פילוח מילים" כדי לקבל תוצאות חיפוש שמישות בעת אינדוקס של טקסט סיני. DocFetcher Pro כולל אפשרות פילוח מילים נוספת לטיפול בטקסט יפני. הן פילוח מילים סיני והן יפני אינם זמינים כרגע ב-DocFetcher Server. Server Not available in DocFetcher Server