Header Image

< मूल पृष्ठ पर वापस जाएं

पैटर्न तालिका का ओवरहाल

DocFetcher Pro के अनुक्रमणिका निर्माण डायलॉग पर पैटर्न तालिका और DocFetcher Server के अनुक्रमणिका निर्माण पैनल पर पैटर्न तालिका DocFetcher में मौजूद तालिका से निम्नलिखित तरीकों से भिन्न है:

  • नियमित अभिव्यक्तियों के अलावा, आप मिलान नियम लिखने के लिए कम शक्तिशाली, लेकिन बहुत सरल वाइल्डकार्ड * और ? का उपयोग कर सकते हैं। वाइल्डकार्ड * शून्य या अधिक वर्णों के लिए एक प्लेसहोल्डर है, जबकि वाइल्डकार्ड ? ठीक एक वर्ण के लिए एक प्लेसहोल्डर है।
  • “बाहर निकालें” क्रिया के अलावा एक नई “शामिल करें” क्रिया।
  • “Detect mime type” क्रिया चली गई है। यदि आप बिना फ़ाइल एक्सटेंशन वाली फ़ाइलों को टेक्स्ट फ़ाइलों के रूप में अनुक्रमित करना चाहते हैं, तो पैटर्न तालिका के नीचे उसी विवरण के चेकबॉक्स का उपयोग करें।
  • मिलान या तो केस-संवेदी या केस-असंवेदी हो सकता है। दूसरी ओर, DocFetcher में, मिलान हमेशा केस-संवेदी होता है।
  • मिलान न केवल नियमित फ़ाइलों के विरुद्ध, बल्कि फ़ोल्डरों और संग्रह फ़ाइलों के विरुद्ध भी किया जा सकता है।
  • विंडोज पर, जब नियमों का मिलान फ़ाइल पथों से किया जाता है, तो बाद वाला पथ विभाजक के रूप में \ वर्ण का उपयोग करेगा, न कि / वर्ण का। उदाहरण: C:\पथ\से\फ़ाइल.docx, C:/पथ/से/फ़ाइल.docx के बजाय।

परिणामस्वरूप, DocFetcher Pro में पैटर्न तालिका इस तरह दिखती है:

पैटर्न तालिका

DocFetcher Server में पैटर्न तालिका समान दिखती है, लेकिन तालिका के नीचे “चयनित पैटर्न निम्नलिखित फाइल से मेल खाता है” परीक्षण विजेट वर्तमान में उपलब्ध नहीं है। Server Not available in DocFetcher Server

DocFetcher, DocFetcher Pro और DocFetcher Server में पैटर्न तालिका की विस्तृत चर्चा के लिए यहां क्लिक करें।

यहां बताया गया है कि DocFetcher Pro और DocFetcher Server में पैटर्न तालिका का ओवरहाल कैसे हुआ। आइए शुरू से शुरू करें: DocFetcher के अनुक्रमणिका निर्माण डायलॉग पर, अनुक्रमणिका निर्माण के दौरान कुछ पैटर्न द्वारा मेल खाने वाली फ़ाइलों पर कुछ क्रियाएं करने के लिए एक पैटर्न तालिका है:

DocFetcher से पैटर्न तालिका

पैटर्न को तथाकथित नियमित अभिव्यक्तियाँ होनी चाहिए, और क्रियाओं के लिए, DocFetcher में दो उपलब्ध हैं: मेल खाने वाली फ़ाइल को अनुक्रमणिका निर्माण से बाहर करना, और “माइम-प्रकार का पता लगाना”, यानी, फ़ाइल की सामग्री के आधार पर मेल खाने वाली फ़ाइल को पार्स करने का सही तरीका अनुमान लगाने की कोशिश करना, न कि उसके फ़ाइल नाम के आधार पर। अब तक सब ठीक है। हालाँकि, व्यवहार में यह पता चलता है कि उपरोक्त कार्यान्वयन में कई मुद्दे हैं:

  • बहुत कम लोग जानते हैं कि नियमित अभिव्यक्तियाँ कैसे लिखी जाती हैं।
  • कभी-कभी कोई केवल कुछ फ़ाइलों को अनुक्रमित करना चाहता है, और किसी और चीज़ पर अनुक्रमणिका निर्माण समय बर्बाद नहीं करना चाहता है। उदाहरण के लिए, केवल “txt” फ़ाइलों को अनुक्रमित करें और कुछ नहीं। DocFetcher वास्तव में ऐसा कर सकता है, लेकिन इसमें कुछ उन्नत नियमित अभिव्यक्ति की चालाकी शामिल है।
  • कभी-कभी कोई किसी निश्चित पैटर्न से मेल खाने वाली सभी फ़ाइलों को अनुक्रमणिका निर्माण से बाहर करना चाहता है, सिवाय उन सभी फ़ाइलों के जो किसी अन्य निश्चित पैटर्न से मेल खाती हैं। उदाहरण के लिए, सभी PDF फ़ाइलों को अनुक्रमणिका निर्माण से बाहर करें, सिवाय उन PDF फ़ाइलों के जिनके नाम “रिपोर्ट_” से शुरू होते हैं। फिर से, DocFetcher में इसके लिए नियमित अभिव्यक्तियों के उन्नत उपयोग की आवश्यकता होती है।
  • सामान्य तौर पर, माइम-प्रकार का पता लगाना बहुत बेकार है क्योंकि: (1) फ़ाइल एक्सटेंशन लगभग हमेशा सही होता है और इसलिए ज्यादातर मामलों में फ़ाइल प्रारूप का पता लगाने के लिए बस इतना ही आवश्यक है। (2) जब फ़ाइल एक्सटेंशन सही नहीं होता है और माइम-प्रकार का पता लगाने की आवश्यकता होती है, तो बाद वाला वैसे भी विशेष रूप से विश्वसनीय नहीं होता है। (3) कोई भी उन दुर्लभ मामलों के लिए मिलान नियम लिखने की जहमत नहीं उठाता और/या नहीं जानता है जहाँ माइम-प्रकार का पता लगाने की वास्तव में आवश्यकता होगी। हालांकि, DocFetcher के संदर्भ में यह पता चलता है कि माइम-प्रकार का पता लगाने का एक महत्वपूर्ण उपयोग मामला है: प्रोग्राम को बिना फ़ाइल एक्सटेंशन वाली फ़ाइलों को सादे टेक्स्ट फ़ाइलों के रूप में मानने देना, उदा., README नामक फ़ाइलें। हालांकि हालांकि, इसे पूरा करने के लिए, किसी को यह अस्पष्ट नियमित अभिव्यक्ति लिखनी होगी: [^.]*
  • यदि फ़ाइल में कुछ बाइनरी डेटा है तो माइम-प्रकार का पता लगाना किसी फ़ाइल को सादे पाठ के रूप में पहचानने में विफल हो सकता है।
  • इस तथ्य के कारण कि DocFetcher का पोर्टेबल संस्करण सभी समर्थित प्लेटफार्मों पर चलना चाहिए, जब फ़ाइल पथों के विरुद्ध नियमों का मिलान किया जाता है, तो बाद वाला हमेशा पथ विभाजक के रूप में / वर्ण का उपयोग करता है, यहाँ तक कि विंडोज पर भी, जो अधिकांश विंडोज उपयोगकर्ताओं के लिए काफी सहज नहीं है।

संक्षेप में, DocFetcher की पैटर्न तालिका एक गर्म गड़बड़ है, और DocFetcher Pro के साथ आया पुनर्लेखन इसे पूरी तरह से साफ करने का एक अच्छा अवसर था:

  • वाइल्डकार्ड जोड़े गए और डिफ़ॉल्ट के रूप में सेट किए गए ताकि अब केवल नश्वर भी मिलान नियम लिख सकें।
  • “शामिल करें” क्रिया दोनों मामलों को कवर करती है जहां कोई केवल एक विशिष्ट प्रकार की फ़ाइल को अनुक्रमित करना चाहता है, और वह मामला जहां कोई मिलान नियमों के अपवादों को परिभाषित करना चाहता है। अब अपवादों-के-अपवाद भी संभव हैं।
  • आम तौर पर बेकार “Detect mime type” क्रिया चली गई है, और इसका मुख्य उपयोग मामला, बिना फ़ाइल एक्सटेंशन वाली फ़ाइलों को टेक्स्ट फ़ाइलों के रूप में अनुक्रमित करना, पैटर्न तालिका के नीचे एक साधारण चेकबॉक्स द्वारा कवर किया गया है। और यह चेकबॉक्स तब भी काम करता है जब फ़ाइल में कुछ बाइनरी डेटा हो।
  • विंडोज पथ विभाजक समस्या ठीक हो गई है।
  • और कुछ अन्य चीजें (केस संवेदनशीलता और फ़ाइलों/फ़ोल्डरों/संग्रहों के विरुद्ध मिलान) अच्छे उपाय के लिए फेंक दी गईं।

अनुक्रमणिका निर्माण सेटिंग्स लोड और सहेजना

नोट: यह सुविधा वर्तमान में केवल DocFetcher Pro में उपलब्ध है, DocFetcher Server में नहीं। Server Not available in DocFetcher Server

समस्या: DocFetcher में, हर बार जब आप एक नई अनुक्रमणिका बनाते हैं, तो आपको पैटर्न तालिका में सभी नियमों को एक-एक करके दर्ज करना होता है। यदि आपके पास ऐसे कई नियम हैं तो यह काफी थकाऊ हो जाता है। उन्हें लोड करने और सहेजने का कोई तरीका नहीं है।

DocFetcher से पैटर्न तालिका, कई प्रविष्टियाँ

DocFetcher Pro में, उपरोक्त समस्या का समाधान इस प्रकार किया गया है: DocFetcher Pro के अनुक्रमणिका निर्माण डायलॉग के ऊपरी दाएं कोने में, एक अगोचर छोटा “दस्तावेज़ के साथ जार” बटन है। इस बटन पर क्लिक करने से एक मेनू खुलता है जिसमें अनुक्रमणिका निर्माण सेटिंग्स को लोड करने और सहेजने के लिए विभिन्न क्रियाएं होती हैं:

अनुक्रमणिका निर्माण सेटिंग्स को लोड और सहेजने के लिए मेनू

“सेटिंग्स सहेजें” पर क्लिक करने से यह डायलॉग खुलता है:

अनुक्रमणिका निर्माण सेटिंग्स सहेजने के लिए डायलॉग

अनिवार्य रूप से, आप इस डायलॉग के साथ जो कर सकते हैं वह यह है कि या तो वर्तमान में दिखाई देने वाली अनुक्रमणिका निर्माण सेटिंग्स को एक नए नामित स्लॉट में सहेजें, उदा., “मेरी नई अनुक्रमणिका निर्माण सेटिंग्स”, या वर्तमान में दिखाई देने वाली अनुक्रमणिका निर्माण सेटिंग्स को नए डिफ़ॉल्ट के रूप में सहेजें।

इस डिफ़ॉल्ट को “कस्टम डिफ़ॉल्ट” कहा जाता है और नई अनुक्रमणिका बनाते समय स्वचालित रूप से लोड हो जाएगा। एक “फ़ैक्टरी डिफ़ॉल्ट” भी है, जो कि DocFetcher Pro बॉक्स से बाहर उपयोग करता है। आपके द्वारा बनाई गई नामित सेटिंग्स, अर्थात् “कस्टम डिफ़ॉल्ट” और “फ़ैक्टरी डिफ़ॉल्ट”, सभी को ऊपर दिखाए गए मेनू के माध्यम से लोड किया जा सकता है।

चीजों को पूरा करने के लिए, मेनू आपको अपनी सभी अनुक्रमणिका निर्माण सेटिंग्स को आयात और निर्यात करने की भी अनुमति देता है ताकि आप उन्हें एक नए वातावरण में DocFetcher Pro स्थापित करते समय पुन: उपयोग कर सकें।

अन्य उल्लेखनीय सुधार

FB2 समर्थन: DocFetcher Pro और DocFetcher Server में ई-बुक प्रारूप FB2 के लिए समर्थन है। ज़िप-संपीड़ित FB2 फ़ाइलें, फ़ाइल एक्सटेंशन fb2.zip या fbz के साथ, “मूल रूप से” समर्थित हैं, यानी, DocFetcher Pro और DocFetcher Server प्रत्येक ऐसी फ़ाइल को एक ज़िप संग्रह में लिपटी फ़ाइल के बजाय एक एकल फ़ाइल के रूप में देखते हैं।

प्रयोगात्मक मोबीपॉकेट समर्थन: DocFetcher Pro और DocFetcher Server में ई-बुक प्रारूप मोबीपॉकेट के लिए समर्थन है, जिसमें फ़ाइल एक्सटेंशन “mobi” है। हालाँकि, ध्यान दें कि जबकि DocFetcher Pro और DocFetcher Server कुल मिलाकर मोबी फ़ाइलों से टेक्स्ट निकालने का एक बहुत अच्छा काम करते हैं, वे वर्तमान में या तो फ़ाइल के अंत में टेक्स्ट के एक छोटे से हिस्से को निकालने में विफल रहते हैं, या कुछ मामलों में पूरी तरह से विफल हो जाते हैं। इसलिए, मोबीपॉकेट समर्थन को अभी के लिए प्रयोगात्मक के रूप में चिह्नित किया गया है।

वर्तमान v0.4 प्रारूप के लिए 7z संग्रह समर्थन: DocFetcher 7z संग्रह प्रारूप के v0.3 तक 7z संग्रह पढ़ सकता है। DocFetcher Pro और DocFetcher Server वर्तमान v0.4 प्रारूप में 7z संग्रह भी पढ़ सकते हैं। यह v0.4 प्रारूप 7-ज़िप 9.34 के साथ पेश किया गया था, जो 2014-11-23 को जारी किया गया था।

विस्तारित टार संग्रह समर्थन: DocFetcher निम्नलिखित टार संग्रह एक्सटेंशन का समर्थन करता है: tar, tar.gz, tgz, tar.bz2, tb2, tbz। DocFetcher Pro और DocFetcher Server अतिरिक्त रूप से निम्नलिखित टार संग्रह एक्सटेंशन का समर्थन करते हैं: tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz

फ़ोल्डर और संग्रह नामों का अनुक्रमण: DocFetcher के विपरीत, DocFetcher Pro और DocFetcher Server न केवल नियमित फ़ाइलों को अनुक्रमित करते हैं, बल्कि फ़ोल्डरों और संग्रह फ़ाइलों को भी अनुक्रमित करते हैं - या अधिक सटीक रूप से, फ़ोल्डरों और संग्रह फ़ाइलों के नाम। इस प्रकार, फ़ोल्डर और संग्रह फ़ाइलें DocFetcher Pro और DocFetcher Server के खोज परिणामों में दिखाई देंगी। खोज परिणामों से फ़ोल्डरों और/या संग्रहों को बाहर करने के लिए मुख्य एप्लिकेशन विंडो के बाईं ओर एक “कंटेनर प्रकार” फलक भी है।

फ़ोल्डरों और संग्रहों की खोज

MacOS: स्वचालित अनुक्रमणिका अद्यतन के लिए डेमॉन: DocFetcher और DocFetcher Pro स्वचालित अनुक्रमणिका अद्यतन में सक्षम हैं, यानी, अनुक्रमणिका अद्यतनों को मैन्युअल रूप से शुरू करने के बजाय, जैसे ही फ़ाइल परिवर्तन का पता चलता है, प्रोग्राम द्वारा अनुक्रमणिका अद्यतन शुरू कर दिए जाते हैं। हालाँकि, यह कार्यक्षमता केवल तभी उपलब्ध होती है जब दोनों प्रोग्राम वास्तव में चल रहे हों। जब वे नहीं चल रहे होते हैं, तो अंतर को भरने के लिए एक अलग डेमॉन प्रक्रिया की आवश्यकता होती है। DocFetcher में, डेमॉन केवल विंडोज और लिनक्स पर उपलब्ध है, जबकि DocFetcher Pro में, यह macOS पर भी उपलब्ध है। DocFetcher Server के लिए, किसी डेमॉन की आवश्यकता नहीं है क्योंकि सर्वर को लगातार चलाने के लिए डिज़ाइन किया गया है। Server Not available in DocFetcher Server

स्मार्टर फ़ाइल नाम अनुक्रमण: DocFetcher Pro और DocFetcher Server में फ़ाइल नामों का अनुक्रमण DocFetcher की तुलना में अधिक स्मार्ट है। उदाहरण के लिए, यदि DocFetcher को इस_फ़ाइल_को_खोजें.pdf नामक फ़ाइल मिलती है, तो यह “इस_फ़ाइल_को_खोजें” को एक शब्द के रूप में देखता है, न कि तीन अलग-अलग शब्दों के रूप में। इस प्रकार, DocFetcher इस फ़ाइल को तभी ढूंढेगा जब आप DocFetcher के खोज क्षेत्र में शाब्दिक रूप से “इस_फ़ाइल_को_खोजें” टाइप करेंगे। दूसरी ओर, DocFetcher Pro और DocFetcher Server फ़ाइल को तब ढूंढेंगे जब आप “इस_फ़ाइल_को_खोजें” या तीन अलग-अलग शब्दों में से कोई भी टाइप करेंगे। सामान्यतया, DocFetcher Pro और DocFetcher Server जो करते हैं वह अंडरस्कोर जैसे वर्णों को संभावित शब्द विभाजक के रूप में पहचानना है।

स्मार्टर फ़ाइल नाम अनुक्रमण

त्रुटियों के मामले में फ़ाइल नाम अनुक्रमण: यदि DocFetcher Pro और DocFetcher Server किसी त्रुटि या पासवर्ड सुरक्षा के कारण किसी फ़ाइल की सामग्री को पढ़ने में विफल रहते हैं, तो भी फ़ाइल नाम अनुक्रमित हो जाता है। दूसरी ओर, DocFetcher में, फ़ाइल पूरी तरह से छोड़ दी जाती है।

गहरी नेस्टेड फ़ोल्डर संरचनाओं के साथ कोई त्रुटि नहीं: गहरी नेस्टेड फ़ोल्डर संरचनाओं को अनुक्रमित करने का प्रयास करते समय, जैसे C:\फ़ोल्डर1\फ़ोल्डर2\...\फ़ोल्डर99\फ़ोल्डर100, DocFetcher “फ़ोल्डर पदानुक्रम बहुत गहरा है” त्रुटि के साथ विफल होने की संभावना है। प्रोग्रामर शब्दजाल में, इसे “स्टैक ओवरफ़्लो” कहा जाता है। दूसरी ओर, DocFetcher Pro और DocFetcher Server इस तरह की त्रुटि से पूरी तरह से प्रतिरक्षित हैं।

अनुक्रमणिका निर्माण त्रुटियों का CSV निर्यात: DocFetcher Pro में, आप उन फ़ाइलों की तालिका निर्यात कर सकते हैं जिन्हें प्रोग्राम अनुक्रमणिका निर्माण के दौरान CSV फ़ाइल में पढ़ने में विफल रहा। यह त्रुटि तालिका के संदर्भ मेनू के माध्यम से किया जा सकता है, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है। यह सुविधा वर्तमान में DocFetcher Server में उपलब्ध नहीं है। Server Not available in DocFetcher Server

अनुक्रमणिका निर्माण त्रुटियों का CSV निर्यात

अनुक्रमणिका के पुनर्निर्माण के बिना फ़ोल्डर देखने को चालू और बंद करना: DocFetcher की “Watch folders for file changes” सेटिंग, जिसे फ़ोल्डर देखना भी कहा जाता है, एक प्रति-अनुक्रमणिका सेटिंग है, जिसे चालू करने पर प्रोग्राम अनुक्रमित फ़ोल्डर में फ़ाइल परिवर्तनों का पता चलने पर अनुक्रमणिका को स्वतः-अद्यतन करता है। समस्या यह है कि यदि आप किसी विशेष अनुक्रमणिका पर इस सेटिंग को चालू या बंद करना चाहते हैं, तो आपको पूरी अनुक्रमणिका का पुनर्निर्माण करना होगा। DocFetcher Pro में, आप खोज स्कोप फलक के संदर्भ मेनू के माध्यम से, अनुक्रमणिका का पुनर्निर्माण किए बिना इस सेटिंग को चालू और बंद कर सकते हैं। साथ ही, सेटिंग का नाम बदलकर “अनुक्रमणिका को स्वचालित रूप से अपडेट करें” कर दिया गया है। DocFetcher Server में भी इसी तरह की कार्यक्षमता मौजूद है।

अनुक्रमणिका को स्वचालित रूप से अपडेट करें

एक साथ खोजना और अनुक्रमणिका का पुनर्निर्माण: DocFetcher में, यदि आप किसी अनुक्रमणिका का पुनर्निर्माण करना चुनते हैं, तो पुनर्निर्माण प्रगति पर होने के दौरान वह अनुक्रमणिका खोज के लिए अनुपलब्ध हो जाती है। दूसरी ओर, DocFetcher Pro और DocFetcher Server में, पुनर्निर्माण के दौरान अनुक्रमणिका खोजने योग्य बनी रहती है। (अधिक सटीक रूप से, अनुक्रमणिका की एक पुरानी प्रति खोजने योग्य बनी रहती है जबकि वास्तविक अनुक्रमणिका पृष्ठभूमि में पुनर्निर्मित की जा रही है।)

विंडोज: UNC पथों का निश्चित हैंडलिंग: DocFetcher में, विंडोज पर UNC पथों का हैंडलिंग बुरी तरह से टूटा हुआ है और इसे DocFetcher Pro में स्क्रैच से फिर से डिज़ाइन किया गया था। फिर रीडिज़ाइन को DocFetcher Server में ले जाया गया।

गैर-मोडल अनुक्रमणिका निर्माण डायलॉग: DocFetcher के अनुक्रमणिका निर्माण डायलॉग के विपरीत, DocFetcher Pro में वाला “गैर-मोडल” है, जिसका अर्थ है कि यह मुख्य प्रोग्राम विंडो से जुड़ा नहीं है और जब यह खुला होता है तो मुख्य प्रोग्राम विंडो में इनपुट को ब्लॉक नहीं करता है। इसका मुख्य लाभ यह है कि जब अनुक्रमणिका प्रक्रियाएं चल रही होती हैं, तो आप मुख्य प्रोग्राम विंडो को छोटा कर सकते हैं, लेकिन अनुक्रमणिका निर्माण डायलॉग को दृश्यमान और किनारे पर पार्क करके रख सकते हैं। यह आपको अन्य अनुप्रयोगों में काम करते समय अनुक्रमणिका प्रक्रियाओं पर नजर रखने की अनुमति देता है। यह सुविधा DocFetcher Server पर लागू नहीं होती है। Server Not available in DocFetcher Server

गैर-मोडल अनुक्रमणिका निर्माण डायलॉग

अनुक्रमणिका निर्माण के बाद ध्वनि बजाना: डिफ़ॉल्ट रूप से, DocFetcher Pro अनुक्रमणिका निर्माण के बाद “समाप्त” ध्वनि बजाता है। इसे वरीयताओं में बंद किया जा सकता है। यह सुविधा वर्तमान में DocFetcher Server में उपलब्ध नहीं है। Server Not available in DocFetcher Server

अनुक्रमणिका निर्माण के बाद ध्वनि बजाना

जापानी पाठ का अनुक्रमण: DocFetcher में चीनी पाठ को अनुक्रमित करते समय प्रयोग करने योग्य खोज परिणाम प्राप्त करने के लिए एक तथाकथित “शब्द विभाजन” विकल्प है। DocFetcher Pro में जापानी पाठ को संभालने के लिए एक अतिरिक्त शब्द विभाजन विकल्प है। चीनी और जापानी दोनों शब्द विभाजन वर्तमान में DocFetcher Server में उपलब्ध नहीं हैं। Server Not available in DocFetcher Server