Tämä sivu on yleiskatsaus DocFetcher Pro:n ja DocFetcher Serverin tärkeimmistä ominaisuuksista niille, jotka eivät ole tuttuja DocFetcherin kanssa. Jos olet, Vertailu -sivu ja sen alasivut voivat olla hyödyllisempiä.
Kaikki alla olevat kuvakaappaukset näyttävät DocFetcher Pro:n käyttöliittymän. DocFetcher Serverin web-käyttöliittymä näyttää samanlaiselta ja on upotettuna selaimen ikkunaan.
Käyttöliittymä

Kuten yllä olevassa kuvakaappauksessa näkyy, DocFetcher Pro:n pääikkuna koostuu seuraavista osista:
- Hakukenttä: Kirjoita tähän sanat, joita haluat etsiä.
- Tulosalue: Hakutulokset näytetään tässä. Nämä ovat tiedostoja, kansioita tai Outlook-sähköposteja, jotka sisältävät hakukenttään kirjoittamasi sanat.
- Esikatseluikkuna: Näyttää pelkkää tekstiä sisältävän esikatselun tulosalueella valittuna olevasta tiedostosta tai Outlook-sähköpostista. Osumia tekstissä korostetaan.
- ”Pienimmän/suurimman tiedoston koko” -suodatin: Hakutuloksia voidaan suodattaa tässä pienimmän ja/tai suurimman tiedostokoon mukaan. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- ”Säiliötyypit” -alue: Aseta tässä, sisällytetäänkö kansiot ja arkistot hakutuloksiin. DocFetcherissä kansioita ja arkistoja ei sisällytetä hakutuloksiin, vain tiedostoja ja Outlook-sähköposteja. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Asiakirjatyypit-alue: Hakutuloksia voidaan suodattaa tiedostotyypin mukaan tässä.
- Mukautetut tyypit -alue: Vaihtoehto Asiakirjatyypit-alueelle. Tässä voit määritellä omia tiedostotyyppejä, joiden mukaan hakutuloksia suodatetaan. Määrittelyt perustuvat jokerimerkkikuvioiden tai säännöllisten lausekkeiden vastaavuuteen tiedostonimien kanssa. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
- Hakun laajuus -alue: Tällä alueella on kaksi tarkoitusta: Hakutulosten suodattaminen sijainnin mukaan ja ”hakemistojen” hallinta, jotka selitetään alla. Hakemistoja voidaan lisätä, päivittää ja poistaa. Jokainen hakemisto vastaa jotakin haettavissa olevaa sijaintia tietokoneellasi.
- Eri säätimet: ”Hae”-painikkeen oikealla puolella olevat kolme säätintä ovat: tällä hetkellä näkyvien hakutulosten määrä, painike käyttöoppaan avaamiseen ja painike ohjelman asetusten avaamiseen.
Tehokas hakukyselyn syntaksi

Yllä oleva kuvakaappaus näyttää esimerkin siitä, millaisia monimutkaisia hakukyselyjä voit syöttää DocFetcherissä, DocFetcher Pro:ssa ja DocFetcher Serverissä. Esimerkkikysely tarkoittaa: Etsi kaikki asiakirjat, jotka sisältävät (1) lauseen ”reproduction or redistribution” ja (2) sanat ”documentation” ja ”agreement” korkeintaan kolmen sanan päässä toisistaan.
Hakukyselyn syntaksia käyttää taustalla oleva hakukone Apache Lucene. Tässä on nopea katsaus sen pääominaisuuksiin:
- Boolen operaattorit: (koira OR kissa) AND hiiri NOT hevonen
- Lausehaku eli sanojen etsiminen tietyssä järjestyksessä: "koira kissa hiiri"
- Pakolliset termit: +koira +kissa
- Jokerimerkit: Paikkamerkit * ja ? vastaavat ’nollaa tai useampaa’ merkkiä ja ’tasan yhtä’ merkkiä. Esimerkit:
- luc? vastaa lucy, luca, …
- luc* vastaa luc, lucy, luck, lucene, …
- *ene* vastaa lucene, energy, generator, …
- Sumea haku eli samankaltaisten sanojen etsiminen. Esimerkiksi roam~-haku löytää asiakirjoja, jotka sisältävät sanoja kuten foam ja roams.
- Läheisyyshaku eli sanojen etsiminen, jotka eivät ole enempää kuin tietyn määrän sanoja toisistaan. Esimerkki: "documentation agreement"~3
Hakemistopohjainen haku
Hakemistopohjainen haku: DocFetcher, DocFetcher Pro ja DocFetcher Server etsivät sanoja tiedostojen nimistä ja sisällöstä sekä Outlook-sähköpostien kentäistä ja rungosta. Tehokkuuden vuoksi haku toimii kuitenkin niin sanotuilla hakemistoilla suoraan tiedostojen ja sähköpostien sijaan. Hakemisto on käytännössä sanakirja, josta ohjelma voi nopeasti etsiä mitä tahansa sanaa varten, mitkä tiedostot tai sähköpostit sisältävät kyseisen sanan.
Kompromissi: nopea haku ja hakemiston luominen: Hakemistopohjainen haku on mahtava idea, koska se on suuruusluokittain nopeampaa kuin haku ilman hakemistoja: DocFetcher, DocFetcher Pro ja DocFetcher Server löytävät tyypillisesti tuhansia vastaavia tiedostoja alle sekunnissa. Päähaittapuoli on, että hakemistot on luotava ensin — prosessi, joka tunnetaan hakemistoinnin nimellä — ja tämä voi kestää jonkin aikaa riippuen tiedostojen ja sähköpostien kokonaismäärästä ja niiden yksittäisistä kokoista.
Nopea hakemistointi ja ”hakemistoi vain mitä tarvitset” -filosofia: Hakemiston luomisen haittapuoli lievenny sillä, että hakemistointi DocFetcherissä, DocFetcher Pro:ssa ja DocFetcher Serverissä on melko nopeaa: 200 tiedostoa minuutissa on melko normaali hakemistointinopeus. Lisäksi kolme ohjelmaa noudattaa ”hakemistoi vain mitä tarvitset” -filosofiaa: Valmiiksi mitään tietokoneellasi ei ole hakemistoituna, ja on täysin sinusta kiinni päättää, mitä hakemistoidaan. Tämä on vastakohta muille hakuohjelmistoille, jotka valmiiksi tuhlaavat valtavasti aikaa ja tietokoneen tehoa hakemistoidakseen käytännössä kaiken, koska ne eivät luota sinuun päättämään itse. Puhumattakaan tämän ”hakemistoi kaikki” -lähestymistavan yksityisyysvaikutuksista…
Hakemiston luominen vs. hakemiston päivitys: Viimeisenä muttei vähäisinä, tietyn kansion hakemistointi on yleensä aikaavievää vain ensimmäisellä kerralla, jos sitäkään. Sen jälkeen aina kun suoritat niin sanotun hakemiston päivityksen, ohjelma on tarpeeksi älykäs hakemistoidakseen vain uudet ja muutetut tiedostot, ohittaen kaiken muun. Käytännössä yleensä vain suhteellisen pieni määrä tiedostoja on lisätty tai muutettu, joten hakemiston päivitys kestää yleensä vähän aikaa.
Hakemistojen luominen

Yllä oleva kuvakaappaus näyttää DocFetcher Pro:n hakemistointivalintaikkunan. Tämä on asetusvalintaikkuna, jonka näet luodessasi uutta hakemistoa. Huomionarvoisia ominaisuuksia:
- Mukautettavat pelkän tekstin ja zip-tiedostopäätteet: Tiedostopäätteet, joista ohjelma tunnistaa pelkän tekstin tiedostot ja zip-arkistot, voidaan mukauttaa. Pelkän tekstin tiedostopäätteiden mukauttaminen on hyödyllistä lähdekoodin kanssa työskennellessä.
- Sisällytys- ja poissulkemissäännöt: Voit määritellä sääntöjä tiettyjen tiedostojen sisällyttämiseksi tai poissulkemiseksi jokerimerkkien tai säännöllisten lausekkeiden perusteella. Tämä taulukko on myös DocFetcherissä, mutta jokerimerkit ja sisällytysmäärität ovat saatavilla vain DocFetcher Pro:ssa ja DocFetcher Serverissä. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Hakemistojen automaattinen päivitys: Jos ”Päivitä hakemisto automaattisesti”-ruutu on valittuna, ohjelma tarkkailee hakemistoitua kansiota tiedostomuutosten varalta ja päivittää hakemiston automaattisesti kun muutos havaitaan.
- Hakemistointijono: Useita hakemistointityötä voidaan asettaa jonoon, jokainen työ omalla välilehdellään.
- Hakemistointiasetusten tallentaminen ja lataaminen: Tämä ”purkki”-painike avaa valikon hakemistointiasetusten tallentamiseen ja lataamiseen. Tästä on hyötyä, jos tarvitset määritellä paljon sisällytys- ja poissulkemissääntöjä. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
Tuetut asiakirjamuodot
- AbiWord (abw, abw.gz, zabw)
- EPUB (epub)
- FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- FLAC metadata (flac)
- HTML (html, xhtml, …)
- JPEG Exif metadata (jpg, jpeg)
- MP3 metadata (mp3)
- Microsoft Compiled HTML Help (chm)
- Microsoft Office pre-2007 (doc, xls, ppt, …)
- Microsoft Office 2007 and newer (docx, xlsx, pptx, …)
- Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Microsoft Outlook PST (pst) *
- Microsoft Visio (vsd, vss, vst, vsw)
- Mobipocket (mobi) — support is currently experimental Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- OpenDocument (odt, ods, odg, odp, …)
- Portable Document Format (pdf)
- Plain Text (customizable extensions)
- Rich Text Format (rtf)
- Scalable Vector Graphics (svg)
Kaikille tiedostomuodoille, jotka eivät sisälly yllä olevaan luetteloon, vähintään tiedostonimi voidaan hakemistoida. Myös mikä tahansa tiedostomuoto, joka on tunnistettavissa tietystä tiedostopäätteestä, voidaan pakkohakemistoida pelkkänä tekstinä, koska pelkän tekstin tiedostopäätteet ovat mukautettavissa.
* PST- ja OST-tiedostotuen rajoitukset
Ei sähköpostin esikatselua: Teknisistä syistä DocFetcher, DocFetcher Pro tai DocFetcher Server eivät voi avata hakutuloksissa olevia sähköposteja Outlookissa. Sähköpostit voidaan näyttää vain ohjelman pelkkää tekstiä sisältävässä esikatseluikkunassa. Kyky avata sähköposteja Outlookissa saatetaan lisätä DocFetcher Pro:n tulevassa pääjulkaisussa (v2.0 tai myöhemmin). Sitä ei voida toteuttaa DocFetcher Serverissä, koska käyttäjän Outlook-instanssi ja sähköpostin sisältävä PST- tai OST-tiedosto voivat sijaita eri tietokoneilla.
Suosi PST:tä OST:n sijaan: Vaikka DocFetcher Pro ja DocFetcher Server voivat lukea OST-tiedostoja jossain määrin, huomaa että OST-tiedostot ovat oikeastaan vain välimuistitiedostoja, joihin Outlook tallentaa tilapäisesti osan verkkoilun tiedoista offline-käyttöä varten. Siksi jos hakemistoit OST-tiedostoja, huomaat että monet sähköpostit ja sähköpostin liitteet, joita odottaisit näkeväsi, eivät yksinkertaisesti ole siellä. PST-tiedostot ovat sitä, mitä Outlook käyttää sähköpostien täydelliseen, pitkäaikaiseen tallentamiseen, joten suosi aina PST-tiedostojen hakemistointia OST-tiedostojen hakemistoinnin sijaan kun mahdollista. Lisätietoja PST- ja OST-tiedostoista ja ohjeita PST-tiedostojen vientiin löydät tältä Microsoftin sivulta.
Suuret PST- ja OST-tiedostot: PST- tai OST-tiedoston hakemistoimiseksi sovelluksen on ladattava koko tiedosto RAM-muistiin. Siksi PST- tai OST-tiedostojen hakemistointi, jotka ovat suurempia kuin käytettävissä oleva RAM-muistin määrä (esim. 30 GB PST-tiedosto vs. 16 GB RAM), ei ole tuettua, ja yritykset tehdä niin kaatavat sovelluksen. Tämän ongelman ratkaisemiseksi voit joko sulkea suuren PST- tai OST-tiedoston pois hakemistoinnista tai päivittää RAM-muistiasi. RAM-päivityksen tapauksessa huomaa, että tarvittavan RAM-muistin kokonaismäärä on suurempi kuin PST- tai OST-tiedosto, koska käyttöjärjestelmä ja muut prosessit vievät osan siitä RAM-muistista.
Vastuuvapauslauseke parhaiden ponnistelujen hakemistoinnista
Kuten käytännössä kaikki hakuohjelmistot, DocFetcher, DocFetcher Pro ja DocFetcher Server tukevat yllä lueteltuja eri tiedostomuotoja parhaan ponnistelun periaatteella. Tämä tarkoittaa esimerkiksi, että jos yrität hakemistoida 10 000 tiedostoa, ohjelmisto saattaa onnistuneesti hakemistoida vain 9 500 tiedostoa (eli 95 %), epäonnistuen loput 500 tiedostoa. Tietysti todellinen onnistumisprosentti riippuu tietoaineistostasi.
Edelleen, vaikka tietty tiedosto hakemistoidaan onnistuneesti, ohjelmisto saattaa epäonnistua jonkin tekstin poiminnassa siitä, erityisesti vanhojen tiedostomuotojen kuten ”doc” tai ”xls” kanssa työskennellessä. Esimerkiksi se saattaa epäonnistua joidenkin solukommenttien tai metatietojen poiminnassa muinaisista Excel-tiedostoista.
Joka tapauksessa DocFetcher Pro ja DocFetcher Server tekevät todennäköisesti paremman työn tiedostojen hakemistoinnissa kuin vanhempi DocFetcher.
Jos näet erityisen korkean epäonnistumisprosentin hakemistoinnin aikana, ehdottomasti ilmoita ongelmasta ja liitä mukaan joitakin testitiedostoja. Ei kuitenkaan ole takuuta, että ongelma voidaan ratkaista.
Tuetut arkistomuodot
- 7z-arkistot (7z), 7z-muodon versioon v0.3 asti
- 7z-arkistot (7z), 7z-muodon versioon v0.4 asti (7-Zip 9.34:stä lähtien, 23.11.2014) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Rar-arkistot (rar) — RAR 5.0 -muotoa ei tueta
- Tar- ja Tar.*-arkistot:
- tar, tar.gz, tgz, tar.bz2, tb2, tbz
- tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
- Zip-arkistot (mukautettavat päätteet)
Muut huomionarvoiset ominaisuudet
Monialustainen: DocFetcher, DocFetcher Pro ja DocFetcher Server voidaan ajaa Windowsissa, Linuxissa ja macOS:ssä. Lisäksi DocFetcher Serveriiä voidaan käyttää mistä tahansa pöytätietokoneesta, johon on asennettu ajantasainen versio Chromesta, Firefoxista, Safarista tai Edgestä.
Siirrettävä versio: DocFetcher Pro:n Windows-, Linux- ja macOS-paketit tulevat kukin siirrettävässä ja ei-siirrettävässä versiossa. Siirrettävä versio on hyödyllinen siinä, että se mahdollistaa siirrettävän DocFetcher Pro:n, sen hakemistojen ja hakemistoitujen asiakirjojen niputtamisen yhteen käytettäväksi monin eri tavoin:
- Voit kuljettaa tätä nippua mukanasi USB-asemalla.
- Voit arkistoida sen jollekin varmuuskopiovälineelle.
- Voit laittaa sen salattuun levyosaan.
- Voit laittaa sen pilvialustaan ja synkronoida sitä tietokoneiden välillä.
Huomaa, että tällaisten siirrettävien nippujen jakaminen muille käyttäjille ei ole sallittua DocFetcher Pro:ssa, koska jokainen ostettu kopio on sidottu yhteen käyttäjään. (Jokaisen vastaanottavan käyttäjän pitäisi ostaa oma kopio.) Jakaminen on kuitenkin sallittua avoimen lähdekoodin DocFetcherissä.
Unicode-tuki: DocFetcher, DocFetcher Pro ja DocFetcher Server tulevat vankan Unicode-tuen kanssa kaikille päämuodoille, mukaan lukien Microsoft Office, OpenDocument, PDF, HTML, RTF ja pelkän tekstin tiedostot.
Verkkoasemien hakemistointi: DocFetcher, DocFetcher Pro ja DocFetcher Server voivat hakemistoida verkkoasemia sekä pilviasemia. Yleisemmin sanottuna, jos tietorakenne voidaan liittää johonkin, joka näyttää tiedostojärjestelmältä käyttöjärjestelmässä, kaikki kolme ohjelmaa kykenevät hakemistoimaan sen.
HTML-parien tunnistus: Hakemistoinnin aikana DocFetcher, DocFetcher Pro ja DocFetcher Server tunnistavat HTML-tiedostopareja (esim. tiedosto nimeltä kala.html ja kansio nimeltä kala_files), ja käsittelevät jokaista paria yhtenä asiakirjana. Tämä ominaisuus saattaa ensin vaikuttaa melko hyödyttömältä, mutta osoittautui että tämä parantaa dramaattisesti hakutulosten laatua HTML-tiedostojen kanssa työskennellessä, koska kaikki HTML-kansioiden sisällä oleva ”römsä” katoaa tuloksista.