Header Image

Esta página é uma visão geral de todos os principais recursos do DocFetcher Pro e DocFetcher Server, destinada àqueles que não estão familiarizados com o DocFetcher. Se você já está familiarizado, pode achar a página de Comparação e suas subpáginas mais úteis.

Todas as capturas de tela abaixo mostram a interface do usuário do DocFetcher Pro. A interface web do DocFetcher Server tem aparência similar e está aninhada dentro de uma janela do navegador.

A Interface do Usuário

Janela principal

Como mostrado na captura de tela acima, a janela principal do DocFetcher Pro consiste das seguintes partes:

  1. Campo de pesquisa: Digite aqui as palavras a serem pesquisadas.
  2. Painel de resultados: Os resultados da pesquisa são exibidos aqui. Estes são os arquivos, pastas ou emails do Outlook que contêm as palavras que você digitou no campo de pesquisa.
  3. Painel de visualização: Mostra uma prévia somente texto do arquivo ou email do Outlook atualmente selecionado no painel de resultados. Correspondências no texto são destacadas.
  4. Filtro Tamanho de arquivo mínimo/máximo: Os resultados da pesquisa podem ser filtrados por tamanho de arquivo mínimo e/ou máximo aqui. Free Available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  5. Painel Tipos de recipientes: Define aqui se pastas e arquivos compactados devem ser incluídos nos resultados da pesquisa. No DocFetcher, pastas e arquivos compactados não são incluídos nos resultados da pesquisa, apenas arquivos e emails do Outlook. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  6. Painel Tipos de documentos: Os resultados da pesquisa podem ser filtrados por tipo de arquivo aqui.
  7. Painel Tipos personalizados: Uma alternativa ao painel Tipos de documentos. Aqui você pode definir seus próprios tipos de arquivo para filtrar os resultados da pesquisa. As definições são baseadas na correspondência de padrões curinga ou expressões regulares contra nomes de arquivos. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server
  8. Painel Âmbito de pesquisa: Este painel tem dois propósitos: Filtrar os resultados da pesquisa por localização e gerenciar seus “índices”, que são explicados abaixo. Índices podem ser adicionados, atualizados e removidos. Cada índice corresponde a alguma localização pesquisável em seu computador.
  9. Vários controles: Os três controles à direita do botão Pesquisar são: o número de resultados de pesquisa atualmente visíveis, um botão para abrir o manual do usuário e um botão para abrir as preferências do programa.

Sintaxe de Consulta Poderosa

Sintaxe de consulta

A captura de tela acima mostra um exemplo dos tipos de consultas de pesquisa complexas que você pode inserir no DocFetcher, DocFetcher Pro e DocFetcher Server. A consulta de exemplo significa: Encontre todos os documentos contendo (1) a frase “reproduction or redistribution” e (2) as palavras “documentation” e “agreement” com no máximo três palavras de distância.

A sintaxe de consulta é alimentada pelo mecanismo de pesquisa subjacente Apache Lucene. Aqui está um resumo rápido de seus principais recursos:

  • Operadores booleanos: (cão OR gato) AND rato NOT cavalo
  • Pesquisa de frase, ou seja, encontrar palavras em uma ordem específica: "cão gato rato"
  • Termos obrigatórios: +cão +gato
  • Caracteres curinga: Caracteres de substituição * e ? para corresponder a ‘zero ou mais’ caracteres e ‘exatamente um’ caractere, respectivamente. Exemplos:
    • luc? corresponde a lucy, luca, …
    • luc* corresponde a luc, lucy, luck, lucene, …
    • *ene* corresponde a lucene, energia, gerador, …
  • Pesquisa difusa, ou seja, encontrar palavras que são similares a uma palavra dada. Por exemplo, pesquisar por espuma~ encontrará documentos contendo palavras como foam e roams.
  • Pesquisa de proximidade, ou seja, encontrar palavras que não estão a mais de um certo número de palavras de distância. Exemplo: "documentation agreement"~3

Pesquisa Baseada em Índice

Pesquisa baseada em índice: DocFetcher, DocFetcher Pro e DocFetcher Server pesquisam por palavras no nome do arquivo e conteúdo dos arquivos, bem como nos campos e corpo de emails do Outlook. No entanto, por uma questão de eficiência, a pesquisa é executada em chamados índices, em vez de diretamente nos arquivos e emails. Um índice é essencialmente um dicionário onde o programa pode rapidamente consultar para qualquer palavra dada quais arquivos ou emails contêm essa palavra.

Compromisso: pesquisa rápida e criação de índice: A pesquisa baseada em índice é uma ótima ideia porque é ordens de magnitude mais rápida do que pesquisar sem índices: DocFetcher, DocFetcher Pro e DocFetcher Server podem tipicamente encontrar milhares de arquivos correspondentes em menos de um segundo. A principal desvantagem é que os índices precisam ser criados primeiro — um processo conhecido como indexação — e isso pode levar algum tempo dependendo do número total de arquivos e emails, e seus tamanhos individuais.

Indexação rápida e filosofia “indexe apenas o que precisar”: A desvantagem de ter que criar um índice é amenizada pelo fato de que a indexação no DocFetcher, DocFetcher Pro e DocFetcher Server é bastante rápida: 200 arquivos por minuto é uma velocidade de indexação bastante normal. Além disso, os três programas seguem uma filosofia “indexe apenas o que precisar”: Fora da caixa, nada em seu computador é indexado, e cabe inteiramente a você decidir o que é indexado. Isso contrasta com outras peças de software de pesquisa que fora da caixa desperdiçam uma tonelada de tempo e poder computacional para indexar basicamente tudo, já que não confiam em você para decidir por conta própria. Sem mencionar as implicações de privacidade dessa abordagem “indexar tudo”…

Criação de índice vs. atualização de índice: Por último, mas não menos importante, indexar uma pasta específica geralmente é demorado apenas na primeira vez, se for o caso. Depois disso, sempre que você executar uma chamada atualização de índice, o programa será inteligente o suficiente para indexar apenas arquivos novos e modificados, pulando todo o resto. Na prática, geralmente apenas um número relativamente pequeno de arquivos terá sido adicionado ou modificado, então uma atualização de índice geralmente leva pouco tempo.

Criando Índices

Diálogo de indexação

A captura de tela acima mostra o diálogo de indexação do DocFetcher Pro. Este é o diálogo de configuração que você vê ao criar um novo índice. Recursos notáveis:

  1. Extensões de texto simples e zip personalizáveis: As extensões de arquivo pelas quais o programa reconhece arquivos de texto simples e arquivos zip podem ser personalizadas. Personalizar extensões de arquivo de texto simples é útil ao lidar com código-fonte.
  2. Regras de inclusão e exclusão: Você pode definir regras para incluir ou excluir certos arquivos baseado em correspondência de padrões curinga ou expressões regulares. Esta tabela também existe no DocFetcher, mas padrões curinga e a regra de inclusão estão disponíveis apenas no DocFetcher Pro e DocFetcher Server. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  3. Atualização automática de índices: Se a caixa “Atualizar índice automaticamente” estiver marcada, o programa observará a pasta indexada para mudanças de arquivos e atualizará o índice automaticamente quando uma mudança for detectada.
  4. Fila de indexação: Múltiplos trabalhos de indexação podem ser enfileirados, com cada trabalho em uma aba separada.
  5. Salvando e carregando configurações de indexação: Este botão “pote” abre um menu para salvar e carregar configurações de indexação. Isso é útil se você precisar definir muitas regras de inclusão e exclusão. Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Not available in DocFetcher Server

Formatos de Documento Suportados

  • AbiWord (abw, abw.gz, zabw)
  • EPUB (epub)
  • FictionBook (fb2, fbz, fb2.zip) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Metadados FLAC (flac)
  • HTML (html, xhtml, …)
  • Metadados JPEG Exif (jpg, jpeg)
  • Metadados MP3 (mp3)
  • Microsoft Compiled HTML Help (chm)
  • Microsoft Office pré-2007 (doc, xls, ppt, …)
  • Microsoft Office 2007 e mais recente (docx, xlsx, pptx, …)
  • Microsoft Outlook OST (ost) * Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Microsoft Outlook PST (pst) *
  • Microsoft Visio (vsd, vss, vst, vsw)
  • Mobipocket (mobi) — suporte atualmente experimental Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • OpenDocument (odt, ods, odg, odp, …)
  • Portable Document Format (pdf)
  • Texto Simples (extensões personalizáveis)
  • Rich Text Format (rtf)
  • Scalable Vector Graphics (svg)

Para qualquer formato de arquivo não incluído na lista acima, pelo menos o nome do arquivo pode ser indexado. Além disso, qualquer formato de arquivo identificável por uma extensão de arquivo específica pode ser forçadamente indexado como texto simples, já que as extensões de arquivo de texto simples são personalizáveis.

* Limitações do suporte a arquivos PST e OST

Sem visualização de email: Por razões técnicas, nem o DocFetcher nem o DocFetcher Pro nem o DocFetcher Server podem abrir emails nos resultados de pesquisa com o Outlook. Os emails só podem ser mostrados no painel de visualização somente texto do programa. A capacidade de abrir emails no Outlook pode ser adicionada em uma futura versão principal do DocFetcher Pro (v2.0 ou posterior). Não pode ser implementado no DocFetcher Server já que a instância do Outlook do usuário e o arquivo PST ou OST contendo o email residem em computadores potencialmente diferentes.

Prefira PST a OST: Embora o DocFetcher Pro e DocFetcher Server possam ler arquivos OST até certo ponto, seja avisado que arquivos OST são na verdade apenas arquivos de cache onde o Outlook temporariamente armazena alguma parte dos dados de uma conta online para uso offline. Assim, se você indexar arquivos OST, descobrirá que muitos emails e anexos de email que você esperaria ver simplesmente não estão lá. Arquivos PST são o que o Outlook usa para armazenamento completo e de longo prazo de emails, então sempre prefira indexar arquivos PST a indexar arquivos OST quando possível. Para mais informações sobre arquivos PST e OST, e instruções sobre como exportar para arquivos PST, veja esta página da Microsoft.

Arquivos PST e OST grandes: Para indexar um arquivo PST ou OST, a aplicação tem que carregar o arquivo inteiro na RAM. Assim, indexar arquivos PST ou OST que são maiores que a quantidade disponível de RAM (por exemplo, arquivo PST de 30 GB vs. 16 GB de RAM) não é suportado, e tentativas de fazer isso farão a aplicação falhar. Para lidar com este problema, você pode excluir o arquivo PST ou OST grande da indexação, ou atualizar sua RAM. Em caso de atualização de RAM, note que a quantidade total de RAM necessária é maior que o arquivo PST ou OST, devido ao fato de que o sistema operacional e outros processos ocupam parte dessa RAM.

Aviso sobre indexação de melhor esforço

Como virtualmente todos os softwares de pesquisa, DocFetcher, DocFetcher Pro e DocFetcher Server suportam os vários formatos de arquivo listados acima em uma base de melhor esforço. Isso significa, por exemplo, que se você tentar indexar 10.000 arquivos, então o software pode indexar com sucesso apenas 9.500 arquivos (ou seja, 95%), enquanto falha nos 500 arquivos restantes. Claro que a taxa de sucesso real depende do seu conjunto de dados.

Além disso, mesmo se um arquivo específico for indexado com sucesso, o software pode falhar em extrair algum texto nele, especialmente ao lidar com formatos de arquivo antigos como “doc” ou “xls”. Por exemplo, pode falhar em extrair alguns comentários de células ou metadados de arquivos Excel antigos.

Em qualquer caso, DocFetcher Pro e DocFetcher Server provavelmente farão um trabalho melhor de indexação de arquivos do que o DocFetcher mais antigo.

Se você vir uma taxa de falha particularmente alta durante a indexação, por favor relate o problema, com alguns arquivos de teste anexados. No entanto, não há garantia de que o problema possa ser resolvido.

Formatos de Arquivo Compactado Suportados

  • Arquivos 7z (7z), até a versão v0.3 do formato 7z
  • Arquivos 7z (7z), até a versão v0.4 do formato 7z (desde 7-Zip 9.34, de 23-11-2014) Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Arquivos Rar (rar) — formato RAR 5.0 não suportado
  • Arquivos Tar e Tar.*:
    • tar, tar.gz, tgz, tar.bz2, tb2, tbz
    • tbz2, tar.lzma, tlz, tar.xz, txz, tar.z, tz Free Not available in the free DocFetcher Pro Available in DocFetcher Pro Server Available in DocFetcher Server
  • Arquivos Zip (extensões personalizáveis)

Outros Recursos Notáveis

Multiplataforma: DocFetcher, DocFetcher Pro e DocFetcher Server podem ser executados no Windows, Linux e macOS. Além disso, DocFetcher Server pode ser acessado de qualquer computador desktop com uma versão atualizada do Chrome, Firefox, Safari ou Edge instalada.

Versão portátil: Os pacotes do DocFetcher Pro para Windows, Linux e macOS vêm cada um em uma versão portátil e não-portátil. A versão portátil é útil pois permite que você agrupe o DocFetcher Pro portátil, seus índices e os documentos indexados, para serem usados de várias maneiras:

  • Você pode levar este pacote em uma unidade USB.
  • Você pode arquivá-lo em alguma mídia de backup.
  • Você pode colocá-lo em um volume criptografado.
  • Você pode colocá-lo em uma unidade de nuvem e sincronizá-lo entre computadores.

Note que redistribuir tais pacotes portáteis para outros usuários não é permitido com o DocFetcher Pro, já que cada cópia comprada está vinculada a um único usuário. (Cada usuário receptor teria que comprar sua própria cópia.) A redistribuição é permitida com o DocFetcher de código aberto, no entanto.

Suporte Unicode: DocFetcher, DocFetcher Pro e DocFetcher Server vêm com suporte Unicode sólido como rocha para todos os principais formatos, incluindo Microsoft Office, OpenDocument, PDF, HTML, RTF e arquivos de texto simples.

Indexação de unidades de rede: DocFetcher, DocFetcher Pro e DocFetcher Server podem indexar unidades de rede bem como unidades de nuvem. De forma mais geral, se uma estrutura de dados pode ser montada como algo que se parece com um sistema de arquivos no SO, então todos os três programas são capazes de indexá-la.

Níveis ilimitados de aninhamento de arquivos compactados: DocFetcher, DocFetcher Pro e DocFetcher Server suportam níveis ilimitados de aninhamento de arquivos compactados. Em outras palavras, eles podem ler arquivos compactados dentro de arquivos compactados dentro de arquivos compactados… Exemplo:
C:\pacote1.7z\pacote2.rar\pacote3.zip

Detecção de pares HTML: Durante a indexação, DocFetcher, DocFetcher Pro e DocFetcher Server detectam pares de arquivos HTML (por exemplo, um arquivo chamado documento.html e uma pasta chamada documento_files), e tratam cada par como um único documento. Este recurso pode parecer bastante inútil no início, mas acabou se revelando que isso aumenta drasticamente a qualidade dos resultados de pesquisa quando você está lidando com arquivos HTML, já que toda a “bagunça” dentro das pastas HTML desaparece dos resultados.