Ferramentas de busca

Ferramentas de busca

quinta-feira, 29 de outubro de 2009

Página de rosto

índice

1. . . . . . . . . . . Introdução - pag.3

2. . . . . . . . . . . . . Google – pag.11

3. . . . . . . . . . . . . Spoke – pag. 13

4. . . . . . . . . . . . . Altavista - pag.13

5. . . . . . . . . . . . . Lycos – pag. 14

6. . . . . . . . . . . . . Cadê – pag. 15

Conceito


Um motor de busca, motor de pesquisa, máquina de busca, mecanismo de busca ou buscador é um sistema de software projetado para encontrar informações armazenadas em um sistema computacional a partir de palavras-chave indicadas pelo utilizador, reduzindo o tempo necessário para encontrar informações.

Os motores de busca surgiram logo após o aparecimento da Internet, com a intenção de prestar um serviço extremamente importante: a busca de qualquer informação na rede, apresentando os resultados de uma forma organizada, e também com a proposta de fazer isto de uma maneira rápida e eficiente. A partir deste preceito básico, diversas empresas se desenvolveram, chegando algumas a valer milhões de dólares. Entre as maiores empresas encontram-se o Google, o Yahoo, o Lycos e o Cadê . Os buscadores se mostraram imprescindíveis para o fluxo de acesso e a conquista novos visitantes.

Antes do advento da Web, haviam sistemas para outros protocolos ou usos, como o Archie para sites FTP anônimos e o Veronica para oGopher (protocolo de redes de computadores que foi desenhado para indexar repositórios de documentos na Internet, baseado-se em menus).

História


Os primeiros motores de busca (como o Yahoo) baseavam-se na indexação de páginas através da sua categorização. Posteriormente surgiram as meta-buscas. A mais recente geração de motores de busca (como a do Google) utiliza tecnologias diversas, como a procura por palavras-chave directamente nas páginas e o uso de referências externas espalhadas pela web, permitindo até a tradução directa de páginas (embora de forma básica ou errada) para a língua do utilizador. O Google, além de fazer a busca pela Internet, oferece também o recurso de se efetuar a busca somente dentro de um site específico. É essa a ferramenta usada na comunidade Wiki.

Os motores de busca são buscadores que baseiam sua coleta de páginas em um robô que varre a Internet à procura de páginas novas para introduzir em sua base de dados automaticamente. Motores de busca típicos são Google, Yahoo e Altavista.

A primeira ferramenta utilizada para busca na Internet foi o Archie (da palavra em Inglês, "archive" sem a letra "v"). Foi criado em 1990 por Alan Emtage, um estudante da McGill University em Montreal. O programa baixava as listas de diretório de todos arquivos localizados em sites públicos de FTP (File Transfer Protocol) anônimos, criando uma base de dados que permitia busca por nome de arquivos.

Enquanto o Archie indexava arquivos de computador, o Gopher indexava documentos de texto. Ele foi criado em 1991, por Mark McCahill daUniversity of Minnesota, cujo nome veio do mascote da escola. Devido ao fato de serem arquivos de texto, a maior parte dos sites Gopher tornaram-se websites após a criação da World Wide Web.

Dois outros programas, Veronica e Jughead, buscavam os arquivos armazenados nos sistemas de índice do Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) provia uma busca por palavras para a maioria dos títulos de menu em todas listas do Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) era uma ferramenta para obter informações de menu de vários servidores Gopher.

O primeiro search engine Web foi o Wandex, um índice atualmente extinto feito pela World Wide Web Wanderer, um web crawler (programa automatizado que acessa e percorre os sites seguindo os links presentes nas páginas.) desenvolvido por Matthew Gray no MIT, em 1993. Outro sistema antigo, Aliweb, também apareceu no mesmo ano e existe até hoje. O primeiro sistema "full text" baseado em crawler foi oWebCrawler, que saiu em 1994. Ao contrário de seus predecessores, ele permite aos usuários buscar por qualquer palavra em qualquer página, o que tornou-se padrão para todos serviços de busca desde então. Também foi o primeiro a ser conhecido pelo grande público. Ainda em 1994, o Lycos (que começou na Carnegie Mellon University) foi lançado e tornou-se um grande sucesso comercial.

Logo depois, muitos sistemas apareceram, incluindo Excite, Infoseek, Inktomi, Northern Light, e AltaVista. De certa forma, eles competiram com diretórios populares como o Yahoo!. Posteriormente, os diretórios integraram ou adicionaram a tecnologia de search engine para maior funcionalidade.

Os sistemas de busca também eram conhecidos como a "mina de ouro" no frenêsi de investimento na Internet que ocorreu no fim dos anos 1990s. Várias empresas entraram no mercado de forma espetacular, com recorde em ganhos durante seus primeiros anos de existência. Algumas fecharam seu sistema público, e estão oferecendo versões corporativas somente, como a Northern Light.

Tipos de buscador


§ Buscadores globais são buscadores que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites. As informações podem referir-se a qualquer tema. Google, Yahoo(Cadê?), MSN são os buscadores globais mais acessados.

§ Buscadores verticais são buscadores que realizam pesquisas "especializadas" em bases de dados próprias de acordo com suas propensões. Geralmente, a inclusão em um buscador vertical está relacionada ao pagamento de uma mensalidade ou de um valor por clique. BizRate, AchaNoticias, Oodle, Catho, SAPO, BuscaPé e Become.com são alguns exemplos de buscadores verticais.

§ Guias locais são buscadores exclusivamente locais ou regionais. As informações se referem a endereços de empresas ou prestadores de serviços. O resultado é priorizados pelo destaque de quem contrata o serviço. Listão, GuiaMais, AcheCerto, EuAcheiFácil entre outras. Geralmente são cadastros e publicações pagas. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços em uma região, Estado ou Cidade.

§ Guias de busca local ou buscador local são buscadores de abrangência nacional que lista as empresas e prestadores de serviçospróximas ao endereço do internauta a partir de um texto digitado. A proximidade é avaliada normalmente pelo cep, Donavera.com, ou por coordenadas de GPs. Os cadastros Básicos são gratuitos para que as micros empresas ou profissionais liberais possam estar presente na WEB sem que invistam em um sites próprio. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços em uma Localidade, rua, bairro, cidade ou Estado e possibilitando ainda a forma mais rápida de atualização dos registros de contatos por seus clientes ou fornecedores.

§ Diretórios de websites são índices de sites, usualmente organizados por categorias e sub-categorias. Tem como finalidade principal permitir ao usuário encontrar rápidamente sites que desejar, buscando por categorias, e não por palavras-chave. Os diretórios de sitesgeralmente possuem uma busca interna, para que usuários possam encontrar sites dentro de seu próprio índice. Diretórios podem ser a nivel regional, nacional ou global, e até mesmo especializados em determinado assunto. Open Directory Project é exemplo de diretórios de sites.

A divulgação de sites de empresas com negócios regionais são acessados em sua grande maioria quando os profissionais da WEB cadastram seus sites nos Buscadores Locais para aumentarem as visitas de internautas, pois não há um sistema de atualização automática dos dados que abranja todos os tipos de categorias e em rapidez necessária. Por esta razão, somente cerca de 20% a 25% de tudo que existe na WEB é publicada nos buscadores.

A novidade agora são os ontobuscadores, isto é, buscadores baseados em Ontologias, como o Ontoweb.

Funcionamento


Um search engine opera na seguinte ordem:

1. Web crawling (percorrer por links)

2. Indexação

3. Busca

Os sistemas de busca trabalham armazenando informações sobre um grande número de páginas, as quais eles obtém da própria WWW. Estas páginas são recuperadas por um Web crawler (também conhecido como spider) — um Web browser automatizado que segue cada link que vê. As exclusões podem ser feitas pelo uso do robots.txt. O conteúdo de cada página então é analisado para determinar como deverá ser indexado (por exemplo, as palavras são extraídas de títulos, cabeçalhos ou campos especiais chamados meta tags). Os dados sobre as páginas são armazenados em um banco de dados indexado para uso nas pesquisas futuras. Alguns sistemas, como o do Google, armazenam todo ou parte da página de origem (referido como um cache) assim como informações sobre as páginas, no qual alguns armazenam cada palavra de cada página encontrada, como o AltaVista. Esta página em cache sempre guarda o próprio texto de busca pois, como ele mesmo foi indexado, pode ser útil quando o conteúdo da página atual foi atualizado e os termos de pesquisa não mais estão contidos nela. Este problema pode ser considerado uma forma moderada de linkrot (perda de links em documentos da Internet, ou seja, quando os sites deixaram de existir ou mudaram de endereço), e a maneira como o Google lida com isso aumenta a usabilidade ao satisfazer as expectativas dos usuários pelo fato de o termo de busca estarão na página retornada. Isto satisfaz o princípio de “menos surpresa”, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. A relevância crescente das buscas torna muito útil estas páginas em cache, mesmo com o fato de que podem manter dados que não mais estão disponíveis em outro lugar.

Bing


Bing (anteriormente Live Search, Windows Live Search e MSN Busca), renomeado Kumo, é o novo motor de pesquisa da Microsoft, designado para competir com os líderes das indústriasGoogle e Yahoo!. Revelado pelo CEO da Microsoft, Steve Ballmer, em 28 de maio de 2009, na conferência "All Things D", em San Diego. Bing é um substituto do Live Search, e estará totalmente disponível em 3 de junho de 2009.[1]

Com apenas três dias em atividade, em 4 de junho, o Bing alcançou o segundo lugar na área de pesquisas online, superando o Yahoo! Busca. No dia, o motor de busca representou 16,2% das buscas nos Estados Unidos, enquanto o Yahoo! representou 10,2%. Globalmente, o Bing representa 5,6% contra 5,1% do Yahoo!.[2]

Os aperfeiçoamentos incluem adição de pesquisas relacionadas (chamado "Explorer panel", no lado esquerdo dos resultados da pesquisa, baseado na tecnologia semântica de PowerSet,

quinta-feira, 8 de outubro de 2009

Ferramentas de busca geoespaciais


Uma recente melhoria na tecnologia de busca é a adição de geocodificação e geoparsing para o processamento dos documentos ingeridos. O geoparsing tenta combinar qualquer referência encontrada a lugares para um quadro geoespacial de referência, como um endereço de rua, localizações de dicionário de termos geográficos, ou a uma área (como um limite poligonal para uma municipalidade). Através deste processo de geoparsing, as latitudes e longitudes são atribuídas aos lugares encontrados e são indexadas para uma busca espacial posterior. Isto pode melhorar muito o processo de busca pois permite ao usuário procurar documentos para uma dada extensão do mapa, ou ao contrário, indicar a localização de documentos combinando com uma dada palavra-chave para analisar incidência e agrupamento, ou qualquer combinação dos dois. Uma empresa que desenvolvou este tipo de tecnologia é a MetaCarta, que disponibiliza seu produto como um XML Web Service para permitir maior integração às aplicações existentes.

A MetaCarta também provê uma extensão para o programa GIS como a ArcGIS (ESRI) para permitir aos analistas fazerem buscas interativamente e obter documentos em um contexto avançado geoespacial e analítico.

Google


Google

O Google Search é um serviço da empresa Google onde é possível fazer pesquisas na internet sobre qualquer tipo de assunto ou conteúdo. É atualmente o serviço de busca mais usado e também o primeiro serviço lançado pela Google Inc.

A quantidade de informações na Internet é tão grande e diversificada que é praticamente impossível encontrar tudo o que se precisa sem o uso de um mecanismo de busca. Existem ferramentas de busca muito boas na Internet, como o Altavista, o AlltheWeb, o Yahoo e o MSN. No entanto, o Google destaca-se por algumas boas razões.

O Google atualiza sua base de informações diariamente. Existe o crawler Googlebot, um "robô" do Google que busca por informações novas em todos os endereços possíveis em toda a internet. Isso é realmente interessante porque cerca de aproximadamente 4 dias depois de uma matéria ser publicada em um site já é possível encontrá-la no Google. Outros mecanismos de busca também possuem crawlers, mas eles não são tão eficientes em termos de atualização e de classificação de informações.Outra razão para o sucesso do Google Search é o sistema PageRank. Trata-se de um algoritmo desenvolvido pelos próprios fundadores do Google - Larry Page e Sergey Brin - na Universidade de Stanford, que atribui uma pontuação (um PageRank) a páginas web, de acordo com a quantidade e a qualidade das ligações (externos ou internos) que apontem para ela; o PageRank é um dos factores de maior peso na definição do ordenamento das páginas apresentadas pela Google. Em outras palavras, quanto mais ligações existirem apontando para uma página, maior é seu grau de importância no Google. Como conseqüência, essa página tem maior probabilidade de obter um bom posicionamento nas buscas, pois o PageRank indica que a comunidade da Web (por meio de ligações) elegeu aquela página como de maior relevância o assunto pesquisado. Além disso, o Google analisa os assuntos mais pesquisados e verifica quais sites tratam aquele tema de maneira significativa. Para isso, ele checa a quantidade de vezes que o termo pesquisado aparece na página, por exemplo.

  • Google disponibiliza ainda um recurso extremamente útil: o de "Em cache". O Google armazena quase todas as páginas rastreadas pelo Googlebot e permite que esse conteúdo seja acessado mesmo quando o site original não está no ar. Por exemplo, suponha que você fez uma pesquisa e ao clicar em uma ligação que aparece na página de resultados você constatou que aquela página não existe mais. Se você clicar em "Em cache", uma ligação que fica junto a cada item disponibilizado na página de resultados, você acessará uma cópia daquela página que está armazenada no Google.
Outros dois factores importantes são a simplicidade e clareza. A combinação desses itens foi trabalhada desde a concepção do Google. Devido a isso, é possível acessar

Skope/Altavista


Skope

A ferramenta de busca o Skope vem com uma proposta diferente. Sua busca traz resultados visuais, como se fosse uma mesa com figuras ou fotos espalhadas. Esse negócio de figuras na mesa está na moda, né? Por enquanto, só é possível realizar buscas no Flickr, YouTube, Amazon,Fotolia ,Yahoo e E-bay. É legal, principalmente para o YouTube e Flickr, dá até para ficar um bom tempo fuçando. Ops, estava esquecendo, tem uns efeitos “flash” bacanas durante o uso da ferramenta.

Altavista

A Altavista pertence a uma empresa chamada "Overture Services, Inc." e tem como objectivo a prestação de serviços de pesquisa. Apesar de ser uma empresa de topo na prestação de serviços de pesquisa, não se limita a manter este posto, e está continuamente a desenvolver e a melhorar os seus serviços, para facilitar a vida aos milhares de utilizadores que usufruem dos seus serviços, como se pode ver pelas 61 patentes relacionadas com serviços de pesquisa

Lycos


O Lycos é um portal da Internet e está entre os websites mais antigos. Sua fundação ocorreu em Junho de 1995.

[editar]Histórico

§ Em Maio de 1997, é criada a Lycos Europe

§ Em Novembro de 1997, a Lycos obtém seu primeiro trimestre com lucros satisfatórios

§ Em Abril de 1998, é criada a Lycos Japan, juntamante com a empresa Sumitomo Corporation, e a Internet Initiative Japan.

§ Em Março de 1999, é formada a Lycos Korea, em parceria com a Mirae Corporation.

§ Em Maio do mesmo ano o portal Lycos se une a Nasdaq.

§ Em Agosto de 1999, a Lycos adquire a Sonique Music Player.

§ Em Agosto de 2000, o portal Lycos anuncia seu primeiro ano com lucros significativos, e adquire a Matchmaker.com.

§ Em Outubro de 2000, a Lycos se junta ao portal Terra Networks, para fundar o portal Terra Lycos'.

Fusão

Após a fusão, os dois portais tornam-se provedores de acesso à internet, com conteúdos interativos e entretenimento para todas as pessoas que navegam na Web.Tendo como sua missão principal, ser o destino online líder no segmento em todo o mundo, unindo tecnologias de última geração, com uma ampla diversificação de seus serviços.

O Brasil tornou-se destaque ao significar 73% do aumento do número de clientes do Terra Lycos

Cadê

O Cadê? (atualmente, Yahoo! Cadê?) foi a primeira empresa brasileira no ramo debuscadores, fundada em meados de setembro de 1995 por Gustavo Viberti e Fabio Oliveira. Trata-se hoje de um sítio de buscas eletrônicas

serviço de e-mail próprio (@cade.com.br). pertencente ao Yahoo! Brasil. Além de páginas na web, a busca também localiza imagens, vídeos, notícias e produtos em um shopping virtual. O Cadê também contou com um
História

O Cadê? começou como Gustavo Viberti que, inspirado pelo norte americano Yahoo!, catalogava páginas da internet e disponibilizava os endereços na sua pagina pessoal. Mas foi Fabio de Oliveira quem acreditou que a empresa poderia ter sucesso, passando a se dedicar integralmente a divulgação da página e a busca de anunciantes para seu negocio. O maior problema da empresa no seu início, segundo os próprios fundadores, era a demora para catalogar as novas páginas, já que a rede crescia extremamente rápido e todas as novas páginas catalogadas passavam por verificação humana, diferente de outras maquinas de busca, como por exemplo o Altavista, que incluiam as novas páginas automaticamente.

Outra dificuldade encontrada no início da empresa "Cadê?" pelos seus fundadores era mostrar as agências de publicidade, possíveis clientes do "Cadê?", que a internet era um nova mídia que deveria ser explorada pela publicidade, já que na época não havia nenhum tipo de publicidade on-line.

Com isso o Cadê? foi comprado por várias empresas, mas hoje atualmente é do Yahoo!, tornando-se Yahoo! Cadê?