A Pesquisa Google por dentro
A chave para a velocidade e fiabilidade da pesquisa google é cortar os dados em bocados, diz o seu chefe de engenharia.
Todas as maquinas correm uma versão stripped-down do kernel Linux. A distribuição é RedHad, mas Urs Hoelzle - vice-presidente de operações e vice-presidente de engenharia - diz que o Google não utiliza muito da distribuição. Mais do que isso, o Google criou os próprios patches para coisas que ainda não foram corriginas no kernel original.
O Google replica as páginas Web que tem em cache dividindo-as em grupos a que chama "shards." Estes shards são suficientemente pequenos para que caibam vários deles em cada maquina. E são replicados em várias maquinas, para que se uma quebre, outra possa continuar a servir a informação. O Indice principal também é dividido por vários servidores, e esse conjunto também é replicado várias vezes. Os engenheiros chamam a isto "chunk servers."
Quando uma pesquisa entra no sistema, é recebida por um servidor Web, e então é dividida em chunks of service (bocados de trabalho?). Um conjunto de servidores de indice contém o indice. Um conjunto de maquinas contém o indice completo. Para responder realmente a um pedido o google tem que utilizar um conjunto de servidores completo. Esse conjunto não só é replicado contra falhas, também aumenta a velocidade de resposta, porque se um conjunto está ocupado, uma nova pesquisa é entregue ao próximo conjunto, o que diminui o tempo de pesquisa por maquina.
Em paralelo, clusters de servidores de documentos contém cópias das páginas Web que o Google tem em cache. Hoelzle diz que a taxa de actualização é de um a sete dias, com uma média de dois dias. Isso depende principalmente das necessidades dos editores Web.
"Quando temos os seus 10 resultados iniciais, eles são enviados para os servidores de documentos, que lêm as 10 páginas resultantes para memória," diz Hoelzle. "Então procuras nas páginas e encontras o melhor pedaço que contanha todas as palavras pesquisadas."
O texto citado é um extrado do artigo Peeking Into Google, do site Internet News, escrito durante a EclipseCon 2005, uma conferncia opensource.
Encontrado no site Google System.



Feed RSS 2.0