Bancos de Dados - Como funciona o Google?
Acho que todo desenvolvedor de sistemas já se perguntou como o Google trabalha com essa quantidade imensa de dados, que tipo de sistema eles usam e que tecnologias alienígenas funcionam por trás do Google File System.
O Google usa um sistema de bancos de dados um pouco diferente do convencional. Enquanto nós programadores na terra usamos bancos orientados por linhas, o Google File System usa bancos orientados por colunas¹.
Vou utilizar um exemplo de dados para mostrar depois como cada tipo de banco de dados trabalha com os mesmos:
| id | nome | endereço | telefone |
|---|---|---|---|
| 1 | José | Av. Paulista, 1020 | 3333-4444 |
| 2 | João | Av. Brigadeiro Faria Lima | 3333-5555 |
Um sistema de bancos de dados orientado por linhas gravaria no arquivo os dados nessa ordem:
[1],[José],[Av. Paulista, 1020],[3333-4444];[2],[João],[Av. Brigadeiro Faria Lima],[3333-5555]
Enquanto um sistema orientado por colunas armazenaria os dados na seguinte ordem:
[1],[2];[José],[João];[Av. Paulista, 1020],[Av. Brigadeiro Faria Lima];[3333-4444],[3333-5555]
Isso significa que os sistemas orientados por colunas como o Google, armazenam as colunas umas próximas as outras ao invés de armazenar a linha inteira. Como o Google possui bancos com muitas colunas, o arquivo ficaria fragmentado demais se fosse como no exemplo 1, orientado por linhas.
No exemplo 1 fica fácil recuperar os dados de um cliente em específico, retornar todos os dados sobre apenas uma linha.
No exemplo 2 a abordagem é diferente, fica fácil retornar informações como todos os telefones de clientes ou todos os nomes de clietes.
Com isso o Google pode recuperar informações e metainformações sobre vários sites em uma única consulta mais rapidamente, ao invés de recuperar toda informação sobre somente um único site.
É claro que por cima desse fabuloso sistema de bancos de dados, existem vários algoritmos trabalhando para manter o grande Google funcionando, mas já dá pra ter uma idéia e matar um pouco da curiosidade sobre o gigante das buscas. Nesse exemplo eu usei dados crus, mas na realidade o Google usa pedaços de 64MB de dados pra compor os “blocos” do banco de dados.
Mais em:


14/4/2007 às 2:08 am
Legal, sempre quis mesmo saber como funciona, não ficou muito claro mas da pra ter uma idéia…
parabéns
14/4/2007 às 6:02 am
Creio que o dia em que o verdadeiro mecanismo inteiro de busca do Google se tornar disponível ao público, é pq a Google sabe que falta uma semana pro mundo acabar.

Parece até que é mais complicado esse meio de guardar dados…mas, se a Google diz que funciona então quem somos nós pra discordar né?
3/6/2008 às 11:22 am
Tenho uma dúvida. Fiz Um site http://www.megamoveisjoinville.com.br. Ele começa em uma página htm e tem um link que direciona para um site todo feito em flash. Mas esse site esta no ar à mais ou menos um ano e a google não encontra. A pergunta é. Tenho que me cadastrar em algum lugar no proprio google para que ele me encontre?.
Obrigado.
19/9/2008 às 4:44 pm
sim, tem que se cadastrar.