O Hadoop foi criado por Doug Cutting. Ele também é o criador do projeto Apache Lucene, uma biblioteca de busca em texto amplamente usada. O Hadoop se originou no projeto Apache Nutch, um buscador open source que também faz parte do projeto Lucene.
![]()
A tarefa de construir um buscador, que funcione na escala da web, do zero é extremamente complexa. Um sistema que faz crawling e indexa bilhões de páginas não só é difícil de se escrever como é complexo de se operar e manter. Fazer um buscador nesta escala funcionar é uma tarefa que muitas vezes exige um time inteiro de operações para manter todas as partes do sistema em movimento. Os custos com máquinas e infraestrutura são em geral altos dado o volume de armazenamento e processamento exigido. Mesmo com todas estas dificuldades a vista Mike Cafarella e Doug Cutting resolveram criar o projeto Nutch para abrir a toda a comunidade de desenvolvedores os algoritmos de buscadores web.
![]()
O Nutch começou em 2002 e rapidamente um protótipo funcional apareceu. Esta versão inicial tinha muitos problemas de escala, ela não aguentaria os bilhões de páginas que uma aplicação de buscas para web precisa manipular. A solução para este problema veio de um artigo publicado pelo Google descrevendo sua arquitetura de arquivos distribuídos chamada de GFS ( Google File System ). Esta arquitetura já estava em produção no Google e minimizava o tempo gasto gerenciando os servidores necessários para manter os grandes arquivos gerados pela indexação das páginas. O artigo publicado em 2003 pelo Google abriu caminho para que a equipe do Nutch criasse uma implementação open source do GFS. Ela foi lançada em 2004 e chamada de Nutch Distributed Filesystem (NDFS).
Em 2004 o Google publica o clássico artigo descrevendo seu framework MapReduce ( descreveremos com maiores detalhes este framework em posts futuros ) . Em 2005 a equipe do Nutch já tinha uma implementação open source do MapReduce funcionando em conjunto com o NDFS.
As aplicações possíveis destas implementações poderiam ir além dos buscadores. Em 2006 estes projetos foram fundidos em um novo sub projeto do Lucene chamado Hadoop ( Este era o nome do elefante amarelo de pelúcia do filho de Doug ) . Nesta mesma epoca Doug Cutting entrou para o Yahoo! que forneceu recursos e um time para tornar o Hadoop um sistema completo para trabalhar na escala da web. Isto foi demonstrado em 2008 quando o Yahoo! anunciou que o seu index de páginas web era gerado agora por um cluster de 10000 máquinas rodando Hadoop.
O Hadoop se tornou um projeto independente dentro da Apache em 2008 e tem crescido desde então. Hoje empresas como Facebook, Last.fm, Twitter e até mesmo IBM e Microsoft passaram a utilizar o Hadoop.


Pingback: Introdução ao Hadoop parte III : Guia de projetos | Escalabilidade
Pingback: Um pouco sobre o Hadoop « Respires bem e vivas feliz!!!