A IBM está trabalhando com a Biblioteca Britânica em um projeto para preservar e analisar terabytes de informação na web antes que eles se percam para sempre. Pesquisas recentes mostram que a expectativa de vida média de uma página web é de 44 a 75 dias. A cada seis meses aproximadamente 10 por cento das paginas com domínio uk são perdidas.
Em muitos casos isto não é uma grande uma perda mas para organizações que tentam arquivar dados sobre eleições, noticias, mídia e vídeos, esta perda de dados representa um grande desafio.
O novo projeto de software analítico chamado IBM BigSheets ajuda a extrair, anotar e analisar visualmente vastos volumes de informações da web usando um browser. A Biblioteca Britânica está usando um protótipo do software para arquivar e preservar volumes massivos de paginas web para garantir que os dados não vão desaparecer ao longo do tempo.
A Biblioteca Britânica é a Biblioteca Nacional do Reino Unido, uma das maiores do mundo. Atualmente, o seu acervo possui aproximadamente 150 milhões de itens e a cada ano incorporam-se à coleção cerca de três milhões de itens novos.
Além dos documentos físicos a Biblioteca vem arquivando paginas web desde 2004. Segundo David Boloker, CTO de tecnologias emergentes na IBM, no futuro os usuários da biblioteca serão capazes de pesquisar, analisar e visualizar um vasto arquivo de paginas web utilizando o BigSheets.
O BigSheets é construído tendo como base alguns projetos open source bem conhecidos :
Hadoop : Implementação open source do famoso framework MapReduce do Google. É uma plataforma de computação distribuída voltada para clusters e processamento de grandes massas de dados.
Nutch : É um buscador web construído em cima do projeto Lucene. Ele adiciona funcionalidades especificas de buscadores web ao projeto Lucene original.
Pig : É uma plataforma para processamento de grandes quantidades de dados que possui uma linguagem de alto nível para analise de dados. Seu sistema é construído em cima do Hadoop e atualmente é utilizado por várias empresas para analise de logs de servidores web.
BigSheets funciona como uma Cloud privada em todos os computadores da Biblioteca Britânica rodando jobs MapReduce em paralelo. Mesmo sendo uma Cloud privada a biblioteca vai deixar os dados e serviços acessíveis para as pessoas utilizarem.
Não há escassez de dados hoje em dia para serem analisados e mais e mais agências governamentais e grandes corporações estarão em busca de soluções como esta.




Pingback: Yahoo!, O Grande Case do Hadoop Para Big Data | NOSQL BRASIL