Palestras sobre NoSQL no The Developer Conference

Sex, Ago 20, 2010

View Comments

If you're new here, you may want to subscribe to my RSS feed. Thanks for visiting!

Na 4a edição do The Developer’s Conference, que acontece em São Paulo nos dias 20, 21 e 22 de Agosto de 2010 teremos pela primeira vez uma trilha exclusiva para NoSQL. Cada trilha é praticamente um evento independente, e está sendo organizado por um parceiro especialista com o apoio da Globalcode.

A trilha noSQL será uma grande oportunidade para falar, conhecer e discutir sobre as diferentes abordagens NoSQL. Haverá diversas palestras com exemplos práticos, demonstrações e cases.

O organizador da trilha é o Alexandre Porcelli que já realizou este ano o primeiro Encontro noSQL Brasil. Porcelli tem trabalhado junto a comunidade de desenvolvedores no Brasil para evangelizar os conceitos e tecnologias noSQL.

Eu estarei no evento realizando uma palestra sobre Big Data, quem quiser bater um papo e trocar algumas experiências eu estarei por lá.

PROGRAMAÇÃO

08:30 às 09:00 Credenciamento e recepção dos participantes com café da manhã
09:00 às 09:50 Abertura
10:00 às 10:50 noSQL: Perdas & Ganhos por Mauricio De Diana
11:00 às 11:50 NoSQL dev_ops #fail? por John D. Rowell
12:00 às 12:50 RestMQ – Message Queue com NoSQL por Gleicon Moraes
12:50 às 14:20 Intervalo para almoço livre
14:20 às 15:10 Graph Databases por Alexandre Porcelli
15:20 às 16:10 A era do Big Data:Explorando oportunidades na era da abundância de dados por Edmar ferreira
16:10 às 16:40 Coffee-break & networking
16:40 às 17:30 Case: Youtube Audio Finder usando Cassandra por Vladimir Moreira Rocha
Case: Topical – Geolocalização com MongoDB e Rails por Maurício Maia
Case: Redis na boo-box por Felipe Vieira
17:40 às 18:30 Case: Persistência Polyglotav por Luiz Fernando Teston
Case: noSQL na BIREME/OPAS/OMS: 20 anos de experiência por Luciano Ramalho
Case: Adotando noSQL no ambiente corporativo do SPC por Júlio Orestes Viegas
18:30 às 19:00 Encerramento e sorteios

Continuar Lendo...

Migrando Para a Amazon? Saiba Como Calcular seus Custos!

Qui, Ago 12, 2010

View Comments

Screen shot 2010 08 10 at 9.57.10 PM Migrando Para a Amazon? Saiba Como Calcular seus Custos!Já faz algum tempo que membros do time do @Escalabilidade utilizam a Amazon Web Services (e também da Rackspace, Slicehost entre outros…). E uma dúvida que percebemos que as pessoas sempre buscam sanar é entender como transformar os preços on demand dos serviços da AWS em custos estimáveis, mensais e em reais(R$). Cansados de procurar, criamos uma planilha onde juntamos gastos de EC2, S3, EBS, Data Transfer  e os demais serviços da Amazon, que serve para que qualquer pessoa, com os dados das suas necessidades específicas de infra estrutura consiga simular seus custos de maneira simples.
O resultado você confere no link abaixo e também pode fazer o download aqui.

Para simular, basta preencher os campos em amarelo (número e tipo de instâncias, espaço utilizado em S3 e EBS, volume de data transfer e cotação do dólar).
Vale lembrar que o propósito da planilha não é ser a solução definitiva, então caso queiram propor melhorias, fiquem a vontade para editá-la, atualizá-la e lembrem-se de compartilhar os resultados conosco, em um modelo “open source”. Caso tenham alguma sugestão ou sintam falta de algo, vocês também podem deixar nos comentários as suas sugestões e em breve atualizamos o template.
Esperamos que seja útil!

Continuar Lendo...

Introdução ao Hadoop parte III : Guia de projetos

Qua, Jun 30, 2010

View Comments

O Hadoop cresceu de um pequeno subprojeto para um grande framework para computação distribuída em poucos anos. No nosso post anterior contamos um pouco da história do Hadoop e agora vamos entender como o projeto é organizado hoje em dia.

O projeto Hadoop é hoje um projeto independente dentro da hierarquia de projetos da fundação Apache. Durante muito tempo ele foi um subprojeto do Lucene mas seu crescimento acelerado e sua grande versatilidade justificaram a sua elevação a TPL (Top Level Project) da Apache.

Os componentes mais conhecidos do Hadoop são seu sistemas de arquivos distribuídos (HDFS) e o MapReduce. Adicionando valor a esta infraestrutura básica muitos outros projetos surgiram. Estes projetos facilitam a utilização do Hadoop assim como adicionam abstrações de alto nível para facilitarem a criação de sistemas mais complexos. Os subprojetos atuais são:

MapReduce
O Hadoop MapReduce é um modelo de programação e framework para criação de aplicações que rapidamente processam vastas quantidades de dados em paralelo através de grandes clusters de computadores comuns.

HDFS
Hadoop Distributed File System (HDFS) é o sistema básico de armazenamento utilizado por aplicações Hadoop. O HDFS cria réplicas de blocos de dados e que são distribuídos no cluster para permitir computações extremamente rápidas.

Hive
Hive é uma infraestrutura de data warehouse construído em cima do Hadoop que provê ferramentas que facilitam a criação de relatórios e a análise de quantidades gigantescas de dados armazenados em arquivos Hadoop.

Pig
O Pig é uma plataforma de processamento de dados em larga escala que possui uma linguagem de alto nível e um “compilador” que transforma scripts feitos nesta linguagem em programas MapReduce.

HBase
É um banco de dados NoSQL distribuído e orientado a colunas. Usa como sistema de arquivos o HDFS e permite tanto processamento de dados em batch utilizando MapReduce como queries online.

ZooKeeper
Um serviço de coordenação distribuído. O ZooKeeper fornece primitivas básicas para construção de sistemas distribuídos.

Chukwa
É um sistema distribuído para coletar e analisar logs dinamicamente.

Ao longo desta série vamos conhecer melhor cada um destes projetos. Siga o escalabilidade no twitter e não se esqueça de assinar nosso feed para acompanhar o restante da série.

Continuar Lendo...

IBM lança distribuição do Hadoop

Qua, Jun 23, 2010

View Comments

Já não é segredo para ninguém que o Hadoop é hoje a plataforma mais sólida para processamento de dados em larga escala. Esta semana ficamos sabendo que a Cloudera está trabalhando em conjunto com a Quest Software para fornecer uma integração dos produtos Oracle com o Hadoop. Isto demonstra mais uma vez que a plataforma está se tornando um padrão para o mercado.

Estes acontecimentos sinalização uma possível “invasão” das tecnologias “Big Data” que surgiram para resolver os problemas de escala da web para o cenário corporativo. Precisamos entender também que o mercado corporativo tem suas próprias regras e que as coisas neste cenário não acontecem da noite para o dia.

A IBM anunciou hoje que o lançamento da sua distribuição do Hadoop. Ela tem uma estratégia bem sucedida de utilização de softwares open source. Recentemente vimos que eles já estavam usando o Hadoop em alguns de seus projetos. O lançamento desta distribuição mostra que a IBM está ficando cada vez mais comprometida com o sucesso da plataforma. O selo de grandes nomes da indústria do software vão dar maior credibilidade ao Hadoop para futuras implementações no setor corporativo.

ibm logo IBM lança distribuição do Hadoop

Hoje temos 3 grandes distribuições do Hadoop sendo utilizadas nos mais variados projetos. A primeira é a distribuição oficial que pode ser encontrada no site do projeto. A Cloudera, empresa de consultoria em Big Data, tem sua própria distribuição que também é Open Source. O Yahoo também disponibiliza a versão que eles utilizam para a comunidade de desenvolvedores. Com a chegada desta nova distribuição vamos ter uma maior diversidade na comunidade de desenvolvedores e usuários do Hadoop.

Continuar Lendo...

Palestra – Escalabilidade, lições aprendidas.

Qua, Jun 23, 2010

View Comments

O RailsMG é um grupo muito ativo de desenvolvedores Rails. O grupo organiza encontros regulares em Belo Horizonte. Estes encontros são importantes para manter a comunidade unida e para disseminar o conhecimento individual aprendido resolvendo problemas práticos.

No último encontro organizado pelo grupo o tema foi escalabilidade de serviços web. Bruno Andrade da Dito aborda técnicas de escalabilidade que foram aprendidas e aplicadas nos últimos anos no desenvolvimento de projetos como Dengue Ville, Odrible.com e o Site Blindado.

Confira na integra a palestra :

Palestra – Escalabilidade, lições aprendidas. from Bruno Andrade Alves on Vimeo.

Continuar Lendo...

Introdução ao Hadoop Parte II : Uma breve história do Hadoop

Ter, Jun 22, 2010

View Comments

O Hadoop foi criado por Doug Cutting. Ele também é o criador do projeto Apache Lucene, uma biblioteca de busca em texto amplamente usada. O Hadoop se originou no projeto Apache Nutch, um buscador open source que também faz parte do projeto Lucene.
lucene green 300 Introdução ao Hadoop Parte II : Uma breve história do Hadoop
A tarefa de construir um buscador, que funcione na escala da web, do zero é extremamente complexa. Um sistema que faz crawling e indexa bilhões de páginas não só é difícil de se escrever como é complexo de se operar e manter. Fazer um buscador nesta escala funcionar é uma tarefa que muitas vezes exige um time inteiro de operações para manter todas as partes do sistema em movimento. Os custos com máquinas e infraestrutura são em geral altos dado o volume de armazenamento e processamento exigido. Mesmo com todas estas dificuldades a vista Mike Cafarella e Doug Cutting resolveram criar o projeto Nutch para abrir a toda a comunidade de desenvolvedores os algoritmos de buscadores web.
nutch logo Introdução ao Hadoop Parte II : Uma breve história do Hadoop
O Nutch começou em 2002 e rapidamente um protótipo funcional apareceu. Esta versão inicial tinha muitos problemas de escala, ela não aguentaria os bilhões de páginas que uma aplicação de buscas para web precisa manipular. A solução para este problema veio de um artigo publicado pelo Google descrevendo sua arquitetura de arquivos distribuídos chamada de GFS ( Google File System ). Esta arquitetura já estava em produção no Google e minimizava o tempo gasto gerenciando os servidores necessários para manter os grandes arquivos gerados pela indexação das páginas. O artigo publicado em 2003 pelo Google abriu caminho para que a equipe do Nutch criasse uma implementação open source do GFS. Ela foi lançada em 2004 e chamada de Nutch Distributed Filesystem (NDFS).

Em 2004 o Google publica o clássico artigo descrevendo seu framework MapReduce ( descreveremos com maiores detalhes este framework em posts futuros ) . Em 2005 a equipe do Nutch já tinha uma implementação open source do MapReduce funcionando em conjunto com o NDFS.

As aplicações possíveis destas implementações poderiam ir além dos buscadores. Em 2006 estes projetos foram fundidos em um novo sub projeto do Lucene chamado Hadoop ( Este era o nome do elefante amarelo de pelúcia do filho de Doug ) . Nesta mesma epoca Doug Cutting entrou para o Yahoo! que forneceu recursos e um time para tornar o Hadoop um sistema completo para trabalhar na escala da web. Isto foi demonstrado em 2008 quando o Yahoo! anunciou que o seu index de páginas web era gerado agora por um cluster de 10000 máquinas rodando Hadoop.

O Hadoop se tornou um projeto independente dentro da Apache em 2008 e tem crescido desde então. Hoje empresas como Facebook, Last.fm, Twitter e até mesmo IBM e Microsoft passaram a utilizar o Hadoop.

Continuar Lendo...

VoltDB: Escalabilidade de NoSQL em SQL

Qua, Mai 26, 2010

View Comments

A empresa VoltDB (uma empresa fundada pelo Mike Stonebraker, o mesmo que criou  o PostgreSQL) anunciou ontem o release oficial do VoltDB: um banco de dados relacional com suporte à ACID e, segundo a empresa, facilmente escalável como alguns bancos de dados NoSQL.

voltdb1 VoltDB: Escalabilidade de NoSQL em SQL

A premissa principal do VoltDB é simples: ele é diferente da maioria dos bancos de dados relacionais de hoje, que se baseiam em designs antigos e que foram concebidos bem antes dos bancos de dados com workloads “web-scale”. Os bancos de dados tradicionais podem “desperdiçar” mais de 90% do seu tempo com tarefas burocráticas, como logging, lagging e gerenciamento de buffer.  O VoltDB utiliza processamento in-memory e elimina vários destes overheads que ocorrem em bancos de dados relacionais e ainda consegue manter a consistencia transacional (ACID). Com isso, o VoltDB consegue ser 50x mais rápido do que RDBMS tradicionais.

Em alguns testes, o VoltDB conseguiu se sair tão bem ou melhor se comparado com bancos de dados NoSQL que utilizam armazenamento key-value. Os mesmos testes demonstram que o VoltDB pode escalar quase linearmente: em uma determinada máquina, ele conseguiu processar 56.000 TPS e em um cluster com 12 máquinas, ele conseguiu processar 560.000 TPS.

Ao que parece, o VoltDB é uma grande promessa, pois possibilita uma escalabilidade fácil e eficiente sem abandonar o modelo relacional, no qual a maioria dos desenvolvedores hoje está acostumada e no qual boa parte dos sistemas é baseado.

Continuar Lendo...

Tendências de Desenvolvimento Para Mashups e API’s

Ter, Mai 25, 2010

View Comments

A empresa americana Mashery, especializada em gestão de API’s para empresas de internet acabou de liberar um interessante relatório sobre como os desenvolvedores interagem com as principais API’s e também quais as API’s e linguagens favoritas do público que atua desenvolvendo mashups hoje. Confira alguns resultados:

69% dos desenvolvedores consideram as API’s do Google, Twitter e Amazon como as melhores para se trabalhar.

Existem hoje cerca de 2,000 APIs listadas no blog ProgrammableWeb.

As Apis estão sendo utilizadas principalmente em aplicativos que rodam no browser:

Ambiente porcentagem de usos
Online/browser 41%
Mobile 32%
Online/widget 15%
Desktop (Silverlight, AIR) 9%
Hardware 3%

O php ainda é a linguagem favorita para Mashups:

sponsor chart2 Tendências de Desenvolvimento Para Mashups e APIs

Gostou das constatações? Veja os slides abaixo:

Continuar Lendo...

Conheça o PiCloud, Serviço Simplificado de Computação na Nuvem

Qui, Mai 20, 2010

View Comments

Nos últimos anos Big Data encontrou as pequenas startups web e não é mais coisa de grandes empresas como Google, Amazon, Ebay e outros, vimos um crescimento enorme dos serviços de cloud computing e popularização do Hadoop.

picloud2 Conheça o PiCloud, Serviço Simplificado de Computação na Nuvem

Nesta onda surgiu o PiCloud, um serviço simplificado de computação na nuvem, que torna possivel executar funções em Python na nuvem com uma facilidade incrível, você não precisa de muito mais do que isto para executar sua função na nuvem:

def func():
# faz alguma coisa legal

import cloud
cloud.call(func)

Criar uma instancia e configurar todo um ambiente para executar uma tarefa na nuvem, ou fazer seu programa em cima do Hadoop pode ser um trabalho desnecessário, é ai que PiCloud entra.

Outra vantagem é o custo que é feito por unidades de computação (compute unit), assim se seu job gastou 5 minutos para terminar, você será cobrado apenas por aqueles 5 minutos.

O serviço ainda está em fase beta, porem venho acompanhando a evolução deles há algum tempo e posso dizer que o PiCloud vem melhorando muito, acredito que em poucos meses sairá da fase beta abrirá o serviço para todos.

Confira esta apresentação sobre o PiCloud feita por um de seus fundadores, Ken Elkabany:

Continuar Lendo...

Como foi o 1º Encontro NoSQL Brasil

Qua, Mai 19, 2010

View Comments

nosqlbr1 Como foi o 1º Encontro NoSQL Brasil

Você sabe qual ferramenta NoSQL usar e quando?

No dia 15 de maio de 2010 ocorreu o NoSQL Brasil, o primeiro encontro sobre bancos de dados não relacionais no Brasil, organizado por Alexandre Porcelli em São Paulo.

Desenvolvedores no NoSQLBrasil

Desenvolvedores no NoSQL Brasil. Foto por Henrique Bastos.

O encontro inicialmente teria 40 participantes em uma mesa de bar conversando sobre NoSQL.

1 tweet foi o suficiente para incentivar a inscrição de mais de 200 desenvolvedores.

O objetivo era mostrar ao mundo que não existem somente bancos de dados SQL.

NoSQL é sobre escolha.

Nas palestras foram discutidos:

Leia mais sobre o NoSQL Brasil em:

Continuar Lendo...
Anteriores