Cambridge Analytica e como uma pequena empresa conseguiu dominar o mundo

A tempos, passando por uma das ruas de Luanda, decidi como quase sempre, dar mais uma vista de olhos na bancada de chão, dum desses rapazes que vendem livros antigos e que ficam nas diversas esquinas da baixa. Um deles em particular, cativou-me a atenção: O teste Sociométrico SOCIOGRAMAS. de Danny José Alves da Fundação Getúlio Vargas (FGV), Brasil.

Não fosse o facto de nunca ter antes ouvido falar de Sociometria, porventura ligaria nenhures ao livro. Abri, li uns excertos, achei interessante, dei o habitual ‘jajão’ negocial e obtive a preço de banana. O livro era de facto antigo. Estava assinado pelo antigo dono, como parecia ser hábito das gentes da era colonial e datava duns longínquos 10 de Maio de 1977, ora 41 anos portanto. É de notar, entretanto que o livro, está impecavelmente bem conservado.

Segundo o livro, parece que a Sociometria é uma ciência social desenvolvida pelo professor Norte-Americano Jacob L. Moreno nascido em 1892. No entanto, em 1974, data da publicação da segunda edição (a primeira foi publicada em 1964) do livro ela era ainda uma ciência bastante desconhecida.
Segundo Jacob Moreno, a Sociometria é um instrumento que estuda as estruturas sociais em função das escolhas e rejeições manifestadas no seio de um grupo.

O que a Sociometria pode fornecer?

Sendo uma ciência que estuda comportamentos individuais no contexto de grupos, ela pode fornecer:

  1. A posição que cada um dos componentes ocupa no grupo (popular, isolado, excluído, não-excluído), assim como a posição que cada individuo JULGA ocupar no grupo;
  2. As relações de afinidade (antipatia, rivalidade, etc.), assim como a neutralidade ou inexistência de relações (indiferença);
  3. A estrutura sociométrica do grupo: A trama de comunicações (escolhas reciprocas), os focos de tensão (rejeições reciprocas), os subgrupos, as barreiras étnicas religiosas, raciais, etc;
  4.  A dinâmica dos grupos: as modificações dos quadros e a evolução dos processos no seio dos grupos (reteste).
    A seguinte pergunta é que deixou-me realmente intrigado.

Que dados procura obter quem realiza um teste Sociométrico?

  1. Dados relativos a projeção de cada elemento do grupo para o grupo (preferências e rejeições que dirige a cada um dos componentes do grupo). Fornece as projeções de todos os componentes do grupo em relação a cada um dos componentes;
  2. Dados relativos a percepção que cada componente do grupo tem de si mesmo em relação ao grupo (preferências e rejeições que acredita receber dos componentes do grupo). Fornece indirectamente, a maneira pela qual um dos componentes do grupo é percebido pelos demais componentes.

Em suma: o teste de projeção sociométrica é a que fornece a projeção do individuo para o grupo e a projeção do grupo para o individuo. O teste de percepção sociométrica é a que fornece, em relação a cada individuo, a maneira pela qual o próprio individuo se percebe e é percebido pelo grupo.

Ora, depois de perceber minimamente o que isso significava, alvitrei a hipótese de escrever um software que pudesse servir de apoio psicológico a alunos de colégios privados vitimas de bullyng e detectar potenciais alunos vitimas de bullyng. Desisti depois de analisar o mercado, que não está ainda maduro o suficiente e nem tem concorrência que estimule a adoção de ferramentas de diferenciação no mercado.

Bom, sendo verdade que já la vão mais de um ano, foi com enorme interesse que presenciei a semana passada o depoimento de Christopher Wylie ex-consultor de analise de dados duma empresa até então desconhecida pela maior parte de nós, a Cambridge Analytica e também contra o Facebook.

chrys wylie

Wylie acusou a Cambridge Analytica de ter manipulado o sentido de voto de 50 a 60 milhões de norte-americanos e do Facebook ter sido conivente com esta pratica, ter tido conhecimento dela e nada ter feito para alterar a situação.
Rapidamente a revolta disparou. Acusações e apelos contra violação de privacidade pelo Facebook foram lançados por este mundo afora.

 

 

 

 

Mas vamos por partes.

A biografia de Wylie diz que teve uma infância difícil algo desinteressante, vitima de bullyng abandonou os estudos aos 16. Sofria de dislexia. Depois de abandonar os estudos começa a trabalhar no parlamento Canadiano ainda muito jovem. Era o rapaz da Internet e da Informática. Os parlamentares gostavam dele. Resolvia os problemas. Aos 19 aprende a programar algoritmos estudando sozinho e aos 20 inicia estudos de direito na prestigiada London School of Economics em Londres.

Enquanto isso, no centro de psicometria da Universidade de Cambridge, Michal Kosinski e David Stillwell, iniciaram pesquisas para encontrar novas formas de estudar a personalidade humana, mas desta vez, por procurar quantifica-la. Em 2007 Stillwell, enquanto estudante, inicia o desenvolvimento de diversas apps para o Facebook (numa época em que os smartphones ainda não eram o principal meio de acesso), uma das quais em formato de inquérito (quiz), chamada myPersonality que se tornou imediatamente bastante popular.
Os usuários depois de jogarem eram avaliados em cinco (5) grandes traços de personalidade: Abertura, Consciente, Extroversão, Originalidade e Neuroticismo. Em troca disso, 40% deles consentiram dar acesso aos seus perfis do Facebook. É óbvio que esse engodo permitiu que não só os seus traços de personalidade fossem estudados minuciosamente, mas muito mais grave, rapidamente Stillwell encontrou uma forma de correlacionar as avaliações de personalidade e os likes que esses usuários davam em determinado conteúdo.

Claro que essa género de correlação rapidamente despertou o apetite de agências de inteligência e dos militares. Um desses tipos de correlação descoberta era algo engraçada e versava o seguinte:

”Pessoas que deram like num conteúdo que diziam ‘Eu odeio Israel’ tendiam a gostar de sapatos Nike e de chocolates KitKats”.

Bom, mas que coisa engraçada, mas também preocupante, porque era a mais pura verdade.
Mas como chega Wylie, um licenciado em direito e programador freelancer a envolver-se nessa narrativa?

Bom, já mencionamos a pouco tempo que as agências de inteligência e militares começaram a interessar-se por este assunto. Se Stillwell estava envolvido em criar apps, Kosinski por outro lado recebeu patrocínio da Boeing e da sempre insuspeita agência de defesa Norte-Americana, a DARPA para um doutoramento nesse âmbito de pesquisa.

Respondendo a pergunta, é bom saber que Wylie por seu lado, já havia iniciado estudos de doutoramento em ‘Previsão de Moda’, um destes cursos estranhos, inovadores e fortíssimos que só existem nos EUA e que mistura estatística, probabilidades, psicologia e sociometria para determinar tendências de moda nas próximas mudanças de estação. Em suma, você consegue perceber que as grandes cadeias de moda já não lançam roupas só por lançar. Elas, analisando o perfil de consumo da população conseguem determinar o que elas tenderão a consumir mais na próxima ‘safra’, isto é, na mudança de estação.

Bom, Wylie dá de caras com um artigo de doutoramento de Kosinski e tem aquele momento EUREKA que, convém dizer, ele não foi o único a ‘despertar’ pra realidade vindoura, mas foi aquele que percebeu a efectividade do assunto numa área que ele dominava bem e estava por dentro como funcionário do parlamento Canadiano pelos Liberais Democratas. Wylie que andava sem ideias, rapidamente procurou encontrar uma resposta ao insucesso dos liberais nos sufrágios, ao olhar em dados demográficos dos votantes e perceber que não existia qualquer correlação entre a sua posição geográfica e as ideias por eles advogadas. Não havia uma grande concentração demográfica de liberais. Estavam demasiado dispersos geograficamente e não existia uma explicação porque isto assim era.
Segundo Wylie, baseado no artigo de Kosinski, um típico liberal, é uma pessoa com personalidade altamente aberta, com baixo grau de consciencialização. Ninguém espera dum Hippie um alto grau de desconfiança em relação a novas ideias. Wylie propõe uma solução aos liberais para melhores resultados em futuros sufrágios, por captar novos votantes usando analise de dados, mas rapidamente é desacreditado. Ninguém dá valor a sua ideia inovadora.

Foi então que alguém dos liberais apresenta Wylie e sua ideia a alguém da empresa SCL Group que mais tarde viria a dar origem a Cambridge Analytica, esta que tinha clientes que variavam de governos, agências e militares.

Alexander Nix apresentacao

Alexander Nix

É ai onde entra o polémico Alexander Nix CEO da Cambridge Analytica. Talhado para o sucesso, antes da Cambridge Analytica foi analista financeiro e na infância foi educado numa escola aristocrática no Reino Unido.

 

 

Nix, concede totais poderes a Wylie:

‘Experimente todas suas ideias malucas’ vocifera ele a Wylie!!!

Wylie é enquadrado na Cambridge Analytica como director de pesquisa, envolvido em operações psicológicas, algo como mudar a opinião das pessoas não através de coação ou persuasão mas por meio de domínio da informação, uma amalgama de técnicas que vão desde a disseminação de rumores a desinformação e fake news (noticias falsas).

Steve Bannon

É assim que Wylie conhece o controverso milionário da industria cinematográfica de Hollywood e líder da extrema-direita Steve Bannon (na foto acima). Bannon ouviu falar da Cambridge por meio dum militar. Wylie diz que Bannon amou sua ideia e decidiu então ‘estender’ o apoio por angariar financiamento. Foi então que Nix, Wylie e Bannon viajam a New York para um encontro em Manhattan com o sinistro pioneiro da Inteligência Artificial, cientista e multimilionário dos mercados financeiros Norte-Americanos, o Eng. Robert Mercer apoiante da extrema-direita e sua filha Rebeka, licenciada em matemática, executiva gestora de fundações da direita.

 

Mercer e sua filha Rebeka

Para Mercer a apresentação de Wylie foi ouro sobre azul. Ele entendeu rapidamente do que se tratava, era algo muito próximo a sua área, ele é um cientista da computação artificial, Wylie um especialista em interpretação de dados de enorme dimensão. Mas nem por isso foi tão fácil assim convencer Mercer de que aquilo funcionava. A apresentação de Wylie era baseada num artigo de Kosinski denominado “Computer-based personality judgments are more accurate than those made by humans”, algo como ‘As análises de personalidade feitas por computador são muito mais precisas que as determinadas por humanos’.

Mas era tudo muito teórico. Ao contrario do que geralmente acontece em reuniões de negócios do género, Mercer, sendo a pessoa mais rica na sala, não era propriamente a mais ingénua, pelo contrario. Pediu provas práticas. Queria vê-la funcionar. Dinheiro para investir não faltaria.

Portanto, para provar que sua ideia funcionava, Wylie precisava de coloca-la em teste e para isso precisava de perfis psicológicos de muitos, mas muitos usuários.

Como conseguir esses milhões de dados?

É aí onde entra a empresa GSR (Global Science Research) criada por um ambicioso génio Moldavo/Russo/Americano da Psicologia, o professor Alexandr Kogan da universidade de Cambridge (e também de St. Petersburgh).

Kogan em si, não criou nada de novo. Só chegou a um acordo com Wylie depois do segundo falhar negociações com Kosinski. Kogan também teve acesso a pesquisa de Kosinksi e propôs a Wylie ir um bocado mais longe: replicaria o trabalho de kosinski e Stillwell desde que estes fossem colocados a parte de qualquer acordo milionário com Kosinski. Para livrar-se de suspeitas de invasão de privacidade, ele promete a Wylie e ao Facebook que os dados dos usuários serão obtidos para futuros estudos no ramo da psicologia.

Com os milhões de Mercer na mão, Kogan parte para a ação. É inteligente e percebe que para ganhar tempo precisa aliciar pessoas. Recorre a plataforma de contratação da Amazon, a Amazon Turks onde paga a voluntários para realizarem testes de personalidade numa aplicação por ele desenhada chamada de thisismydigitallife. É claro que não era uma aplicação normal. Confiantes com o dinheiro no bolso estes voluntários concedem acesso a aplicação a sua conta do facebook. Nada anormal, aparentemente!!!

Kogan, sabia que o Facebook não era muito rígido na forma como as apps acediam a dados dos usuários e dos seus amigos. Teve a vida facilitada. Basicamente Kogan pagou com dinheiro a 320.000 voluntários que tinham uma média de 160 amigos. Isso dá uns absurdos 51 Milhões de pessoas captadas em apenas algumas semanas. É muito dado, e é muita informação para entregar a Cambridge Analytica. Kogan ri-se, e ri-se assim porque além dos bolsos cheios, o Facebook pouco ou nada fez para trava-lo, mesmo tendo sido alertado pelos seus poderosos algoritmos de segurança baseados em inteligência artificial. Kogan simula e diz que é para pesquisa científica. Matreiro!!!

E o que isso tem exactamente a ver com a Sociometria?

Bom, a Sociometria em si, é uma ciência derivada da sociologia e da psicologia que se concentra no estudo matemático dos caracteres e perfis psicológicos dos conjuntos sociais, não considerando o homem como um elemento individual no seio dum grupo, mas concluindo que enquanto participante dum grupo, o resultado das acções deste grupo não pode ser encarado como a soma das acções individuais de cada membro, mas sim que cada membro participa de quadros e processos, fenómenos psicossociais que analisados permitem percepcionar o comportamento de cada membro do grupo.

Kogan embora psicometrista, conhecia perfeitamente este fenómeno e percebeu claramente que se conseguisse perceber a estrutura psicológica duma determinada amostra social, mais facilmente conseguiria produzir conteúdo que pudesse espalhar o medo, o ceticismo, a dúvida e a solução. O Facebook faria o resto com a sua anterior politica de desleixo em relação as fake news. E foi isso que fez, usando a preço de banana uma plataforma que tem mais de 1 bilião de utilizadores cadastrados. Assim foi feito e a Cambridge Analytica produziu depois conteúdo relevante em formato de publicidade paga por meio dum competente trabalho de Search Engine Optimization (SEO).

Nao tenha medo. Este tipo vai baixar as armas em obediência a segunda emenda‘ – Mensagem subliminar que dá que pensar as ‘vitimas’

Imagens como esta a esquerda, eram difundidas na app de Kogan e serviam tão somente para iniciar o rastreio de perfil psicológico do típico Americano, receoso do efeito da liberalização das armas, mas também do alto índice criminalístico do país, um dos mais armados do mundo. O homem armado, encapuzado com balaklava, a cor preta e acinzentada realçada na colorimetria e a mensagem que sendo meia verdadeira, espalha uma semente de dúvidas e uma perspectiva sombria, foram estrategicamente bem posicionadas. Hillary e Obama defendiam abolição do porte de armas. Trump, não. O que a mensagem transmitia era sub-liminarmente entendida como estando Obama e Hillary ao lado dos criminosos. Pode parecer brincadeira, mas funciona na perfeição. Kogan sabia disso como ninguém.

Um analista experiente de marketing digital ou um bom técnico de tecnologias de informação, dificilmente cairia no goto de conteúdo desse tipo. Rapidamente detectaria fraude e fake, pelo formato do endereço, pelo site mal trabalhado, pela falta de conteúdo relacionado e contraditório, pela falta de ligação de fontes de informação etc. etc.

Mas não é assim que analisaram os milhões de Americanos e Britânicos, eles são apenas simples utilizadores, precisam de ser protegidos, não de serem máquinas de analise de formato de conteúdo pago.

Os resultados foram demasiados evidentes. Não só a Cambridge Analytica foi capaz de influenciar a saída do Reino Unido da União Europeia, como também conseguiu que o polémico empresário da hotelaria Donald Trump acedesse ao poder nos EUA.

200px-Cambridge_Analytica_logo.svg

A Cambridge Analytica tornou-se na mais sofisticada empresa de guerra psicológica

Presentemente, a Cambridge Analytica e seus executivos estão sob fogo, investigados pela justiça tanto Britânica como Americana. Nix foi apanhado praticamente com as calças na mão. Falou demais, já se achava o ‘cara’, revelou até práticas inesperadas para um executivo da industria da comunicação. Wylie abriu a boca, perturbado, pressionado ou preparado para faturar mais, com as consequências imprevisíveis e inenarráveis da máquina de guerra informativa que criou e que foi apelidada como o seu ‘Frankstein’.

Zuckerberg percebeu que tem poucos amigos

Mark Zuckerberg, CEO do Facebook descobriu depois de muitos anos, ironicamente pela sua própria ferramenta, o Facebook, que ele tem poucos amigos ao contrario do que talvez pensava porque tem milhoes de ‘friends’. Moralistas, falsos moralistas, uns mais sinceros do que outros, oportunistas e aproveitadores e uma corte infindável, rapidamente aproveitaram-se da situação para lançar mensagens de bota-abaixo contra o fundador da rede social que ficou por muitos dias sem saber como reagir, talvez percebendo pela primeira vez na vida que tinha uma ferramenta em mãos que é muito mais perigosa do que ele alguma vez imaginou e que se ele retrospectivou o seu inicio certamente que nunca imaginou que chegaria a esse ponto, um ponto que ele não deseja que seja de viragem.

Anúncios

Como funciona o Google? (I)

Este é o primeiro duma serie de artigos que irei publicar, desvendando alguns ‘segredos’ do funcionamento desta espectacular plataforma de serviços que funcionam na Web. Dizemos que são ‘segredos’, porque a maior parte da informação que discutiremos convosco foi providenciada pela Google e está disponível a quem quiser. Óbvio que procuraremos usar uma linguagem mais simples possível, tecnicamente acessível a maior parte de nós. Estamos em crer que é bastante interessante o que temos para vos relatar.  A razão porque escolhemos a Google foi por termos verificado que esta corporação que iniciou numa sala dum laboratório universitário em Stanford, tornou-se poderosa, a ponto de consagrar-se um provedor de telecomunicações, publicidade, entretenimento, computação e acima de tudo começa a assumir posições de padronizador/dinamizador em campos de pesquisa absolutamente emergentes hoje em dia, como o BIGData que iremos falar mais adiante.

Eu queria iniciar por contar-vos uma pequena historia: Em 2004/2005 enquanto técnico médio e programador Web freelancer em ASP/ASP.Net/C#/SQL Server fui assistir a conferencia na UCAN que consagrou a já defunta Associaçao Angolana de Software Livre (ASL).
A conferencia estava cheia de gente com bagagem de primeiro grau, como por exemplo Dr Pedro Teta, Eng Dimonekene Ditutala e Msc Mateus Padoca Calado. No entanto o que me chamou mesmo a atenção, foi a declaração do Dr Aires Veloso (um experiente docente de programação), onde  ressaltou que um sistema a serio tinha de ser criado com uma framework/linguagem de verdade, tal como .Net ou Java.
Aquelas palavras ficaram-me na mente, ainda mais, porque não possuía conhecimentos sobre computação paralela. Somente anos depois, percebi que fazia todo sentido ele ter dito aquilo. Aquela era a época dominada por linguagens para desenvolvimento dinâmico como Cold Fusion Modules (CFM), ASP e um tal de PHP, lol. Estas eram, na altura, linguagens não orientadas a objectos e sem suporte a computação paralela.

Por isso era somente natural que um serviço de buscas e publicidade como o Google que crescia a todo vapor se sentisse ‘tentado’ a optar por plataformas como ASP.Net e Java. Mas, nem pensar!!! O génio de Sergey Brin e Lauwrence Page ‘permitiu-os’ seguir um outro caminho: Optaram por utilizar uma linguagem que até então era desconhecida para a Web: O Python (esta linguagem que tive oportunidade de aprender enquanto estagiário numa das instituições governamentais).
De facto, Sergey e Larry, não a escolherem por acaso. Esta linguagem tinha suporte a orientação de objectos, sendo fortemente tipada (tipos de dados interessantes, como listas e dicionários) e sobretudo, é software livre. Tiveram ‘apenas’ o desafio de portar para a Web, porque até então não havia conhecimento do uso desta linguagem na Web de forma massiva, senão em desktop e também aí, muito mais em aplicações para administração de sistemas *.NIX.

Este desafio foi vencido recorrendo ao uso de CGI (Common Gateway Interface) sobre o servidor HTTP Apache, ou seja, por meio dessa interface era possível a código não nativo ser executado pelo Apache. Alguns de vocês deverão lembrar que antes de 2000 e um pouco posterior a isso programava-se para a Web até com linguagem C e C++ (na minha opinião algo terrível) justamente porque a CGI do Apache permitia essa versatilidade. Era algo estranho e inúmeros problemas de segurança envolvendo sobreposição de memoria (Buffer Overflow) sobre HTTP foram revelados. Mas isto está fora do nosso contexto.

Esta decisão, longe de ser uma espécie de estilo NERD por parte de Sergey e Larry, foi antes uma estratégia de longo prazo que viria a influenciar toda a politica de crescimento da infra-estrutura da Google, ou seja, seria suportada por produtos de baixo preço, mas de elevado desempenho operacional, o que permitiria que sua infra-estrutura fosse facilmente escalável sobre custos baixos. Se a Google apostasse em desenvolver a sua infra-estrutura sobre frameworks como ASP.Net ou Java, corria o risco de ficar muito dependente de patentes e tecnologias de empresas que sabiam eles, mais cedo ou mais tarde, seriam seus adversários de negócios.

O problema do crescimento

Com o aumento da quantidade de informação produzida via Web, os serviços de indexação da google foram crescendo de tamanho. Por exemplo de 1999 a 2009, ou seja em 10 anos a google passou a indexar de 70 milhões a muitos biliões de documentos, a media da pedidos processados/dia aumentou cerca de 1000 vezes, cada documento passou a ter 3 (três) vezes mais informações nos serviços de indexação.

Gerir tamanha quantidade de informação (índices e documentos) mostrou desde o inicio ser um desafio e tanto para o pessoal da Google.
Como todo projecto vencedor tem uma base forte, a Google não foge a regra. E a sua força encontra-se também na excelente esquematizar da sua arquitectura, simples mas sobretudo inteligente.
A principio a Google adoptou a seguinte arquitectura (1997):

Arquitectura Google em 1997

Arquitectura Google em 1997

Apesar da sua aparente simplicidade, era uma arquitectura já aparentemente complexa possuindo elementos que estão a ser utilizados até hoje. Como podemos notar, existem dois grupos de servidores (clusters) que desempenham um papel importante por detrás dos pedidos de pesquisa (query) recebidos pelo servidor que chamaremos frontal (frontend): Os servidores de indexação e de documentação.
Os servidores de indexação possuem algumas informações sobre paginas, como por exemplo um índice invertido duma URL, do tipo ‘com.wordpress.snnangola‘. Os servidores de documentação armazenam todos os documentos possíveis existentes na Web e os ordenam aleatoriamente por fragmentos de documentação que falaremos mais abaixo. Cada documento possui propriedades tais como, um ID único conhecido como docid, um conjunto de palavras-chave que permitirão corresponde-lo a uma possível procura, e um Score atribuído pelo algoritmo PageRank.

Quando um pedido de pesquisa é enviado para servidor frontal, este encaminha para o servidor de indexação que mapeia individualmente cada palavra do pedido para uma lista de documentos relevantes. A relevância (Score) ou o grau de importância do documento, é determinada pelo PageRank. Essa relevância determina a ordem de saída dos documentos para a resposta ao pedido do usuário (melhor PageRank sai primeiro).

Essa aparente facilidade, entretanto esconde uma alta complexidade. Como já dissemos, com o aumento do numero de documentos, usuários e mobilidade na Web, o numero de pedidos de pesquisa/segundo aumentou brutalmente, o que perigosamente poderia aumentar o latência (o atraso ou RTT time) na resposta aos pedidos dos usuários, afinal haveria mais pedidos disputando entre si, sobre quem seria atendido primeiro. Felizmente a Google também tem uma solução para este problema, recorrendo a computação paralela. Como assim?

Pela figura acima observamos que tanto os servidores de indexação, como os servidores de documentos, possuem fragmentos (shards). Interessa de facto, falar sobre os fragmentos de indexação, porque estes lidam directamente com os pedidos dos usuários, via servidor frontal, logo os servidores de indexação, estariam em teoria mais sujeitos a estresse. Bom, isto já não é um problema porque os fragmentos possuem aleatoriamente índices para um subconjuntos de documentos do índice total. Esta técnica é conhecida como particionamento da indexação por documento.

Isto constitui inúmeras vantagens, na medida que por exemplo, cada fragmento pode processar cada pedido independentemente, também melhora o desempenho do tráfego da rede, e facilita a gestão da manutenção de informação por documento.
Mas também tem os seus contras, na medida que cada fragmento precisa processar cada pedido, e cada palavra da pesquisa necessita de ser procurada em cada N fragmentos.
Para minimizar estes efeitos, os pedidos feitos a um fragmento são distribuídos a uma pool de servidores. Cada fragmento também está distribuído numa pool de servidores no cluster de indexação.

O processo de pesquisa pode então ser resumido da seguinte forma:

  1.  O usuário digita uma única/serie de palavra(s) (como por exemplo: ‘capital de angola‘);
  2.  O servidor frontal recebe o pedido e envia para um dos fragmentos localizado numa das pools do cluster de indexação;
  3.  O fragmento dado a(s) palavra(s) corresponde a uma lista ordenada de documentos composta por docid, score, etc;
  4.  Um dos fragmentos numa das pools do cluster de documentação recebe a mensagem do fragmento de indexação e dado o docid e a(s) palavra(s), gera um conjunto de documentos, composto por titulo e trecho. Claro que com o docid já é mais fácil localizar o documento completo no disco.

No entanto, isso levanta uma outra questão: Se um dos servidores dos cluster‘s de indexação/documentação vai abaixo, por qualquer motivo, a pesquisa é abolida? A reposta encontra-se na estratégia de computação distribuída que a Google adoptou desde o inicio.

Estratégia de computação distribuída

A google sempre adoptou uma estratégia de computação distribuída. Isso mesmo pode ser percebido pela sua arquitectura já descrita na figura acima, mas que actualizaremos já, sobre uma outra perspectiva na figura abaixo:

Arquitectura google 1997 suportando cache e Ad Sense

Arquitectura google 1997 suportando cache e Ad Sense

Podemos facilmente perceber as mudanças ocorridas:

  1. Introdução de replicação
  2. Introdução de caching

O investigador Português Jorge Cardoso no livro ‘Programação de sistemas distribuídos em JAVA, Editora FCA‘ escreveu que ‘o principio da localidade, admite que a comunicação entre computadores segue dois padrões distintos. Primeiro, é mais provável que um computador comunique com computadores que estejam mais próximos do que com computadores que estejam mais longe. Segundo, é provável que um computador comunique com o mesmo conjunto de computadores repetidamente‘.

Se você percebeu, notou claramente que o primeiro padrão é técnica de replicação, e o segundo a técnica de caching. Pela figura acima nota-se claramente a existência dos dois conceitos. Exactamente ao lado do servidor frontal notamos a presença dum conjunto de servidores de caching que não sabemos com toda certeza se pertencem a um cluster. Entretanto, isso é bastante útil, quando os usuários realizam pesquisas que não foram actualizadas. Nesse caso, se elas não mudaram então não é necessário encaminhar a pesquisa para o cluster de indexação, mas sim para o suposto  cluster de caching que encaminha os documentos, já anteriormente pesquisados, para o usuário.

Pela figura acima notamos também a existência de replicação vertical nos fragmentos de indexação de de documentação. Isso é muito importante, na medida em que explica porque raramente sentimos uma pesquisa no Google ser abolida ou gerar um erro. Notamos, que ainda que um fragmento vá abaixo por causa dum erro lógico ou físico num dos servidores do cluster, pela capacidade de replicação, automaticamente a tarefa passa para outro fragmento pertencente a outra pool de servidores. Isso é uma maravilha, já que estamos em crer ser difícil que uma pool inteira falhe, mas mesmo que falhe haverá sempre outra pool para a substituir.

Por esta altura já conseguimos perceber porque o Google consegue responder de forma tão rápida as nossas pesquisas. Sim, existem outras técnicas e alguma delas iremos abordar mais adiante, no entanto, isso é em parte porque eles conseguem manter imagens de toda a Web replicadas em seus cluster’s de documentação por todo mundo.

Não existirão teoricamente muitos problemas de paginas armazenadas no cluster mas que já não existem nos servidores onde estavam alojadas. O sistema Google é inteligente o suficiente para verificar isso, e actualizar se possível, da forma mais rápida. Mas isso as vezes não acontecia tão rapidamente, e por um motivo muito simples. Os cluster’s da Google começaram a expandir-se muito rapidamente, até a escala global.
As vezes fazemos uma pesquisa a partir de Angola, e os resultados Web vem da Irlanda, mas os de Video (Youtube) vem do Brasil, o AdSense do Polo Norte (exagerei!!!) no entanto, não existe praticamente latência. Como tudo isso é possível? Se um cluster de documentação nos EUA actualiza os seus documentos, os cluster’s em todo mundo necessitam fazer isso de forma automática com mínimo de atrasos possíveis, sob pena de elevadas receitas serem perdidas.
O próximo artigo falará sobre isso.

Em Angola: Facebook continua a crescer a ritmo impressionante

Na ultima analise que realizamos em Agosto de 2010 tinha-se verificado que em 8 meses o Facebook teve um crescimento percentual de 46%. Voltamos a fazer uma analise de Setembro de 2010 a 12 de Maio de 2011. os resultados são impressionantes:

Angola possui neste momento 132.880.00 usuarios no facebook, o que representa um crescimento percentual de 106,3%. Se continuar a crescer a este ritmo (e acreditamos que vai crescer mais) é provável que em 1 ano e 6 meses (deverá levar menos tempo) o Facebook ultrapasse o Hi5 que parou de crescer em Angola.

(Actualizado)Em Angola: Facebook ultrapassa Sonico e torna-se segunda rede social atrás do Hi5

Ultimamente tenho-me interessado pelo Facebook. Esta rede social destaca-se pela facilidade de uso e algoritmos poderosos para encontrar amigos, colegas, eventos etc. O facto de ser a rede social mais usada no mundo com mais de 500.000.000 de usuários poderia transforma-la num activo difícil de gerir. Bom, mas não é. Zuckerberg e companhia sabem do valor da sua empresa: 10 a 15 mil milhões de dólares norte-americanos. Os investimentos em hardware e novas tecnologias sao constantes, daí a sua estabilidade. Zuckerberg nada faz quase em termos de gestão de infra: Cuida apenas de negócios e claro, de programação num pequeno mas confortável escritório:

Que confusão!!! Bom, regressando a Angola o Facebook aqui vinha crescendo de forma um pouco tímida, mas ao que consta parece assumir cada vez mais uma posição de segunda rede social atrás do ‘incontestável’ Hi5 a rede social ‘natural’ de milhares de Angolanos.

O crescimento do Facebook é tão acentuado que de Janeiro a Agosto de 2010 teve um impressionante crescimento de 46% ultrapassando a rede latina Sonico.com com 63.987.00 usuários. O Facebook possui até Agosto deste ano 66.440.00 usuários Angolanos:

As estatisticas mostram que a relação homem VS mulheres a usar o Facebook em Angola:

Se continuar a crescer assim tudo leva a crer que o Facebook possa chegar em Angola a números perto da rede dominante Hi5. E quando ao Hi5 a sua presença dominante em Angola tem que ver com a sua presença dominante em Portugal. Quando Portugal se render ao Facebook o que tem acontecido em toda Europa menos em Portugal então o Hi5 perderá a sua presença em Angola a favor do Facebook.

Actualizacao: Pelo alerta do usuário Sergio Mendes o Facebook ja ultrapassou o Hi5 em Portugal. Bom isso significa que deverá faze-lo brevemente em Angola, LOL. Fui verificar no alexa e realmente o facebook é o segundo site mais vistado em Portugal.

Fonte: http://www.facebakers.com/countries-with-facebook/AO/

Em 2009: Mais de 300.000 Angolanos usam Hi5.com?

Já começamos com as estatisticas de fim de ano.

O Hi5 assume a liderança como a rede social mais utilizada pelos Angolanos. Mais, o Hi5 é o 2º site mais visitado pelos Angolanos em 2009.

Nao existem estatisticas oficiais sobre cada pais publicadas pelo Hi5, conseguimos apenas informação da Alexa (e que é de confiança) que dá conta que até hoje em que vos escrevo, 0.7% das ‘visitas unicas’ do Hi5 provem de Angola. Num universo de 50 milhoes de visitas unicas isso da 350.000 possiveis usuarios do Hi5 em Angola. É um numero arriscado, mas que nao deve andar longe da verdade se olharmos para o crescimento de outras redes concorrentes em Angola. Por exemplo o desconhecido mas crescente Sonico possui até a escrita deste texto mais de 51.000 usuarios de Angola  e é apenas o 27º site mais visitado pelos Angolanos em 2009.

Pela importancia que assume, o Hi5 passa agora a ter um topico no blog, vamos trazer aqui tópicos relacionados com esta rede social a quem nao me confesso um grande admirador, mas que respeito pela sua grande popularidade em Angola que por via do mesmo viu muitos dos seus filhos imbuidos a tocar num computador para falar com os amigos.

Adobe lança flash para Linux 64 bits

A Adobe parece ter ouvido os gritos de muitos de nós usuarios que passamos um grande susto quando soubemos que até bem pouco tempo a mesma nao dava suporte ao flash em plataforma Linux de 64 bits. Resolvidas as questões com alguns truques a mesma vem agora suportar nativamente o flash para plataformas de 64 bits. É a noticia do mês. Baixar aqui

Google desiste de acordo com Yahoo após pressão da Justiça

O Google cancelou planos de uma parceria de busca patrocinada com o Yahoo diante da oposição de órgãos reguladores e anunciantes, segundo o diretor de assuntos legais do Google em um post no blog da companhia nesta quarta-feira.

O Yahoo expressou consternação com a decisão do Google, dizendo estar “desapontada que o Google tenha decidido sair do acordo em vez de defendê-lo na Justiça”.

O Departamento de Justiça dos Estados Unidos, em um comunicado divulgado nesta quarta-feira, disse ter avisado o Google que planejava entrar com um processo para barrar o acordo com base em regras antitruste.

“Caso as companhias tivessem implementado o acordo, a competição com o Yahoo sofreria impacto imediatamente no que se refere às páginas de busca”, disse o Departamento de Justiça.

O Google e o Yahoo, respectivamente número 1 e número 2 no mercado de buscas na Internet, anunciaram a planejada parceria em junho, mas adiaram a sua implantação para permitir que o Departamento de Justiça pudesse analisar os aspectos concorrenciais.

O Google informou que desistiu do acordo para evitar uma batalha jurídica.

fonte: yahoo