terça-feira, 10 de março de 2009

SUCESSO ESCOLAR NOS EXAMES DE FÍSICA E MATEMÁTICA EM PORTUGAL

Encontrei um documento(0) muito importante sobre o sucesso escolar. Esse documento conclui o seguinte relativamente às causas essenciais do sucesso escolar relativo a duas disciplinas base, Física e Matemática:
"A conclusão que se pode tirar dos capítulos anteriores, é a de haver três grandes razões para os resultados de Física e Matemática, elas são:
  • Hereditariedade educativa;
  • Investimento social;
  • Efeito escala.
A primeira razão diz respeito à educação das famílias. Um jovem oriundo dum meio familiar de baixo nível educacional terá mais dificuldades em obter um bom resultado, que um outro, cuja a educação familiar lhe permita uma compreensão A priori. Pode-se considerar como consequência duma educação informal em oposição à formal. O analfabetismo revela-se preponderante.

A segunda razão prende-se com as infra-estruturas sociais, desta forma, concelhos de fracos resultados escolares, poderão simplesmente estar carentes de serviços prestados à população, com principal destaque na área da saúde. A relação negativa entre as licenças de construção e os resultados escolares, poderá revelar uma carência habitacional, dando a entender que esta tem também um papel importante na educação populacional.

A terceira razão, prende-se com o dinamismo económico resultante do efeito escala populacional. Grandes aglomerados podem tirar maior partido das infra-estruturas existentes, garantindo assim uma maior rentabilização das mesmas.

Tratando-se a escola dum equipamento social, enquadra-se igualmente num investimento social, no entanto é errado pensar-se que é exclusivamente nesta que se resolve a problemática do insucesso escolar. Uma das principais razões que levam a este insucesso no exames, prende-se muito provavelmente com uma já preexistente fraca educação populacional, que só será resolvida a prazo, caso haja um forte investimento nas infra-estruturas que servem essa mesma população. Para que o investimento tenha melhores resultados, será importante tentar organizar a população em aglomerados maiores, quer através da mobilidade populacional, quer através de investimentos habitacionais nesse sentido. Não é por acaso, que os concelhos desertificados, são os que apresentam piores resultados."
Referências:
0 - Sucesso escolar nos exames de física e matemática em Portugal, Rui Monteiro,
http://www.scribd.com/doc/4980183/sucesso-escolar-exames-fis-mat

domingo, 1 de março de 2009

Forças evolutivas

Traduzido de Variação Biológica Humana(0).

Enquanto o acasalamento preferencial e consanguíneo alteram as frequências do genótipo, de tal forma que, eles não estejam num equilíbrio de Hardy-Weinberg, estes processos não alteram as frequências dos alelos. Consequentemente, o acasalamento preferencial e consanguíneo não são forças evolutivas. Nesta secção, consideramos os quatro processo evolutivos (mutação, selecção, deriva, e migração) que podem mudar as frequências de alelos ao longo de gerações.

Mutação

A mutação é a origem de todos os novo alelos, e consequentemente, nenhuma das outras forças evolutivas se faria sentir na ausência da mutação. No entanto, a frequência dos eventos mutacionais é geralmente tão lenta, que as frequências de alelos não podem mudar significativamente tendo por base exclusiva a força mutacional. Por forma a termos uma ideia, do baixo rácio de frequência de alteração dos alelos que se obteria apenas pela mutação, precisamos primeiro de ter uma estimativa do rácio mutacional. O rácio mutacional é a probabilidade dum gene se vir a mutar e é dada como a probabilidade de um gâmeta ter uma mutação num locus específico numa geração. A forma mais simples de se estimar um rácio mutacional é a da utilização do aparecimento espontâneo dum alelo dominante, expresso numa criança cujos pais são ambos homozigoto recessivo.

Como exemplo para a estimativa dos rácio mutacionais, iremos usar mutações causadoras de acondroplasia. A acondroplasia trata-se dum nanismo desproporcional (afecta primeiramente os membros) causado por uma mutação num alelo dominante do receptor-3 do gene relativo ao factor de crescimento do fibroblasto (4p16.3). Especificamente, a mutação surge normalmente através da simples substituição de um A por um G no nucleóide 1.138 do gene FGFR3. Nelson e Holmes (1989), contaram duas crianças nascidas com acondroplasia em cada 69.277 com pais sem acondroplasia. As 69.277 crianças representam 2*69.277 gâmetas, dos quais, dois se mutaram num alelo acondroplástico dominante. Isto resulta num rácio mutacional de 2/(2*69.277), ou seja, 1.44*10^(-5). Stoll et al. (1989) reportaram uma ligeiramente maior taxa de mutação de 3,3*10^(-5), que atribuem ao facto do seu estudo incluir ecografias pré-natais. Outros estimam taxas mutacionais para a acondroplasia (Oriloli et al. 1986, Oberklaid et al. 1979, Gardner 1977) como estando geralmente no intervalo de 2 a 6 mutações por 10^5 gâmetas.

Recorrendo a um maior rácio mutacional (probabilidade) de µ = 6*10^(-5), podemos escrever o que se conhece como relação recorrente, que dá a frequência do alelo após uma geração de mutação. A relação de recorrência dá a frequência do alelo na primeira geração (que escrevemos como p1) como função da frequência do alelo no tempo 0 (p0):

onde p é a frequência do alelo para o alelo recessivo, e q é a frequência do alelo para o alelo (acondroplástico) dominante. Assumimos que no tempo 0 não existem alelos acondroplásticos, assim p0 = 1,0 e q0 = 0,0. podemos aplicar a equação (3.8) outra vez para se obter a frequência do alelo na segunda geração como se segue:

Substituindo p1 pela equação (3.8) na equação (3.9) obtemos o seguinte:

ou em geral:

A equação (3.11) pode ser resolvida em função de t para se determinar o número de gerações de mutações necessárias por forma a que o p decresça de 1,0 para 0,99 (i.e., o número de gerações necessárias para a frequência do alelo acondroplástico aumentar de 0,0 para 0,01). Levaria cerca de 167,5 gerações de mutação para se chegar a uma frequência do alelo de 1%. Recorrendo a uma distância geracional de 25 anos, isto resulta em 4.188 anos, o que demonstra que a evolução pela mutação (só por si) é deveras laboriosa.

Apesar da mutação ser uma força evolucionaria significativamente lenta, dado o tempo necessário, a frequência do alelo acondroplástico continuaria a aumentar até um valor máximo de 1,0. Por exemplo, após cerca de 2 milhões de anos (76.751 gerações), o alelo acondroplástico atingiria a frequência de 99%. Consequentemente, não existe equilíbrio caso a mutação ocorra num único sentido (de não acondroplástico para acondroplástico alelos).

Selecção

Devido ao paradigma Darwiniano, a selecção natural é um conceito com o qual a maioria dos estudantes está familiarizado. Os efeitos que os padrões selectivos têm nas frequências de alelos são simples de se descortinar através duma folha de cálculo, enquanto a matemática da selecção pode ser lidada na maioria com alguma álgebra. Iremos, o quanto possível, evitar a álgebra. A selecção tem de operar na variação genética, assim a mutação é um precursor essencial para a evolução através da selecção natural.

Um Exemplo de Selecção no β-Hemoglobina Locus

É mais simples examinar a selecção recorrendo-se a um exemplo concreto, para o qual usaremos alguma informação sobre polimorfismo no gene β-Hemoglobina. Thompson (1962) forneceu informação relativa à contagem para 6 genótipos (AA, AS, SS, AC, SC, CC) em 840 polícias ganeses e 1.222 crianças de polícias ganeses. Para simplificar a nossa apresentação, incluímos a contagem do genótipo AC e CC na contagem do genótipo AA e a do genótipo SC na do AS.

A tabela 3.7 lista as contagens de genótipo para os adultos e crianças. Porque havia ligeiramente mais do que três genótipos de criança para cada adulto, na tabela 3.7 damos a percentagem de genótipos entre crianças e adultos, para estandardizar a dimensão da amostra. Destas percentagens pode-se ter uma ideia dos efeitos do genótipo na sobrevivência. Por exemplo, o genótipo SS compõe apenas 0,48% da amostra de crianças e 0,00% da amostra de adultos, sugerindo que nenhuma das crianças com o genótipo SS tenderá a sobreviver até à idade adulta. O genótipo AA compõe 83,45% da amostra de crianças e 79,86% da de adultos, assim, a amostra nos adultos da frequência de AA é de apenas cerca de 96% da encontrada nas crianças. Apenas o genótipo AS aumenta a sua frequência relativa de crianças (16,07) para adultos (20,14%). Dividimos as percentagens dos adultos pelas das crianças (ver Tabela 3.4) e depois dividimos esse valor pelo máximo (1,2534 para o genótipo AS). A coluna final na Tabela 3.7 rotulada “relative fitness” (aptidão relativa), representa a contribuição de cada genótipo na geração seguinte, estando estandardizada para que o máximo da aptidão relativa seja 1,0. O ideal, seria que a aptidão relativa pudesse ser medida como aptidão absoluta, que é a contribuição do genótipo para a geração seguinte. A definição literal de contribuição para a geração seguinte é o número de descendência que sobrevive até à mesma idade que a dos indivíduos (pais) de quem estamos a medir a aptidão. Por exemplo, a aptidão dum indivíduo de 41 anos de idade seria o número dos seus ou suas crianças que sobrevivessem até aos 41 anos. A informação na Tabela 3.7 não é consequente suficiente para se calcular a aptidão real absoluta, mas como exemplo é suficiente.

O símbolo habitual para a aptidão relativa é o ω, que indiciamos para indicar os genótipos. Se pensarmos na aptidão relativa como sobrevivência, então as frequências esperadas dos genótipos são f(AA) = p^2.ω_AA, f(AS) = 2pq.ω_AS, e f(AA) = q^2.ω_SS. No modelo de Hardy-Weinberg, todos os sobreviventes são 1,0, assim, as frequências esperadas do genótipo são p^2, 2pq, e q^2. Quando um ou mais dos valores da aptidão relativa do genótipo for menor que 1,0, então f(AA) + f(AS) + f(SS) é menor que 1,0. Para ajustar as frequências tal que totalizem 1,0, dividimos f(AA), f(AS), e f(SS) por p^2.ω_AA + 2pq.ω_AS + q^2.ω_SS. A quantidade p^2.ω_AA + 2pq.ω_AS + q^2.ω_SS é chamada de aptidão média porque pondera cada aptidão relativa do genótipo pele frequência esperada de Hardy-Weinberg do genótipo. O símbolo normalmente usado é ω¯. Após uma geração de selecção, podemos encontrar uma nova frequência do alelo A como (p^2.ω_AA + pq. ω_AS)/ω¯.


É uma mera questão de se copiar a fórmula relevante pela folha de cálculo, que se mostra na Tabela 3.8, onde começamos as frequências iniciais dos alelos por 0,01 e 0,99. É interessante notar que quando começamos na frequência baixa de alelos esta aumenta, enquanto quando começamos na frequência alta de alelos esta diminui. Este tipo de padrão selectivo, onde o heterozigoto tem a mais alta aptidão, resulta no que é conhecido como o polimorfismo balanceado, porque ambos os alelos são mantidos não importando qual a frequência inicial de alelos. A Figura 3.4 mostra um gráfico da frequência de alelos iniciando-se perto do 0 e 1. Ambas as linhas convergem para um equilíbrio estável num valor de frequência de alelos de cerca de 0,808734.

A Figura 3.4 representa um dos três diferentes gráficos que podemos usar para compreender as dinâmicas da evolução por selecção natural. Outro gráfico útil é o que descreve a variação da frequência de alelos numa geração de selecção no eixo dos y's e a frequência de alelos no eixo dos x's. A variação na frequência de alelos é normalmente escrita como Δp e é igual a p' – p, onde a primeira variável significa a frequência de alelos na geração seguinte.

A Figura 3.5 contem o gráfico de Δp relativamente a p. Este gráfico mostra que se a frequência de alelos é menor que o valor de equilíbrio (marcado com a linha vertical a traço interrompido), então Δp será positivo. Consequentemente, a frequência de alelos aumentará para o ponto de equilíbrio. Contrariamente, se a frequência de alelos está acima do valor de equilíbrio, então, Δp será negativo e a frequência de alelos diminuirá para o equilíbrio.

A Figura 3.6 mostra estas dinâmicas na vizinhança do equilíbrio da frequência de alelos, onde as setas indicam o sentido da variação para a frequência de alelos.

O terceiro gráfico que podemos examinar é um que representa a aptidão média relativamente à frequência de alelos, como representado na Figura 3.7. É possível mostrar que a direcção da evolução é determinada pelo declive da tangente à curva na Figura 3.7 para uma frequência de alelos. Uma linha tangente é aquela que toca a curva da Figura 3.7 num único ponto. A Figura 3.8 contem a representação da aptidão média relativamente à frequência de alelos na vizinhança do equilíbrio, e representa igualmente o declive da linha terceiro tangente nas frequências de alelos em 0,75, 0,9 e no equilíbrio. O declive da tangente é positivo na frequência de 0,75, negativa na de 0,9, e nula no equilíbrio. No equilíbrio, a tangente tem declive igual a 0, então Δp é igualmente 0 e consequentemente não há evolução. Para frequências abaixo do equilíbrio, o declive da tangente à curva é sempre positivo, assim Δp é igualmente positivo e a frequência de alelos estará a aumentar. Acima do equilíbrio, o declive é negativo, então Δp é negativo e a frequência de alelos estará a diminuir. Consequentemente, quando a frequência de alelos se encontra abaixo do equilíbrio, essa frequência aumentará via selecção natural, enquanto quando está acima, diminuirá. As setas na Figura 3.8 indicam a direcção da evolução. Deste gráfico conclui-se com facilidade, que a evolução através da selecção natural pode apenas levar a uma maior aptidão média. A selecção não pode mover uma população para uma aptidão baixa. Na essência, a evolução por selecção natural é uma escalada ao topo da aptidão local “picos”. De facto, o gráfico das Figuras 3.7 e 3.8 é frequentemente conhecido como “topografia adaptativa”, de acordo com a analogia da visão transversal da montanha. Assim, apesar da matemática, o processo pode ser obscuro para alguns, a mensagem importante é a de que a selecção pode apenas levar as populações “para cima” na topografia adaptativa.

Outros Padrões de Selecção

Podemos usar os três gráficos (p versus geração, Δp versus p, e ω¯ versus p) para observar outros regimes selectivos. As Figuras 3.9-3.11 mostram os gráficos dum traço letal recessivo, onde ω_AA = ω_AB = 1 e ω_BB = 0. Os gráficos mostram que, ao contrário do polimorfismo balanceado, não há qualquer frequência de alelos intermédia que a selecção mantenha. Em vez disso, a selecção versus o genótipo recessivo acabará por eliminar o alelo presente no genótipo recessivo. No entanto, o rácio evolutivo diminui à medida que o alelo dominante aumenta. Isto no entanto, é completamente diferente do padrão evolutivo para um trato letal dominante. Para um trato letal dominante, todos os alelos dominantes são removidos numa geração selectiva. Isto é verdade pois ambos os indivíduos, homozigoto dominantes (se houver alguns) e os heterozigoto dominantes morrerão, enquanto apenas os homozigoto recessivos sobreviverão. Consequentemente, a evolução via selecção natural procede de forma muito rápida no caso da selecção de alelos dominantes, enquanto se procede de forma mais lenta na caso da selecção de alelos recessivos (porque estão “escondidos” da selecção em indivíduos heterozigoto).

Deriva

A deriva genética aleatória é a alteração na frequência de alelos de populações ao longo do tempo. A forma mais simples de se perceber a deriva é com um simples exemplo (apesar de humanamente impossível). Iremos assumir que há um infinito número de sub-populações, cada uma composta por um indivíduo que se “auto-procria” a cada geração (i.e., copula consigo próprio) produzindo a geração seguinte composta por um indivíduo. Dentro de cada população, podemos assumir que um infinito número de gâmetas são produzidas mas apenas duas se combinarão para formar um zigoto. Chamamos a isto um modelo de “balde sem limites”, porque pressupomos que haja um infinito número de gâmetas em cada “balde” sub-populacional mas dos quais iremos escolher apenas dois para formar um zigoto. Começamos esta “chamada experiência” presumindo que todas as sub-populações consistem num AB heterozigoto. Quando os indivíduos AB se “auto-procriam”, as expectativas de Mendel dizem-nos que há uma chance de ¼ da descendência ser AA, ½ AB, e ¼ BB. No entanto, seleccionamos apenas um indivíduo, assim podemos apenas “escolher” um AA, AB, ou BB. Se escolhermos um indivíduo AA, então a frequência de alelos terá aumentado de 0,5 para 1,0, enquanto se escolhermos um indivíduo BB, a frequência de alelos terá diminuído para 0,0. Quando uma sub-população atinge uma frequência de alelo de 1,0, dizemos que o alelo se fixou nessa sub-população porque na ausência de migração ou mutação a sub-população perdeu todos excepto um alelo. A sub-população encontra-se consequentemente “fixada” para o presente alelo.

No exemplo anterior, podemos calcular a probabilidade duma sub-população se consolidar numa geração de deriva. Se a dimensão da sub-população for de um, e o genótipo para esse indivíduo for AB, então a probabilidade dum genótipo AA ou BB na geração seguinte será ¼ + ¼, ou seja, ½. Consequentemente, a probabilidade de não haver consolidação é de 1 – ½, ou seja, ½. Se a dimensão da população for de dois, e a frequência de alelos de 0,5, então a probabilidade de se obter dois homozigotos AA na geração seguinte é de 0,5^4 e a probabilidade de se obter dois BB homozigotos é igualmente de 0,5^4. Conjugados, a probabilidade de se consolidarem é de 0,125, consideravelmente menor do que 0,5 para um indivíduo. Para três indivíduos e uma frequência de alelos de 0,5, a probabilidade de consolidação baixa ainda mais, para 0,03125. Em geral, a probabilidade de consolidação numa geração é p^2N + q^2N. Claramente, a deriva depende da dimensão da população: quanto maior a sub-população, menos importante se torna a deriva. Para o demonstrar, as Figuras 3.12-3.14 mostram os resultados de simulações computacionais de deriva genética aleatória. Cada simulação ilustra a frequência de alelos para 100 sub-populações ao longo do tempo, onde todas as sub-populações começam com uma frequência de alelos de 0,5. A primeira simulação é para uma população pequena de 10 indivíduos, a seguinte de 100, e por fim, de 1.000. Claramente, para grandes sub-populações a flutuação da frequência de alelos ao longo de gerações (devido à deriva genética aleatória) torna-se cada vez menos extrema. Para pequenas sub-populações as flutuações na frequência de alelos é tão extrema, que todas as sub-populações se consolidam rapidamente.

Os resultados das simulação computacional nas Figuras 3.12-3.14 derivam do que é conhecido como simulações estocásticas. Nas simulações estocásticas, especifica-se um modelo probabilístico e posteriormente deixa-se o computador fazer o trabalho de simular aleatoriamente através do modelo especificado. Podemos igualmente usar o que se conhece como simulações determinísticas para se ver os efeitos da deriva genética aleatória nas frequências de alelos. As simulações determinísticas recorrem a matemática relativamente complicada por forma a desenharem o histograma esperado das frequências de alelos nas sub-populações após um número específico de gerações. A Figura 3.15 contém histogramas das proporções esperadas das sub-populações para cada contagem de alelos ao longo de gerações, onde todas as sub-populações consistem em 5 indivíduos. Começámos esta simulação determinística com toda a sub-população tendo uma frequência de alelos de 0,5; ou, por outras palavras, dos 10 alelos de amostra para cada sub-população iniciada, toda a sub-população terá 5 alelos A (e 5 alelos B). Consequentemente, o primeiro histograma na Figura 3.15 mostra que todas as sub-populações têm 5 dos alelos A. Após uma geração, as frequências de alelos sub-populacionais derivaram de tal maneira que uma proporção deles (quase 25%) continuam a ter 5 alelos A mas muitos deslizaram para um menor ou maior número de alelos. A Figura 3.15 mostra também a distribuição esperada da contagem sub-populacional de alelos A após 10, 20, e 30 gerações de deriva. Às 30 gerações, cerca de 47% das populações deslizaram para uma contagem nula de alelos. (i.e., estas populações consolidaram-se no alelo B) e uns equivalentes 47% deslizaram para uma contagem de 10 alelos A (consolidação para o alelo A). Apenas cerca de 6% das sub-populações na 30a geração se mantêm polimórficas. A Figura 3.16 mostra uma simulação determinística idêntica mas com tamanhos sub-populacionais de 20 indivíduos, enquanto a Figura 3.17 mostra a deriva para sub-populações constituídas por 40 indivíduos. Comparando as três figuras, podemos ver que o rácio a que se espera uma população atingir a fixação depende da dimensão sub-populacional. Pequenas sub-populações derivam mais depressa do que as grandes e, consequentemente, atingem igualmente a fixação mais depressa. Interessantemente, a proporção que atinge a fixação para o alelo A é igual à frequência inicial de alelos (p) para as sub-populações. Consequente, a média das frequências de alelos (ao longo das sub-populações) não se altera, enquanto as frequências de alelos nas populações mudam até que se atinja a fixação.

Para se comparar com as figuras anteriores, mostramos o caso onde a frequência de alelo inicial é de 0,75 e há 24 indivíduos dentro de cada sub-população (ver Figura 3.18). Após 400 gerações de deriva, todas as sub-populações atingiram a fixação, com 75% fixando-se no alelo A e 25% no alelo B. Mais uma vez, a frequência de alelos global não mudou, apesar da evolução ter ocorrido claramente nas sub-populações (à medida que todas as sub-populações deixaram de ser polimórficas para se fixarem num dos alelos). Qual foi o efeito no equilíbrio de Hardy-Weinberg? Dentro de cada sub-população não houve um início a partir do equilíbrio de Hardy-Weinberg. Por exemplo, quando uma população atingiu a fixação para o alelo A (p = 1), as frequências do genótipo esperado são 1 AA: 0 AB: 0 BB, que são iguais às frequências observadas de genótipo. Se, no entanto, considerar-mos as proporções esperadas de Hardy-Weinberg para o total da população (ignorando a divisão sub-populacional), então deveria-mos esperar frequências de genótipo de 0,75^2, 2x0,75x0,25 e 0,25^2, enquanto obtemos frequências de 0,75 AA, 0,0 AB, e 0,25 BB. Claramente, a deriva levou a um esgotar de heterozigotos porque todas as sub-populações são compostas de homozigotos (para o alelo A em p das sub-populações e para o alelo B em q das sub-populações). Podemos consequentemente usar uma equação ligeiramente diferente da (3.6) para medir o extensão da deriva genética:

onde F_ST é o rácio de fixação (nós vimos que a deriva leva à fixação) e o índice ST significa a fixação das frequências de alelos das sub-populações relativamente à heterozigosidade esperada para a população total (o S e o T referem-se especificamente à sub-população relativamente à população total). F_ST pode variar entre 0 (caso em que não tem havido qualquer deriva) e 1, caso em que a divisão da população em finitas sub-populações levou a uma fixação completa nas sub-populações (tal que H_0, a heterozigosidade observada, é 0). Concluindo, a deriva inicia-se com sub-populações que são geneticamente heterogéneas e “transfere” esta heterogeneidade para diferenças entre-grupos. Veremos na secção seguinte que a migração tem o efeito oposto de homogeneizar ao longo das sub-populações e de heterogeneizar nas populações.

Enquanto F_ST pode ser definida como o “rácio de fixação”, ou o decréscimo na heterozigosidade total relativa à heterozigosidade esperada, pode também ser definida como um quarto da distância genética entre um par de populações ou como a probabilidade IBD de (Identity By Descent – Identidade por Descendência). A relação entre F_ST e a distância genética, dá ao F_ST uma aspecto muito intuitivo, porque podemos ver que F_ST aumenta para as duas populações, tal como a distância genética entre essas duas populações. No capítulo 12, discutiremos em profundidade a análise da distância genética, mas é importante não esquecer que a análise da distância genética e F_ST têm uma relação muito próxima e que ambas estão fundamentalmente relacionadas com a afinidade genética.

F_ST pode igualmente ser definida como a probabilidade de IBD. Na secção sobre consanguinidade, vimos que o coeficiente de consanguinidade pode ser definido como a probabilidade de IBD para os dois alelos num locus autossômico num dado indivíduo. De igual forma, F_ST pode ser definido como a probabilidade de se encontrar dois alelos sendo IBD numa sub-população. Esta definição de F_ST, permite-nos escrever uma relação recorrente para que possamos encontrar o valor de F_ST na geração seguinte em função de F_ST da geração corrente. Quando encontramos dois alelos (com reposição de amostragem) de duas sub-populações, a possibilidade de encontrar-mos o mesmo alelo duas vezes, é de 1/(2N). Isto pode ser confirmado utilizando as condições “e” e “ou”, visto a probabilidade de se obter o mesmo alelo duas vezes, é a probabilidade de se obter o primeiro alelo na sub-população e depois obtê-lo outra vez, ou, obtê-lo a segunda vez e depois da segunda, ou a terceira e depois da terceira, etc.:

Com a probabilidade de 1/(2N), obteremos o mesmo alelo duas vezes, o que por definição deve ser IBD consigo próprio. A probabilidade de se obter dois distintos alelos é assim de 1 – 1/(2N), mas a probabilidade destes alelos serem IBD duma geração anterior, é F_ST; assim, a probabilidade de obtermos dois diferentes alelos e eles serem IBD duma geração anterior, é [1 – 1/(2N)].F_ST. Resumindo obtemos o seguinte:

Na geração anterior, assumimos que F_ST era 0 visto não haver ainda descendência, assim nenhum dos alelos pode ser IBD. Na primeira geração, F_ST será 1/(2N) e continuará a aumentar ao longo de gerações (pela deriva) até atingir 1,0. Nós utilizaremos a equação (3.14) repetidamente na Figura 3.19 para desenhar-mos o aumento de F_ST ao longo do tempo para tamanhos de sub-populações de 5, 10, 20 e 40 indivíduos. Como já tinha-mos visto, o rácio de deriva (aqui medido pelo aumento na probabilidade de IBD) depende do tamanho da sub-população. No exemplo com tamanhos de sub-populações de 5 indivíduos cada, às 100 gerações F_ST está virtualmente no seu máximo valor de 1,0, enquanto no exemplo com tamanhos de sub-populações de 40, F_ST atinge apenas 0,7 à 100.a geração.

Vimos que F_ST pode ser definido como o índice de fixação (redução da heterozigosidade total relativamente à heterozigosidade esperada) ou como a probabilidade de IBD para os alelos nas sub-populações. Existe uma definição final para F_ST que lhe dá primacia em qualquer discussão sobre a variação da população humana. F_ST pode ser definida como a proporção da variação total que se deve à subdivisão populacional. Em consequência desta definição, se disser-mos que F_ST é 0,11 para sub-populações (onde podemos definir sub-populações como populações humanas continentais na população humana mundial), então isto implica que 11% da variação total é entre populações (e os restantes 89% são-no nas populações). A Tabela 3.9 dá o exemplo fictício de quatro sub-populações, cada uma com 1.000 indivíduos que foram marcadas para um locus com dois alelos (referidos como + e -). A frequência de alelos para o alelo + é 0,1, 0,2, 0,3, e 0,5, resultando na média (i.e., frequência na população total) de 0,275. A heterozigosidade esperada para a população total é assim de 2 x 0,275 x 0,725 = 0,39875, enquanto a heterozigosidade observada é de 0,355. Isto dá-nos um índice de fixação de 0,1097179, visível na base esquerda da tabela. Agora, podemos calcular F_ST utilizando a sua definição como a proporção da variação entre sub-populações relativamente à variação populacional total. Primeiro, precisamos duma definição formal de variação. Variação é apenas um eufemismo para o conceito estatístico de variância, que é a média do quadrado do desvio padrão relativamente à média. Por exemplo, a variância dos números 1, 2 e 3 é 2/3 porque a sua média é 2 e a média do quadrado do desvio padrão relativa a esta média é de (1 – 2)^2/3 + (2 – 2)^2/3 + (3 – 2)^2/3. Na Tabela 3.9, encontramos primeiro a variância da frequência do alelo nas quatro sub-populações. A coluna rotulada como “Between” (Entre) dá o quadrado dos desvios relativamente à média da frequência de alelos de 0,275, Ex.: (0,1 – 0,275)^2 = 0,030625, da qual é feita a média na base para dar a variância da frequência de alelos entre sub-populações de 0,021875. De seguida, encontra-se a variância alélica total (ignorando as sub-populações). Para se determinar a variância alélica total, atribuímos uma pontuação de 1,0 se for um alelo + e 0,0 caso contrário. Na primeira sub-população, existem 2 x 10 + 180 = 200 alelos do tipo + e 2 x 810 + 180 = 1.800 do tipo -. Na população total, a média alélica dos valores é apenas a frequência média de alelos de 0,275. Utilizando o nosso método de pontuações, a sub-população 1 contribui com 200 x (1 – 0,275)^2 + 1.800 x (0 – 0,275)^2 = 241,25 para o total da soma dos quadrados da variância em torno da média. Os números na coluna “Total” são posteriormente somados e divididos por 8.000, o número de alelos na população total, para resultar na variância alélica de 0,199375. A variância entre sub-populações dividida pelo total (i.e., F_ST) é de 0,109719, concordando precisamente com o cálculo do índice de fixação. Este exemplo indica que 11% da variação total deve-se a diferenças entre as quatro sub-populações. Devemos fazer um comentário final antes de passarmos para a migração, que é; o F_ST calculado na Tabela 3.9 é um pouco menor do que deveria ser relativamente ao verdadeiramente estimado. Isto acontece por causa da forma como definimos a variância, como sendo o desvio quadrado médio em torno da média, onde deveria-mos ter definido como a soma dos quadrados das variâncias em torno da média divididos por n – 1. Quando fazemos este tipo de ajustes na Tabela 3.9, o F_ST correctamente calculado é de 0,140699, indicando cerca de 14% (em vez dos 11%) da variação entre sub-populações. Estes cálculos encontram-se disponíveis em programas informáticos tais como GDA e Arlequin (ver a secção de Recursos Suplementares).

Migração

A migração genética, o que é algo chamado também de “fluxo genético”, é o movimento de alelos entre populações. Os alelos movem-se na medida em que são transportados por indivíduos que migram, mas nós referimo-nos à migração dos próprios alelos em contraste com a migração genética demográfica. Na migração demográfica, as pessoas podem deslocar-se para um novo local, mas a menos que transmitem os seus alelos à geração seguinte, eles não migram segundo a noção genética.

Iremos considerar primeiramente o caso mais simples, onde existem duas sub-populações que trocam migrantes à taxa m por geração. Se p_1 e p_2 forem as frequências de alelos nas duas sub-populações, então, após uma geração de migração as frequências de alelos nas sub-populações 1 e 2 serão as seguintes:

Como exemplo na aplicação da equação (3.15) podemos começar com p_1 = 1,0, p_2 = 0,0, e a taxa de migração de 0,1 (i.e., 10% das duas sub-populações migram por geração). A frequência de alelos na primeira sub-população após uma geração de migração será então de (1,0 x 0,9) + (0,0 x 0,1) = 0,9, enquanto a frequência de alelos na segunda sub-população após uma geração de migração será de (0,0 x 0,9) + (1,0 x 0,1) = 0,1. Agora podemos usar novamente a equação (3.15) com as frequências de alelos de 0,9 e 0,1, e após outra geração de migração, as novas frequências de alelos serão de p_1 = 0,82, p_2 = 0,18. Podemos copiar este formulário várias vezes numa folha de cálculo, por forma a obter um gráfico da evolução das frequências de alelos nas sub-populações. A Figura 3.20 mostra este gráfico para m = 0,1 e para uma taxa de migração mais baixa de m = 0,05. Desta figura podemos ver que, dadas as gerações suficientes de migração, as duas sub-populações chegam à mesma frequências de alelos, a meio caminho entre os seus valores de início, (0,0 + 1,0)/2 = 0,5. A velocidade com que as duas populações chegam a este valor comum, depende da taxa de migração. Quanto maior for a taxa de migração, mais depressa chegarão as duas populações ao ponto médio da frequência de alelos.

O efeito da migração é o oposto ao da deriva, pois a deriva remove a heterozigosidade ao nível da população total, enquanto a migração repõe a heterozigosidade. Outra forma de se pensar destes dois processos, é em termos da variação genética, nas e entre sub-populações. As Figuras 3.12-3.19 mostram que a deriva começa com todas as sub-populações tendo a mesma frequência de alelos tal que não há variação entre sub-populações. Na geração 0, o locus é polimórfico dentro de todas as sub-populações, então toda a variação existe nas sub-populações e nenhuma entre elas. Após muitas gerações de deriva, a parte p das populações atinge a fixação para o alelo A e a parte q para o alelo B. Agora não existe variação nas sub-populações, e toda a variação verifica-se entre sub-populações. Isto pode ser contrastado na Figura 3.20, onde anteriormente à migração não havia variação genética nas sub-populações e toda a variação se resumia à entre sub-populações. Após muitas gerações de migração, toda a variação genética existe nas sub-populações e nenhuma entre elas.

Uma ligeira modificação da equação (3.15) pode ser usada para se estimar a proporção de ancestralidade das duas populações que eram ancestrais à população descendente. Damos exemplos de tais aplicações quando discutimos a análise da estrutura populacional no Capítulo 12.

Forças Combinadas

Considerámos as quatro forças evolucionarias (e as não evolucionarias de acasalamento preferencial e consanguíneo) separadamente. De facto, as forças ocorrem normalmente em cadeia, com duas ou mais forças compensando-se entre si ou com uma ou mais forças formando uma base para uma força subsequente. Sewal Wright (1977, 454-455) forneceu uma descrição sucinta dum modelo evolutivo que incorpora todas as quatro forças evolutivas, e Templeton (1982) forneceu um bom resumo. O modelo de Wright, que é referido como Teoria do Deslocamento Balanceado (Shifting Balance Theory), postula que a mutação criará novos alelos e que a selecção opera posteriormente por forma a aumentar a aptidão média da população. Na Figura 3.7, olhámos para apenas dois alelos num único locus, mas Wright visionou muitos loci afectando a aptidão. Para dois loci a curva na Figura 3.7 torna-se numa superfície, enquanto para mais de dois loci a curva torna-se numa “hipersuperfície” que não podemos desenhar. A selecção leva a população “para cima” para o local de mais alta aptidão. Porque a selecção não pode levar a população “para baixo”, a população não se pode mover para um pico de aptidão mais elevado se tal envolver a passagem por um “vale” de aptidão. A deriva genética aleatória, é no entanto cega perante a superfície de aptidão, podendo desta forma mover a população pelo “vale” para o início duma nova curva ascendente de aptidão. Nesta altura, a selecção levará a população ao topo dum novo pico de aptidão. Uma vez atingido pela população, terá uma média superior de aptidão, o que se traduz em crescimento populacional. O crescimento populacional exerce tal pressão que alguns indivíduos terão de migrar para fora dela, e quando o fazem, carregam consigo a nova configuração de alelos para outras populações. Os novos alelos podem ser os suficientes para “impelir” essas outras populações ao longo do “vale” de aptidão e iniciarem o caminho selectivo em direcção ao novo pico de aptidão. O resultado final desta combinação de mutação, selecção, deriva e migração, é um padrão muito fluido de evolução com instantes de “deslocamento balanceado”.

A matemática destas três ou mais forças exercidas em simultâneo podem ser significativamente complexas, assim, no fim deste capítulo olharemos para alguns exemplos de pares de forças interagindo. O nosso primeiro exemplo é o da combinação simultânea entre a consanguinidade e a deriva. A equação (3.7) dá uma estimativa individual da consanguinidade, da qual se pode obter a média da sub-população para se obter F_IS. Similarmente, a equação (3.14) dá a probabilidade de IBD (Identity By Descent – Identidade por Descendência) nas gerações anteriores. Esta última probabilidade (F_ST) é a medida da deriva. Para se combinar a consanguinidade com a deriva, calculámos a probabilidade de IBD nos indivíduos. Esta probabilidade é definida como relativa ao total da população, sendo escrita como F_IT. F_IT é a probabilidade de se obter alelos IBD num indivíduo devido à consanguinidade ou deriva. Temos de ser cautelosos ao aplicar aqui a regra “ou”, porque é possível para os alelos serem IBD devido tanto à consanguinidade como à deriva – i.e., não se tratam de eventos mutuamente exclusivos. Consequentemente, necessitamos de subtrair a “intersecção”, dando F_IT = F_IS + F_STF_IS.F_ST. Usualmente, F_IS é tão pequeno relativamente a F_ST que escolhemos ignorar o efeito da consanguinidade e considerar F_IT aproximadamente igual a F_ST.

Outro exemplo interessante da interacção das duas forças é aquele em que há deriva devido à subdivisão populacional mas também à migração entre as sub-populações. Neste caso, precisamos de ajustar a equação (3.14), que dá a probabilidade IBD para dois alelos na sub-população, para que esta se restrinja ao facto do alelo não ter podido migrar de ou para outra sub-população. A probabilidade de nenhum alelo ser migrante é a probabilidade do primeiro e do segundo não o serem, ou (1 – m)^2. Resumindo, temos a equação (3.14) que dá o seguinte:

Na Figura 3.21, representou-se F_ST ao longo do tempo para o caso onde N = 100 e m = 0,02 (i.e., 2 em cada 100 indivíduos numa sub-população migram em cada geração). A deriva funciona como redutor da heterozigosidade total, mas a migração funciona como restaurador dessa heterozigosidade. Como resultado, F_ST não aumenta para 1,0 mas em vez disso, atinge um baixo equilíbrio de cerca de 0,11. Neste modelo, assumimos um número infinito de sub-populações, e assumimos igualmente que o migrante está igualmente predisposto a migrar para uma determinada sub-população como para qualquer outra. Por outras palavras, no modelo não existe uma estrutura espacial para a migração, enquanto na população real, esta tipicamente não migra longas distâncias à procura de parceiros. No capítulo sobre a estrutura populacional (Capítulo 12), consideramos um modelo mais realista para a migração humana.

Sumário

Este capítulo apresentou modelos de genética populacional que irão ser úteis ao longo deste livro. Os modelos de genética populacional podem ser derivados recorrendo-se a uma mera teoria probabilística, e em particular, o que referimos de regra “ou” e “e”. A regra “ou” diz que a probabilidade de um “ou” outro evento ocorrerem é igual à soma da probabilidades individuais. A regra “e” diz que a probabilidade de um “e” outro evento ocorrerem é igual ao produto das probabilidades individuais, desde que tais eventos sejam independentes. Destas regras podemos facilmente chegar às previsões de Hard-Weinberg, que representa as frequências esperadas do genótipo dadas as frequências de alelo. Apesar da maioria dos textos introdutórios considerarem exclusivamente loci com apenas dois alelos, a regra “e” e “ou” pode ser facilmente aplicada a qualquer número de alelos num dado locus. Pode igualmente ser demonstrado (tanto através dum exemplo como de alguma álgebra), que requer uma única geração aos genótipos para convergirem às expectativas de Hardy-Weinberg se não partirem inicialmente delas, e que as frequências de alelos não se alterarão. Porque nem as frequências de alelos nem o genótipo mudam, podemos referir-nos à população como sendo um “equilíbrio” Hardy-Weinberg. Este estado evolucionário é o cenário relativamente ao qual podemos observar derivas do equilíbrio de Hardy-Weinberg, e assim o processo da evolução genética (mudança nas frequências de alelos).

Antes de olharmos para o processo que altera as frequências de alelos, precisamos de resumir alguns casos especiais onde as frequências genotópicas não se encontram num equilíbrio de Hardy-Weinberg mas no entanto as frequências de alelos não se alteram. No acasalamento assortativo (positivo), existem menos heterozigotos do que aqueles previstos por Hardy-Weinberg, mas a população mantém as frequências de alelos constantes. Similarmente, com a consanguinidade existe uma redução no número de heterozigotos, mas mais uma vez as frequências de alelos mantêm-se inalteradas. O acasalamento assortativo e consanguíneo diferem das verdadeiras quatro forças evolutivas, que não causam apenas desvios das expectativas de Hardy-Weinberg mas levam igualmente à mudança da frequência de alelos. A primeira força consiste na mutação, que pode claramente aumentar ou diminuir a frequência de alelos. Tipicamente, a mutação ocorre a um rácio muito baixo para poder ser uma força condutora na evolução, mas a mutação é crítica para toda a evolução subsequente, fornecendo o material base para novos alelos. A selecção natural, a segunda força a considerar, pode aumentar ou diminuir as frequências de alelos, e quando combinado com a mutação pode ser uma poderosa força evolutiva. A deriva genética e a migração são a terceira e quarta forças evolutivas respectivamente a considerar. Nenhuma força tem um efeito previsível no que diz respeito ao aumento ou diminuição duma particular frequência de alelos, mas ambas afectam a estrutura da variação genética e lideram divergências do equilíbrio de Hardy-Weinberg.


Referências suplementares:

0 - Human Biological Variation, James H. Mielke, Lyle W. Konigsberg and John H. Relethford.

Lewis P O and Zaykin D (2001) Genetic data analysis: Computer program for the analysis of allelic data. Version 1.0 (d16c). Free program distributed by the authors over the Internet, http://lewis.eeb.uconn.edu/lewishome/software.html. GDA is a program for analyzing population genetics data.

Schneider S, Roessli D, and Excoffier L (2000) Arlequin ver. 2.000: A software for population genetics analysis. Geneva: Genetics and Biochemetry Laboratory, University of Geneva, Switzerland, http://anthro.unige.ch/arlequin. Arlequin is a general program for analyzing population genetics data.

http://konig.la.utk.edu/relethsoft.html. Site for downloading Micro, a computer simulation of evolutionary processes.

http://ucsu.colorado.edu/~lemmon/EvoTutor/EvoGen/EG1A.html. An online Java-based simulation of evolutionary processes.

http://www.modares.ac.ir/elearning/mnaderi/Genetic%20Engineering%20course%20II/Pages/history_of_genetics2.htm. A site with a very brief history of Reginald Crundall Punnett of Punnett square fame, which also points out his contribution to the development of the Hardy-Weinberg law (he brought the problem to G. H. Hardy's attention).

terça-feira, 16 de setembro de 2008

A rede humana de contactos sexuais

Indivíduos promíscuos são nós vulneráveis a abordar nas campanhas sobre sexo seguro.(0)

Ao contrário das redes bem definidas do “mundo real”(1), as redes sociais tendem a ser de alguma forma subjectivas(2,3), porque a percepção do que constitui uma ligação social pode diferir entre indivíduos. No entanto, o contacto sexual é um tipo de ligação inequívoca, e aqui analisamos o comportamento sexual duma amostra aleatória de indivíduos(4) para revelar as características matemáticas da rede de contactos sexuais. Descobrimos que a distribuição acumulada do número de parceiros sexuais distintos num ano decresce segundo a lei potencial de livre-escala, com expoente similar tanto para homens como para mulheres. A natureza de livre-escala da rede humana de contactos sexuais, indica que a estratégia das campanhas sobre sexo seguro, poderão bem ser um meio mais eficiente na prevenção do disseminar de doenças sexualmente transmissíveis.

Muitas das redes do mundo real(1) tipificam o fenómeno do pequeno mundo(5), assim chamado devido à surpreendente pequena distância média das interligações entre nós(6,7), na presença de elevados níveis de agrupamento(3,6) (Fig. 1). As redes de pequeno-mundo são classificadas como sendo de única-escala, larga-escala e livre-escala, dependendo da distribuição das suas ligações, P(k), onde k é o número de ligações associadas ao nó(8). A rede de livre-escala, que se caracterizam pela lei potencial inversa da distribuição acumulada , pode-se formar como consequência da ligação-preferencial entre nós bastante interligados (9,10).


Figura 1 – É um mundo pequeno: As redes sociais têm uma distância média entre ligações pequena e revelam alto nível de agrupamento. Pintado por Idahlia Stanley.

Analisamos os dados reunidos numa pesquisa sueca relativa ao comportamento sexual em 1996(4). A pesquisa envolveu uma amostra aleatória de 4.781 suecos (de idades entre os 18 e 74 anos), recorrendo-se de entrevistas pessoais e questionários. O nível de resposta foi de 59%, correspondendo a 2.810 participantes. Duas análises independentes dos erros de não resposta, revelaram que pessoas mais idosas, particularmente mulheres, estão pouco representadas na amostra, apesar desta distorção, a amostra é representativa em todas as dimensões demográficas.

As ligações na rede de contactos sexuais, aparecem e desaparecem à medida que as ligações vão sendo iniciadas e terminadas. Para se investigar as conectividades desta rede dinâmica, na qual ligações podem ter uma vida curta, analisamos primeiro o número, k, de parceiros sexuais ao longo dum período curto de tempo – os 12 meses anteriores ao estudo. A figura 2a mostra a distribuição acumulada de P(k), para os participantes femininos e masculinos. Os dados seguem de perto a linha recta representativa do duplo logaritmo, o que é consistente com a dependência da lei potencial. Os participantes masculinos reportam um maior número de parceiros sexuais que os femininos(11), mas ambos mostram as mesmas propriedades escalonares.


Figura 2 – A distribuição de livre-escala do número de parceiros sexuais femininos e masculinos. a, Distribuição do número de parceiros, k, nos 12 meses anteriores ao estudo. Note o elevado número médio de parceiros para participantes masculinos: esta diferença pode dever-se a “resultados tendenciosos” - expectativas sociais podem levar os participantes masculinos a exagerar no número de parceiros sexuais. Note-se que ambas as distribuições são lineares, indicando comportamento segundo a lei potencial de livre-escala. Além disso, as duas curvas são aproximadamente paralelas, indicando semelhantes expoentes escalares. Para participantes femininos, no intervalo de , e para participantes masculinos no intervalo de . b, Distribuição do número total de parceiros ao longo da vida inteira dos participantes. Para participantes femininos, no intervalo de , e para participantes masculinos no intervalo de . As estimativas para participantes femininos e masculinos correlacionam-se dentro da incerteza estatística.

Estes resultados contrastam com a distribuição exponencial ou gaussiana – para a qual há uma bem definida escala – existentes nas redes de amizade(8). Explicações plausíveis para a estrutura da rede de contactos sexuais aqui descrita, incluem, o aumento de habilidade na aquisição de novos parceiros à medida que o número de antigos parceiros aumenta, vários níveis de atractividade, e a motivação para se ter novos parceiros por forma a sustenta a auto-imagem. Os nossos resultados são consistentes com o mecanismo de associação-preferencial das rede de livre-escala: evidentemente, nas redes de contactos sexuais, tal como noutras redes de livre-escala, “o rico fica mais rico”(9,10).

De seguida, analisamos o número total de parceiros, , na vida do participante até à data do presente estudo. Este valor não é relevante para a estrutura instantânea da rede, mas pode ajudar na percepção dos mecanismos responsáveis pela distribuição do número de parceiros. A figura 2b mostra a distribuição acumulada, : para , os dados seguem uma linha recta num gráfico duplamente logarítmico, o que é consistente com a dependência da lei potencial nas caudas da distribuição.

A nossa descoberta mais importante, é a natureza de livre-escala da conectividade duma objectivamente definida e não profissional rede social. Este resultado indica que o conceito do “grupo nuclear” considerado nos estudos epidemiológicos(12) devem ser arbitrários, porque não há um limite ou fronteira bem definida que separe o grupo nuclear doutros indivíduos (como haveria para uma distribuição bimodal).

Os nossos resultados podem ter implicações epidemiológicas, visto as epidemias aparecerem e se propagarem mais rapidamente em redes de livre escala do que nas de única escala(6,13). Igualmente, as medidas adoptadas para conter ou parar a propagação de doenças na rede, têm de ser radicalmente diferentes para as redes de livre escala. As redes de única escala não são susceptíveis a ataque mesmo nos nós mais interligados, enquanto as redes de livre escala, apesar de resilientes a falha aleatória, são muito susceptíveis à destruição dos nós melhor ligados(14). A possibilidade da rede de contactos sexuais ter uma estrutura de livre escala, indica que, a estratégia das campanhas educativas sobre sexo seguro ao se focarem nos indivíduos com elevado número de parceiros, pode reduzir significativamente a propagação de doenças sexualmente transmissíveis.

Referências:

0 - Fredrik Liljeros, Christofer R. Edling1, Luís A. Nunes Amaral, H. Eugene Stanley & Yvonne Åberg, Nature 411, 907-908 (21 June 2001), The web of human sexual contacts.
1 - Azuma M, Enlow DH, Frederickson RG, Gaston LG (1975): A myofibroblastic basis for the physical forces that produce tooth drift and eruption, skeletal displacement at sutures, and periosteal migration. In: McNamara JA, ed., Determinants of Mandibular Form and Growth. Center For Human Growth and Development, Monograph No. 4, Craniofacial Growth Series, Ann Arbor: University of Michigan Press, pp. 179-207.
2 - Kochen, M. (ed.), The Small World (Ablex, Norwood, NJ, 1989).
3 - Wasserman, S. & Faust, K. Social Network Analysis (Cambridge University Press, Cambridge, 1994).
4 - Lewin, B. (ed.), Sex i Sverige. Om sexuallivet i Sverige 1996 [Sex in Sweden. On the Sexual Life in Sweden 1996] (National Institute of Public Health, Stockholm, 1998).
5 - Milgram, S. Psychol. Today 2, 60-67 (1967).
6 - Watts, D. J. & Strogatz, S.H. Nature 393, 440-442 (1998).
7 - Barthélémy, M. & Amaral, L. A. N. Phys. Rev. Lett. 82, 3180-3183 (1999).
8 - Amaral, L. A. N., Scala, A., Barthélémy, M., & Stanley, H. E. Proc. Nat. Ac. Sci USA 97, 11149-11152 (2000).
9 - Simon, H. A. Biometrika 42, 425-440 (1955).
10 - Barabási, A.-L. & Albert, R. Science 286, 509-512 (1999).
11 - Laumann, E. O., Gagnon, J. H., Michael, R. T. & Michaels, S. The Social Organization of Sexuality (University of Chicago Press, Chicago, 1994).
12 - Hethcote, H. W. & Yorke, J. A., Gonorrhea Trasmission Dynamics and Control (Springer Verlag, Berlin, 1984).
13 - Pastor-Satorras, R. & Vespignani, A. Phys. Rev. Lett. 86, 3200-3203 (2001).
14 - Albert, R., Jeong, H., & Barabási, A.-L. Nature 406, 378-382 (2000).

domingo, 6 de julho de 2008

A vida social dos Routers

Traduzido de The Social Life of Routers (0), retirado de orgnet.com.

Introdução

Esquecemos-nos frequentemente que a rede de computadores foi desenvolvida para suportar as já existentes redes humanas - trocas entre pessoas, de informação, conhecimento, ideias, opiniões, visões, e conselhos. Neste texto, olha-se para a tecnologia que foi desenvolvida para descrever e medir as redes humanas – análise de redes sociais – e aplicam-se alguns dos seus princípios e algoritmos no desenho de redes informáticas. À medida que vemos mais modelos de redes peer-to-peer (P2P) baseadas em redes informáticas, as métricas P2P na análise das redes humanas tornam-se ainda mais aplicáveis.

Analistas de redes sociais, vêm sistemas humanos complexos como um sistema interligado de nós (pessoas ou grupos) e laços (relações e fluxos) – muito à semelhança das interligações de routers e links. As redes humanas são normalmente não planeadas, são sistemas emergentes. O seu crescimento é esporádico e auto organizacional (1). Os laços na rede acabam por ser desigualmente distribuídos, com algumas áreas da rede densamente ligadas e outras ligeiramente ligadas. Estas são chamadas de “redes de pequeno mundo” (2). As redes de computadores apresentam normalmente padrões semelhantes de ligações – interligações densas nas subredes, e ligeiras ligando subredes numa rede mais vasta.

Investigadores e consultores de redes sociais focam-se na geodésica – caminho mais curto na rede. Muitos dos actuais algoritmos de redes sociais, baseiam-se num ramo da matemática chamado de teoria dos grafos. Cientistas das redes sociais têm concentrado o seu trabalho, e desta forma os seus algoritmos, nas seguintes áreas:

  • Centralidade do nó individual dentro da rede mais vasta – dependência da rede e tráfego de routers individuais;

  • Distribuição final de caminhos – boa ligação sem excessivas tabelas de roteamento;

  • Melhoria no fluxo de comunicação dentro e entre grupos – desenho de melhores topologias;

  • Padrões na rede envolvendo ego redes – estratégias para a análise e manipulação individual de ligações;

  • Análise de fluxos comportamentais da organização cliente – como as redes informáticas podem suportar redes humanas.

Um dos métodos usados na compreensão de redes e dos seus participantes, é o da avaliação da localização dos seus actores. Medir a localização da rede é o mesmo que determinar a centralidade do nó (3). Todas as medições da rede discutidas aqui, baseiam-se na geodésica – o caminho mais curto entre quaisquer dois nós. Iremos analisar a rede social, chamada de kite network, que mostra efectivamente a distinção entre as três medidas de centralidade mais populares – os AIPs (ABCs) – Actividade, Intermedialidade, e Proximidade (Activity, Betweenness, and Closeness).

Este modelo (4) foi primeiramente desenvolvido por David Krackhardt, um investigador pioneiro em redes sociais.

Actividade

A figura 1 mostra uma rede social simples. Uma ligação entre um par de nós, descreve um fluxo bidireccional de informação ou a partilha de conhecimento entre dois indivíduos. Os investigadores das redes sociais medem a actividade da rede para um nó recorrendo ao conceito de graus – o número de ligações directas que um nó tem.


Figura 1 - Rede humana

Nesta rede humana, Diane tem o maior número de ligações directas na rede, fazendo dela o nó mais activo na rede, com a maior contagem de grau. O senso comum em redes sociais é “quanto mais ligações melhor”. Isto nem sempre é verdade. O que realmente importa é o destino dessas ligações – e como elas ligam o que de outra forma estaria desligado! (5) Aqui, Diane está ligada apenas aos que se encontram no grupo imediato – o seu clã. Ela liga-se apenas aqueles que se encontram previamente ligados entre si – terá ela muitas ligações redundantes?

Intermedialidade

Enquanto Diane tem muitas ligações directas, Heather tem poucas – menos do que a média na rede. No entanto, de muitas formas, ela está numa das melhores localizações da rede – ela é a chave inglesa fronteiriça, e interpreta o papel de corretor. Ele está entre dois importantes constituintes, numa tarefa igual ao de um router de fronteira. As boas notícias são as de ela interpretar um importante papel na rede, as más notícias são as de se tratar dum ponto singular de falha. Sem ela, Ike e Jane estarão arredados da informação e conhecimento no grupo de Diane.

Proximidade

Fernando e Garth têm menos ligações que Diane, no entanto, o padrão dos seus laços permite o acesso a todos os nós da rede mais depressa que qualquer outro. Eles têm os caminhos mais curtos para todos os outros – eles estão próximos a qualquer outro. Maximizando a proximidade entre todos os routers, melhora a actualização e minimiza o número de saltos. Maximizando a proximidade de apenas um ou alguns routers, leva a resultados contraproducentes, tal como examinaremos mais a baixo.

A sua posição demonstra que no que diz respeito a ligações na rede, qualidade supera quantidade. Localização, localização, localização – a regra douro do mercado imobiliário também funciona nas redes. No imobiliário é a geografia – a sua vizinhança física. Nas redes, é a sua localização virtual determinada pelas ligações da rede – a sua vizinhança na rede.

Centralidade da rede

Centralidades individuais na rede, são reveladoras da localização individual na rede. A relação entre a centralidade de todos os nós pode ser bastante reveladora da estrutura da rede. Uma rede muito centralizada é dominada por um ou poucos nós muito centrais. Se esses nós forem removidos ou danificados, a rede depressa se fragmenta, em subredes desconectadas. Nós muito centralizados podem-se tornar pontos críticos de falha. Uma rede de baixa centralidade não é dominada por um ou poucos nós – tal rede não possui pontos singulares de falha. É resiliente face a muitas das falhas locais. Muitos nós ou ligações podem falhar, continuando a permitir que os restantes nós comuniquem entre si através de novos caminhos.

Distância média na rede

Quanto mais curto o caminho, menos passos/saltos são necessários para se ir dum nó para outro. Nas redes humanas, caminhos curtos significam rápida comunicação com pouca distorção. Nas redes informáticas, a degradação do sinal e o atraso não normalmente uma questão. No entanto, uma rede com muitos caminhos curtos ligando todos os nós será mais eficiente no transporte de informação e na reconfiguração após uma mudança de topologia.

A distância média na rede está fortemente correlacionada com a proximidade ao longo da rede. Enquanto a proximidade entre os nós (proximidade média), melhora igualmente a distância média na rede.

Topologia de rede

No recente livro de implementação de redes, Advanced IP Network Design (6), os autores definem uma topologia bem definida como a base para uma rede estável e robusta. Mais à frente propõem que “três objectivos contraditórios deverão ser balanceados numa bom desenho de rede”:

  • Redução do número de saltos;

  • Redução do número de caminhos disponíveis;

  • Aumento do número de falhas que a rede pode suportar.

Os nossos algoritmos de rede podem ajudar na medição e no encontro destes objectivos.

  • Reduzindo o número de saltos induz-se a minimização da distância média na rede – maximizando a proximidade entre cada nó;

  • A redução do número de caminhos leva à minimização do número da geodésicas na rede;

  • Aumentando o número de falhas que a rede pode resistir, focando-se na minimização da centralidade de toda a rede.

Nas seguintes linhas, examinaremos vária topologias de rede, e avaliaremos-as recorrendo à unidade de medição das redes sociais, enquanto relembramos os três objectivos antagónicos de dimensionamento de redes.

Os modelos que iremos examinar não cobrem estruturas hierárquicas – com núcleo, distribuição, e níveis de acesso – que se encontram nas redes de centenas ou milhares de routers. Examinaremos topologias simples e não hierárquicas, tais como as que se encontram em pequenas redes informáticas, subredes locais, ou com os backbones. As topologias abordadas são as mais comuns – Estrela, anel, ligação total (full mesh), ligação parcial (partial mesh). Calcularemos os valores das redes sociais em cada uma das topologias e discutiremos como estes valores nos ajudam a atingir os objectivos descritos anteriormente.

Topologia de estrela

A topologia de estrela, presente na figura 2, tem muitas vantagens – mas uma falha importante. As vantagens incluem facilidade de gestão e configuração para administradores de redes. Para esta topologia, os três objectivos definem-se da seguinte maneira:

  • Redução da contagem de passos: O caminho mais curto (1,75) ao longo da rede atinge bem o objectivo. Qualquer router pode chegar a qualquer outro router em dois passos ou menos;

  • Redução do número de caminhos: O facto de haver um número mínimo de caminhos disponíveis (56) para se chegar a qualquer nó – não sobrecarregará as tabelas de routeamento, nem causará atrasos durante as suas actualizações. Necessita apenas de sete ligações bidireccionais para se criarem caminhos disponíveis;

  • Redução de falhas de rede: A rede falha de forma miserável se o router A for abaixo. Igualmente, qualquer falha de ligação isola o router associado – Não existem múltiplos caminhos para se chegar a cada router.


Figura 2 - Routers na topologia de estrela

O router A não é apenas um ponto singular de falha – é também um ponto de estrangulamento – ficará provavelmente sobrecarregado com o fluxo de pacotes e actualizações de tabelas, à medida que mais routers venham a ser adicionados à estrutura de estrela.

O router A recebe a maior pontuação (1,000) para a Actividade, Intermedialidade, e Proximidade. Como resultado, a rede está muito centralizada à volta do router A da perspectiva de todas as medições.

Topologia de anel

A topologia de anel, presente na figura 3, é uma melhoria relativamente à de estrela. Tem algumas das mesmas vantagens, mas não elimina todas as desvantagens das de estrela. As vantagens incluem facilidade de gestão e configuração para os administradores de redes – adicionar outro router é muito simples. Ao contrário da topologia de estrela, a de anel providencia alguma redundância e, desta forma, elimina a falha de ponto único – todos os nós têm um caminho alternativo pelo qual se podem fazer comunicar. Mesmo assim, continua vulnerável à falha de duas ligações ou routers. Para esta topologia, os três objectivos definem-se da seguinte maneira:

  • Redução da contagem de passos: A distância média de 2,5 é bastante longa para uma rede pequena de oito nós. Alguns routers (ou seja, A e E) requerem quatro passos para comunicarem! Muitos níveis físicos do anel escondem esta complexidade dos níveis IP por forma a tornarem estes passos invisíveis para os protocolos de routeamento;

  • Redução do número de caminhos: Esta configuração tem uma geodésica maior (64) que a em estrela, no entanto não suficientemente maior para sobrecarregar as tabelas de routeamento, ou causar atrasos durante a sua actualização;

  • Redução de falhas de rede: Mesmo que a centralização da rede seja minimizada (nenhum nó é mais central que outro), esta rede falha depressa devido à sua fraca redundância. A topologia de anel pode suportar a falha duma ligação ou router e continuar a ser uma rede contínua. Duas falhas simultâneas podem criar segmentos inacessíveis devido à falta de redundância.


Figura 3 - Routers na topologia de anel

A maioria das tecnologias de anel, tais como a Synchronous Optical Network (SONET) ou a da Cisco Dynamic Packet Transport Protocol (DPT) adicionam uma certa redundância recorrendo-se dum duplo anel que se cura a si próprio se uma ligação for cortada. A rede “encapsula” por forma a evitar a linha cortada e opera a velocidades mais baixas. Um caminho de dois passos pode tornar-se num de seis se uma única ligação falhar. Isto pode causar congestionamento na rede, caso o anel duplo original esteja a ser usado no transporte de informação em ambos os sentidos.

Topologia de ligação total

A topologia de ligação total tem importantes vantagens e falhas. As vantagens incluem curta distância (um passo) para todos os outros routers e máxima resiliência a falhas caso ligações ou routers comecem a falhar. As desvantagens envolvem a complexidade criada por esta topologia. Para a topologia de ligação total, os três objectivos definem-se da seguinte maneira:

  • Redução da contagem de passos: O caminho mais curto possível é conseguido em todas as rotas – todos os nós podem-se contactar num único passo;

  • Redução do número de caminhos: Existe um número mínimo possível de caminhos disponíveis (56) para se chegar a todos os nós. As entradas de routeamento não sobrecarregarão as tabelas de routeamento, ou causarão atrasos durante a sua actualização;

  • Redução de falhas de rede: A rede não depende exclusivamente de nenhum nó (centralização = 0,000). Esta configuração representa a mais robusta topologia disponível – são poucas a hipóteses dum número simultâneo de falhas para que a rede se fragmente.


Figura 4 - Routers na topologia de ligação total

As desvantagens da topologia de ligação total centram-se numa importante falha – existem demasiadas ligações físicas. Se os routers estiverem muito distantes, o custo da ligação pode-se tornar de forma rápida proibitivamente caro, devido à explosão geométrica de ligações necessária ao adicionar de routers – brevemente os routers não teriam portas suficientes para suportarem esta topologia. Gerir este sistema e manter o mapa da topologia actualizado torar-se-ia cada vez mais complexo à medida que se adicionariam routers. A rede ilustrada na figura 4, tem 28 ligações bidireccionais. Dobrando o número de routers nesta topologia, a contagem de ligações sobe segundo um factor maior do que 4.

Topologia de ligação parcial

A topologia de ligação parcial é bastante diferente. É a mais difícil de implementar – não há nenhuma regra simples a seguir (regra para a de estrela: ligar todos ao router A; regra para a de ligação total: ligar todos a todos). Se incorrectamente implementada, a disposição desta topologia pode revelar muitas das desvantagens das topologias anteriores sem muitos dos seus benefícios. Caso seja implementada correctamente, o oposto será verdade – mais vantagens, menos desvantagens.

A implementação bem sucedida duma topologia deste género, é onde o uso iterativo das medidas da nossa rede social ganham vida. O desenho abaixo envolveu várias iterações. Para cada iteração, a distância média baixou até um plano, a partir do qual, posteriores alterações não baixaram a contagem de passos sem um aumento significativo de ligações físicas. Para a topologia de ligação parcial, os três objectivos definem-se da seguinte maneira:

  • Redução da contagem de passos: A média do caminho mais curto (1,667) na rede satisfaz bem este objectivo. Qualquer router pode chegar a qualquer outro em dois passos ou menos. A distância do caminho é menor que a das topologias em estrela ou anel.

  • Redução do número de caminhos: O número de caminhos operacionais na rede (72) é o maior de todas as topologias, apesar de não significativamente maior que o da topologia de anel. À medida que o número de nós na rede aumenta, isto pode-se tornar num problema – A ralação entre a distância média e o número de caminhos, necessita de ser observada de perto;

  • Redução de falhas de rede: A centralidade da rede (0,000) é a mesma que a da topologia de ligação total – nenhum router ou ligação, são mais importantes que qualquer outro. À medida que nós e ligações são removidas desta rede, esta não se fragmenta imediatamente. São poucas as hipóteses dum número simultâneo de falhas necessárias à fragmentação da rede. Apesar de termos optimizado a centralidade desta pequena rede, não podemos esperar o mesmo para redes reais. No entanto, o objectivo fixa-se em manter esta métrica o mais pequena possível.

Esta topologia, presente na figura 5, foi implementada com base na de anel – uma arquitectura simples. Uma ligação foi adicionada e a rede foi reavaliada. Seria esta estrutura melhor que a anterior? Assim sendo, manteve-se a actual estrutura e outra ligação foi adicionada, sendo a rede reavaliada novamente. Este processo iterativo foi continuado até não se conseguirem mais melhorias após várias mudanças. Este processo não garante uma solução óptima, no entanto converge rapidamente para uma boa solução – mesmo em redes grandes há uma melhoria rápida só com mais alguma ligações.


Figura 5 - Routers na topologia de ligação parcial

Um aspecto estranho das redes é o de às vezes poder-se subtrair adicionando – adicionando uma ligação à rede, pode-se reduzir a distância média. Às vezes, o oposto também é verdade. Pode-se adicionar subtraindo – remover uma ligação e observar a média de passos aumentar. No entanto, nunca se sabe com certeza qual o efeito de se adicionar ou reduzir uma ligação – não se trata dum fenómeno linear ou local. A dimensão e direcção destas alterações dependem da topologia existente e da localização da ligação adicionada ou removida. É essencial ter-se um modelo que permita conclusões rápidas relativas a várias hipóteses do tipo “e se”.

Experimentemos a remoção de ligações aleatoriamente – uma situação similar à de falha de ligações. Se remover-mos a ligação entre o router A e o router H na figura 5, o número de geodésicas na rede aumenta de 72 para 76, e a distância média aumenta para 1,815. No entanto, removendo uma ligação diferente, G para F, reduz o número de geodésicas na rede de 72 para 66, enquanto a distância média aumenta somente para 1,727. Se nos preocuparmos com o excesso de caminhos na rede, podemos remover outra ligação, B para C. Isto irá diminuir o número de caminhos mais curtos para 60, reduzindo desta forma as ligações físicas para 10. Isto é muito semelhante aos 56 caminhos na muito eficiente topologia de estrela. Onde a de estrela é muito vulnerável devido ao seu singular ponto de falha, esta topologia de ligação parcial, com as duas ligações removidas, mantém-se robusta. Enquanto o número de geodésicas cai, a distância média sobe ligeiramente para 1,80 com a remoção da segunda ligação. A figura 5 não possui caminhos com mais do que dois passos. Com as duas ligações (G para F, B para C) removidas, temos agora 8 geodésicas de três passos, enquanto ao mesmo tempo 12 geodésicas menos para serem inseridas nas tabelas de routeamento, e duas ligações físicas a menos. Trata-se duma constante negociação.

Backbone da NSFnet

A rede backbone da NSFnet, ilustrada na figura 6, ligava os centros de super-computação nos EUA em 1989. Trata-se duma rede de topologia de ligação parcial, que funciona como um exemplo real para testar os nossos algoritmos da rede social.


Figura 6 - NSFnet em 1989

Lembremo-nos das nossas metas antagónicas para um bom desenho de redes.

  • Reduzir a contagem de passos: comprimento médio em passos;

  • Reduzir os caminhos disponíveis: total de geodésicas na rede;

  • Aumentar o número de falhas que a rede pode resistir: centralidade da rede.

O que acontece a esses objectivos à medida que experimentamos falhas nas ligações ou nos nós da rede? A tabela 1 mostra as métricas base da figura 6 e depois mostra o que acontece a essas métricas, e aos nossos objectivos, quando cinco falhas diferentes ocorrem.


Tabela 1 - Falhas possíveis de ligações e nós

A mais destrutiva foi a falha de ligação 4 – a falha de ligação entre NCSA e PSC. Esta ligação une dois dos nós mais centrais da rede. Se os fluxos entre nós forem distribuídos de forma igual, então esta ligação é uma das mais viajadas da rede.

A menos destrutiva foi a do nó 3 – a falha do nó em JVNC. De facto, esta falha melhorou a maioria das métricas! Removendo este nó da rede, o número de caminhos baixou significativamente, a centralidade baixou, o comprimento médio baixou ligeiramente, e o maior caminho mantém os quatro passos.

A topologia original da NSFnet é muito eficiente. Tentou-se duas diferentes estratégias para se melhorar a rede. A primeira estratégia envolveu a deslocação de ligações existentes, para ligar diferentes pares de routers. Nenhuma topologia alternativa obviamente melhor foi encontrada através do rearranjo das ligações entre routers. Não foi possível encontrar um desenho melhor que reduzisse tanto o número de geodésicas como o comprimento médio, sem aumentar significativamente o número de ligações físicas na rede.

A segunda estratégia é contra-intuitiva, no entanto as redes respondem bem as esta abordagem. Trata-se da abordagem “subtraindo adicionando”, descrita anteriormente. Adicionando novas ligações nos locais certos na rede, não só reduzimos as distâncias entre nós, como também, diminuímos o número de geodésicas na rede.

Porque os nós NSFnet têm um limite máximo de três vizinhos directos, começou-se por ligar os nós de grau dois. As opções de 1 a 3 mostram as várias combinações e o seu efeito na totalidade da rede. As melhorias são mínimas, no entanto, cada opção oferece vantagens específicas.

A opção 2 oferece mais melhorias que as outras.

  • A geodésica mais longa foi reduzida para três passos;

  • A distância média foi reduzida ao longo da rede;

  • O número de caminhos para os routers foi ligeiramente reduzido;

  • A centralidade da rede não aumentou suficientemente para afectar o número de falhas que a rede pudesse suportar.


Table 2 - Melhorias possíveis na rede

A melhoria na opção 2 (nova ligação: NW-SDSC) foi na realidade implementada na versão de 1991 da NSFnet – um exemplo excelente da dinâmica da abordagem “subtraindo adicionando”. As redes são sistemas complexos. Como a rede responde à mudança, baseia-se na distribuição e no padrão das ligações ao longo dela.

Conclusão

No mundo real, podemos não ter a flexibilidade de experimentar com o nosso modelo de rede como o fizemos nos exemplos anteriores. Haverão maiores constrangimentos. Os fluxos de informação na nossa organização podem requerer que pares específicos de routers tenham ligações directas – mesmo que essas ligações não sejam recomendadas pelos algoritmos que temos vindo a examinar. No entanto, quando tiver-mos as nossas ligações “como deve ser” no lugar, podemos experimentar com o posicionamento das ligações restantes, recorrendo às métricas das redes sociais para indicar quando se está perto duma topologia robusta e eficiente.

Dadas as “condições iniciais”, os métodos das redes sociais podem modular as nossas redes informáticas e proporem alterações de ligações (7) para formar uma topologia eficiente que tenha uma pequena contagem média de passos, sem demasiados caminhos, e com a redundância necessária.

Bibliografia

  1. – Valdis Krebs, The Social Life of Routers, Applying Knowledge of Human Networks to the Design of Computer Networks, The Internet Protocol Journal;

  2. - Krebs V., Visualizing Human Networks, Esther Dyson's Monthly Report, February 1996;

  3. - Watts D., Strogatz S., Collective Dynamics of Small World Networks, Nature, 4 June 1998;

  4. - Freeman L., Centrality in Social Networks: A Conceptual Clarification, Social Networks, No. 1, 1979;

  5. - Krackhardt D., Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, No. 35, 1990, page 351;

  6. - Burt, Ronald S., Structural Holes – The Social Structure of Competition, ISBN 0674843711, Harvard University Press, 1992;

  7. - Retana, A., Slice, D., White, R., Advanced IP Network Design, ISBN 1578700973, Cisco Press, 1999;

  8. Hagen G., Discussions with fellow network researcher, Guy Hagen, regarding combinatorial algorithms and models for recommending changes to improve the overall topology of a network.