0% encontró este documento útil (0 votos)

11 vistas79 páginas

Redes

El documento aborda la construcción y análisis de redes biológicas, contrastando la biología molecular con la biología de sistemas. Se definen conceptos clave como redes biomoleculares, grafos y sus propiedades, incluyendo el grado de nodos y el coeficiente de agrupamiento. También se discuten diferentes tipos de redes según su topología, como redes libres de escala y redes de mundo pequeño.

Cargado por

Erick Guzman

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

11 vistas79 páginas

Redes

Cargado por

Erick Guzman

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Construcción y Análisis de

Redes Biológicas
Francisco J. Romero Campero
http://www.cs.us.es/~fran/

Dpt. de Ciencias de la Computación e

Inteligencia Artificial
Universidad de Sevilla
Biología Molecular vs Biología de Sistemas
Reduccionismo vs Sistemas Complejos
Biología Molecular
Biología Molecular
de Sistemas
●
Aproximación reduccionista. ●
Aproximación integradora como
sistemas complejos.
●
Estudio de componentes
moleculares (genes, ●
Estudio de interacciones entre
proteínas, …) los componentes moleculares
(genes, proteínas, …)
●
Enfermedades
monogénicas. ●
Enfermedades complejas.
●
Ingeniería genética a un ●
Ingeniería genética a sistemas
único gen. reguladores génicos.
●
Ingeniería metabólica a una ●
Ingeniería metabólica a rutas
única enzima. metabólicas completas.
Redes Biomoleculares

Redes de interacción Redes metabólicas

entre proteínas

Redes de coexpresión génicas

Redes Biomoleculares
●
Una red es una representación de las interacciones que tienen
lugar entre las entidades que dan lugar a un fenómeno
estudiado.
– Los nodos representan las entidades genéricas que
constituyen el sistema (genes, proteínas, metabolitos,
etc).
– Las aristas entre distintos nodos indican que las
correspondientes entidades interactúan de alguna forma.
Definición de Red o Grafo (no dirigido)
Una red o grafo G es un par de conjuntos (V,E)
• V={v1,v2,....vn} es el conjunto de vértices o nodos.
• E={(vi,vj),(vi’,vj’)......} es un conjunto de pares no ordenados de
elementos de V.
• E se denomina conjunto de aristas de la red.
• El numero de nodos se denomina orden de la red.
• El número de aristas se denomina tamaño de la red.
Definición de Red o Grafo (no dirigido)
G = (V,E)
• V={1,2,....,27} es el
conjunto de vértices o
nodos.
Nodo • E={{1,5} , {2,6} , {5,6} ,
{6,7} , {5,9} , {5,10} ,
{6,10} , {7,10} , {3,10} ,
{4,8} , {8,10} , {14,10} ,
Arista {10,12} , {12,13} , {11,10} ,
{15,10} , {16,10} , {10,20} ,
{17,10} , {17,11} , {17,8} ,
{17,12} , {17,18} , {17,20} ,
{16,20} , {19,20} , {23,20} ,
{24,20} , {25,20} , {21,20} ,
{22,21} , {23,24} , {24,25} ,
{26,24} , {27,25}} son las
aristas de la red.
Definición de Red o Grafo Dirigido
En un grafo dirigido las aristas
tienen una dirección fija. Las
aristas se definen como pares
ordenados donde el primer nodo
es el origen de la arista y el
Nodo segundo el destino.
• E={(1,5) , (2,6) , (5,6) , (6,7) ,
(5,9) , (5,10) , (6,10) , (7,10) ,
(3,10) , (4,8) , (8,10) , (14,10) ,
Arista
(10,12) , (12,13) , (11,10) ,
(15,10) , (16,10) , (10,20) ,
(17,10) , (17,11) , (17,8) ,
(17,12) , (17,18) , (17,20) ,
(16,20) , (19,20) , (23,20) ,
(24,20) , (25,20) , (21,20) ,
(22,21) , (23,24) , (24,25) ,
(26,24) , (27,25)} son las aristas
de la red.
Definición de Red o Grafo Ponderado

En una red o grafo ponderado

cada arista tiene asociado un
peso o valor numérico que
Nodo representa una característica de
la correspondiente interacción.

Arista

-0.5

0.2 0.6
Especificación de redes o grafos
●
Dado una red o grafo G=(V,E) se puede especificar utilizando la matriz de adyacencia
A = (aij) tal que:

1 si y solo si {i,j} Є V
aij=
0 en otro caso

000010000000000000000000000
000001000000000000000000000
000000000100000000000000000
000000010000000000000000000
100001001100000000000000000
010010100100000000000000000
000001000100000000000000000
000100000100000000000000000
000010000000000000000000000
001011110010011100000000000
000000000100000010000000000
000000000000100010000000000
000000000001000000000000000

A= 000000000100000000000000000
000000000100000000000000000
000000000100000000010000000
000000000011000001010000000
000000000000000010000000000
000000000000000000010000000
000000000000000110101011100
000000000000000000010100000
000000000000000000001000000
000000000000000000010001000
000000000000000000010010110
000000000000000000010001001
000000000000000000000001000
000000000000000000000000100
Grado de un Nodo
●
Dos nodos de un grafo son
vecinos o adyacentes si existe
una arista que los conecta.
●
El grado de un nodo (node
Nodo degree) es el número vecinos
que tiene dicho nodo.
●
En los grafos dirigidos se calcula
el grado de entrada y el grado
Arista de salida.
●
Un grafo se dice que es regular
si todos los nodos tienen el
mismo grado.

Degree(27) = 1
Degree(20) = 8
Cálculo del grado de un nodo
000010000000000000000000000
000001000000000000000000000
000000000100000000000000000
000000010000000000000000000
100001001100000000000000000
010010100100000000000000000
000001000100000000000000000
000100000100000000000000000
000010000000000000000000000
001011110010011100010000000
000000000100000010000000000
000000000000100010000000000
000000000001000000000000000
A= 000000000100000000000000000
000000000100000000000000000
000000000100000000010000000
000000000011000001010000000
000000000000000010000000000
000000000000000000010000000
000000000100000110101011100
000000000000000000010100000
000000000000000000001000000
000000000000000000010001000
000000000000000000010010110
000000000000000000010001001
000000000000000000000001000
000000000000000000000000100
Cálculo del grado de un nodo
000010000000000000000000000
000001000000000000000000000
000000000100000000000000000
000000010000000000000000000
100001001100000000000000000
010010100100000000000000000
000001000100000000000000000
000100000100000000000000000
000010000000000000000000000
001011110010011100010000000
000000000100000010000000000
000000000000100010000000000
000000000001000000000000000
A= 000000000100000000000000000
000000000100000000000000000
000000000100000000010000000
000000000011000001010000000
000000000000000010000000000
000000000000000000010000000
8← 000000000100000110101011100
000000000000000000010100000
000000000000000000001000000
000000000000000000010001000
000000000000000000010010110
000000000000000000010001001
000000000000000000000001000
000000000000000000000000100
Coeficiente de agrupamiento
●
El coeficiente de agrupamiento
(clustering coefficient) de un nodo es una
medida local que refleja el nivel de
agrupamiento que existe entorno a un
nodo.
Nodo ●
Se calcula el número de vecinos del nodo
correspondiente dv = degree(v). Entre estos
vecinos el número máximo de aristas es
dv(dv – 1) / 2. Este valor corresponde al
mayor agrupamiento posible.
Arista
●
Se determina el número real de aristas
entre los vecinos de v Nv.
●
Se calcula el coeficiente de agrupamiento
como:

Nv
Cv=
d v (d v −1)
( )
2
Coeficiente de agrupamiento
●
Coeficiente de agrupamiento:

Nv
Cv =
d (d −1)
( v v )
2

0
C 21= =0
2(1)
( )
2
1
C 23= =1
2(1)
( )
2
4
C 20 = =0.14
8 (7)
( )
2
Definición de Paseo y Camino
●
Un paseo de un nodo u a un
nodo v es una secuencia de
nodos {v0,v1,....vk} con v1=u
vk=v y {vi-1,vi} rama del grafo.
Nodo ●
El número de aristas del paseo
es su longitud.
●
Un paseo en el cual todos los
Arista vertices {v0,v1,....vk} son
distintos se denomina camino.
●
Un camino mínimo entre dos
nodos es aquel de menor
longitud de entre todos los
posibles caminos entre ambos
nodos.
Extensión de propiedades de nodos a
propiedades globales de redes
●
Distribución del grado de nodos en un
grafo G=(V,E):

P(k) = mk / m donde

mk es el número de nodos de grado k

m es el orden de G

●
Coeficiente de agrupamiento medio de
un grafo G=(V,E):

1 m
CG= ∑ C
m i =1 i
Cálculo de la distribución
del grado de nodos
1← 000010000000000000000000000
1← 000001000000000000000000000 rowSums y hist
1← 000000000100000000000000000
1← 000000010000000000000000000
4← 100001001100000000000000000
010010100100000000000000000
000001000100000000000000000
000100000100000000000000000
000010000000000000000000000
001011110010011100010000000
000000000100000010000000000
000000000000100010000000000
000000000001000000000000000
A= 000000000100000000000000000
000000000100000000000000000
000000000100000000010000000
000000000011000001010000000
000000000000000010000000000
000000000000000000010000000
000000000100000110101011100
000000000000000000010100000
000000000000000000001000000
000000000000000000010001000
000000000000000000010010110
000000000000000000010001001
000000000000000000000001000
1← 000000000000000000000000100
Cálculo de la distribución
del grado de nodos
rowSums y hist
Extensión de propiedades de nodos a
propiedades globales de redes
●
Distribución del grado de nodos en un
grafo G=(V,E):

P(k) = mk / m donde

mk es el número de nodos de grado k

m es el orden de G

●
Coeficiente de agrupamiento medio de
un grafo G=(V,E):

1 m
CG= ∑ C
m i =1 i
Tipos de Redes según su Topología

●
Redes libre de escala: Dada una red
G=(V,E) diremos que es libre de escala si
su distribución del grado de nodos sigue
una distribución exponencial negativa.

−γ
P(k)=c∗k
La mayoría de los nodos de este tipo de
presentan un número pequeño de vecinos.
Sin embargo existen unos pocos nodos
destacados que tiene un alto número de
veciones esto tipo de nodos se denominan
hubs.

●
Redes de mundo pequeño: Dada una red
G=(V,E) diremos que es un mundo
pequeño si es una red libre de escala que
presenta un alto coeficiente medio de
agrupamiento.
En este tipo de rede los caminos entre
nodos es pequeño.
Determinación de Grafos Libres de Escala
Determinación de Grafos Libres de Escala
Determinación de Grafos Libres de Escala

Linear regression con lm

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.2144 0.1581 7.679 0.00155 **
log10(h[["mids"]]) -1.3402 0.2093 -6.403 0.00306 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1796 on 4 degrees of freedom

Multiple R-squared: 0.9111, Adjusted R-squared: 0.8889
F-statistic: 41 on 1 and 4 DF, p-value: 0.003056
Determinación de Grafos Libres de Escala
Linear regression con lm

Residual standard error: 0.1796 on 4 degrees of freedom

Multiple R-squared: 0.9111, Adjusted R-squared: 0.8889
F-statistic: 41 on 1 and 4 DF, p-value: 0.003056

La función de igraph power.law.fit que recibe

como entrada la distribución del grado de los
nodos nos permite realizar un análisis
estadístico basado en el test de Kolmogorov-
Smirnov sobre el ajuste de la topología de una
> network.degree.distribution <- degree.distribution(example.network)
red a la propiedad libre de escala. Esta función > fit.scale.free <- power.law.fit(network.degree.distribution)
devuelve un objeto donde el valor KS.p es el p- > fit.scale.free[["KS.p"]]
[1] 0.8990623
valor correspondiente a rechazar la hipotesis
nula que en este caso aserta que la red
estudiada es libre de escala. Por lo tanto, un
valor alto de KS.p indica la ausencia de
evidencia para afirmar que la red estudiada no
es libre de escala
Tipos de Redes según su Topología

●
Redes libre de escala: Dada una red
G=(V,E) diremos que es libre de escala si
su distribución del grado de nodos sigue
una distribución exponencial negativa.

Para comprobar si la longitud media del

camino mínimo entre nodos es lo
suficientemente pequeña como para
considerarla de mundo pequeño es común
generar redes libres de escala del mismo
orden y tamaño de la estudiada para
estimar la probabilidad de que por pura
aleatoriedad se obtenga una red similar a
la estudiada pero con una longitud media
del camino mínimo entre nodos inferior. La
función barabasi.game permite generar
redes libres de escala con el número de
nodos proporcionado en el argumento n.
Redes de Co-expresión Génica

●
Las redes de co-expresión génicas son un tipo de redes que
persiguen integrar información parcial obtenida en diferentes
experimentos o análisis de expresión génica. Típicamente se
basan en datos transcriptómicos masivos obtenidos utilizando
por ejemplo microarrays.

●
En una red de co-expresión génica los nodos representan
genes y las aristas entre nodos representan que los
correspondientes nodos se co-expresan en las distintas
muestras de los experimentos analizados.

●
La co-expresión entre genes suele medirse utilizan la
correlación entre sus perfiles de expresión.
Flujo de Trabajo para la Construcción de
Redes de Co-expresión Génica
Datos Transcriptómicos

●
Paso 1: Análisis de datos transcriptómicos
másivos: análisis de expresión diferencial.
Análisis de la correlación

●
Paso 2: Análisis de la correlación entre los perfiles
de expresión.
Matriz de Adyacencia

●
Paso 3: Construcción de la red: determinación de
la matriz de adyacencia.
Visualización de la Red

●
Paso 4: Visualización de la red.
Paso 1: Análisis de datos transcriptómicos másivos.
Análisis de la expressión diferencial
Datos Transcriptómicos

Análisis de la correlación

Matriz de Adyacencia

Visualización de la Red
Paso 2: Análisis de la correlación entre los perfiles de
expresión
Datos Transcriptómicos

●
El criterio seguido para determinar si dos genes se co-
expresan en las muestras de los distintos experimentos
estudiados se basa usualmente en la correlación entre sus
Análisis de la correlación
perfiles de expresión (niveles de expresión en las distintas
muestras).
●
Se distingue entre correlación positiva y negativa.

Matriz de Adyacencia

Visualización de la Red
Paso 2: Análisis de la correlación entre los perfiles de
expresión
Datos Transcriptómicos

cor ( per (g 1) , per (g 2))

Análisis de la correlación
{
coexpr ( g 1, g 2 )= ∣cor ( per (g 1) , per (g 2))∣
∣cor ( per ( g 1 ) , per (g 2 ∣
))
β

Matriz de Adyacencia

Visualización de la Red
Paso 3: Construcción de la red: determinación de
la matriz de adyacencia.
Datos Transcriptómicos

●
El paso crítico en la construcción de un red de co-expresión
génica consiste en seleccionar el umbral de corte, el valor
específico de correlación que asumimos es lo
Análisis de la correlación
suficientemente alto para suponer que ambos genes se
coexpresan.
●
Usualmente se busca un compromiso entre lograr un red
libre de escala y una alta conectividad.
Matriz de Adyacencia

Visualización de la Red
Paso 4: Visualización de la Red
Datos Transcriptómicos

●
Existen diferentes herramientas para la visualización de
redes. En esta asignatura utilizaremos Cytoscape.

Análisis de la correlación ●
El formato estándar más simple de especificación de una red
que admite cytoscape consiste en el formato gml.

File → Import → Network → File → fichero.gml

Matriz de Adyacencia
●
Existen diferentes algoritmos para la organización visual de
redes, por ejemplo, organic, spring, spring-weighted etc.

Layout → yFiles Layouts → Organic

Visualización de la Red VizMapper → Current Visual Style → Solid
Paso 4: Visualización de la Red
Datos Transcriptómicos

Análisis de la correlación

Matriz de Adyacencia

Visualización de la Red
Análisis de Redes de
Datos Transcriptómicos
Co-expresión Génica
●
Existen multitud de técnicas para el análisis de redes de
co-expresión.

Análisis de la correlación
●
Como introducción en esta asignatura nos centraremos
en:

– Análisis de la topología (estructura de

Matriz de Adyacencia conectividad de la red).
– Búsqueda de patrones globales mediante
técnicas de clustering.
– Enriquecimento de términos de ontología de
Visualización de la Red genes.
Análisis de la Topología de la Red

●
Este análisis se centra en el estudio de propiedades
topológicas locales tales como el grado de un nodo y el
coeficiente de agrupamiento así como de las correpondientes
extensiones a propiedades globales, distribución del grado de
nodos o coeficiente de agrupamiento medio.
●
En este apartado también se determina si la red construída es
libre de escala, de mundo pequeño y se analizan los hubs de
la red.
Análisis de la Topología de la Red

Hub scores Node degree

Clustering coefficient
Identificación de Patrones Globales:
Clustering
●
Clustering es una técnica de minería de datos (data mining)
dentro de la disciplina de Inteligencia Artificial que identifica de
forma automática agrupaciones o clústeres de elementos de
acuerdo a una medida de similitud entre ellos.

●
El objetivo fundamental de las técnicas de clustering consiste
en identificar grupos o clústeres de elementos tal que:
– La similitud media entre elementos del mismo clúster sea
alta. Similitud intra-clúster alta.
– La similitud media entre elementos de distintos clústeres
sea baja. Similitud inter-clúster baja.
Identificación de Patrones Globales:
Clustering
●
Las distintas técnicas de clustering tienen una gran diversidad
de aplicaciones:

– Revelación la estructura interna de los datos analizados

según sus características.
– Procesamiento de datos previo a técnicas de análisis
más complejas tales como la identificación de
marcadores génicos.
– Asignación de funciones a genes desconocidos.
– Estudios de enfermedades complejas.
– Estudios evolutivos
– Etc.
Elección de una Medida de Similitud

●
La identificación de clústeres o grupos de elementos se basa en
una medida de similitud. Diferentes medidas de similitud dan
lugar a diferentes clústeres.
Elección de una Medida de Similitud

Familia Empleados
Simpson del
colegio
Elección de una Medida de Similitud

Mujeres Hombres
Elección de una Medida de Similitud

●
En redes de co-expresión génica una de las posibles medidas
de similitud que se utilizan con mayor frecuencia está basada
en la correlación de Pearson:

D(g1,g2) = 1 – cor(g1,g2)
Elección de una Técnica de Clustering
●
Existen principalmente dos tipos diferentes de técnicas de
clustering:

Clustering Jerárquico Clustering de Partición

Clustering Jerárquico
●
La técnica de clustering jerárquico construye un dendograma o
árbol que representa las relaciones de similitud entre los
distintos elementos.
●
Explorar todos los posibles árboles es computacionalmente
intratable. Por lo tanto, suelen seguirse algoritmos
aproximados guiados por determinadas heurísticas.
●
Existen dos aproximaciones diferentes al clustering jerárquico:
– Clustering jerárquico aglomerativo: se comienza con
tantos clústeres como individuos y consiste en ir
formando (aglomerando) grupos según su similitud.
– Clustering jerárquico de división: se comienza con un
único clúster y consiste en ir dividiendo clústeres según la
disimilitud entre sus componentes.
Clustering Jerárquico Aglomerativo
Esta técnica comienza con una matriz
de similitud que contiene las
distancias entre los distintos
elementos a agrupar.
En nuestro caso esta matriz se calcula
a partir de la matriz de correlaciones.
Clustering Jerárquico Aglomerativo
Esta técnica comienza con una matriz
de similitud que contiene las
distancias entre los distintos
elementos a agrupar.
En nuestro caso esta matriz se calcula
a partir de la matriz de correlaciones.
Clustering Jerárquico Aglomerativo
Consideramos todas las agrupaciones posibles y elegimos la mejor según la matriz de
similitud.

0 8 8 7 Se recalcula la matriz de similitud teniendo

en cuenta el nuevo clúster formado.
0 2 4 La distancia al nuevo clúster se calcula
como la media de las distancias a los
0 3 elementos que lo forman.

0
Clustering Jerárquico Aglomerativo

c
Clustering Jerárquico Aglomerativo

c
Ventajas / Desventajas del
Clustering Jerárquico

●
En el clustering jerárquico no es necesario especificar en
número de clústeres a priori. Es posible seleccionarlo a
posteriori según un umbral de corte.

●
La estructura jerárquica es cercana a la intuición humana.

●
La principal desventaja consiste en la acumulación de errores.
Errores que se comenten en un paso de agrupamiento se
propagan durante el resto de la construcción del dendograma
sin ser posible su reajuste.
Clustering Jerárquico en R
●
Utilizaremos como matriz de similitudes o distancias:

D(g1,g2) = 1 – cor(g1,g2)

●
Los paquetes R a utilizar son impute y WGCNA.

●
La función que realiza el clustering jerárquico se llama hclust.
Recibe como entrada la matriz de similitudes a usar como
distancia (as.dist) y el método para recalcular la matriz de
distancias tras cada agrupamiento.

●
Para determinar los clústeres formados a un cierto umbral de
corte se utiliza la función cutree que recibe como entrada el
clustering jerárquico, y el número de clústeres a formar.
Clustering de Partición
en torno a Centroides
●
La técnica de clustering de partición en torno a centroides (PAM) realiza
una distribución de los elementos entre un número prefijado de clústeres o
grupos. Esta técnica recibe como dato de entrada el número de clústers a
formar además de los elementos a clasificar y la matriz de similitudes.
●
Explorar todas las posibles particiones es computacionalmente intratable.
Por lo tanto, suelen seguirse algoritmos aproximados guiados por
determinadas heurísticas.
●
En lugar de construir un árbol el objetivo en PAM consiste en agrupar los
elementos entorno a elementos centrales llamados centroides a cada
clúster.
●
Definimos el centroide de un clúster como aquel elemento que minimiza la
suma de las similitudes al resto de los elementos del clúster.

m C =argminm ∈C ∑m ∈ C dist (m , m j)
j
Paso 1: Seleccionar k centroides
aleatoriamente

m2
Paso 1: Seleccionar k centroides
aleatoriamente

m
m11

m
m22

m3
Paso 2: Clear k clústeres
asignando cada elemento al
centroide más cercano

m
m11

m
m22

m3
Paso 2: Clear k clústeres
asignando cada elemento al
centroide más cercano

m3
Paso 3: Calcular nuevos centroides como
aquellos elementos que minimizan la suma
de las distancias al resto de elementos del
clúster

m1 m1

m2 m3

m3
Paso 4: Volver al paso 2 mientras haya
cambio en los clústeres o se alcance un
número máximo de iteraciones.

m1 m1

m2 m3

m3
Paso 4: Volver al paso 2 mientras haya
cambio en los clústeres o se alcance un
número máximo de iteraciones.

m1 m1

m2 m3

m3
Ventajas / Desventajas de la
Partición entorno a Centroides

●
En cada iteración de PAM se realiza un reajuste y mejora de los
clústeres construidos de esta forma se evita la propagación de
errores.

●
Además de formar clústeres este algoritmo devuelve el
elemento más central en cada clúster.

●
La principal desventaja que presenta PAM consiste en la
necesidad de fijar de antemano un número de clústeres a
formar.
PAM Clustering en R
●
Utilizaremos como matriz de similitudes o distancias:

D(g1,g2) = 1 – cor(g1,g2)
●
Los paquetes R a utilizar son impute y WGCNA.
●
La función que realiza el clustering de partición entorno a
centroides se llama pam. Recibe como entrada la matriz de
similitudes a usar como distancia (as.dist) y el número de
clústeres a generar.
●
De igual forma que para el clustering jerárquico para la
visualización en cytoscape del PAM clustering es necesario
generar el fichero de atributos de genes correspondiente,
cargarlo y utilizar vizmapper para seleccionar los colores
apropiados.
Medida de Calidad de un proceso
de Clustering, su Silueta
●
Durante el flujo de trabajo de clustering existen tres puntos claves
donde se toman decisiones que determinan la identificación final de
grupos o clústeres de genes:
– Elección de la medida de similitud o distancia.
– Elección del algoritmo de clustering.
– Elección del número de clústers a identificar.

●
Para determinar la mejor elección posible es necesario fijar un criterio
para mediar la calidad del resultado proporcionado por un flujo de
trabajo de clustering.
●
El objetivo general perseguido por las técnicas de clustering consiste
en identificar grupos o clústeres compactos. Es decir, clusteres con
una similitud intra-clúster alta y una similitud inter-clúster baja.
Esta idea intuitiva se formaliza en el concepto de silueta de un
cluster.
Medida de Calidad de un proceso
de Clustering, su Silueta
Para calcular la silueta de un cluster C para cada elemento s i en C calculamos
primero a(si) la media de las distancias entre si y todos los sj en C.

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
Para calcular la silueta del cluster C1 para cada elemento si en C1 calculamos
primero a(si) la media de las distancias entre si y todos los sj en C1.

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
∑s ∈ C 1 d ( si , s j )
a ( s i )= j
a(si) constituye una medida de la distancia intracluster en
1
∣C ∣−1 C1

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
Para calcular una medida de la distancia intercluster entre el cluster C1 y el resto para cada
elemento si en C1 calculamos d(si,Ck) la media de las distancias entre si y todos los sj en Ck.

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
∑s ∈C k d (s i , s j )
k
d ( s i , C )= j

k
d(si,Ck) constituye una medida de la distancia intercluster
∣C ∣

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
b ( s i )=mink d ( s i ,C k ) b(si) constituye una medida de la distancia intercluster en
C1

m3
Medida de Calidad de un proceso
de Clustering, su Silueta
∑s ∈ C 1 d ( si , s j )
a ( s i )= j
a(si) constituye una medida de la distancia intracluster en
1
∣C ∣−1 C1

b ( s i )=mink d ( s i ,C k ) b(si) constituye una medida de la distancia intercluster en

Se define la silueta s(si) como:

b(s i )−a (s i)
s (s i)=
max (a (s i ), b (s i ))

Se define la silueta de un cluster C, s(C) como:

∑s ∈C s( s i )
s (C )= i

∣C∣
Se define la silueta del resultado de un proceso de clustering C 1, …, Cn
como: n
∑i=1 s (C i )
s (C 1, ... , C n)=
n
Medida de Calidad de un proceso
de Clustering, su Silueta
Medida de Calidad de un proceso
de Clustering, su Silueta
Visualización de Clustering en
Cytoscape
●
Es necesario generar un fichero de texto con dos columnas. La
primera columna debe contener los nombres de los genes o nodos de
la red y la segunda debe contener los atributos a importar, por
ejemplo el número del cluster al que pertenece cada gen.
●
Para cargar atributos en Cytoscape:

File → Import → Table → File

Show Text File Import Options → Delimiter (space) → Transfer first line...
●
Para cambiar de color a los genes según su modulo:
Vizmapper → Node Fill color → Cluster → Mapping Type =
Discrete mapping → Selección de colores
Visualización de Clustering en
Cytoscape
This work is licensed under the Creative Commons Attribution-
NonCommercial-NoDerivs 3.0 Unported License. To view a copy of this
license, visit http://creativecommons.org/licenses/by-nc-nd/3.0/.

También podría gustarte

Representacion Informacion Ejercicios Propuestos - Pame y Maria
Aún no hay calificaciones
Representacion Informacion Ejercicios Propuestos - Pame y Maria
7 páginas
Representacion Informacion Ejercicios Propuestos
Aún no hay calificaciones
Representacion Informacion Ejercicios Propuestos
7 páginas
1-Redes I - Sesion 1
Aún no hay calificaciones
1-Redes I - Sesion 1
15 páginas
Comparador de Magnitud de 4 Bits
Aún no hay calificaciones
Comparador de Magnitud de 4 Bits
9 páginas
Irregularidades
Aún no hay calificaciones
Irregularidades
53 páginas
0 1 2 0 0 0 0
Aún no hay calificaciones
0 1 2 0 0 0 0
2 páginas
Cuadro de Horas 2023
Aún no hay calificaciones
Cuadro de Horas 2023
2756 páginas
Análisis de Gradientes y Amortización
Aún no hay calificaciones
Análisis de Gradientes y Amortización
35 páginas
Manual de Semio QX Artiles
Aún no hay calificaciones
Manual de Semio QX Artiles
211 páginas
Direccionamiento IP y Subredes
Aún no hay calificaciones
Direccionamiento IP y Subredes
105 páginas
Calificaciones del Centro Escolar Rubén Darío
Aún no hay calificaciones
Calificaciones del Centro Escolar Rubén Darío
75 páginas
Conversión de Calificaciones Cualitativas A Cuantitativas - SECUNDARIA Regular
Aún no hay calificaciones
Conversión de Calificaciones Cualitativas A Cuantitativas - SECUNDARIA Regular
41 páginas
Calificaciones Reg. 1
Aún no hay calificaciones
Calificaciones Reg. 1
42 páginas
Coordenadas Cix
Aún no hay calificaciones
Coordenadas Cix
14 páginas
Es-Sig-Rg-166 Formato Mapa de Riesgos
Aún no hay calificaciones
Es-Sig-Rg-166 Formato Mapa de Riesgos
4166 páginas
Análisis de Estructura Reticular 3D
Aún no hay calificaciones
Análisis de Estructura Reticular 3D
3 páginas
Indique Cuáles Cantidades Son Analógicas y Digitales.
Aún no hay calificaciones
Indique Cuáles Cantidades Son Analógicas y Digitales.
2 páginas
Logica Combinacional
Aún no hay calificaciones
Logica Combinacional
7 páginas
Seminário Internacional Planejamento Urbano
Aún no hay calificaciones
Seminário Internacional Planejamento Urbano
1 página
Es-Sig-Rg-166 Mapa de Riesgos de Gestion Seguridad Digital y Corrupcion
Aún no hay calificaciones
Es-Sig-Rg-166 Mapa de Riesgos de Gestion Seguridad Digital y Corrupcion
4166 páginas
Es-Sig-Rg-166 Formato Mapa de Riesgos Gestin Educativa
Aún no hay calificaciones
Es-Sig-Rg-166 Formato Mapa de Riesgos Gestin Educativa
4166 páginas
Es-Sig-Rg-166 Formato Mapa de Riesgos GD
Aún no hay calificaciones
Es-Sig-Rg-166 Formato Mapa de Riesgos GD
4166 páginas
Codigo 1 Proyecto
Aún no hay calificaciones
Codigo 1 Proyecto
3 páginas
Armaduras Por Rigideces
Aún no hay calificaciones
Armaduras Por Rigideces
24 páginas
Diagrama-De-gantt GM 2019 ILO
Aún no hay calificaciones
Diagrama-De-gantt GM 2019 ILO
6 páginas
Relación de Ejercicios
Aún no hay calificaciones
Relación de Ejercicios
6 páginas
TP Debug Info
Aún no hay calificaciones
TP Debug Info
241 páginas
Informe de Evaluación Escolar
Aún no hay calificaciones
Informe de Evaluación Escolar
1 página
Tabla de Verdad
Aún no hay calificaciones
Tabla de Verdad
1 página
Taller No. 3 2025 - 1
Aún no hay calificaciones
Taller No. 3 2025 - 1
4 páginas
Diseño de Circuito Divisor Binario
Aún no hay calificaciones
Diseño de Circuito Divisor Binario
15 páginas
Álgebra Lineal y Ciclos en Digráficas
Aún no hay calificaciones
Álgebra Lineal y Ciclos en Digráficas
21 páginas
Solucionario Test Fenómenos de Transporte
Aún no hay calificaciones
Solucionario Test Fenómenos de Transporte
11 páginas
Enfoque de Género y Microfinanzas
100% (1)
Enfoque de Género y Microfinanzas
64 páginas
Matematica Discreta
100% (2)
Matematica Discreta
25 páginas
Desarrollar Diagramas de Contactos en Los PLC
Aún no hay calificaciones
Desarrollar Diagramas de Contactos en Los PLC
3 páginas
Ventas Emmalu
Aún no hay calificaciones
Ventas Emmalu
59 páginas
Seguimiento de Actividades Ejecutadas
Aún no hay calificaciones
Seguimiento de Actividades Ejecutadas
75 páginas
Divisor de 2 Números de 3 Bits
33% (3)
Divisor de 2 Números de 3 Bits
5 páginas
Diagrama de Interrelaciones Tresss
Aún no hay calificaciones
Diagrama de Interrelaciones Tresss
2 páginas
Evidencia 2 Informe Kelep David Paternina Malambo
Aún no hay calificaciones
Evidencia 2 Informe Kelep David Paternina Malambo
5 páginas
Curso Básico de Programación y Algoritmos
Aún no hay calificaciones
Curso Básico de Programación y Algoritmos
13 páginas
Ogranigrama Flujo y Zonif
Aún no hay calificaciones
Ogranigrama Flujo y Zonif
27 páginas
Proyecto Generacion-1
Aún no hay calificaciones
Proyecto Generacion-1
24 páginas
7 Habilidades Del Network Marketing
Aún no hay calificaciones
7 Habilidades Del Network Marketing
9 páginas
Contador Modulo 32 AyD
Aún no hay calificaciones
Contador Modulo 32 AyD
11 páginas
Práctica de Decodificadores Digitales
100% (1)
Práctica de Decodificadores Digitales
9 páginas
Iza - Codigos Ponderados
Aún no hay calificaciones
Iza - Codigos Ponderados
2 páginas
Sistema de Numeracion - 01
Aún no hay calificaciones
Sistema de Numeracion - 01
6 páginas
Nucleo 3 Algebra Lineal - Eder Ochoa Barrios
Aún no hay calificaciones
Nucleo 3 Algebra Lineal - Eder Ochoa Barrios
9 páginas
Evidencia 2 Informe Desarrollar Diagramas de Contactos en Los PLC
Aún no hay calificaciones
Evidencia 2 Informe Desarrollar Diagramas de Contactos en Los PLC
8 páginas
Presentación Cápitulo IV PDF
Aún no hay calificaciones
Presentación Cápitulo IV PDF
26 páginas
Taller 1 Electrotecnia y Electrónica G2IM 2024-I
Aún no hay calificaciones
Taller 1 Electrotecnia y Electrónica G2IM 2024-I
2 páginas
Productividad - Supervisor Abril - Sem1 - Falabella Sac
Aún no hay calificaciones
Productividad - Supervisor Abril - Sem1 - Falabella Sac
10 páginas
Examen de Codificación BCH
Aún no hay calificaciones
Examen de Codificación BCH
1 página
3° Registro de Evaluación Diagnóstica 2025
Aún no hay calificaciones
3° Registro de Evaluación Diagnóstica 2025
16 páginas
EBBO Mike
100% (1)
EBBO Mike
28 páginas
Wa0018
Aún no hay calificaciones
Wa0018
320 páginas
Algoritmo de Hierholzer explicado
Aún no hay calificaciones
Algoritmo de Hierholzer explicado
2 páginas
Introducción a Algoritmos de Grafos
Aún no hay calificaciones
Introducción a Algoritmos de Grafos
9 páginas
Programacion de Obras
Aún no hay calificaciones
Programacion de Obras
12 páginas
Árboles y Grafos en Computación
Aún no hay calificaciones
Árboles y Grafos en Computación
4 páginas
Análisis de Árboles y Grafos
Aún no hay calificaciones
Análisis de Árboles y Grafos
9 páginas
El Mundo Es Matemático - 11 - Mapas Del Metro y Redes Neuronales. La Teoría de Grafos
100% (2)
El Mundo Es Matemático - 11 - Mapas Del Metro y Redes Neuronales. La Teoría de Grafos
144 páginas
Introducción a Árboles y Redes
Aún no hay calificaciones
Introducción a Árboles y Redes
12 páginas
Arboles y Redes
Aún no hay calificaciones
Arboles y Redes
11 páginas
Progresiones en Las Enfermedades
Aún no hay calificaciones
Progresiones en Las Enfermedades
17 páginas
1.0.0temario de Matematicas Discretas
Aún no hay calificaciones
1.0.0temario de Matematicas Discretas
3 páginas
MAT100 Examen Final Solucionario
Aún no hay calificaciones
MAT100 Examen Final Solucionario
3 páginas
Movimiento y Problemas del Caballo en Ajedrez
50% (2)
Movimiento y Problemas del Caballo en Ajedrez
48 páginas
Grafos-2009 3
Aún no hay calificaciones
Grafos-2009 3
5 páginas
ABOUT Matrices Dispersas
Aún no hay calificaciones
ABOUT Matrices Dispersas
6 páginas
Algoritmo de Fleury en Grafos Eulerianos
Aún no hay calificaciones
Algoritmo de Fleury en Grafos Eulerianos
4 páginas
Confiabilidad en Subestaciones MATLAB
50% (2)
Confiabilidad en Subestaciones MATLAB
72 páginas
Teoría de Gráficas Básica
Aún no hay calificaciones
Teoría de Gráficas Básica
19 páginas
Grafos Dirigidos: Matrices y Listas
Aún no hay calificaciones
Grafos Dirigidos: Matrices y Listas
6 páginas
Aplicación del Algoritmo de Dijkstra
Aún no hay calificaciones
Aplicación del Algoritmo de Dijkstra
5 páginas
Logica Matiematica Tarea Virtual 6
Aún no hay calificaciones
Logica Matiematica Tarea Virtual 6
3 páginas
Ejercicios de Grafos y Árboles
100% (1)
Ejercicios de Grafos y Árboles
3 páginas
Carlos Reynoso. Etnomusicología y Teorías de La Complejidad PDF
Aún no hay calificaciones
Carlos Reynoso. Etnomusicología y Teorías de La Complejidad PDF
13 páginas
Tarea 2 Unidad 3 SIM Kevin Ruiz.
Aún no hay calificaciones
Tarea 2 Unidad 3 SIM Kevin Ruiz.
41 páginas
Mate Matic A Discret A 05
Aún no hay calificaciones
Mate Matic A Discret A 05
14 páginas
Algoritmo de Dijkstra - EcuRed
Aún no hay calificaciones
Algoritmo de Dijkstra - EcuRed
6 páginas
Elementos y Tipos de Grafos y Árboles
Aún no hay calificaciones
Elementos y Tipos de Grafos y Árboles
25 páginas
Teoría de Grafos y Redes Complejas
Aún no hay calificaciones
Teoría de Grafos y Redes Complejas
2 páginas
Aplicaciones de Espacios Pretopológicos
Aún no hay calificaciones
Aplicaciones de Espacios Pretopológicos
92 páginas
Sem 6 Ses 2 Camino, Circuitos y Matrices
Aún no hay calificaciones
Sem 6 Ses 2 Camino, Circuitos y Matrices
28 páginas
Números de Ramsey y Teoremas Relacionados
Aún no hay calificaciones
Números de Ramsey y Teoremas Relacionados
7 páginas