“AÑO DE LA LUCHA CONTRA LA CORRUPCIÓN E IMPUNIDAD”
FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICA
CURSO:
Estadística y cálculo de probabilidades
DOCENTE:
Mg. Myrna Manco C.
INTEGRANTES:
Contreras Guerrero Elias
2. Se ha medido el contenido de oxígeno, Y, en miligramos/litro, del Lago Titicaca a una
profundidad de X metros, obteniéndose los siguientes datos. Se pide:
X 15 20 30 40 50 60 70
Y 6.5 5.6 5.4 5.0 4.6 1.4 0.1
a) Obtener una regresión de Y en X. Grafique (Y=-0.107X + 8.467) b) Hallar el coeficiente de
correlación. Interpretarlo. (-0.92) c) Para una profundidad comprendida entre 75 y 80
metros, ¿qué contenido de oxígeno se podría predecir?
Variable X 1 Gráfico de los residuales
2
1.5
Residuos
1
0.5
0
-0.5 10 20 30 40 50 60 70 80
-1
Variable X 1
Variable X 1 Curva de regresión ajustada
8
7
6
5
4 Y
Pronóstico para Y
Y
3
2
1
0
10 20 30 40 50 60 70 80
Variable X 1
Gráfico de probabilidad normal
8
6
4
Y
2
0
0 10 20 30 40 50 60 70 80 90 100
Muestra percentil
3. En una empresa se toma una muestra de 100 trabajadores con la finalidad de estudiar si
hay relación entre su edad X y los días que llegan tarde en el año Y. Se obtienen los siguientes
resultados:
X/Y 0-20 20-40 40-60 Total
18-30 28 2 0 30
30-40 26 15 4 45
40-50 6 14 5 25
a) ¿es simétrica la distribución del número de días que llegan tarde los trabajadores?
b) ¿Cuál es la edad más frecuente de los trabajadores que llegan tarde?
c) Ajustar mediante un modelo exponencial los días que llegan tarde en función de la
edad.
d) Realizar el mismo ajuste considerando un modelo lineal.
e) ¿Cuál de los ajustes es el mejor?
Para realizar los cálculos necesarios elaboramos la tabla siguiente
X/Y 10 30 50 ni. xini. xi2ni. ci hi=ni/ci
25 28 2 0 30 720 17280 12 2.5
35 26 15 4 45 1575 55125 10 4.5
45 6 14 5 25 1125 50625 10 2.5
n. j 60 31 9 100 3420 123030
yjn 600 930 450 1980
yj 2 n . j 6000 27900 22500 56400
yj 3 n . j 60000 837000 1E+06 2022000
N.j 60 91 100
Realizamos los siguientes cálculos:
3
1 3420
a 10=x́= ∑ ni xi = =34.2
N i=1 100
3
1 1980
a 01= Ý = ∑ ni x i= =19.8
N j=1 100
3
1 123030
m20=σ´2y = ∑ ni x 2i − X́ 2=a20−a210= −34.22=60.66
N i=1 100
3
1 56400
m02=σ´2y = ∑ ni y 2i−Y´ 2=a 02−a201= −19.82=171.96
N i=1 100
3
1 1980
a 03=Ý = ∑ n i x 3i = =19.8
N j=1 100
Para estudiar la asimetría del número de días de baja de los trabajadores calculamos el
coeficiente de asimetría de Fisher de la variable marginal Y como sigue:
m03 2243.184
g01= 3
=
σ ¿¿
Y
Se observa que hay una ligera asimetría hacia la derecha, pero muy pequeña. Los días de
baja se distribuyen casi simétricamente a lo largo del año.
Para calcular la edad más frecuente de los trabajadores que piden la baja hallaremos la
moda de la variable marginal X. Observamos que el intervalo modal es [30,40] ya que es el que
tiene mayor frecuencia ni. El cálculo de la moda se realiza como sigue:
di +1 2.5
M 0=Li−1 + c i=30+ 10=35 años
d i−1 +d i +1 2.5+2.5
Ahora intentaremos ajustar los días de baja en función de la edad de los trabajadores
mediante un modelo de regresión exponencial de ecuación y=a b x
y=a b x → log( y )=log( a)+ log ( b )
La regresión exponencial es equivalente a la regresión lineal con variable dependiente
log(y) y con variable independiente x. Los cálculos para esta regresión se presentan en la tabla
siguiente
X/z 1 1.4771 1.699 ni. xiz1n1j. xiz2n2j. xiz3n3j. ∑ xizinij
24 28 2 0 30 672 70.9008 0 742.9008
35 26 15 4 45 910 775.478 237.86 1923.338
45 6 14 5 25 270 930.573 382.275 1582.848
n.j 60 31 9 100 1852 1776.95 620.135 4249.086
Zjn.j 60 45.7901 15.291 121.081
2n
zj . j 60 67.63656 25.979 153.616
El parámetro log(b) se estima por mínimos cuadrados mediante:
1
x i yi −x́
σ XZ N ∑
i. j
log ( b ) 2 =
σY σ 2x
Los parámetros finales buscados a y b del modelo exponencial se estimarán mediante:
b=100.6013 =10.04
b=100.01782 =3.99
El modelo estimado tiene la ecuación y=3.99 ¿
Para medir la calidad de este ajuste podemos utilizar el coeficiente de determinación R²
que se calcula como:
2 σ 2e 3 3
R =1− 2 =1−∑ ∑ ¿ ¿ ¿ ¿=0.26
σY i=1 j=1
El ajuste no es de calidad porque R² está más cerca del cero que de la unidad. El ajuste por
regresión lineal de la forma y= a+bx siendo:
1 1
∑ x i y j nij − XY
´ 728060−34.20∗19.80
σ xy N 100
b= 2 = = =0.854
σx σ 2x 60.66
a=Ý −b X́=19.8−0.854∗34.20=−9.4
El coeficiente de determinación será en este caso el cuadrado del coeficiente de
correlación que se calcula como sigue:
σ 2XY
r 2= 2 2
=¿ ¿ ¿
σ X σY
Para realizar el cálculo de ∑ x i y j nij =72860 se utilizala siguiente tabla :
i. j
X/Y 10 30 50 ni x i y j n ij x i 2 y j2 nij 2 x i 3 y j3 nij 3 ∑ x i y j nij
24 28 2 0 30 6720 1440 0 8160
35 26 14 4 45 9100 15750 7000 31850
45 6 14 5 25 2700 18900 11250 32850
nj 60 31 9 100 18520 36090 18250 72860
El ajuste lineal tampoco es de calidad por
que R² esta más cerca de Mes Ventas cero que de la unidad.
Además el ajuste 1 Enero 7000 exponencial es mejor que el
ajuste lineal por que su 2 Febrero 9000 coeficiente de
determinación es mayor (0,26>0,25536).
3 Marzo 5000
4 Abril 11000
7. Proponga y 5 Mayo 10000 desarrolle dos ejercicios de
regresión lineal simple en el ámbito de su carrera.
6 Junio 13000
EJEMPLO 1:
La juguetería Gaby desea estimar mediante regresión lineal simple las ventas para el mes
de Julio de su nuevo carrito infantil "Mate". La información del comportamiento de las
ventas de todos sus almacenes de cadena se presenta en el siguiente tabulado.
El primer paso para encontrar el pronóstico del mes 7 consiste en hallar la
pendiente, para ello efectuamos los siguientes cálculos:
Luego, y dado que ya tenemos el valor de la pendiente b procedemos a calcular el
valor de a, para ello efectuamos los siguientes cálculos:
Ya, por último, determinamos el pronóstico del mes 7, para ello efectuamos el
siguiente cálculo:
Podemos así determinar que el pronóstico de ventas para el período 7 es
equivalente a 13067 unidades
EJEMPLO 2:
Un estudio de mercado trata de averiguar si es efectiva la propaganda televisada de
un producto que salió a la venta con relación al tiempo de publicidad(en
horas/semana).se recopilaron datos a partir de la segunda semana de iniciada la
publicidad resultando el cuadro que si :No se pudo recopilar datos de la cuarta
semana:
semana 2 3 4 5 6 7
venta del
300.00 310.00 - 320.00 350.00 420.00
producto($)
tiempo de
20 25 22 28 36 40
propaganda
a) ¿es efectiva la publicidad del producto?
b) ¿en cuánto estimaría las ventas para la semana 4?
Resolución
Tiempo de propaganda(X): variable independiente
Venta del producto en $(Y): variable dependiente
CUADRO DE CÁLCULOS
xi yi xi ·yi xi2 yi2
20 300.00 6,000.00 400.00 90,000.00
25 310.00 7,750.00 625.00 96,100.00
28 320.00 8,960.00 784.00 102,400.00
36 350.00 12,600.00 1,296.00 122,500.00
40 420.00 16,800.00 1,600.00 176,400.00
149 1,700.00 52,110.00 4,705.00 587,400.00
NOTA: no se usa el dato de tiempo de propaganda para la cuarta semana ya que no
se conoce las ventas de dicha semana. Por tanto se determinaran los cálculos en base
a una muestra de 5 donde hay datos para ambas variables.
2
∑ x i 149 ∑ y i 1700 2 ∑ xi 2
x= = =29.8 y= = =340 S = −( x ) x
n 5 n 5 n
2 ∑ x i2 2 4705 2
S x = −( x ) = −( 29.8 ) =52.96 → S =7.2774
x
n 5
2
Sy =
∑ y i2 −( y )2= 587 400 −( 340 )2=1880 → S =43.359
y
n 5
cov xy =S xy =
∑ x i y i −x ( y )= 52110 −29.8 (340 )=290
n 5
a) Determinación la ecuación de regresión lineal
S xy 290
y=a+bx donde b= 2
= =5.476 a= y−b x=340−5.476 ( 29.8 ) =176.82
Sx 52.96
y=176.82+5.476 x
Determinamos el coeficiente de correlación para conocer la efectividad de las
propagandas
S xy 290 290
r= = = =0.92 ≅ 92 %
S x S y (7.2774)( 43.359) (7.2774)(43.359)
Sabiendo que cuando 0.7 ≤ r ≤1 existe un alto grado de asociacion entre las variables en
este caso concluiremos que la publicidad tiene una gran incidencia en las ventas lo que
significa que es efectiva.
b) Hallamos “y” para x=22
y=176.82+5.476 ( 22 )=297.29 ≅ $ 297
EJEMPLO 3
Un editor tomo una muestra de 7 libros anotando el precio y el número de páginas
respectivas. Obteniendo los siguientes datos:
N° de pagina 630 550 400 250 370 320 610
precio$ 10 8 7 4 6 6 9
a) Determine una función lineal entre el precio y el número de páginas con el fin
de predecir precios.
b) Estimar el precio de un libro de 300 páginas. Si a este libro se le incrementa 20
páginas en una segunda edición, ¿en cuánto se incrementaría su precio?
c) ¿Cuántas páginas debería tener un libro cuyo precio se estima en $12.27?
Solución
Número de páginas(X): variable independiente
Precio en $(Y): variable dependiente
xi yi xi ·yi xi2 yi2
630.00 10.00 6,300.00 396,900.00 100.00
550.00 8.00 4,400.00 302,500.00 64.00
400.00 7.00 2,800.00 160,000.00 49.00
250.00 4.00 1,000.00 62,500.00 16.00
370.00 6.00 2,220.00 136,900.00 36.00
320.00 6.00 1,920.00 102,400.00 36.00
610.00 9.00 5,490.00 372,100.00 81.00
3,130.00 50.00 24,130.00 1,533,300.00 382.00
x=
∑ x i = 3130 =447.1429 y = ∑ y i = 50 =7.1429
n 7 n 7
2 ∑ x i2 2 1 533 300 2
S x = −( x ) = −( 447.1429 ) =19106.08412 → S =138.2248
x
n 7
2 ∑ y i2 2 382 2
Sy = −( y ) = −( 7.1429 ) =3.5504 → S =1.8843
y
n 7
cov xy =S xy =
∑ x i y i −x ( y )= 24130 −447.1429 ( 7.1429 )=253.2458
n 7
a) Determinación la ecuación de regresión lineal
S xy 253.2458
y=a+bx donde b= 2
= =0.01325
Sx 19106.08412
a= y−b x =7.1429−0.01325 ( 447.1429 )=1.22
y=1.22+ 0.013 x
b) Precio para libro de 300 páginas e incremento del precio para un incremento de 20
páginas
y=1.22+ 0.013 x →1.22+0.013 ( 300 )=$ 5.12
El b representa el cambio en “y” por cada unidad de cambio en “X”
El incremento será: 0.013*20=$ 0.26
c) Número de páginas para un libro que cuesta $12.27
y=1.22+ 0.013 x →1.22+0.013 ( X ) =$ 12.27 0.013 X =11.05 → X=850 páginas
1. Interprete los siguientes enunciados
Si b>0,entonces para mayores valores de X mayores valores de Y
Si b<0, entonces mayores valores de X le corresponden menores valores de Y,
así mismo entonces menores valores de X le corresponden mayores valores de Y
Si b=0, entonces Y permanece contante para cualquier valor de Indicando que no
existe regresión entre las variables.
Si r>0, entonces existe una correlación directa o positiva entre las variables
Si r<0, entonces existe una correlación inversa o negativa entre las variables
Si r=0, entonces no existe correlación entre las variables.
6.-Los datos siguientes se refieren a las dosis de rayos cósmicos medidas a varias
altitudes:
SOLIUCION:
a) Diagrama de dispersión:
80
70
60
Razon de dosis
50
40
30
20
10
0
0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
Altitud
b) Curva exponencial:
80
70
60
Razon de dosis
50
40
30
20
10
0
0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
Altitud
Y = A . e BX
ln Y =ln ( A . e BX )
lnY =lnA +ln e BX
lnY =lnA + BX
Y ¨ = A ¨ + BX
Donde: B=n . ¿ ¿
A=Y´ ¨ −B X́
Los valores del problema serian:
X Y Y¨=lnY X.Y¨ X^2
50 28 3.33220451 166.610226 2500
450 780 6.65929392 2996.68226 202500
1200 36 3.58351894 4300.22273 1440000
4400 51 3.93182563 17300.0328 19360000
4800 58 4.06044301 19490.1265 23040000
5300 69 4.2341065 22440.7645 28090000
TOTAL 16200 25.8013925 66694.4389 72135000
6 ( 66694.4389 )−( 16200 ) .(25.8013925)
Entonces: B=
6. ( 72135000 )−(16200)2
−17815.9251
B=
170370000
B=−0.001458
25.8013925 16200
Entonces: A¨=
6
−(−0.001458 ) .
6
A ¨ =4.3002320833333+3.9366
A ¨ =8.2369
Ahora: ln A=8.2369
A=e 8.2369
A=3777.81
Finalmente: Y = (3777.81 ) . e (−0.001458 ). X
c) Altitud= 3000 pies= X
Y = (3777.81 ) . e (−0.001458 )∗(3000)
Y =47.60318904
Redondeando: Y =48