Автор Тема: Неслучайная случайность, или рандомная последовательность в питоне. (Прочитано 2958 раз)

Phlya · « : 25 Января 2013, 23:57:29 »

Делаю рандомную последовательность в питоне:

size = 369930
nuc = 'ATGC'
def rand_seq(nuc, size):
    seq = ''.join([random.choice(nuc) for N in xrange(size)])
    return seq

(Не спрашивайте, почему такое число, это неважно)
После этого анализирую встречаемость двухбуквенных слов типа AG, AC, TG, TT и так далее (всего 16 вариантов). Казалось бы, с точностью до случайного маленького отклонения, все должны встречаться с равной частотой. Однако частота повторов AA, TT, CC и GG заметно ниже (примерно 18500 против 23000). В чем фишка?

Где рандом у меня не совсем рандомный? Или так и должно быть в теории, а я не понимаю? Или все хорошо, а анализирую я неправильно (если есть такое подозрение, покажу как)?

Señor_Gaga · « **Ответ #1 :** 26 Января 2013, 01:35:20 »

size = 369930
nuc = 'ATGC'
def rand_seq(nuc, size):
seq = ''.join([random.choice(nuc) for N in xrange(size)])
return seq

Возможно слишком короткая nuc - всего 4, генератор случайных
чисел то программный, не думаю, что но дает идеальное равномерное распределение.
Попробуйте так:
nuc = 'ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC'

Отпишитесь если не лень. Вопрос интересный.

Phlya · « **Ответ #2 :** 26 Января 2013, 01:48:09 »

Ничего не изменилось(

toto · « **Ответ #3 :** 26 Января 2013, 01:52:46 »

Если у тебя 16 вариантов, длина выборки должна быть кратна 16, и количество выборок тоже кратно 16, иначе чего-то будет меньше/больше.

Phlya · « **Ответ #4 :** 26 Января 2013, 01:56:32 »

Не настолько же. От этого возникнет отличие на единицы.

Провел эксперимент: перемешал эту последовательность и получил то же самое. Меня это напрягает...

Пользователь решил продолжить мысль 26 Января 2013, 01:57:28:

Цитата: toto от 26 Января 2013, 01:52:46

Если у тебя 16 вариантов, длина выборки должна быть кратна 16, и количество выборок тоже кратно 16, иначе чего-то будет меньше/больше.

Чисто для Вас, сделал для 160000, ничего не поменялось.

shumtest · « **Ответ #5 :** 26 Января 2013, 01:58:51 »

Последовательность событий АА имеет меньшую вероятность чем последовательность АТ
Почему - изучайте теорию вероятностей.

А распределение генератор дает вполне ровное

Код: [Выделить]

import random

def rand_seq(nuc, size):
    return ''.join(random.choice(nuc) for N in xrange(size))

str = rand_seq('ATGC',369930)
print str.count('A')
print str.count('T')

Цитировать

92523
92318

Phlya · « **Ответ #6 :** 26 Января 2013, 01:59:56 »

На всякий случай, если взять длину слова в 1, то есть посчитать отдельные буквы, то их число одинаковое (это и по той картинке можно понять, но не так очевидно).

Пользователь решил продолжить мысль 26 Января 2013, 02:01:06:

Цитата: shumtest от 26 Января 2013, 01:58:51

Последовательность событий АА имеет меньшую вероятность чем последовательность АТ

Я не понимаю, почему, если события выбора первой и второй буквы независимые (как и есть в этом случае). Вероятность А - 1/4. Вероятность второй А - 1/4, второй Т - 1/4.

Пользователь решил продолжить мысль 26 Января 2013, 02:02:59:

И разве перемешивание не должно убирать это, если причина в выборе?

shumtest · « **Ответ #7 :** 26 Января 2013, 02:25:15 »

В теории вероятностей много таких моментов, которые, на первый взгляд, противоречат логике. Если хотите понять - начните с разбора парадокса мальчика и девочки.

Phlya · « **Ответ #8 :** 26 Января 2013, 02:51:47 »

Это все ясно, но где ошибка в моих рассуждениях?

Señor_Gaga · « **Ответ #9 :** 26 Января 2013, 11:26:43 »

Цитата: Phlya от 25 Января 2013, 23:57:29

... а анализирую я неправильно (если есть такое подозрение, покажу как)?

Неплохо бы посмотреть как анализируете полученную последовательность.

Phlya · « **Ответ #10 :** 26 Января 2013, 11:36:27 »

Ок. Вся программа:

Код: (Python) [Выделить]

import random
from scipy.stats import chisquare

size = 160000
nuc = 'ATGC'

def rand_seq(nuc, size):
    seq = ''.join([random.choice(nuc) for N in xrange(size)])
    return seq

def combine(length):
    strings = [N for N in 'ATGC']
    L=1
    while L < length:
        strings = [string+N for N in 'ATGC' for string in strings] #С каждым циклом удлиняем на одну букву, создавая четыре слова из одного
        L= L+1
    return strings
    
def words(seq, word_length):
    words = [N*word_length for N in 'ATGC'] #Учесть все одинаковые, которые иначе никак не создадутся
    for word in combine(word_length):
        word = ''.join(map(str, word))
        words.append(word) #Добавляем слово
        words.append(word[::-1]) #Добавляем перевернутое слово, чтобы все учесть
    return words

def get_word_dict(seq):
    word_dict = {}
    for length in range(1, 6):
        for word in words(seq, length):
            word_dict[word] = seq.count(word) #Сам подсчет
    return word_dict
#Собственно, начинаем использовать вышенаписанные функции
seq = rand_seq(nuc, size)
word_dict = get_word_dict(seq)
for key in sorted(word_dict.iterkeys()):
    word_dict[key] = (len(key), word_dict[key]) #В значение ключа записываем его длину для удобства, и рассчитанное число.
length = 2

numbers = []
labels = []
for key in sorted(word_dict.iterkeys()):
    if len(key) == length:
        numbers.append(word_dict[key][1])
        labels.append(key)
named = zip(numbers, labels)
named = sorted(named)
chisq = chisquare(numbers)
print 'P-value for uniform ditribution', chisq[1]
pylab.bar([i for i in range(len(numbers))], numbers)
pylab.xticks([i+0.4 for i in range(len(numbers))], labels, rotation='vertical')
pylab.show()

Идея в том, чтобы сгенерировать все варианты слов из этих 4х букв определенной длины, потом посчитать, сколько каждое из них встречается.

Señor_Gaga · « **Ответ #11 :** 26 Января 2013, 13:05:02 »

Пробовал запустить ваш код, но

Код: [Выделить]

Traceback (most recent call last):
  File "flya.py", line 50, in <module>
    chisq = chisquare(numbers)
NameError: name 'chisquare' is not defined

Phlya · « **Ответ #12 :** 26 Января 2013, 13:16:22 »

А, сорри, не скопировал

Код: [Выделить]

from scipy.stats import chisquareНо, в принципе, можете просто удалить эту строчку, она проверяет достоверность равномерного распределения всех частот.
http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test - если интересно

Señor_Gaga · « **Ответ #13 :** 26 Января 2013, 14:50:55 »

Ради интереса набросал небольшую программку. Получил такие результаты:

(Нажмите, чтобы показать/скрыть)

Отклонение в десятых процента.
Если size увеличить в 100 раз, то отклонение будет в сотых процента.

Код: [Выделить]

# -*- coding: utf-8 -*-
#!usr/bin/env python

from random import randrange

'''
Цифровые кодировки двухбуквенных сочетаний
AA  0
AT  1
AG  2
AC  3
   
TT  4
TA  5
TG  6
TC  7
 
GG  8
GA  9
GT  10
GC  11

CC  12
CA  13
CT  14
CG  15
'''

size = 160000

result =  [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,] # здесь будет частота втречаемости

let2 = ('AA','AT','AG','AC','TT','TA','TG','TC','GG','GA','GT','GC','CC','CA','CT','CG')

def count(): # подсчитывает количество вариантов двухбуквенных сочетаний
    for i in range(size):
        n = randrange(16) # генеруем случайное число от 0 до 15
        result[n] = result[n] + 1 # корректируем result

def putLet2(): # выводит частоту втречаемости двухбуквенных сочетаний в %
    for i in range(16):
        n = result[i]
        x = n*100.0/size
        s = let2[i] + ' = '
        print s, x, " %"

def main():
    count()
    print 'result =  ', result
    putLet2()
    
main()

Phlya · « **Ответ #14 :** 26 Января 2013, 18:31:23 »

Я что-то туплю, никак не могу понять, чего Ваша программа делает...
Надо позапускать что ли попробовать...

Форум русскоязычного сообщества Ubuntu

Автор Тема: Неслучайная случайность, или рандомная последовательность в питоне. (Прочитано 2958 раз)

Phlya

Неслучайная случайность, или рандомная последовательность в питоне.

Señor_Gaga

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

toto

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

shumtest

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

shumtest

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Señor_Gaga

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Señor_Gaga

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Señor_Gaga

Re: Неслучайная случайность, или рандомная последовательность в питоне.

Phlya

Re: Неслучайная случайность, или рандомная последовательность в питоне.