好~~說說今天作的東西吧
首先我昨天去SMD把一個很巨大300mb的子房癌的microarray資料庫給download下來
取出裡頭同樣組織35片資料來作分析

1)資料前處理
遷就micorarray資料是有up-regulate跟down-regulate兩種
根據學姊所說--log2(R/G),log之後 +的就是up regulate -ㄉ就是down regulate
可是發現有些基因在microarray會重複出現2~3次
而且其
log2(R/G)的值還不一樣
於是我這邊先用了一個投票機制,哪個多就勝利
ex.FADD出現3次 ,但是其中有兩次log值都大於0,就會被我歸類成
up regulate
但是一實驗就發現,可能會有票數相等得的情形發生....
這就無法決定是屬於哪種資料了XD
改成方法2--直接把值相加起來,看總合
果然這方法的結果沒有出現0
但是...但是...這兩種方法都有生物意義嗎???

2)現在有了資料了~~
用weka進行分析
嚇死人的圖....可說是錯綜複雜,跟原圖根本不同


於是我在想...或許是因為資料量給太大了
於是我縮小範圍,從31個kegg找的對應基因中取出5個
FADD,CASP10 ,CASP3 ,DFFA , CASP7
會取這5個原因很簡單
因為我從kegg中知道這幾個gene有相連,如下圖



不過結果還是很差...根本不對


總結

我想很糟糕的原因可能有以下幾種造成
1.weka的演算法並不是完全follow paper上
paper上這個演算法會判斷因果圖是否可以畫出來,
不過weka程式一定要跑出一個圖出來,導致圖形很奇怪

2.目前資料無論是輸入[0,1][+,-]都是假設weka程式知道我的意思
說不定計算condition indepedence並不是輸入這種二元值可以得到的???
因為其實用膝蓋想也知道,資訊量不足根本不能要求可以準確預測
這邊我也沒有去把它搞懂

3.35片資料到底是取自哪裡?確定清楚一下
如果不是我想像的是重複實驗
得到錯誤的答案似乎也不稀奇

突然覺得...我真的可以畢業嗎....囧
先降,報告完畢
arrow
arrow
    全站熱搜

    45 發表在 痞客邦 留言(0) 人氣()