數(shù)據(jù)比對(duì)工具(數(shù)據(jù)比對(duì)工具有哪些)
NCBI常用的序列搜索比對(duì)工具是BLAST。
BLAST是NCBI中常用的序列搜索比對(duì)工具,用于在DNA、蛋白質(zhì)等生物信息學(xué)領(lǐng)域進(jìn)行序列比對(duì)和相似性搜索。BLAST通過算法對(duì)輸入的序列進(jìn)行比對(duì),在數(shù)據(jù)庫中找到相似的序列。該工具廣泛應(yīng)用于基因功能研究、物種鑒定、蛋白質(zhì)相互作用等領(lǐng)域。以下是關(guān)于BLAST的詳細(xì)介紹:
BLAST作為NCBI的核心工具之一,對(duì)于生物信息學(xué)研究者來說至關(guān)重要。它能夠快速準(zhǔn)確地搜索和比對(duì)生物序列,幫助研究者找到相似的基因或蛋白質(zhì)序列。該工具不僅適用于科研人員,也適用于廣大生物學(xué)愛好者以及需要基礎(chǔ)生物信息學(xué)知識(shí)的其他領(lǐng)域的研究人員。BLAST的應(yīng)用范圍非常廣泛,從基因組學(xué)到蛋白質(zhì)組學(xué),從基礎(chǔ)研究到臨床應(yīng)用,都發(fā)揮著不可替代的作用。
其強(qiáng)大的搜索功能使研究者能夠快速獲取有關(guān)基因或蛋白質(zhì)的信息,為后續(xù)的分子生物學(xué)實(shí)驗(yàn)和數(shù)據(jù)分析提供了重要支持。NCBI還提供了多種不同類型的BLAST工具,如用于核酸序列比對(duì)的BLASTn、用于蛋白質(zhì)序列比對(duì)的BLASTp等,以滿足不同研究需求。這些工具的使用非常簡(jiǎn)單,用戶只需在NCBI網(wǎng)站上的BLAST界面輸入待查詢的序列,選擇相應(yīng)的數(shù)據(jù)庫和比對(duì)參數(shù),即可快速獲得比對(duì)結(jié)果。這些結(jié)果可以幫助研究者了解序列的相似性和進(jìn)化關(guān)系等重要信息。
總的來說,NCBI的BLAST工具是生物信息學(xué)領(lǐng)域非常重要的序列搜索比對(duì)工具,對(duì)于生物學(xué)研究和相關(guān)領(lǐng)域的探索具有重要意義。
EMBI的在線雙序列比對(duì)工具提供了三種選項(xiàng),1)全局比對(duì);2)局部比對(duì);3)全基因組比對(duì)。
并且每一個(gè)比對(duì)工具下提供了不同算法的選擇。
這里我使用的uniprot中的ABCB1的兩種亞型的數(shù)據(jù)。
選擇Needleman-Wunsch算法的全局比對(duì),先來試試看。
這一步非常簡(jiǎn)單,將蛋白質(zhì)序列貼在輸入框即可。
可以手動(dòng)輸入,也可以上傳文件。
但是embi對(duì)文件格式也做了一定的要求。
遇事不絕,BLOSUM62就完事兒拉。(embi也幫我們?cè)O(shè)定好了默認(rèn)的參數(shù))
gap為罰分情況,而這里的gap也分了很多種。
返回的結(jié)果分為兩個(gè)部分。
第一個(gè)部分是比對(duì)相關(guān)設(shè)定的參數(shù),以及最終比對(duì)的概要,如長(zhǎng)度,一致度、相似度、空格,得分。
第二部分則是序列比對(duì)的具體信息
左邊是序列的名字(ps:實(shí)際使用發(fā)現(xiàn),對(duì)于序列名稱較長(zhǎng)時(shí),工具無法讀完整,因此盡量不要把兩條序列的名稱弄得太長(zhǎng))
右邊則是序列部分。
上下分別是兩條序列的信息。而連接兩條序列的中間部分,則表示序列匹配的具體情況。
左右分別表示起始或末尾的字母,實(shí)際在序列中的位置。
還記得在操作時(shí),第二步提供了gap罰分的參數(shù)選項(xiàng)嗎?
實(shí)際上,這些gap也有不同的類型。針對(duì)不同類型的gap,調(diào)整不同的罰分,可以使結(jié)果更加準(zhǔn)確。
gap open,便是一系列空格中,開頭的那個(gè)空格。領(lǐng)頭的自然牛一些,因此分?jǐn)?shù)也罰的高。
gap extend,便是跟著gap open的一系列延伸的空格。跟班的自然比不過打頭的,分也低了不少。
結(jié)尾也可以設(shè)定gap罰分
end gap penalty默認(rèn)為false,若設(shè)定為true則可以使用結(jié)尾的gap罰分。但一般親緣關(guān)系較近且大多數(shù)情況下,一般不使用結(jié)尾gap罰分。
當(dāng)我們給gap open大,如 10分,gap extend小,如0.5分的時(shí)候。
結(jié)果里的空格在序列比對(duì)中的位置就相對(duì)非常集中。
自然是因?yàn)榉稚⒌膅ap代價(jià)太大了。
而同理,當(dāng)我們給gap open小,如 1分,gap extend大,如5分的時(shí)候。結(jié)果里的空格也相應(yīng)的非常分散。
既然兩種不同的罰分設(shè)定會(huì)造成序列比對(duì)結(jié)果的差異,該選擇哪種方式呢?
比如下面就有兩個(gè)很典型的情況。gap集中 or gap分散?
1)有兩條相似的待比對(duì)序列,是同源序列,因此它們的功能和結(jié)構(gòu)也相似。其中一條序列結(jié)構(gòu)已知,而另一條未知。想通過序列比對(duì),用已知結(jié)構(gòu)序列作為模版,預(yù)測(cè)另一個(gè)序列的結(jié)構(gòu)。(分散)
2)有兩條待比對(duì)序列,且已知它們大部分區(qū)域都是非常相似的,但其中一個(gè)序列的功能區(qū),在另一個(gè)序列中是缺失的。想要通過序列比對(duì),將另一個(gè)序列的功能區(qū)找出來。(集中)
如果你對(duì)于結(jié)果沒有什么預(yù)期,例如只是為了單純地比較兩個(gè)不同的序列,則可以使用默認(rèn)的罰分參數(shù),即 gap open= 10, gap extend= 0.5。
局部比對(duì)提供了三種算法
選擇最經(jīng)典的 Simith-Waterman算法
其他所有的步驟都和全局比對(duì)是差不多的。
我們可以使用PSA提供的范例數(shù)據(jù)
從比對(duì)結(jié)果來看,長(zhǎng)度也少了不少,因?yàn)橹话押谏南嗨撇糠肿隽诵蛄斜葘?duì)。
一般來說,除了當(dāng)一長(zhǎng)一短的情況時(shí),當(dāng)兩條序列長(zhǎng)度差不多時(shí),也可以使用局部比對(duì),以發(fā)現(xiàn)兩條序列最相似的部分。
有的時(shí)候,兩條序列并不同源,只是有相似的功能區(qū)域,使用局部比對(duì)可以非??焖俚亩ㄎ辉搮^(qū)域在序列中的位置。
除了之前介紹的EMBL pairwise sequence alignment外,還有其他許多平臺(tái)提供全局/局部雙序列比對(duì)的算法。
而主要應(yīng)用的也是 Simith-Waterman算法(局部)以及Needleman-Wunsch算法(全局)。只是在基礎(chǔ)上有所變化。
一個(gè)老師開發(fā)的比embl只多不少的雙序列比對(duì)工具(滑稽.jpg)
還可以給出得分矩陣的作圖結(jié)果
在表格使用數(shù)據(jù)比對(duì),比對(duì)兩個(gè)表格數(shù)據(jù)方法如下:
工具:聯(lián)想筆記本電腦e460、Windows10系統(tǒng)、WPS11.1.012598。
1、首先打開WPS表格,有兩個(gè)對(duì)比表格數(shù)據(jù)。
2、然后在表格中框選第一個(gè)表格數(shù)據(jù)。
3、點(diǎn)擊數(shù)據(jù),點(diǎn)擊篩選中的高級(jí)篩選。
4、在條件區(qū)域中框選另一個(gè)表格數(shù)據(jù),點(diǎn)擊確定。
5、這樣相同的單元格數(shù)據(jù)就被選出來了,添加一個(gè)顏色。
6、在數(shù)據(jù)工具欄中選擇全部顯示。
7、數(shù)據(jù)不一樣的單元格就顯示出來了,就可以成功在表格中核對(duì)兩個(gè)表格數(shù)據(jù)了。
在Excel中進(jìn)行90%數(shù)據(jù)相似度比對(duì)的方法可以通過以下步驟實(shí)現(xiàn):
1.準(zhǔn)備要比對(duì)的兩組數(shù)據(jù),分別放置在不同的列或工作表中。
2.在比對(duì)結(jié)果的列(或工作表)中,使用Excel的內(nèi)置函數(shù)或自定義公式進(jìn)行相似度計(jì)算。常用的函數(shù)包括IF、COUNTIF、LEN等。
3.使用相似度計(jì)算公式對(duì)兩組數(shù)據(jù)逐個(gè)進(jìn)行比對(duì)并計(jì)算相似度得分。
4.判定相似度得分是否達(dá)到90%的閾值。可以使用IF函數(shù)、條件格式設(shè)置或篩選/排序等方法來實(shí)現(xiàn)。
5.根據(jù)需要,你可以采取以下措施來顯示或標(biāo)記符合90%相似度的數(shù)據(jù):
-在比對(duì)結(jié)果列中使用IF函數(shù)來標(biāo)記符合條件的數(shù)據(jù),例如返回"相似"或"通過"等指示標(biāo)記。
-使用條件格式設(shè)置,將符合條件的數(shù)據(jù)進(jìn)行著色或其他樣式上的變化。
-通過篩選或排序功能,將符合條件的數(shù)據(jù)單獨(dú)展示或置頂。
請(qǐng)注意,如何定義和計(jì)算數(shù)據(jù)相似度取決于你所比對(duì)的數(shù)據(jù)類型和特定的需求。你可能需要進(jìn)一步定義相似度的規(guī)則、使用特定的文本比對(duì)函數(shù)(如TEXTJOIN、FIND等)或使用其他插件/工具來實(shí)現(xiàn)更復(fù)雜的相似度比對(duì)。具體實(shí)現(xiàn)方式可能因?qū)嶋H情況而異,你可以根據(jù)具體數(shù)據(jù)和要求進(jìn)行調(diào)整。
在Excel中,可以使用幾種方法來進(jìn)行數(shù)據(jù)的相似度比對(duì)。
1.打開Excel并將要比對(duì)的數(shù)據(jù)放在兩個(gè)不同的工作表或列中。
2.在第三列輸入以下公式,假設(shè)要比對(duì)的數(shù)據(jù)分別位于 A列和 B列:
```
=IF(A1=B1, 1, 0)
```
這個(gè)公式將會(huì)檢查 A1單元格和 B1單元格中的數(shù)據(jù)是否相同,如果相同則返回1,不同則返回0。
3.將該公式拖動(dòng)到所有需要比對(duì)的單元格中。
這樣,你就會(huì)在第三列中得到一個(gè)以0和1表示的結(jié)果,其中1表示相同,0表示不同。接下來,你可以計(jì)算第三列中1的百分比,以獲取數(shù)據(jù)的相似度。方法有很多,例如:
-使用 `COUNTIF`函數(shù)統(tǒng)計(jì)第三列中1的數(shù)量(相同值的數(shù)量);
-使用 `COUNT`函數(shù)統(tǒng)計(jì)第三列中單元格的總數(shù);
-計(jì)算相同值百分比:`(相同值數(shù)量/總數(shù))* 100%`
這樣你就可以獲取到90%的數(shù)據(jù)相似度比對(duì)結(jié)果。
請(qǐng)注意,這種方法只能簡(jiǎn)單地比較值是否相等,并不能考慮更復(fù)雜的數(shù)據(jù)相似度度量,如文本匹配、數(shù)字誤差等。如果需要更高級(jí)的相似度比對(duì)功能,可能需要使用其他工具或編寫自定義腳本來實(shí)現(xiàn)。
在Excel中進(jìn)行數(shù)據(jù)相似度比對(duì)的一種常見方法是使用公式來計(jì)算相似度評(píng)分。以下是一種簡(jiǎn)單的方法,可以通過計(jì)算兩個(gè)數(shù)據(jù)集的相同值的百分比來得出相似度比對(duì)結(jié)果:
1.假設(shè)要比對(duì)的數(shù)據(jù)集分別位于A列和B列,從行2開始。
2.在C2單元格中輸入以下公式:=COUNTIF(A:A,B2)/COUNTA(A:A)。這個(gè)公式將計(jì)算B列中當(dāng)前行的值在A列中出現(xiàn)的次數(shù),并除以A列的非空單元格總數(shù),得到相似度百分比。
3.將公式拖動(dòng)或填充至C列的其他單元格。這樣,每行都會(huì)計(jì)算出相似度百分比。
4.將C列的單元格設(shè)置為百分比格式,以便顯示正確的百分比。
5.可以根據(jù)需要對(duì)C列的數(shù)據(jù)進(jìn)行排序或篩選。較高的相似度百分比表示數(shù)據(jù)集更相似。
該方法基于數(shù)據(jù)集中相同值的數(shù)量來計(jì)算相似度百分比,適用于比對(duì)性質(zhì)相似的數(shù)據(jù)。請(qǐng)注意,這只是一種簡(jiǎn)單的比對(duì)方法,根據(jù)數(shù)據(jù)的特點(diǎn)和需求,可能需要采取更復(fù)雜的方法和算法。
用VLOOKUP就能對(duì)90%的數(shù)據(jù)相似度進(jìn)行比對(duì)
版權(quán)聲明
風(fēng)口星內(nèi)容全部來自網(wǎng)絡(luò),版權(quán)爭(zhēng)議與本站無關(guān),如果您認(rèn)為侵犯了您的合法權(quán)益,請(qǐng)聯(lián)系我們刪除,并向所有持版權(quán)者致最深歉意!本站所發(fā)布的一切學(xué)習(xí)教程、軟件等資料僅限用于學(xué)習(xí)體驗(yàn)和研究目的;不得將上述內(nèi)容用于商業(yè)或者非法用途,否則,一切后果請(qǐng)用戶自負(fù)。請(qǐng)自覺下載后24小時(shí)內(nèi)刪除,如果您喜歡該資料,請(qǐng)支持正版!