日韩经典一区,日韩a免费,国产欧美一区二区三区观看,日韩一区国产二区欧美三,精品日韩欧美一区二区三区在线播放,国产免费一级视频,日韩国产一区二区

正則表達(dá)式的研究和在網(wǎng)頁(yè)抓取中的應(yīng)用論文

時(shí)間:2021-04-15 17:19:40 論文 我要投稿

正則表達(dá)式的研究和在網(wǎng)頁(yè)抓取中的應(yīng)用論文

  正則表達(dá)式又稱正規(guī)表示法、常規(guī)表示法(Regular Ex-press ion,是計(jì)算機(jī)科學(xué)的一個(gè)基本概念)正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列符合某個(gè)句法規(guī)則的字符串、)在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些符合某個(gè)模式的文本。

正則表達(dá)式的研究和在網(wǎng)頁(yè)抓取中的應(yīng)用論文

  許多程序設(shè)計(jì)語(yǔ)言都支持利用正則表達(dá)式進(jìn)行字符串操作,例如,在Python中就內(nèi)建了一個(gè)功能強(qiáng)大的正則表達(dá)式模塊正則表達(dá)式這個(gè)概念最初是由Unix中的工具軟件(例如SPC和grip普及開(kāi)的)。

  1正則表達(dá)式歷史

  正則表達(dá)式或許可一直追溯到科學(xué)家對(duì)人類神經(jīng)系統(tǒng)工作原理的早期研究、美國(guó)新澤西州的Warren McCulloch和出生在美國(guó)底特律的Walter Pitts這兩位神經(jīng)生理方面的科學(xué)家,研究出了一種用數(shù)學(xué)方式來(lái)描述神經(jīng)網(wǎng)絡(luò)的新方法,他們創(chuàng)造性地將神經(jīng)系統(tǒng)中的神經(jīng)元描述成了小而簡(jiǎn)單的自動(dòng)控制元,從而做出了一項(xiàng)偉大的工作革新。

  在1956年,出生在被馬克·吐溫(Mark Twain)稱為“美國(guó)最美麗的城市之一”的哈特福德市的一位名叫LIStephenKleene的數(shù)學(xué)科學(xué)家,在Warren McCulloch和Walter Pitts早期工作的基礎(chǔ)之上,發(fā)表了一篇題目是《神經(jīng)網(wǎng)事件的表示法》的論文,利用稱之為正則集合的數(shù)學(xué)符號(hào)來(lái)描述此模型,引入了正則表達(dá)式的概念)正則表達(dá)式被作為用來(lái)描述其稱之為“正則集的代數(shù)”的一種表達(dá)式,因而采用了“正則表達(dá)式”這個(gè)術(shù)語(yǔ)。

  2正則表達(dá)式基本概念和語(yǔ)法

  2.1什么是正則表達(dá)式

  正則表達(dá)式由一些普通字符(literal characters)和一些元字符(meta characters)組成、普通字符包括大小寫(xiě)的字母、數(shù)字和可打印的符號(hào),而元字符則具有特殊的含義。

  2.2正則表達(dá)式的結(jié)構(gòu)

  正則表達(dá)式結(jié)構(gòu)為:錨定符字符集修飾符。

  2.3正則表達(dá)式處理流程

  (1)匹配字符串的正則:“bat”,“bit”,“but”,“hat”,“hit”或“hut"。

  含義說(shuō)明:匹配‘h’或者‘h’開(kāi)頭,然后是任意1個(gè)字符,然后是‘t’字符和‘,’字符、‘,’字符可以沒(méi)有,所以‘,’后面有一個(gè)‘?’。

  (2)匹配用一個(gè)空格分隔的任意一對(duì)單詞,比如,名和姓。

  (3)匹配用一個(gè)逗號(hào)和一個(gè)空格分開(kāi)的'一個(gè)單詞和一個(gè)字母、例如,英文人名中的姓和名的首字母。

  (4)匹配全體Python整數(shù)的字符串表示形式的集合。

  3正則表達(dá)式在網(wǎng)頁(yè)抓取中的應(yīng)用實(shí)例

  在Web應(yīng)用中,一個(gè)常見(jiàn)的需求是抓取網(wǎng)頁(yè)中指定的內(nèi)容,例如網(wǎng)頁(yè)中的標(biāo)題,超鏈接等,這個(gè)需求可以用正則表達(dá)式很方便地完成。

  4結(jié)語(yǔ)

  正則表達(dá)式語(yǔ)法簡(jiǎn)單,功能強(qiáng)大,在口常的文本處理,網(wǎng)頁(yè)內(nèi)容解析上有各種成熟的應(yīng)用和基于正則的工具,通過(guò)正則表達(dá)式,大大提高了處理字符串和文本的效率,隨著技術(shù)的發(fā)展正則表達(dá)式的應(yīng)用領(lǐng)域和功能也會(huì)越來(lái)越強(qiáng)大。

【正則表達(dá)式的研究和在網(wǎng)頁(yè)抓取中的應(yīng)用論文】相關(guān)文章:

酸化壓裂的研究現(xiàn)狀分析和在現(xiàn)場(chǎng)中的應(yīng)用論文07-06

網(wǎng)頁(yè)設(shè)計(jì)與制作課程的研究與應(yīng)用論文11-02

Flash在網(wǎng)頁(yè)設(shè)計(jì)中的應(yīng)用論文11-18

網(wǎng)頁(yè)設(shè)計(jì)教學(xué)中的應(yīng)用分析論文01-11

教學(xué)中的應(yīng)用研究教學(xué)中的應(yīng)用研究論文06-25

網(wǎng)頁(yè)設(shè)計(jì)中的視覺(jué)構(gòu)成研究論文11-01

“網(wǎng)頁(yè)設(shè)計(jì)與制作”課程中的應(yīng)用分析論文11-18

關(guān)于圖片優(yōu)勢(shì)效應(yīng)在網(wǎng)頁(yè)設(shè)計(jì)中的研究與應(yīng)用探討論文11-03

漢字在標(biāo)志設(shè)計(jì)中的研究與應(yīng)用論文11-02