亚洲免费乱码视频,日韩 欧美 国产 动漫 一区,97在线观看免费视频播国产,中文字幕亚洲图片

      1. <legend id="ppnor"></legend>

      2. 
        
        <sup id="ppnor"><input id="ppnor"></input></sup>
        <s id="ppnor"></s>

        計(jì)算機(jī)應(yīng)用的基礎(chǔ)知識:文本表示綜述及其改進(jìn)

        字號:

        文本表示綜述及其改進(jìn)
            主要內(nèi)容:
            現(xiàn)階段文本表示的主要技術(shù)
            已有的工作對我們的啟發(fā)
            已有的改進(jìn)工作的介紹
            我們的改進(jìn)(可行性?)
            計(jì)算機(jī)如何解決文本分類問題?
            一個中文文本表現(xiàn)為一個由漢字和標(biāo)點(diǎn)符號組成的字符串,由字組成詞,由詞組成短語,進(jìn)而形成句、段、節(jié)、章、篇等結(jié)構(gòu)。
            自然語言理解
            借助統(tǒng)計(jì)學(xué)這個有力的工具
            現(xiàn)階段文本表示的主要技術(shù)
            向量空間模型
            特征項(xiàng)的粒度選擇
            預(yù)處理去除停用詞
            特征選擇
            特征項(xiàng)權(quán)重計(jì)算
            特征重構(gòu)
            VSM
            向量空間模型(Vector Space Model)Salton的概念
            文檔(Document)
            特征項(xiàng)(Term)
            特征項(xiàng)的權(quán)重(Term Weight)
            向量空間模型(VSM)
            相似度(Similarity)
            特征項(xiàng)的粒度
            字
             簡單高效,國家標(biāo)準(zhǔn)GB2312-80 中定義的常用漢字為6763個 .
             表示能力比較差,不能獨(dú)立地完整地表達(dá)語義信息。
            詞
             詞是最小的能夠獨(dú)立運(yùn)用的語言單位 .
             詞的個數(shù)在10萬個以上,面臨復(fù)雜的分詞問題
            特征項(xiàng)的粒度(2)
            短語特征
             和詞相比頻率更低,表現(xiàn)力更強(qiáng)
            概念特征
             “爸爸”=“父親”,在自動文摘領(lǐng)域很有幫助
            N元組特征
             “中國人民銀行”
            2元組: 中 中國 國人 人民 民銀 銀行 行
             主要用于自動糾錯.
            特征項(xiàng)的粒度(3)
            重復(fù)串特征?
             分詞程序的統(tǒng)計(jì)逼進(jìn)
            新的粒度?
            David Lewis的結(jié)論:
             單個word作為特征效果好于phrase和cluster of phrase以及cluster of words.
            phrase的低頻率和高同義性(synonymy)大大的影響其性能 ;(抵消了phrase的低歧義性的好處) 而cluster of words的效果不佳主要的原因應(yīng)該還是訓(xùn)練集不夠大的緣故 .
            預(yù)處理去除停用詞
            虛詞,助詞出現(xiàn)頻率高,對于表達(dá)意義的貢獻(xiàn)卻不大.
            如:“著” 、“了” 、“過” 、“的” 、“地” 、“得”
            統(tǒng)計(jì)詞頻時(shí)過濾掉這些停用詞.
            停用詞無用嗎?
            紅樓夢作者考證
             李賢平 1987
            利用120回中每一回用的47個虛字(之,其,或,亦……,呀,嗎,咧,罷……;的,著,是,在,……;可,便,就,但,……,兒等)出現(xiàn)的頻率進(jìn)行聚類.
            前80回基本聚成一類,后40回聚類情況較零散.
            得出結(jié)論:
            前80回與后40回之間有交叉。
            前80回是曹雪芹據(jù)《石頭記》寫成,中間插入《風(fēng)月寶鑒》,還有一些別的增加成分。
            后40回是曹雪芹親友將曹雪芹的草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當(dāng)為另一人所寫。
            特征選擇
             目標(biāo)
            表達(dá)力強(qiáng)
            頻率較高
            區(qū)分度高
            合理的特征評價(jià)函數(shù)
            消除干擾,提高分類準(zhǔn)確率
            特征空間降維,減少運(yùn)算量
            特征選擇(2)
            文檔頻次 (DF)
             根據(jù)預(yù)先設(shè)定的閾值去除那些文檔頻次特別低和特別高的特征項(xiàng)。
             合理的閾值往往難以得到 !
            互信息(MI)
            出現(xiàn)頻率差異很大的特征項(xiàng)的互信息大小不具有可比性 !(即低頻特征具有較高的MI)
            同時(shí),訓(xùn)練集中不同類別相差較大時(shí),低頻詞也有較大MI.
            實(shí)踐證明,互信息方法是效果最差的特征選擇方法!
            特征選擇(3)
            χ2統(tǒng)計(jì)量:用于度量特征項(xiàng)w 和類別C 之間的獨(dú)立性
             對低頻特征項(xiàng)的區(qū)分效果也不好 !
            信息增益(IG):該特征項(xiàng)為整個分類所提供的信息量
             將長文檔和短文檔視為等同.頻率信息.
            特征選擇性能比較:
            特征項(xiàng)權(quán)重計(jì)算
            布爾權(quán)重
            詞頻權(quán)重
            TFIDF權(quán)重(為什么?)
            權(quán)重計(jì)算(2)
            TFC權(quán)重: 對TFIDF進(jìn)行歸一化
            LTC權(quán)重:降低TF的作用(最常用)(不區(qū)分長短文章)
            熵權(quán)重: (效果)
            特征重構(gòu)
            LSI:(Latent Semantic Indexing)
             一詞多義和多詞一義的等現(xiàn)象使得文本特征項(xiàng)向量中的不同分量之間互相關(guān)聯(lián).
             LSI 方法 通過矩陣奇異值分解(SVD),將特征項(xiàng)空間中的文本矩陣轉(zhuǎn)換成概念空間中的正交矩陣 ,概念空間中各個特征之間是相互獨(dú)立的.
             進(jìn)行奇異值分解過程中信息損失過大,因此在自動文本分類問題中往往性能不佳!
            VSM潛在的問題:
            長文檔(黃萱菁 )
             VSM把文檔看成是文檔空間的一個向量 ,實(shí)踐結(jié)果表明對長文檔來說不適宜.長文檔內(nèi)容比較豐富,必須對文檔長度進(jìn)行正規(guī)化出現(xiàn)問題.解決的辦法是對長文檔進(jìn)行分割。(如何定義“長”?)
            特征項(xiàng)的獨(dú)立性假設(shè)
             如果我們把詞看做特征項(xiàng),那么詞之間的獨(dú)立性即意味著一個詞的上下文信息對于這個詞的信息沒有任何作用!這顯然是與人們的常識相違背的.
            思路啟發(fā) 1:特征項(xiàng)順序關(guān)系 (卜東波)
            中文文本由特征項(xiàng)的頻率及相互的順序表達(dá) .考慮順序信息,必然使用有向指針,使得文本變成復(fù)雜的圖結(jié)構(gòu) .由于難以定義合理的距離函數(shù)描述兩個由圖結(jié)構(gòu)表示的文本是否相似,因此不得不舍棄順序信息 .
            要盡可能的考慮特征項(xiàng)間的順序關(guān)系.
            思路啟發(fā) 2:上下文信息貢獻(xiàn) (魯松)
            引入信息增益方法確定上下文各位置的信息量后,構(gòu)造上下文位置信息量函數(shù),最終通過多項(xiàng)式積分確定85%信息量的上下文邊界,即漢語核心詞語最近距離[-8,+9]和英文[-16,+13]位置之間的上下文范圍。
            要盡可能的考慮特征項(xiàng)的上下文貢獻(xiàn).
            思路啟發(fā) 3:分類器集成
            分類器集成思想的提出:
             不同的分類算法往往適用于不同的特定問題,沒有的分類算法.
            希望把不同的方法綜合在一起,盡可能的減小錯誤的發(fā)生.
            分類器集成(2)
            Condorcet陪審團(tuán)定律 (1785)
             對于二分問題,假設(shè)每一個分類器的錯誤率都小于0.5,那么一組相互獨(dú)立分類器采用投票方式得到的分類結(jié)果,其錯誤率將小于每個單個分類器的錯誤率.
             設(shè)P=0.3,L=3,得到結(jié)果僅為0.216
             設(shè)P=0.3,L=5,得到結(jié)果僅為0.163
             …
             設(shè)P=0.3,L=21,得到結(jié)果僅為0.026
            分類器集成(3)
            前提條件是要證明不同的分類器之間具有獨(dú)立性(實(shí)際問題中常常轉(zhuǎn)化為不同分類器的錯誤之間具有獨(dú)立性). 困難!
            實(shí)際情況中,分類器的準(zhǔn)確性和獨(dú)立性之間存在一個折中: 分類器越是準(zhǔn)確,他們間獨(dú)立性就越差!
            啟發(fā):采用投票方式的多次判別有利于提高分類的準(zhǔn)確性,(召回率??)但是分類器集成的方法卻效果不明顯.考慮用一個分類器對文檔的不同部分分塊判別,不同塊間的錯誤相互獨(dú)立是一個比較容易令人接受的假設(shè).
            考慮了特征項(xiàng)間關(guān)系(context)的分類算法的介紹:
            最重要的是RIPPER算法(Cohen 1995)和sleeping-experts算法(Freund 1997).
            兩個算法的共同優(yōu)點(diǎn):
            分類算法是線性或者是亞線性的;
            文本的直接的表示方法:表示成有序特征項(xiàng)的鏈(完全不同于VSM的表示方式) ;
            特征項(xiàng)的context信息影響分類結(jié)果;
            context在分類器的訓(xùn)練過程同時(shí)生成,不需要額外的context生成算法.
            (在對于短文本分類問題中,詞頻不具有統(tǒng)計(jì)信息,更適于規(guī)則判定)
            RIPPER算法:
            RIPPER算法是一個松弛的規(guī)則匹配算法,context就是不同的規(guī)則.
            訓(xùn)練得到一個規(guī)則集合
            規(guī)則集合可以看做是若干個規(guī)則的析取(或)表達(dá)式
            每個規(guī)則是若干個特征項(xiàng)的合取(與)表達(dá)式
            每個規(guī)則的特征項(xiàng)之間是沒有次序的,每個特征項(xiàng)可以出現(xiàn)在文檔的任何地方
             規(guī)則總是和分類正相關(guān)的.
            RIPPER算法的基本思想 :
            訓(xùn)練過程分為兩部分 :
             根據(jù)貪心原則(greedy)采用啟發(fā)式方法(heuristics)利用信息增益的手段構(gòu)造一個最初的規(guī)則集合 ;
             通過一個優(yōu)化過程剪除(prune)規(guī)則集合并提高規(guī)則集合的準(zhǔn)確性.
            分類過程:
             文檔滿足某個規(guī)則就認(rèn)為它屬于該類.
            RIPPER算法的問題
            訓(xùn)練過程復(fù)雜(啟發(fā)式算法);
            新的文本表示方法,忽略了測試文檔中特征項(xiàng)的頻率信息;
            不考慮特征項(xiàng)在文檔中的位置,無法利用多次判別提高分類的準(zhǔn)確性了.
            如何調(diào)整規(guī)則的次序?
            sleeping-experts算法
            sleeping-experts是一個嚴(yán)格的規(guī)則匹配算法,context稱為稀疏短語(sparse phrase) .
            定義:一個有序的N個詞組成的鏈表,這N個詞不需要連續(xù)出現(xiàn)因此稱為稀疏短語.
            每個稀疏短語就是一個expert,如果滿足這個稀疏短語就是該expert做出了一個判定.
            sleeping-experts算法的基本思想
            同時(shí)滿足的N個experts之間不僅僅是簡單的voting方法,而是利用對不同experts的效果的估計(jì)調(diào)整其加權(quán)系數(shù).
            訓(xùn)練過程中,疊代依次生成稀疏短語,若該稀疏短語對該類是起正向作用,則擴(kuò)大其加權(quán)系數(shù);反之,縮小其加權(quán)系數(shù).
            Sleeping-experts算法的問題
            Context定義過于嚴(yán)格?影響召回率?
            算法的簡化?沒有特征選擇,直接生成稀疏矩陣,使得experts的數(shù)目極多!
            分類結(jié)果
            我們的想法:
            文章的傾向性判定.
            基于context(相對位置)的分類方法改進(jìn).
            文章的傾向性判定
            利用核心詞將文章分塊,以多次判定.
             準(zhǔn)確率提高,(召回率為平均召回率?)
            如何選取核心詞?
             表達(dá)力強(qiáng),頻率較高,區(qū)分度低(實(shí)詞?)
            方法:TFDF原則
             參數(shù)調(diào)整:
            對每一個“塊”的分類方法
            基于規(guī)則(更快)
             基于中高頻詞構(gòu)造規(guī)則.
             松弛的規(guī)則,保證一定的召回率;
             多次判定提高準(zhǔn)確率.
            SVM(更準(zhǔn))
            對伊拉克戰(zhàn)爭的傾向性
            手工建立訓(xùn)練集
            希望SVM直接分類,基于規(guī)則分塊分類,SVM分塊分類結(jié)果比較.
            基于context的分類方法
            用特征的組合代替原有的特征
             特征的組合可以反映特征間的序.
            組合特征出現(xiàn)的頻率將大大降低,不再具有統(tǒng)計(jì)意義,因此考慮將一個組合特征看做一個規(guī)則.
            sleeping-experts算法的簡化和改進(jìn)
            稀疏短語內(nèi)部可以沒有次序關(guān)系.
            采用簡單的voting方法,不考慮復(fù)雜的加權(quán)策略.