文本表示綜述及其改進(jìn)
主要內(nèi)容:
現(xiàn)階段文本表示的主要技術(shù)
已有的工作對我們的啟發(fā)
已有的改進(jìn)工作的介紹
我們的改進(jìn)(可行性?)
計(jì)算機(jī)如何解決文本分類問題?
一個中文文本表現(xiàn)為一個由漢字和標(biāo)點(diǎn)符號組成的字符串,由字組成詞,由詞組成短語,進(jìn)而形成句、段、節(jié)、章、篇等結(jié)構(gòu)。
自然語言理解
借助統(tǒng)計(jì)學(xué)這個有力的工具
現(xiàn)階段文本表示的主要技術(shù)
向量空間模型
特征項(xiàng)的粒度選擇
預(yù)處理去除停用詞
特征選擇
特征項(xiàng)權(quán)重計(jì)算
特征重構(gòu)
VSM
向量空間模型(Vector Space Model)Salton的概念
文檔(Document)
特征項(xiàng)(Term)
特征項(xiàng)的權(quán)重(Term Weight)
向量空間模型(VSM)
相似度(Similarity)
特征項(xiàng)的粒度
字
簡單高效,國家標(biāo)準(zhǔn)GB2312-80 中定義的常用漢字為6763個 .
表示能力比較差,不能獨(dú)立地完整地表達(dá)語義信息。
詞
詞是最小的能夠獨(dú)立運(yùn)用的語言單位 .
詞的個數(shù)在10萬個以上,面臨復(fù)雜的分詞問題
特征項(xiàng)的粒度(2)
短語特征
和詞相比頻率更低,表現(xiàn)力更強(qiáng)
概念特征
“爸爸”=“父親”,在自動文摘領(lǐng)域很有幫助
N元組特征
“中國人民銀行”
2元組: 中 中國 國人 人民 民銀 銀行 行
主要用于自動糾錯.
特征項(xiàng)的粒度(3)
重復(fù)串特征?
分詞程序的統(tǒng)計(jì)逼進(jìn)
新的粒度?
David Lewis的結(jié)論:
單個word作為特征效果好于phrase和cluster of phrase以及cluster of words.
phrase的低頻率和高同義性(synonymy)大大的影響其性能 ;(抵消了phrase的低歧義性的好處) 而cluster of words的效果不佳主要的原因應(yīng)該還是訓(xùn)練集不夠大的緣故 .
預(yù)處理去除停用詞
虛詞,助詞出現(xiàn)頻率高,對于表達(dá)意義的貢獻(xiàn)卻不大.
如:“著” 、“了” 、“過” 、“的” 、“地” 、“得”
統(tǒng)計(jì)詞頻時(shí)過濾掉這些停用詞.
停用詞無用嗎?
紅樓夢作者考證
李賢平 1987
利用120回中每一回用的47個虛字(之,其,或,亦……,呀,嗎,咧,罷……;的,著,是,在,……;可,便,就,但,……,兒等)出現(xiàn)的頻率進(jìn)行聚類.
前80回基本聚成一類,后40回聚類情況較零散.
得出結(jié)論:
前80回與后40回之間有交叉。
前80回是曹雪芹據(jù)《石頭記》寫成,中間插入《風(fēng)月寶鑒》,還有一些別的增加成分。
后40回是曹雪芹親友將曹雪芹的草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當(dāng)為另一人所寫。
特征選擇
目標(biāo)
表達(dá)力強(qiáng)
頻率較高
區(qū)分度高
合理的特征評價(jià)函數(shù)
消除干擾,提高分類準(zhǔn)確率
特征空間降維,減少運(yùn)算量
特征選擇(2)
文檔頻次 (DF)
根據(jù)預(yù)先設(shè)定的閾值去除那些文檔頻次特別低和特別高的特征項(xiàng)。
合理的閾值往往難以得到 !
互信息(MI)
出現(xiàn)頻率差異很大的特征項(xiàng)的互信息大小不具有可比性 !(即低頻特征具有較高的MI)
同時(shí),訓(xùn)練集中不同類別相差較大時(shí),低頻詞也有較大MI.
實(shí)踐證明,互信息方法是效果最差的特征選擇方法!
特征選擇(3)
χ2統(tǒng)計(jì)量:用于度量特征項(xiàng)w 和類別C 之間的獨(dú)立性
對低頻特征項(xiàng)的區(qū)分效果也不好 !
信息增益(IG):該特征項(xiàng)為整個分類所提供的信息量
將長文檔和短文檔視為等同.頻率信息.
特征選擇性能比較:
特征項(xiàng)權(quán)重計(jì)算
布爾權(quán)重
詞頻權(quán)重
TFIDF權(quán)重(為什么?)
權(quán)重計(jì)算(2)
TFC權(quán)重: 對TFIDF進(jìn)行歸一化
LTC權(quán)重:降低TF的作用(最常用)(不區(qū)分長短文章)
熵權(quán)重: (效果)
特征重構(gòu)
LSI:(Latent Semantic Indexing)
一詞多義和多詞一義的等現(xiàn)象使得文本特征項(xiàng)向量中的不同分量之間互相關(guān)聯(lián).
LSI 方法 通過矩陣奇異值分解(SVD),將特征項(xiàng)空間中的文本矩陣轉(zhuǎn)換成概念空間中的正交矩陣 ,概念空間中各個特征之間是相互獨(dú)立的.
進(jìn)行奇異值分解過程中信息損失過大,因此在自動文本分類問題中往往性能不佳!
VSM潛在的問題:
長文檔(黃萱菁 )
VSM把文檔看成是文檔空間的一個向量 ,實(shí)踐結(jié)果表明對長文檔來說不適宜.長文檔內(nèi)容比較豐富,必須對文檔長度進(jìn)行正規(guī)化出現(xiàn)問題.解決的辦法是對長文檔進(jìn)行分割。(如何定義“長”?)
特征項(xiàng)的獨(dú)立性假設(shè)
如果我們把詞看做特征項(xiàng),那么詞之間的獨(dú)立性即意味著一個詞的上下文信息對于這個詞的信息沒有任何作用!這顯然是與人們的常識相違背的.
思路啟發(fā) 1:特征項(xiàng)順序關(guān)系 (卜東波)
中文文本由特征項(xiàng)的頻率及相互的順序表達(dá) .考慮順序信息,必然使用有向指針,使得文本變成復(fù)雜的圖結(jié)構(gòu) .由于難以定義合理的距離函數(shù)描述兩個由圖結(jié)構(gòu)表示的文本是否相似,因此不得不舍棄順序信息 .
要盡可能的考慮特征項(xiàng)間的順序關(guān)系.
思路啟發(fā) 2:上下文信息貢獻(xiàn) (魯松)
引入信息增益方法確定上下文各位置的信息量后,構(gòu)造上下文位置信息量函數(shù),最終通過多項(xiàng)式積分確定85%信息量的上下文邊界,即漢語核心詞語最近距離[-8,+9]和英文[-16,+13]位置之間的上下文范圍。
要盡可能的考慮特征項(xiàng)的上下文貢獻(xiàn).
思路啟發(fā) 3:分類器集成
分類器集成思想的提出:
不同的分類算法往往適用于不同的特定問題,沒有的分類算法.
希望把不同的方法綜合在一起,盡可能的減小錯誤的發(fā)生.
分類器集成(2)
Condorcet陪審團(tuán)定律 (1785)
對于二分問題,假設(shè)每一個分類器的錯誤率都小于0.5,那么一組相互獨(dú)立分類器采用投票方式得到的分類結(jié)果,其錯誤率將小于每個單個分類器的錯誤率.
設(shè)P=0.3,L=3,得到結(jié)果僅為0.216
設(shè)P=0.3,L=5,得到結(jié)果僅為0.163
…
設(shè)P=0.3,L=21,得到結(jié)果僅為0.026
分類器集成(3)
前提條件是要證明不同的分類器之間具有獨(dú)立性(實(shí)際問題中常常轉(zhuǎn)化為不同分類器的錯誤之間具有獨(dú)立性). 困難!
實(shí)際情況中,分類器的準(zhǔn)確性和獨(dú)立性之間存在一個折中: 分類器越是準(zhǔn)確,他們間獨(dú)立性就越差!
啟發(fā):采用投票方式的多次判別有利于提高分類的準(zhǔn)確性,(召回率??)但是分類器集成的方法卻效果不明顯.考慮用一個分類器對文檔的不同部分分塊判別,不同塊間的錯誤相互獨(dú)立是一個比較容易令人接受的假設(shè).
考慮了特征項(xiàng)間關(guān)系(context)的分類算法的介紹:
最重要的是RIPPER算法(Cohen 1995)和sleeping-experts算法(Freund 1997).
兩個算法的共同優(yōu)點(diǎn):
分類算法是線性或者是亞線性的;
文本的直接的表示方法:表示成有序特征項(xiàng)的鏈(完全不同于VSM的表示方式) ;
特征項(xiàng)的context信息影響分類結(jié)果;
context在分類器的訓(xùn)練過程同時(shí)生成,不需要額外的context生成算法.
(在對于短文本分類問題中,詞頻不具有統(tǒng)計(jì)信息,更適于規(guī)則判定)
RIPPER算法:
RIPPER算法是一個松弛的規(guī)則匹配算法,context就是不同的規(guī)則.
訓(xùn)練得到一個規(guī)則集合
規(guī)則集合可以看做是若干個規(guī)則的析取(或)表達(dá)式
每個規(guī)則是若干個特征項(xiàng)的合取(與)表達(dá)式
每個規(guī)則的特征項(xiàng)之間是沒有次序的,每個特征項(xiàng)可以出現(xiàn)在文檔的任何地方
規(guī)則總是和分類正相關(guān)的.
RIPPER算法的基本思想 :
訓(xùn)練過程分為兩部分 :
根據(jù)貪心原則(greedy)采用啟發(fā)式方法(heuristics)利用信息增益的手段構(gòu)造一個最初的規(guī)則集合 ;
通過一個優(yōu)化過程剪除(prune)規(guī)則集合并提高規(guī)則集合的準(zhǔn)確性.
分類過程:
文檔滿足某個規(guī)則就認(rèn)為它屬于該類.
RIPPER算法的問題
訓(xùn)練過程復(fù)雜(啟發(fā)式算法);
新的文本表示方法,忽略了測試文檔中特征項(xiàng)的頻率信息;
不考慮特征項(xiàng)在文檔中的位置,無法利用多次判別提高分類的準(zhǔn)確性了.
如何調(diào)整規(guī)則的次序?
sleeping-experts算法
sleeping-experts是一個嚴(yán)格的規(guī)則匹配算法,context稱為稀疏短語(sparse phrase) .
定義:一個有序的N個詞組成的鏈表,這N個詞不需要連續(xù)出現(xiàn)因此稱為稀疏短語.
每個稀疏短語就是一個expert,如果滿足這個稀疏短語就是該expert做出了一個判定.
sleeping-experts算法的基本思想
同時(shí)滿足的N個experts之間不僅僅是簡單的voting方法,而是利用對不同experts的效果的估計(jì)調(diào)整其加權(quán)系數(shù).
訓(xùn)練過程中,疊代依次生成稀疏短語,若該稀疏短語對該類是起正向作用,則擴(kuò)大其加權(quán)系數(shù);反之,縮小其加權(quán)系數(shù).
Sleeping-experts算法的問題
Context定義過于嚴(yán)格?影響召回率?
算法的簡化?沒有特征選擇,直接生成稀疏矩陣,使得experts的數(shù)目極多!
分類結(jié)果
我們的想法:
文章的傾向性判定.
基于context(相對位置)的分類方法改進(jìn).
文章的傾向性判定
利用核心詞將文章分塊,以多次判定.
準(zhǔn)確率提高,(召回率為平均召回率?)
如何選取核心詞?
表達(dá)力強(qiáng),頻率較高,區(qū)分度低(實(shí)詞?)
方法:TFDF原則
參數(shù)調(diào)整:
對每一個“塊”的分類方法
基于規(guī)則(更快)
基于中高頻詞構(gòu)造規(guī)則.
松弛的規(guī)則,保證一定的召回率;
多次判定提高準(zhǔn)確率.
SVM(更準(zhǔn))
對伊拉克戰(zhàn)爭的傾向性
手工建立訓(xùn)練集
希望SVM直接分類,基于規(guī)則分塊分類,SVM分塊分類結(jié)果比較.
基于context的分類方法
用特征的組合代替原有的特征
特征的組合可以反映特征間的序.
組合特征出現(xiàn)的頻率將大大降低,不再具有統(tǒng)計(jì)意義,因此考慮將一個組合特征看做一個規(guī)則.
sleeping-experts算法的簡化和改進(jìn)
稀疏短語內(nèi)部可以沒有次序關(guān)系.
采用簡單的voting方法,不考慮復(fù)雜的加權(quán)策略.
主要內(nèi)容:
現(xiàn)階段文本表示的主要技術(shù)
已有的工作對我們的啟發(fā)
已有的改進(jìn)工作的介紹
我們的改進(jìn)(可行性?)
計(jì)算機(jī)如何解決文本分類問題?
一個中文文本表現(xiàn)為一個由漢字和標(biāo)點(diǎn)符號組成的字符串,由字組成詞,由詞組成短語,進(jìn)而形成句、段、節(jié)、章、篇等結(jié)構(gòu)。
自然語言理解
借助統(tǒng)計(jì)學(xué)這個有力的工具
現(xiàn)階段文本表示的主要技術(shù)
向量空間模型
特征項(xiàng)的粒度選擇
預(yù)處理去除停用詞
特征選擇
特征項(xiàng)權(quán)重計(jì)算
特征重構(gòu)
VSM
向量空間模型(Vector Space Model)Salton的概念
文檔(Document)
特征項(xiàng)(Term)
特征項(xiàng)的權(quán)重(Term Weight)
向量空間模型(VSM)
相似度(Similarity)
特征項(xiàng)的粒度
字
簡單高效,國家標(biāo)準(zhǔn)GB2312-80 中定義的常用漢字為6763個 .
表示能力比較差,不能獨(dú)立地完整地表達(dá)語義信息。
詞
詞是最小的能夠獨(dú)立運(yùn)用的語言單位 .
詞的個數(shù)在10萬個以上,面臨復(fù)雜的分詞問題
特征項(xiàng)的粒度(2)
短語特征
和詞相比頻率更低,表現(xiàn)力更強(qiáng)
概念特征
“爸爸”=“父親”,在自動文摘領(lǐng)域很有幫助
N元組特征
“中國人民銀行”
2元組: 中 中國 國人 人民 民銀 銀行 行
主要用于自動糾錯.
特征項(xiàng)的粒度(3)
重復(fù)串特征?
分詞程序的統(tǒng)計(jì)逼進(jìn)
新的粒度?
David Lewis的結(jié)論:
單個word作為特征效果好于phrase和cluster of phrase以及cluster of words.
phrase的低頻率和高同義性(synonymy)大大的影響其性能 ;(抵消了phrase的低歧義性的好處) 而cluster of words的效果不佳主要的原因應(yīng)該還是訓(xùn)練集不夠大的緣故 .
預(yù)處理去除停用詞
虛詞,助詞出現(xiàn)頻率高,對于表達(dá)意義的貢獻(xiàn)卻不大.
如:“著” 、“了” 、“過” 、“的” 、“地” 、“得”
統(tǒng)計(jì)詞頻時(shí)過濾掉這些停用詞.
停用詞無用嗎?
紅樓夢作者考證
李賢平 1987
利用120回中每一回用的47個虛字(之,其,或,亦……,呀,嗎,咧,罷……;的,著,是,在,……;可,便,就,但,……,兒等)出現(xiàn)的頻率進(jìn)行聚類.
前80回基本聚成一類,后40回聚類情況較零散.
得出結(jié)論:
前80回與后40回之間有交叉。
前80回是曹雪芹據(jù)《石頭記》寫成,中間插入《風(fēng)月寶鑒》,還有一些別的增加成分。
后40回是曹雪芹親友將曹雪芹的草稿整理而成,寶黛故事為一人所寫,賈府衰敗情景當(dāng)為另一人所寫。
特征選擇
目標(biāo)
表達(dá)力強(qiáng)
頻率較高
區(qū)分度高
合理的特征評價(jià)函數(shù)
消除干擾,提高分類準(zhǔn)確率
特征空間降維,減少運(yùn)算量
特征選擇(2)
文檔頻次 (DF)
根據(jù)預(yù)先設(shè)定的閾值去除那些文檔頻次特別低和特別高的特征項(xiàng)。
合理的閾值往往難以得到 !
互信息(MI)
出現(xiàn)頻率差異很大的特征項(xiàng)的互信息大小不具有可比性 !(即低頻特征具有較高的MI)
同時(shí),訓(xùn)練集中不同類別相差較大時(shí),低頻詞也有較大MI.
實(shí)踐證明,互信息方法是效果最差的特征選擇方法!
特征選擇(3)
χ2統(tǒng)計(jì)量:用于度量特征項(xiàng)w 和類別C 之間的獨(dú)立性
對低頻特征項(xiàng)的區(qū)分效果也不好 !
信息增益(IG):該特征項(xiàng)為整個分類所提供的信息量
將長文檔和短文檔視為等同.頻率信息.
特征選擇性能比較:
特征項(xiàng)權(quán)重計(jì)算
布爾權(quán)重
詞頻權(quán)重
TFIDF權(quán)重(為什么?)
權(quán)重計(jì)算(2)
TFC權(quán)重: 對TFIDF進(jìn)行歸一化
LTC權(quán)重:降低TF的作用(最常用)(不區(qū)分長短文章)
熵權(quán)重: (效果)
特征重構(gòu)
LSI:(Latent Semantic Indexing)
一詞多義和多詞一義的等現(xiàn)象使得文本特征項(xiàng)向量中的不同分量之間互相關(guān)聯(lián).
LSI 方法 通過矩陣奇異值分解(SVD),將特征項(xiàng)空間中的文本矩陣轉(zhuǎn)換成概念空間中的正交矩陣 ,概念空間中各個特征之間是相互獨(dú)立的.
進(jìn)行奇異值分解過程中信息損失過大,因此在自動文本分類問題中往往性能不佳!
VSM潛在的問題:
長文檔(黃萱菁 )
VSM把文檔看成是文檔空間的一個向量 ,實(shí)踐結(jié)果表明對長文檔來說不適宜.長文檔內(nèi)容比較豐富,必須對文檔長度進(jìn)行正規(guī)化出現(xiàn)問題.解決的辦法是對長文檔進(jìn)行分割。(如何定義“長”?)
特征項(xiàng)的獨(dú)立性假設(shè)
如果我們把詞看做特征項(xiàng),那么詞之間的獨(dú)立性即意味著一個詞的上下文信息對于這個詞的信息沒有任何作用!這顯然是與人們的常識相違背的.
思路啟發(fā) 1:特征項(xiàng)順序關(guān)系 (卜東波)
中文文本由特征項(xiàng)的頻率及相互的順序表達(dá) .考慮順序信息,必然使用有向指針,使得文本變成復(fù)雜的圖結(jié)構(gòu) .由于難以定義合理的距離函數(shù)描述兩個由圖結(jié)構(gòu)表示的文本是否相似,因此不得不舍棄順序信息 .
要盡可能的考慮特征項(xiàng)間的順序關(guān)系.
思路啟發(fā) 2:上下文信息貢獻(xiàn) (魯松)
引入信息增益方法確定上下文各位置的信息量后,構(gòu)造上下文位置信息量函數(shù),最終通過多項(xiàng)式積分確定85%信息量的上下文邊界,即漢語核心詞語最近距離[-8,+9]和英文[-16,+13]位置之間的上下文范圍。
要盡可能的考慮特征項(xiàng)的上下文貢獻(xiàn).
思路啟發(fā) 3:分類器集成
分類器集成思想的提出:
不同的分類算法往往適用于不同的特定問題,沒有的分類算法.
希望把不同的方法綜合在一起,盡可能的減小錯誤的發(fā)生.
分類器集成(2)
Condorcet陪審團(tuán)定律 (1785)
對于二分問題,假設(shè)每一個分類器的錯誤率都小于0.5,那么一組相互獨(dú)立分類器采用投票方式得到的分類結(jié)果,其錯誤率將小于每個單個分類器的錯誤率.
設(shè)P=0.3,L=3,得到結(jié)果僅為0.216
設(shè)P=0.3,L=5,得到結(jié)果僅為0.163
…
設(shè)P=0.3,L=21,得到結(jié)果僅為0.026
分類器集成(3)
前提條件是要證明不同的分類器之間具有獨(dú)立性(實(shí)際問題中常常轉(zhuǎn)化為不同分類器的錯誤之間具有獨(dú)立性). 困難!
實(shí)際情況中,分類器的準(zhǔn)確性和獨(dú)立性之間存在一個折中: 分類器越是準(zhǔn)確,他們間獨(dú)立性就越差!
啟發(fā):采用投票方式的多次判別有利于提高分類的準(zhǔn)確性,(召回率??)但是分類器集成的方法卻效果不明顯.考慮用一個分類器對文檔的不同部分分塊判別,不同塊間的錯誤相互獨(dú)立是一個比較容易令人接受的假設(shè).
考慮了特征項(xiàng)間關(guān)系(context)的分類算法的介紹:
最重要的是RIPPER算法(Cohen 1995)和sleeping-experts算法(Freund 1997).
兩個算法的共同優(yōu)點(diǎn):
分類算法是線性或者是亞線性的;
文本的直接的表示方法:表示成有序特征項(xiàng)的鏈(完全不同于VSM的表示方式) ;
特征項(xiàng)的context信息影響分類結(jié)果;
context在分類器的訓(xùn)練過程同時(shí)生成,不需要額外的context生成算法.
(在對于短文本分類問題中,詞頻不具有統(tǒng)計(jì)信息,更適于規(guī)則判定)
RIPPER算法:
RIPPER算法是一個松弛的規(guī)則匹配算法,context就是不同的規(guī)則.
訓(xùn)練得到一個規(guī)則集合
規(guī)則集合可以看做是若干個規(guī)則的析取(或)表達(dá)式
每個規(guī)則是若干個特征項(xiàng)的合取(與)表達(dá)式
每個規(guī)則的特征項(xiàng)之間是沒有次序的,每個特征項(xiàng)可以出現(xiàn)在文檔的任何地方
規(guī)則總是和分類正相關(guān)的.
RIPPER算法的基本思想 :
訓(xùn)練過程分為兩部分 :
根據(jù)貪心原則(greedy)采用啟發(fā)式方法(heuristics)利用信息增益的手段構(gòu)造一個最初的規(guī)則集合 ;
通過一個優(yōu)化過程剪除(prune)規(guī)則集合并提高規(guī)則集合的準(zhǔn)確性.
分類過程:
文檔滿足某個規(guī)則就認(rèn)為它屬于該類.
RIPPER算法的問題
訓(xùn)練過程復(fù)雜(啟發(fā)式算法);
新的文本表示方法,忽略了測試文檔中特征項(xiàng)的頻率信息;
不考慮特征項(xiàng)在文檔中的位置,無法利用多次判別提高分類的準(zhǔn)確性了.
如何調(diào)整規(guī)則的次序?
sleeping-experts算法
sleeping-experts是一個嚴(yán)格的規(guī)則匹配算法,context稱為稀疏短語(sparse phrase) .
定義:一個有序的N個詞組成的鏈表,這N個詞不需要連續(xù)出現(xiàn)因此稱為稀疏短語.
每個稀疏短語就是一個expert,如果滿足這個稀疏短語就是該expert做出了一個判定.
sleeping-experts算法的基本思想
同時(shí)滿足的N個experts之間不僅僅是簡單的voting方法,而是利用對不同experts的效果的估計(jì)調(diào)整其加權(quán)系數(shù).
訓(xùn)練過程中,疊代依次生成稀疏短語,若該稀疏短語對該類是起正向作用,則擴(kuò)大其加權(quán)系數(shù);反之,縮小其加權(quán)系數(shù).
Sleeping-experts算法的問題
Context定義過于嚴(yán)格?影響召回率?
算法的簡化?沒有特征選擇,直接生成稀疏矩陣,使得experts的數(shù)目極多!
分類結(jié)果
我們的想法:
文章的傾向性判定.
基于context(相對位置)的分類方法改進(jìn).
文章的傾向性判定
利用核心詞將文章分塊,以多次判定.
準(zhǔn)確率提高,(召回率為平均召回率?)
如何選取核心詞?
表達(dá)力強(qiáng),頻率較高,區(qū)分度低(實(shí)詞?)
方法:TFDF原則
參數(shù)調(diào)整:
對每一個“塊”的分類方法
基于規(guī)則(更快)
基于中高頻詞構(gòu)造規(guī)則.
松弛的規(guī)則,保證一定的召回率;
多次判定提高準(zhǔn)確率.
SVM(更準(zhǔn))
對伊拉克戰(zhàn)爭的傾向性
手工建立訓(xùn)練集
希望SVM直接分類,基于規(guī)則分塊分類,SVM分塊分類結(jié)果比較.
基于context的分類方法
用特征的組合代替原有的特征
特征的組合可以反映特征間的序.
組合特征出現(xiàn)的頻率將大大降低,不再具有統(tǒng)計(jì)意義,因此考慮將一個組合特征看做一個規(guī)則.
sleeping-experts算法的簡化和改進(jìn)
稀疏短語內(nèi)部可以沒有次序關(guān)系.
采用簡單的voting方法,不考慮復(fù)雜的加權(quán)策略.