0.引言
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來極大的便利,成為人們工作生活中非常重要的組成部分。信息無障礙即萬維網(wǎng)對任何人士(包括殘障人士)都是可訪問、可用的,殘障人士能感覺、理解和操縱Web,與Web
互動。如何借助先進(jìn)的技術(shù),消除數(shù)字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無障礙地獲取網(wǎng)上信息,得到世界各國政府和組織越來越多的重視。
1.信息無障礙網(wǎng)站存在的問題
很多部分實(shí)現(xiàn)了信息無障礙的網(wǎng)站,用戶每次訪問時(shí),網(wǎng)站語音都得從頭到尾的播報(bào)網(wǎng)站內(nèi)容,對于該用戶曾經(jīng)訪問過本網(wǎng)站中部分頁面內(nèi)容期刊網(wǎng),系統(tǒng)不能自動過濾掉這些已經(jīng)閱讀的內(nèi)容,或者跳過這些已閱讀信息,而是依然按照布局順序重復(fù)播報(bào)。這對于閱讀障礙的用戶來說非常浪費(fèi)時(shí)間和精力。避免重復(fù)瀏覽或者播報(bào)網(wǎng)站信息,將用戶曾經(jīng)閱讀過的內(nèi)容過濾掉,將沒有閱讀過的最新的感興趣的網(wǎng)頁內(nèi)容優(yōu)先播報(bào)給閱讀障礙用戶,提供智能化、個(gè)性化信息服務(wù),是信息無障礙網(wǎng)站設(shè)計(jì)應(yīng)該重視的問題。
2.
web日志挖掘
web日志文件是在web服務(wù)器上每隔一定的時(shí)間產(chǎn)生的記錄文件,其內(nèi)容包括訪問用戶的IP地址,訪問時(shí)間、訪問的頁面、頁面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。web日志挖掘是對用戶訪問Web時(shí)服務(wù)器方留下的訪問記錄進(jìn)行挖掘,得到用戶的訪問模式和訪問興趣。通過對Web站點(diǎn)的日志記錄進(jìn)行預(yù)處理,將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理。
web日志預(yù)處理過程:
(1)數(shù)據(jù)收集
從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、代理服務(wù)器端進(jìn)行。
(2)數(shù)據(jù)凈化
刪除Web日志文件中不是由用戶請求,而是由瀏覽器自動“請求”產(chǎn)生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。
(4)會話識別
用戶在規(guī)定時(shí)間內(nèi)對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面,可以獲得其在網(wǎng)站中的訪問行為和瀏覽興趣,有4種識別會話的模型:頁面類型模型(page type
model),參引長度模型(reference length model),最大前向參引模型(maximal forwordreference
model)和時(shí)間窗口模型(time window
model)。最常采用的是時(shí)間窗口模型,以用戶訪問時(shí)間作為劃分會話的分界,一般間隔時(shí)間取30min。
(5)路徑補(bǔ)充
用戶有時(shí)瀏覽的頁面,是從本地緩存和代理服務(wù)器中調(diào)用的,不會向Web服務(wù)器發(fā)送請求,也就不會記錄日志,而這些請求可能對后續(xù)挖掘的實(shí)施有重要作用期刊網(wǎng),缺少這些頁面記錄可能會使挖掘結(jié)果不是很準(zhǔn)確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補(bǔ)充上去即路徑補(bǔ)充。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機(jī)中的頁面。如果用戶的歷史訪問記錄有多個(gè)頁面都包含與當(dāng)前請求頁的鏈接,則將請求時(shí)間最接近的Web頁的頁面作為當(dāng)前請求的來源。
3.基于web日志挖掘的網(wǎng)站設(shè)計(jì)
3.1網(wǎng)站設(shè)計(jì)架構(gòu)
網(wǎng)站為每位存在訪問障礙的用戶建立網(wǎng)站訪問記錄數(shù)據(jù)庫,用戶訪問網(wǎng)站頁面,產(chǎn)生web日志文件,通過對web站點(diǎn)日志文件進(jìn)行數(shù)據(jù)凈化、用戶識別、會話識別,將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫,對該用戶訪問過的頁面進(jìn)行相應(yīng)標(biāo)記,再對事務(wù)數(shù)據(jù)庫進(jìn)行傳統(tǒng)的數(shù)據(jù)挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對網(wǎng)站所有類型信息構(gòu)造優(yōu)先顯示頁面類型序列表和對每類信息未訪問頁面、已訪問頁面分別構(gòu)造優(yōu)先序列表,當(dāng)該用戶再次訪問網(wǎng)站時(shí)利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫將網(wǎng)頁鏈接按照用戶興趣高低動態(tài)填充到網(wǎng)站導(dǎo)航框架,這樣用戶最感興趣類型的網(wǎng)頁鏈接總是弄夠最先看到、聽到,從而達(dá)到優(yōu)先訪問的目的。
網(wǎng)站設(shè)計(jì)框架如下圖:
圖1 信息無障礙網(wǎng)站設(shè)計(jì)框架
3.2
網(wǎng)站導(dǎo)航
網(wǎng)站導(dǎo)航是根據(jù)信息無障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計(jì)標(biāo)準(zhǔn)所設(shè)計(jì)的網(wǎng)站通用布局框架,除了包括信息無障礙要求的導(dǎo)航磚,通用切換等功能,還將頁面設(shè)計(jì)成由幾個(gè)通用的布局框架模塊組成,每個(gè)框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁信息鏈接,具體網(wǎng)頁鏈接內(nèi)容則根據(jù)序列表先后順序動態(tài)填充。網(wǎng)站所包含的信息類型可以有很多,但在網(wǎng)站導(dǎo)航中只列出用戶最感興趣的幾種類型的網(wǎng)頁鏈接,隨著用戶興趣的改變,其他類型的網(wǎng)頁鏈接將動態(tài)的填充到相應(yīng)級別的框架模塊中。
3.3
興趣提取
根據(jù)用戶瀏覽的歷史訪問記錄(內(nèi)容信息和行為信息)、訪問時(shí)間和訪問頻率等來分析計(jì)算用戶興趣度,用戶的興趣一般集中于某一個(gè)主題或者多個(gè)主題期刊網(wǎng),系統(tǒng)在通過聚類進(jìn)行分析將用戶瀏覽的歷史頁面集自動地分成n個(gè)聚簇(n是聚類中聚類中心的數(shù)目),每一聚簇的頁面集體現(xiàn)了用戶的某類興趣,構(gòu)造形成用戶的興趣類。再利用用戶的隱式信息學(xué)習(xí)提取用戶興趣集,建立樹狀的用戶興趣模型。
3.4
序列模式
序列模式挖掘是對關(guān)聯(lián)規(guī)則挖掘的進(jìn)一步推廣,它挖掘出序列數(shù)據(jù)庫中項(xiàng)集之間的時(shí)序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強(qiáng)調(diào)的是兩個(gè)項(xiàng)之間的關(guān)聯(lián),序列模式則加強(qiáng)調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁面序列表。類型序列表是通過對歷史訪問記錄進(jìn)行挖掘統(tǒng)計(jì)出來的網(wǎng)站每種類型信息訪問優(yōu)先等級,是一組有序項(xiàng)集對應(yīng)表;頁面序列表則是以類型挖掘權(quán)值和更新時(shí)間2個(gè)指標(biāo)得出的頁面訪問有序集對應(yīng)表。可以采用基于Apfiori算法的改進(jìn)算法進(jìn)行挖掘得到上述兩種序列表。
3.5
序列-頁面映射
根據(jù)挖掘得到的序列模式對網(wǎng)站的靜態(tài)頁面文件進(jìn)行一一映射,按照興趣高低和文件序列先后動態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。
4.結(jié)束語
本文所提出對web日志文件挖掘提取用戶的興趣類和訪問類型和頁面優(yōu)先序列,重構(gòu)站點(diǎn)頁面之間的鏈接關(guān)系,動態(tài)顯示網(wǎng)頁信息的設(shè)計(jì)框架,以適應(yīng)有障礙用戶的訪問興趣習(xí)慣為主要目標(biāo),在一定程度上可以避免反復(fù)無用的頁面瀏覽和語音播報(bào)所造成的對存在訪問障礙用戶產(chǎn)生的困擾和時(shí)間精力的浪費(fèi),提高了訪問效率,為消除信息鴻溝,真正做到信息人人共享發(fā)揮積極的作用。
更多網(wǎng)站建設(shè)資料:
Microsoft SQL Server Management Studio 如何導(dǎo)入導(dǎo)出數(shù)據(jù)
國內(nèi)社交網(wǎng)站創(chuàng)新研究及網(wǎng)站盈利模式
如何去建立一個(gè)好的網(wǎng)站
傳統(tǒng)文化網(wǎng)頁設(shè)計(jì)編排重點(diǎn)
電子商務(wù)網(wǎng)站建設(shè)規(guī)劃