當前位置:文思屋>學習教育>畢業論文>

資料探勘在道路交通事故中的應用論文

文思屋 人氣:2.97W

資料探勘技術在金融業、醫療保健業、市場業、零售業和製造業等很多領域都得到了很好的應用。針對交通安全領域中交通事故資料利用率低的現狀,可以通過資料探勘對相關交通事故資料進行統計分析,從而發現其中的關聯,這對提升交通安全水平具有非常重要的意義。

資料探勘在道路交通事故中的應用論文

1資料探勘技術概述

資料探勘(DataMining)即對大量資料進行有效的分類統計,從而整理出有規律的、有價值的、潛在的未知資訊。一般來講,這些資料存在極大的隨機性和不完全性,其包括各行各業各個方面的資料。資料探勘是一個結合了資料庫、人工智慧、機器學習的學科,涉及統計資料和技術理論等領域。

2資料探勘關聯分析研究

關聯分析作為資料探勘中的重要組成部分,其主要作用就是通過資料之間的相互關聯從而發現數據集中某種未知的聯絡。關聯分析最初是在20世紀90年代初被提出來的,一直備受關注。已被廣泛應用於各行各業,包括醫療體檢、電子商務、商業金融等各個領域。關聯規則的挖掘一般可分成兩個步驟[1]:

(1)找出頻繁項集,不小於最小支援度的項集;

(2)生成強關聯規則,不小於最小置信度的關聯規則。相對於生成強關聯規則,找出頻繁項集這一步比較麻煩。由wal等人在1994年提出的Apriori演算法是生成頻繁項集的經典演算法[2]。Apriori演算法使用了Level-wise搜尋的迭代方法,即用k-項集探索(k+1)-項集。Apriori演算法在整體上可分為兩個部分。

(1)發現頻集。這個部分是最重要的,開銷相繼產生了各種各樣的頻集演算法,專門用於發現頻集,以降低其複雜度、提高發現頻集的效率。

(2)利用所獲得的頻繁項集各種演算法主要致力產生強關聯規則。當然頻集構成的聯規則未必是強關聯規則,還要檢驗構成的關聯規則的支援度和支援度是否超過它們的閾值。Apriori演算法找出頻繁項集分為兩步:連線和剪枝。

(1)連線。集合Lk-1為頻繁k-1項集的集合,它通過與自身連線就可以生成候選k項集的集合,記作Ck。

(2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori演算法的性質(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進行壓縮;然後,通過掃描所有的事務,確定壓縮後Ck中的每個候選的支援度;最後與設定的最小支援度進行比較,如果支援度不小於最小支援度,則認為該候選項是頻繁的。目前,在網際網路技術及科學技術的快速發展下,人工智慧、機器識別等技術興起,關聯分析也被越來越多應用其中,並在不斷髮展中提出了大量的改進演算法。

3資料探勘關聯分析在道路交通事故原因分析當中的應用

近年來,我國越來越多的學者將資料探勘關聯分析應用於道路交通事故的研究中,主要是分析道路、車輛、行人以及環境等因素與交通事故之間的某種聯絡。Pande和Abdel-Aty[3]通過關聯分析研究了美國佛羅里達州2004年非交叉口發生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內在聯絡,通過研究得出如下結論,道路照明條件不足是引發道路交通事故的主要因素,除此之外,還發現天氣惡劣的環境下道路彎道的直線段也極易發生交通事故。Graves[4]利用資料探勘技術中的關聯規則對歐洲道路交通事故進行了分析,主要研究了交通事故與道路設施狀況之間的關聯,通過研究發現了易導致交通事故發生的各個道路設施狀況因素,此研究為歐洲路面建設及投資提供了強大的決策支援。我國學者董立巖在研究道路交通事故資料的文獻中,將粗糙集與關聯分析進行了融合,提出了基於偏好資訊的決策規則簡約演算法並將其應用其中,通過分析發現了道路交通事故的未知規律。王豔玲通過關聯分析中的因子關聯樹模型重點分析了影響道路交通事故最重要的因子,發現在道路交通事故常見的誘因人、車、路及環境中對事故影響最大的因子是環境。許卉瑩等利用關聯分析、聚類分析以及決策樹分析三種資料探勘技術對道路交通事故資料進行分析,最終得出了科學的道路交通事故預防和交通安全管理決策依據。尚威等在研究中,對大量的道路交通資料進行了有效整合,並在此基礎上按照交通事故相關因素的不同特點整理出與事故發生有關的欄位資料,形成新的事故資料記錄表,然後再根據多維關聯規則對記錄的相關資料進行分析,從而發現了事故誘導因素記錄欄位值和事故結果欄位值組成的道路交通事故頻繁欄位的組合。張聽等在充分掌握聚類資料探勘理論與方法的基礎上,提出了多目標聚類分析框架和一個啟發式的聚類演算法k-WANMI,並將其用在道路交通事故的聚類研究中對不同權重的屬性進行了多目標分析。同樣,許巨集科也利用該方法對公路隧道交通流資料進行了聚類分析,其在研究中不僅明確了隧道交通流的峰值規律,而且還根據這種規律制訂了隧道監控裝置的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻。徐磊和方源敏在研究中,提出了由簡化資訊熵構造的'改進C4.5決策樹演算法,並將其應用在交通事故資料的研究中,對交通資料進行了正確分類,發現了一些隱藏的規則和知識,為交通管理提供了依據。劉軍、艾力斯木吐拉、馬曉鬆運用多維關聯規則分析交通事故記錄,從而找到導致交通事故發生次數多的主要原因,並且指導相關部門作出相應的決策。楊希剛運用關聯規則為現實中的交通事故的預防提供依據。吉林大學的吳昊等人,基於關聯規則的理論基礎,定義了公路交通事故屬性模型,並結合改進後的Apriori演算法,分析了交通事故歷史資料資訊,為有關單位和使用者尋找道路黑點(即事故多發點)提供了技術支援和決策幫助。

4結語

通過資料探勘中的關聯分析方法雖然能夠對道路交通事故的相關因素進行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關聯分析在道路交通事故的研究中往往只能片面發現某一種或幾種因素影響交通事故的規律,很難將所有影響因素結合起來進行全面系統的分析。然而道路交通事故的發生通常都是由相應因素導致,而後事故當事人意識到危險源的存在並採取措施,直到事故發生的連續過程,整體來看體現了時序性。也就是說,道路交通事故是受到一系列按照時間先後順序排列的影響因素組合共同作用而發生的,從整體的角度出發研究事故發生機理更加科學。

參考文獻

[1]楊秀萍.大資料下關聯規則演算法的改進及應用[J].計算機與現代化,2014(12):23-26.

[2]王雲,蘇勇.關聯規則挖掘在道路交通事故分析中的應用[J].科學技術與工程,2008(7):1824-1827.

[3]徐磊,方源敏.基於決策樹C4.5改進演算法的交通資料探勘[J].微處理機,2010,31(6):57-59.

[4]楊希剛.資料探勘在交通事故中的應用[[J].軟體導刊,2008,7(26):18-20.