semaphore提示您:看後求收藏(八零中文www.80zw.tw),接著再看更方便。
\/n,在每個區間的邊界處劃分資料。基於聚類的離散化:將資料分成若干個簇,簇內的資料相似度高,簇間資料相似度低。具體實現時可以使用聚類演算法如k-means、dbScAN等。自適應離散化:透過迭代的方式,不斷根據資料的特性調整區間的邊界,以達到最優的離散化效果。下面分別以等距離散化、等頻率離散化、基於聚類的離散化和自適應離散化為例子,分別列出具體的例題:等距離散化假設我們有一個包含1000個學生身高資料的資料集,我們想將身高離散化成10個等寬的區間,以下是離散化方法:計算身高的最小值和最大值,假設最小值為140cm,最大值為200cm。計算每個區間的寬度,假設共10個區間,每個區間的寬度為(200-140)\/10 = 6cm。根據每個學生的身高,將其分入相應的區間。等頻率離散化假設我們有一個包含200家公司的財務資料的資料集,我們想將每個公司的營業收入離散化成5個等頻率的區間,以下是離散化方法:將所有公司的營業收入升序排序。計算每個區間的資料數量,在本例中,因為共有200個公司,所以每個區間包含40個公司。找到每個區間的邊界,比如第一個區間的最小值和第二個區間的最大值,這兩個值之間的所有公司的營業收入都屬於第一個區間。