<th id="uz6zr"><table id="uz6zr"><sub id="uz6zr"></sub></table></th> <tbody id="uz6zr"></tbody>
  • <menuitem id="uz6zr"><dfn id="uz6zr"></dfn></menuitem><menuitem id="uz6zr"><strong id="uz6zr"></strong></menuitem>
      1. 特征專項測試——機器學習測試(11)

        發表于:2020-10-23 09:22  作者:融360 AI 測試團隊   來源:51Testing軟件測試網原創

        字體: | 上一篇 | 下一篇 |我要投稿 | 推薦標簽: AI測試 測試技術

          第9章 特征專項測試
          隨著大數據技術的快速發展,機器學習和人工智能已經滲透到科技生活的各個方面。特征工程作為連接數據和模型的橋梁,在機器學習生命周期中有著重要的作用。本章主要介紹特征工程基礎知識和特征測試方法,并對特征測試加以實踐。
          9.1 特征工程簡介
          數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。可以說特征工程是機器學習成功的關鍵。
          特征工程是將數據轉換為表示潛在問題的特征,以供機器學習算法使用,從而提高機器學習性能。特征工程的目的是最大限度地從原始數據中提取特征以供算法和模型使用。通過總結和歸納,普遍認為特征工程過程如圖9-1所示:
        圖9-1 特征工程流程圖
          9.1.1 數據探索
          由于特征是原始數據通過一系列處理轉換而來,那么在拿到一個新的數據集后,首要任務是確認數據的形式,通常將數據劃分成下面兩種形式[9]:
          結構化(有組織)數據:可以看作是關系型數據庫的一張表,一般可以用表格的形式組織,每列都有清晰的定義,包含了數值型和類別型兩種基本類型;每一行數據表示一個樣本的信息。像科學儀器報告的氣象數據就是高度結構化的,因為存在表格的行列結構。
          非結構化(無組織)數據:不遵循表示組織結構(例如表格)的數據。通常非結構化數據在我們看來是一團數據,或只有一個特征(列)。像圖像、音視頻及文本數據都是常見的非結構化數據,因為其包含的信息無法用一個簡單的數值表示,也沒有清晰的類別定義,并且每個數據的大小互不相同。
          對于結構化數據,通常分成以下兩類進行處理:
          定量數據:通常是用來表示某種東西的數量或一些可量化的數據,本質上是數值。也就是我們常說的數值型特征。例如某天的溫度就是定量的,身高也是定量的。
          定性數據:通常是用來描述某種東西的性質,本質上來說是類別。常被稱為類別型特征。一般而言,該類特征的類別數不會特別多。例如陰天或晴天就是定性的。
          有時,數據可以同時是定量和定性的。例如酒店的評分(1~5星)雖然可以用數字表示,但是這個數字也可以代表類別。由于定量數據和定性數據之間的模糊性,我們會使用一個更深層次的方法進行處理,稱之為數據的4個等級。
          定類等級:定類等級是數據的第一個等級,其結構最弱,這個等級的數據只按名稱分類。例如,性別(男、女),民族(漢、蒙、回等),這些數據都是定性的。這個等級上的數據不可以執行任何定量的數學操作,如加減乘除等。但可以進行類別數量統計,也可計算每種類別的占比。
          定序等級:這個等級繼承了定類等級的所有屬性,而且數據可以自然排序。例如考試成績等級(A/B/C/D)、年齡段(老/中/青)、文化程度(博士/碩士/學士/高中/初中等)。和定類等級一樣,定序等級的天然數據屬性仍然是類別。但是和定類等級相比,定序等級多了一些新的功能,在定序等級中,可以進行比較和排序,而且可以計算中位數和百分位數。
          定距等級:數據不僅可以排序,而且數值之間的差異也有意義。也就是說,在定距等級中,可以進行加減操作。例如常見的溫度、智商等,其差值是存在真實意義的數據。定距等級是定量數據,除計算眾數、中位數及百分位數之外,還可以計算均值和標準差。
          定比等級:這個等級上處理的也是定量數據,數據之間不僅可以進行加減操作,還可以進行乘除運算。例如常見的工資收入、身高體重等。
          理解數據的不同等級對于特征工程是非常必要的。當需要構建新特征或修復舊特征時,我們必須根據數據的情況,合理地處理每一列數據。

        查看《機器學習測試入門與實踐》全部連載章節
        版權聲明:51Testing軟件測試網獲得人民郵電出版社和作者授權連載本書部分章節。
        任何個人或單位未獲得明確的書面許可,不得對本文內容復制、轉載或進行鏡像,否則將追究法律責任。

        評 論

        論壇新帖

        頂部 底部


        建議使用IE 6.0以上瀏覽器,800×600以上分辨率,法律顧問:上海瀛東律師事務所 張楠律師
        版權所有 上海博為峰軟件技術股份有限公司 Copyright©51testing.com 2003-2020, 滬ICP備05003035號
        投訴及意見反饋:webmaster@51testing.com; 業務聯系:service@51testing.com 021-64471599-8017

        滬公網安備 31010102002173號

        51Testing官方微信

        51Testing官方微博

        掃一掃 測試知識全知道

        在线看黄AV免费悠久