主頁 > 資料庫 > 插入排序演算法原理、復雜度及python實作

插入排序演算法原理、復雜度及python實作

2020-09-23 20:04:24 資料庫

目錄

  • 插入排序演算法原理
  • 偽代碼及Python實作
    • 偽代碼
    • python代碼實作
  • 演算法分析(RAM模型)
  • 時間復雜度

插入排序演算法原理

這個演算法要解決的問題是,怎么對序列 A = ( a 1 , a 2 , a 3 , . . . a n ) A=(a_1,a_2,a_3,...a_n) A=(a1?,a2?,a3?,...an?)重新排序,
一種暴力排序的方法是,每一個回圈中,通過兩兩比較,找到現有序列中最小值,依次放到一個新序列中(已經放到新序列中的數,下一個找最小值的回圈就不再參與),這樣,為了排出有序列,需要比較 n ( n ? 1 ) 2 \frac{n(n-1)}{2} 2n(n?1)?次,也就是說,其時間復雜度為 O ( n 2 ) O(n^2) O(n2),相對較高,并且,因為要形成一個新的容器存放排好序的序列,在大資料的情況下,很占記憶體,即該演算法空間復雜度也較高,
如何改進這種暴力解法?首先,要降低空間復雜度,需要減少新容器中的元素;其次,要降低時間復雜度,要減少元素比較的次數,
從空間復雜度上優化該暴力演算法的思路可以類比撲克牌抓牌時候的排序程序,每新抓一張牌,會把這張牌和已有的牌比較大小,依此選擇插入點,因此,每次抓牌之前,手中的牌都是一個排好序的序列,歸結到演算法上,是每次將一個數插入到合適的位置中,
若要將序列從小到大排序,可以將這一程序抽象為:先在序列 A A A抽出第2個元素 a 2 a_2 a2?,將其與 a 1 a_1 a1?比較大小,若 a 2 < a 1 a_2<a_1 a2?<a1?,將 a 2 a_2 a2?放在 a 1 a_1 a1?左側,若 a 2 > a 1 a_2>a_1 a2?>a1?,將 a 2 a_2 a2?放在 a 1 a_1 a1?右側,這樣,在 A A A中排好了兩個元素的有序子列 ( a 1 ′ , a 2 ′ ) (a_1^{'},a_2^{'}) (a1?,a2?)本次排序結束再抽出 a 3 a_3 a3?,將其與 a 2 ′ a_2^{'} a2?比較,若大于,令 a 3 ′ = a 3 a_3^{'}=a_3 a3?=a3?,其他元素均不變,本次排序結束,若小于,先令 a 3 ′ = a 2 ′ a_3^{'}=a_2^{'} a3?=a2?再將 a 3 a_3 a3? a 1 ′ a_1^{'} a1?比較,若大于,令 a 2 ′ = a 3 a_2^{'}=a_3 a2?=a3?本次排序結束,若小于 a 1 ′ a_1^{'} a1?,因為 a 1 ′ a_1^{'} a1?左邊沒有其他數了, a 3 a_3 a3?只能放在 a 1 ′ a_1^{'} a1?左邊,也就是令 a 2 ′ = a 1 ′ a_2^{'}=a_1^{'} a2?=a1? a 1 ′ = a 3 a_1^{'}=a_3 a1?=a3?本次排序結束,由特例可以發現,整個排序程序有兩次回圈,大回圈是從序列A中依此抽元素 a k a_k ak?,小回圈是將 a k a_k ak? A ′ A^{'} A中每個元素比較,小回圈中止條件是 a k > a j ′ a_k>a_j^{'} ak?>aj? a k a_k ak?插到 a j ′ a_j^{'} aj?右側, a j + 1 ′ a_{j+1}^{'} aj+1?左側),或是 j ? 1 = 0 j-1=0 j?1=0 a k a_k ak?插到序列最左側),回圈繼續條件則反過來,
可以算出,該方法時間復雜度仍是 O ( n 2 ) O(n^2) O(n2),但因為該解法使用原地排序,只要建立一個存放待插入元素的容器,空間復雜度會比暴力解法低很多,
據此,可以寫出該程序的代碼,

偽代碼及Python實作

偽代碼


for j=2 to len(A)
//為了避免在賦值的程序中數字丟失,需要另設一個引數存放每次要插入的元素,可以試試如果不設key會怎樣
//這里可看出,相比于暴力解法,該解法大大降低了空間復雜度,暴力解法需要建立一個和原序列一樣長的容器,而該解法只要建立單元素容器,
  key = a[j]
  //默認條件是j之前的數已經排好序,因為代碼正確執行后,這一條件一定成立,這是理解該代碼的難點,
  //每次都是先和序列中前一個數比大小,這里的a[i]相當于A'序列中的數,
  i = j-1
  //小回圈,這里用while書寫,因為回圈次數未知,根據本文第一部分的分析,可寫出回圈繼續條件
  while key < a[i] & i>0
  //新元素小于A'第i個值,則A’第i個值往后移一位,即A'中第i+1個元素被賦值為原第i個元素的值
      a[i+1]=a[i]
      //注意while回圈中要規定回圈方向(for則不需要),否則會停住,此處是往A'的左側走
      i=i-1
      //若新元素大于等于A'第i個值,則將該元素插到A'第i+1個位置,同時回圈結束,新元素右側的元素位置都已經更新過,左側的則不用變,
      //若新元素小于A'所有值,即掃描到了i=0,則回圈結束,該元素插到A’第1個位置,也即i+1,故兩種情況可以統一表示,
  a[i+1]=key
    //一個新元素的插入完成,從原序列中抽下一個元素,

python代碼實作

構造一個實體:對序列A=[1,4,6,3,5,10,7,3,8]從小到大排序,
當然,用python內置的sorted函式可以一次性完成排序:

sorted(A, reverse=FALSE)

如果要自己撰寫一個排序函式,如何實作呢?可以根據上述偽代碼寫出python代碼:

//升序排列
def sort(lista):
    for j in range(1,len(lista)):
        key = lista[j]
        i = j-1
        while key > lista[i]  and i>=0:
            lista[i+1]=lista[i]
            i = i-1
        lista[i+1]=key
        print(lista)
sort(A)

//降序排列只要把key > lista[i]換成key<lista[i]即可

演算法分析(RAM模型)

在RAM模型中,假定:1、陳述句只能是真實的基本計算機指令,而不能是一個封裝好的包,2、每一陳述句的執行時間是一個常量,3、不同陳述句不能并行計算,
雖然這些條件不一定成立,但在分析演算法時間復雜度中有很大作用,
下圖是插入排序演算法每一步的執行時間與執行次數統計(圖源自《演算法導論》),

在這里插入圖片描述

為何第一句運行次數為n而非n-1?需要注意for,while回圈陳述句執行測驗次數比執行回圈體次數多1,
t j t_j tj?指第j個元素進行插入時,進行while回圈測驗的次數(注意比回圈體執行次數多1),回圈體執行次數即待插入元素與A‘序列元素比較的次數,取決于是序列排序程度,最好情況是完全升序,這樣即不用執行回圈體, t j = 1 t_j=1 tj?=1,最壞情況是完全降序,這樣待插入元素需要和j之前的j-1個元素比較,則有 t j = j t_j=j tj?=j,可以總結出技巧:同一級回圈體內的陳述句執行次數應當是相同的,while下面的陳述句實際是和for回圈一級的,因此執行次數也是n-1,
根據RAM的假設,若要知道該演算法耗費總時間,求這些步的時間次數乘積和即可,
計算可得,在最好情況下, T ( n ) = a n + b T(n)=an+b T(n)=an+b
最壞情況下, T ( n ) = a n 2 + b n + c T(n)=an^2+bn+c T(n)=an2+bn+c
這里也可以看出,演算法運行時間取決于很多因素:輸入規模(n)、資料排序程度、單步運行時間……

時間復雜度

由上述部分可以看出,演算法運行時間有最壞情況,也有最好情況,但演算法分析一般只看最壞情況,1、最壞情況確定了演算法運行時間的上界,在演算法時間復雜度的比較上,如果可以證明A演算法的最壞情況都比B演算法的最好情況快,那A在這一層面上一定是優于B演算法的,2、一般來說,平均情況和最壞情況一樣壞,在插入排序中,平均情況是有一半數是升序排好的, t j = j / 2 t_j=j/2 tj?=j/2,這樣算出的T(n)仍然有二次項,
并且,我們更關注的是演算法運行時間的增長率,或者說我們作不同演算法的比較時,統一將n視為無窮大,此時,常數系數也可以被忽略,因此,我們定義時間復雜度 O ( n ) O(n) O(n)為當n趨向無窮大時,其運行時間增長率的決定因素,即T(n)最高項的非常數因子,因此,在暴力排序和插入排序中,都有 O ( n ) = n 2 O(n)=n^2 O(n)=n2
對于最高項階數相同的演算法,比較其復雜度則可以看其最高項系數,如A演算法有 O ( n ) = 2 n O(n)=2n O(n)=2n,B演算法有 O ( n ) = n O(n)=n O(n)=n,B時間復雜度更低,
當然,當輸入規模較小時,常數系數和低階項的影響可能會占上風,但總會存在臨界規模,高于該規模,高階項起決定作用,

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/114134.html

標籤:其他

上一篇:爬取糗事百科,我是專業的!

下一篇:我的一點思考-關于計算機專業-關于計算機語言

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more