漫话:如何给女朋友解释为什么计算机从0开始计数,而不是从1开始?
當我們想要寫一個循環體,期望執行10次的時候,我們會使用以下方式:
可以看到,為了保證循環10次,我們定義了一個整數變量從0開始。
還有,當我們定義數組的時候,在常見的C語言、Java、Python等語言中,都是使用下標0來表示第一個元素的。
從0開始更優雅
Dijkstra通過分析,得出在進行范圍表達的時候,使用左閉右開的方式更加合理。
但是,Dijkstra在分析出2 ≤ i < 13這種形式更加合理之后,他有陷入了另外一個思考,那就是:
當處理長度為 N 的序列時,到底第一個元素的下標使用0還是1更加合適?
關于這個分析,他的出發點很簡單,那就是哪種方式更加漂亮,更加優雅。
他認為,使用左閉右開的表達方式,當下標從 1 開始時,下標范圍為 1 <= i < N+1;當下標從 0 開始時則是 0 <= i < N;
而顯然后面這種表達式更加漂亮、優雅一些。所以,他建議我們使用0作為第一個下標。
計數表示偏移量
很多人學習編程都是從C語言開始的,那么,C語言就是一個典型的0-base語言(以0作為計數的開始),其實,這一約定早在BCPL時代就是這樣的了。
在C語言還不叫C語言,還叫BCPL的時候,他的作者馬丁·理察德就設計了數組從0開始的索引方式。
當我們在BCPL(C語言)中定義數組int arr[8]的時候,編輯器會在內存中開辟一塊空間(這個空間中可能包含多個內存單元)供該數組使用。
為了能讓數組找到編譯器為自己開辟的空間,會把這塊內存空間中第一個內存單元的地址(0X0000001)賦值給這個數組,當我們使用&arr的時候,就可以拿到這塊地址。
BCPL最初是用IBM 7094機器編譯的;它在編譯時會優化這些數組索引提供的指針反參考運算(indirection),即可以通過指針取出地址中存儲的值,這個特性也一直延續到今天。
有了指針之后,我們可以使用int *pr = arr的方式初始化一個指針,那么,這時候,指針pr也會指向數組的內存空間的第一個內存單元的地址。
那有了數組和指針,想要使用這塊內存第一個內存單元存儲一個變量的時候,就需要想辦法表示這第一個空間。
那么,BCPL的作者采用了0作為數組第一個元素的下標,因為他認為,數組的下標應該和指針的偏移量是相對應的。這樣在使用第一個內存單元的時候,直接使用arr[0]或者*(p+0)就可以了。
因為指針*(p+0)這種表達形式中的0表示的是偏移量,所以,無論數組的下標從幾開始,*(p+0)都是用于存取內存中的p+0位址的值,也就是0X0000001這塊內存單元的值。
試想一下,如果使用1作為數組的起始下標,那么arr1就應該指向0X0000001這塊內存,但是*(p+1)按照偏移量的計算方式,需要指向0X0000005這塊內存。這種情況下,如果想要讓*(p+1)和arr[1]指向同一塊內存,就需要額外做一次減法指令。
因為幾乎所有計算機結構,都借由位址和偏移量來表示直接引用內存,所以,像C語言這種使用0做為數組的第一個下標使得語言的實現上更加容易。
但是值得一提的是,在C語言流行起來之前,還是有很多1-base的編程語言的,如FORTRAN、BASIC等編程語言的數組下標都是從1開始的。
隨著C語言的發揚光大,很多語言都參考了C語言的做法。
Python作者的解釋
關于這個問題,之前也有網友在Twitter上詢問過Python之父——Guido van Rossum,他給出過正面回答,我把回答內容的翻譯版貼在下面:
我記得自己就這個問題思考過很久;Python的祖先之一ABC語言,使用的索引是從1開始的(1-based indexing),而對Python語言有巨大影響的另一門語言,C語言的索引則是從0開始的。
我最早學習的幾種編程語言(Algol, Fortran, Pascal)中的索引方式,有的是1-based的,有的是從定義的某個變量開始(variable-based indexing)。而我決定在Python中使用0-based索引方式的一個原因,就是切片語法(slice notation)。
讓我們來先看看切片的用法。可能最常見的用法,就是“取前n位元素”或“從第i位索引起,取后n位元素”(前一種用法,實際上是i==起始位的特殊用法)。如果這兩種用法實現時可以不在表達式中出現難看的+1或-1,那將會非常的優雅。
使用0-based的索引方式、半開區間切片和缺省匹配區間的話(Python最終采用這樣的方式),上面兩種情形的切片語法就變得非常漂亮:a[:n]和a[i:i+n],前者是a[0:n]的縮略寫法。
如果使用1-based的索引方式,那么,想讓a[:n]表達“取前n個元素”的意思,你要么使用閉合區間切片語法,要么在切片語法中使用切片起始位和切片長度作為切片參數。
半開區間切片語法如果和1-based的索引方式結合起來,則會變得不優雅。
而使用閉合區間切片語法的話,為了從第i位索引開始取后n個元素,你就得把表達式寫成a[i:i+n-1]。
這樣看來,1-based的索引方式,與切片起始位+長度的語法形式配合使用會不會更合適?這樣你可以寫成a[i:n]。事實上,ABC語言就是這樣做的——它發明了一個獨特的語法,你可以把表達式寫成a@i|n。
但是,index:length這種方式在其它情況下適用嗎?說實話,這點我有些記不清了,但我想我是被半開區間語法的優雅迷住了。
特別是當兩個切片操作位置鄰接時,第一個切片操作的終點索引值是第二個切片的起點索引值時,太漂亮了,無法舍棄。
例如,你想將一個字符串以i,j兩個位置切成三部分,這三部分的表達式將會是a[:i],a[i:j]和a[j:]。
有道無術,術可成;有術無道,止于術
歡迎大家關注Java之道公眾號
好文章,我在看??
新人創作打卡挑戰賽發博客就能抽獎!定制產品紅包拿不停!總結
以上是生活随笔為你收集整理的漫话:如何给女朋友解释为什么计算机从0开始计数,而不是从1开始?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ORA-07445 [kxsxsi()+
- 下一篇: C语言 指针在函数传参中的使用