嘉楠科技:一家芯片创业公司的上云历程
在近年來聲名鵲起的眾多創業公司中,嘉楠科技無疑是極其引人注目的一家。
嘉楠科技成立于2013年,同年發布了全球首款基于ASIC芯片的區塊鏈計算設備,引領行業進入ASIC時代,自此逐步積累了豐富的芯片量產經驗。
2016年的16nm產品量產,標志著嘉楠科技成為中國大陸地區先進制程首個陣營的公司。
2018年至今,嘉楠科技相繼實現全球首個基于自研的7nm芯片量產,以及量產基于RISC-V自研商用邊緣智能計算芯片勘智K210。其中,作為AI神經網絡加速器的KPU完全依托于自主研發。
目前,嘉楠科技已實現月均上千萬顆芯片的量產,產品和服務遍布全球60多個國家和地區,在美國、加拿大、瑞典、冰島、波黑、馬來西亞、韓國、俄羅斯、亞美尼亞和香港等國家和地區均建立了良好的客戶群基礎。未來,嘉楠科技將在芯片研發和高性能計算的基礎上,協同業務伙伴推動AI在各領域的普惠化進程,通過AI讓生活更美好。
業務發展中面臨的挑戰
隨著半導體制程工藝的逐步演進,現代芯片設計行業越來越依賴于各種各樣的電子設計自動化(EDA, Electronic Design Automation)工具軟件來輔助設計人員工作。但是在真實的生產實踐中,嘉楠科技發現,這些設計工具軟件對于企業IT基礎設施的要求近乎苛刻。如果投入大量人力物力自建數據中心嘗試解決這些問題,往往會帶來設計工作之外的額外負擔。
首先,在芯片設計的不同階段,設計人員需要用到不同的工具軟件,但是不同的工具軟件對于IT基礎設施的特性要求不盡相同。比如某些軟件強依賴于CPU的性能和穩定性;某些軟件需要海量的內存;而另一些軟件則需要高IOPS和吞吐量的文件系統存儲來支持。芯片設計企業在規劃本地數據中心時,很難在兼顧不同性能需求與合理的架構和成本規劃之間達到平衡,此外種類繁多的設備實質上也增加了部署和運維的難度。
其次,作為高性能計算的細分應用場景之一,現代芯片設計軟件對于IT基礎設施的性能需求十分嚴苛。單一計算任務調度成百上千個核心的CPU,占用TB級別內存資源且需要連續運行數日已經是司空見慣,同時還會有千萬級別數量的小文件和單體文件(約數十TB)的場景并存。對于芯片設計企業而言,設計運維一個如此規模的高性能計算集群環境并保持其穩定運行是非常困難的。看似微小的報錯和故障都可能引起計算任務失敗、數據丟失和工期延誤等重大風險。
最后,由于整個半導體產業鏈的特性,芯片設計企業的工作負載通常具有較強的周期性。不論是項目進行中設計人員集中操作的短周期高峰,還是整體項目排期所導致的長周期高峰,最終的結果都是即使花費重金購置大量高配置設備來滿足峰值資源需求,也難以避免年化使用率不足10%的巨額閑置浪費。除了以上技術難點, 很多項目管理上的痛點一直以來也困擾著嘉楠科技, 例如:?
受限于本地數據中心的規模,當有多個項目或多個團隊并行工作時,需要解決IT基礎資源使用經常面臨“串行排隊”的尷尬,導致項目任務編排困難且進度難以預期;
不同項目不同團隊共用同一套IT基礎設施時,其資源利用率、成本分攤等效益考核難以統計;
項目高峰來臨時突發設備采購對于財務規劃的沖擊,以及漫長不可控的采購部署周期帶來的項目延期風險;
如果在不同地域的分支辦公室分別建設IT基礎設施,則難以進行統一管理且增大了安全隱患。如果都連接到同一個自建數據中心則會對網絡基礎設施性能、穩定性以及配置的靈活性帶來諸多挑戰。
因此,在經歷了多年自建數據中心的實踐后,嘉楠科技將目光轉向了云計算,希望能夠借助云計算的諸多新特性來解決自己遇到的問題。
在問到為什么選擇AWS來實踐自己的創新時,嘉楠科技技術副總裁吳敬杰表示:“因為創新本身的不確定性,我們希望自己的探索能夠基于更加穩妥的平臺來進行。AWS在全球云計算市場上的口碑和地位是毋庸置疑的。同時AWS對于安全的重視、完善的安全架構和工具、對于高性能計算和半導體行業需求的深刻理解,以及眾多的同業成功案例堅定了我們選擇AWS的信心?!?/p>
嘉楠科技在AWS上的實踐
安全,一定是嘉楠科技作為一家芯片設計企業尤為關注且優先解決的問題。通過選擇不同的AWS服務,嘉楠科技構建了涵蓋數據安全、網絡安全、操作安全及審計審查的全方位安全體系。
使用AWS Direct Connect服務, 嘉楠科技建立了自建數據中心與AWS多個區域之間的專線連接,不僅獲得了更好的網絡連接性能,而且通過通信加密的方式保障了數據傳輸的安全;
針對不同的項目及團隊,通過創建多個Amazon Virtual Private Cloud (Amazon VPC)來構建邏輯隔離的云上基礎網絡環境,形成多集群的安全邊界,以私有子網實現關鍵資源的外網隔離,并通過安全組來控制內部流量訪問許可;
通過調用AWS Identity and Access Management (IAM) API的方式, 與本地目錄管理系統和身份驗證系統進行集成,完成了相關人員的云上資源調用授權及鑒權操作;
針對敏感數據信息,均使用AWS Key Management Service (KMS)對所使用的存儲服務Amazon Elastic File System (Amazon EFS), Amazon FSx for Lustre, Amazon Elastic Block Store (Amazon EBS)進行加密保護;
建立各分支辦公室到AWS的加密VPN連接,并通過AWS CloudTrail和Amazon CloudWatch服務進行資源以及操作日志收集, 以備日后審計;
使用加密后的Amazon Simple Storage Service (Amazon S3)進行云上集中存儲和遠程歸檔備份。
在完成基礎網絡和身份驗證系統部署后,嘉楠科技使用AWS ParallelCluster在 AWS云中部署和管理基于SGE的高性能計算(HPC)集群。通過編制不同的AWS CloudFormation 模板以分鐘級的速度快速構建不同設計階段所需的不同基礎設施環境。針對計算密集型的任務選擇內核頻率高達4.0GHz的Amazon Elastic Compute Cloud (Amazon EC2) Z1d 實例或計算優化型C5系列實例;針對內存密集型任務選擇最高可達3.9TB內存的X1e實例或者內存優化型R5系列實例。為了應對不同階段計算任務對于文件存儲高IOPS和高吞吐量的需求,嘉楠科技選擇了使用Amazon FSx for Luster這一完全托管的高性能文件系統非常便捷地獲得高達數百GB的吞吐量和百萬級IOPS讀寫,而且能夠兼顧數據高可用性的要求。在尚未提供Amazon FSx for Luster服務的區域, 采用I3實例部署GlusterFS集群的方式來構建軟件運行需求的高性能共享文件系統。此外,在要求實例間網絡帶寬的場景下,選擇Placement Group的方式來獲得低網絡延遲和高網絡吞吐量。
在成本控制方面,嘉楠科技通過不同計算任務的基準測試來選擇最具性價比的服務和實例類型來進行部署。及時審查資源空閑狀態來觸發釋放操作以減少浪費。同時,在一段時間的使用之后,對于長期穩定負載和短期可預期突發負載,分別采用預留實例RI和Spot實例來獲得高性價比的折扣優惠。圖1是嘉楠科技的系統架構示意圖,采用的AWS服務包括:Amazon EC2、Amazon S3、Amazon FSx for Lustre、Amazon VPC、AWS Direct Connect、AWS KMS、IAM、AWS CloudTrail、Amazon CloudWatch、AWS ParallelCluster等。
(嘉楠科技基于AWS的系統架構示意圖)
與AWS開展合作取得的收益
“嘉楠科技作為一家Fabless芯片設計企業,我們希望將盡可能多的精力和資源投入到我們所擅長的芯片設計研發工作上?!闭劦脚cAWS開展合作后取得的成效,吳敬杰如是表示,“通過與AWS的合作,我們在較低的人力和資源投入下快速獲得了全球領先的IT基礎設施來支撐多個芯片設計項目的進行,讓我們的芯片設計工作進度有了明顯提升,項目周期更加可預期,而且有30%以上的綜合成本節省?!?/p>
通過將芯片設計負載遷移至AWS,嘉楠科技可以在分鐘級的時間內獲得近乎“無限”的基礎設施擴展能力,單一計算任務不必再擔心特定資源短缺的問題,而且可以更靈活地在時間成本和費用成本之間做選擇。與此同時,多團隊、多項目可以通過多集群的方式工作,很大程度上節省“排隊”時間,從而提升整體的芯片研發速度。在計算任務結束后,閑置云上資源可以及時釋放節省成本,真正做到“只為有效使用而買單”。
“通過使用AWS的服務,更客觀地提升了我們整體的安全管控水平。而且AWS的基礎設施運維管理水平是遠在我們之上的,事實也證明了AWS的服務運行要比我們自建數據中心更加穩定。我們一直堅持讓專業的人做專業的事。既然半導體行業已經能夠接受使用IP廠商的授權,通過代工廠來做生產,那么接受云計算服務來提升自身的IT支撐能力也不是那么遙不可及的事情?!眳蔷唇芸偨Y道。
總結
以上是生活随笔為你收集整理的嘉楠科技:一家芯片创业公司的上云历程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 内网通过代理服务器访问高德地图服务的方法
- 下一篇: LabVIEW动态数据交换DDE