“猜画小歌”的一些细节和思考
歡迎大家前往騰訊云+社區(qū),獲取更多騰訊海量技術(shù)實踐干貨哦~
本文由徐釩文 發(fā)表于云+社區(qū)專欄
Quickdraw的CNN-RNN模型
"猜畫小歌"用到的quickdraw模型本質(zhì)上是一個分類模型,輸入是筆畫的點的坐標信息和每筆起始的標識信息,應用幾個級聯(lián)的一維卷積,再使用 BiLSTM 層并對結(jié)果進行求和,最后使用Softmax層進行分類。
整個網(wǎng)絡(luò)結(jié)構(gòu)如圖:
模型結(jié)構(gòu)
開源數(shù)據(jù)和代碼詳見后面參考文檔。整個網(wǎng)絡(luò)比較簡單,而且用其默認的參數(shù)最終的模型準確率在75%,如下圖,不算是一個要求較高的場景,效果已經(jīng)足夠好。
這里分享筆者注意到的有幾個有意思的小細節(jié)(高手輕拍)。
小細節(jié)
數(shù)據(jù)預處理
對于stroke-3(x,y,n),Google默認使用的TFRecord數(shù)據(jù)對坐標做了歸一化與差值處理。
# 1. Size normalization.lower = np.min(np_ink[:, 0:2], axis=0)upper = np.max(np_ink[:, 0:2], axis=0)scale = upper - lowerscale[scale == 0] = 1np_ink[:, 0:2] = (np_ink[:, 0:2] - lower) / scale# 2. Compute deltas.np_ink[1:, 0:2] -= np_ink[0:-1, 0:2]np_ink = np_ink[1:, :]為什么歸一化?
- 類似于輸入層BN的作用,將數(shù)據(jù)的分布由原來激活函數(shù)的收斂區(qū)調(diào)整到梯度較大的區(qū)域
- 只關(guān)心畫的筆畫走勢,而不關(guān)心畫的大小,也就是說畫一個大圓和畫一個小圓在輸入數(shù)據(jù)層面沒有太大區(qū)別
為什么差值處理?
- 忽略起始坐標位置的影響,也就是說在畫布的中間和四個角落開始作畫同一個形狀,在輸入數(shù)據(jù)層面沒有太大區(qū)別
卷積層
使用多個一維卷積(conv1d)級聯(lián),并使用線性激活函數(shù),沒有使用pooling層。
- 線性激活改為relu,準確率降了點,為73%
- 線性激活改為relu+加上pooling層(size=4,strides=4),準確率又降了點,為70%
為什么線性激活和去掉pooling層效果提升2-3個點?
pooling層有哪些作用:
筆者(單純的)理解簡筆畫已經(jīng)是人類對于物體的高度抽象了,因此沒有必要在用復雜的CNN網(wǎng)絡(luò)去抽象特征,并且全局的特征有后面的RNN層獲取。
小思考
Google 16年11月就推出了QuickDraw網(wǎng)頁版,最近只是借助小程序又火了一把,之前已經(jīng)獲取過大量真實的用戶數(shù)據(jù),并用于這次小程序效果的優(yōu)化。
模型還能用來做啥?
最近看到了一片研究這份簡筆畫數(shù)據(jù)中不同國家的人的繪畫順序與其國家文字的關(guān)系的文章,而且時序分類模型在異常分析、手寫體識別、語音識別、文本分類等領(lǐng)域有大量的研究和進展。
畫圓的不同
筆者研究生階段曾經(jīng)研究過電腦使用者的異常分析,根據(jù)用戶的鼠標軌跡和鍵盤操作等特征建立分類模型識別是不是本人在操作。現(xiàn)在想來,直接拿這個模型來跑之前的任務,應該還不錯。
產(chǎn)品層面,我們還能有些什么創(chuàng)新?
- AutoDraw:能將你的涂鴉自動升華為美麗的藝術(shù)圖像(Google已推出)
- 繪畫故事:畫4格漫畫,系統(tǒng)自動生成一個故事(這個配合上層的NLG技術(shù)應該問題不大)
- 繪畫打分:為你的繪畫的創(chuàng)新性、技術(shù)性、完整性等自動評分
這些繪畫數(shù)據(jù)還有什么可以挖掘的價值?
繪畫是人在用自己的方式描述自己理解的世界,如果從這些簡單的簡筆畫入手,能夠從中學習出人理解物體和世界的方法,簡單來說可以遷移到目前圖像識別算法的高層抽象階段,提升某些任務的效果;復雜一點甚至可以用作提升機器的推理能力,學習人類對物體和世界抽象建模的能力(腦洞)。
參考文檔
https://tensorflow.juejin.im/tutorials/recurrent_quickdraw.html
https://github.com/tensorflow/models/blob/master/tutorials/rnn/quickdraw/
https://www.jiqizhixin.com/articles/2017-09-12-5
https://juejin.im/post/5b559b76e51d45616f4596dd
https://zhuanlan.zhihu.com/p/39059583
問答
如何實現(xiàn)CNN卷積層的計算?
相關(guān)閱讀
Linux調(diào)度原理介紹和應用(前篇)
如何備份你的MySQL數(shù)據(jù)庫
MySQL 8.0 版本功能變更介紹
此文已由作者授權(quán)騰訊云+社區(qū)發(fā)布,原文鏈接:https://cloud.tencent.com/developer/article/1171905?fromSource=waitui
歡迎大家前往騰訊云+社區(qū)或關(guān)注云加社區(qū)微信公眾號(QcloudCommunity),第一時間獲取更多海量技術(shù)實踐干貨哦~
海量技術(shù)實踐經(jīng)驗,盡在云加社區(qū)!
轉(zhuǎn)載于:https://www.cnblogs.com/qcloud1001/p/9400190.html
總結(jié)
以上是生活随笔為你收集整理的“猜画小歌”的一些细节和思考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 页面显示当前时间
- 下一篇: UWP 查找模板中的控件