桌推,很多安全員一提這兩個字就皺眉。有人說形式主義,有人說考的都是嘴皮子功夫,還有人干脆一句話:這玩意兒沒用。
我不這么看。
桌推當(dāng)然有問題,而且問題不少。但要說它完全沒價值,那也有點(diǎn)情緒化了。
桌推的價值里我覺得有一個是目前其他考核替代不了的:
在具有心理壓力的環(huán)境下,逼你開口說“法言法語”。
在民航系統(tǒng)里干久了就知道,一個人懂不懂規(guī)則,很多時候不是看他腦子里有沒有,而是看他嘴里能不能說出來。真正的突發(fā)事件現(xiàn)場,沒有時間給你慢慢翻手冊。
判斷—表達(dá)—指令。
這三件事幾乎是同步發(fā)生的。而桌推其實(shí)練的就是這個能力。
但今天不聊桌推考核這事本身,這個話題太有爭議性,能寫一萬字都停不下來。我想聊的是另一件事。
桌推的評分方式。
現(xiàn)在的評分模式,說白了很傳統(tǒng)。
兩三個考官,一群考生。
考生回答,考官打分。
看起來很正常,但里面有問題。
人類的評分是不穩(wěn)定的
不是因?yàn)榭脊俨粚I(yè),而是因?yàn)槿祟惖拇竽X本來就不適合干這種高強(qiáng)度重復(fù)評分的活。
心理學(xué)有個很經(jīng)典的數(shù)據(jù)。在人連續(xù)做同一種判斷任務(wù),45分鐘以后,人類判斷準(zhǔn)確率平均下降20%左右。如果任務(wù)復(fù)雜一點(diǎn),下降幅度會更大。
桌推考試什么場景?
考官一坐就是一整天,幾十個考生輪流說,同樣的題型反復(fù)聽。
哪怕再敬業(yè)的考官,注意力都會波動。這是神經(jīng)系統(tǒng)決定的,不是態(tài)度問題。
更現(xiàn)實(shí)一點(diǎn),一天如果考60個人。5人一組每次回答20分鐘。考官至少要聽240分鐘。
不是純聽,還要判斷,還要記分。差不多至少四個小時高強(qiáng)度認(rèn)知任務(wù)。
你覺得評分會穩(wěn)定嗎?
希望不大。
人類的評分天然有主觀性
哪怕評分表寫得再細(xì)。比如一個典型的桌推題,得分點(diǎn)可能是五個。
是否性質(zhì)判斷準(zhǔn)確
是否引用對了法條
是否完整提出了處置措施
是否符合流程
表達(dá)是否清晰
問題來了。
考生如果回答順序亂一點(diǎn)呢?或者說話不太流利呢?或者用了不同表述呢?
有的考官會給分,有的不會。這不是誰對誰錯,是人腦在做“語義匹配”。而人腦做語義匹配,本質(zhì)上是模糊算法。所以每次桌推考試之后,總會有一些聲音。
“這分怎么打的?”
“為什么他能過我不能?”
“是不是看人下菜?”
很多時候其實(shí)不是有壞人在里面,只是評分系統(tǒng)本身不穩(wěn)定。
還有一個很有意思的現(xiàn)象
其實(shí)有不少考官是在幫考生找得分點(diǎn)。不是故意放水,是人的共情機(jī)制在起作用。
當(dāng)你面對一個緊張的考生,看著他努力表達(dá),你的大腦會自動去理解他的意思。于是就會出現(xiàn)一個現(xiàn)象。
考生說了一大堆,考官在腦子里翻譯:
“哦,他其實(shí)是想表達(dá)這個。”
然后給分。
這叫善意解釋原則,法律界很常見。但在考試?yán)铮@就會帶來一個奇怪的副作用。
考生開始“掃射式回答”。
不管題目問什么,先把自己知道的都說一遍。法條、程序、職責(zé)、注意事項(xiàng)。
像機(jī)關(guān)槍一樣掃一圈,賭一個概率。只要踩中兩個得分點(diǎn),就不虧。于是考試慢慢變成了一種策略游戲。
誰會說,誰會拖時間,誰會堆答案。
有時候反而得分比真正理解問題的人還高。
這事兒你要說完全沒有。
那是自欺欺人。
解決方案是AI
問題說完了,解決方案其實(shí)也不復(fù)雜。
AI評分。
桌推用AI評分的技術(shù)門檻其實(shí)不高,桌推考試評分本質(zhì)上只有兩件事。
語音識別+語義識別。
現(xiàn)在的語音識別準(zhǔn)確率是多少?普通話環(huán)境下,主流模型識別率已經(jīng)在95%以上。再配個行業(yè)詞庫,像“非法干擾行為”“客艙失壓”“應(yīng)急處置程序”這種術(shù)語之后,識別率更高。
語義識別更簡單,因?yàn)樽劳频拇鸢钙鋵?shí)是結(jié)構(gòu)化的。
一個題目,對應(yīng)幾個關(guān)鍵語義節(jié)點(diǎn)。
舉個例子。
題目:發(fā)現(xiàn)旅客攜帶疑似危險物品。
關(guān)鍵語義節(jié)點(diǎn)可能是:
報告機(jī)組
控制現(xiàn)場
防止擴(kuò)散
依法處置
引用相關(guān)法規(guī)
AI只需要做一件事,判斷這些語義有沒有出現(xiàn),出現(xiàn)幾個,順序?qū)Σ粚Γ壿嬍欠駴_突,然后打分。
AI會不會誤判?
當(dāng)然會。
但關(guān)鍵不是“有沒有誤差”,關(guān)鍵是誤差是否穩(wěn)定。人類評分的誤差是隨機(jī)的。
今天高,明天低。這個考官松一點(diǎn),那個考官嚴(yán)一點(diǎn)。
而AI的誤差是可量化的。
模型訓(xùn)練一萬次,測試一千次。誤差率多少,一清二楚。而且還能不斷優(yōu)化。
這就是算法的優(yōu)勢,穩(wěn)定。
再說一個很多人忽略的點(diǎn)
其實(shí)好的點(diǎn)子很多,但不一定都能落地。
因?yàn)槟阋淖円粋€事物的時候,背后會牽扯出很多千絲萬縷的利益和現(xiàn)有資源的配置問題。這些都會影響你點(diǎn)子到底能不能落地執(zhí)行。
但AI評分這事其實(shí)很好落地,就是因?yàn)樗皇莾?yōu)化了考核方式,而不會去觸碰其他更復(fù)雜的東西。
現(xiàn)在考官在桌推里的角色是兩個:監(jiān)考+評分。
如果引入AI評分,監(jiān)考依然需要考官。
而關(guān)于評分,考官會退到第二道防線,成為現(xiàn)場異議的最終裁決者。
如果考生對AI評分有異議,可以申請復(fù)核,由考官進(jìn)行最終判斷。
這其實(shí)更合理,人類更適合做復(fù)雜判斷,不適合做重復(fù)勞動。
從系統(tǒng)角度看,這件事還有個好處
數(shù)據(jù)沉淀。
每一場桌推考試都會產(chǎn)生大量語音數(shù)據(jù)。如果全部結(jié)構(gòu)化存儲,幾年下來會形成一個巨大的訓(xùn)練庫。
能干什么?能干很多。
比如分析考生的表達(dá)結(jié)構(gòu),分析常見錯誤,優(yōu)化題庫設(shè)計。甚至可以反過來改進(jìn)培訓(xùn)。
這才是系統(tǒng)思維。
考試不是終點(diǎn)。
是數(shù)據(jù)入口。
當(dāng)然,現(xiàn)實(shí)一定會有阻力
有人會說:
AI不懂現(xiàn)場,AI沒有經(jīng)驗(yàn),AI不理解語境。
聽起來很有道理,但邏輯上有個漏洞。
桌推本來就不是現(xiàn)場。它本來就是一個結(jié)構(gòu)化表達(dá)考試。如果一個答案需要靠“理解語氣”才能得分,那說明評分標(biāo)準(zhǔn)本身就有問題。
考試應(yīng)該測能力。
不是測考官的理解力。
現(xiàn)在很多行業(yè)都在做AI評分。雅思口語,托福口語,客服質(zhì)檢。這些系統(tǒng)每天處理的語音量,比桌推考試大幾個數(shù)量級。技術(shù)早就成熟了,民航如果連這種規(guī)模的應(yīng)用都不敢嘗試。
那就有點(diǎn)保守過頭了。
最后說句可能不太討喜的話
很多制度之所以幾十年沒變。不是因?yàn)樗顑?yōu),只是因?yàn)楦乃娜诵枰袚?dān)責(zé)任。
而不改,是沒有責(zé)任的,這叫制度慣性。
但技術(shù)一旦成熟,這種慣性遲早會被打破。桌推評分這件事,其實(shí)就是個小切口。它不改變培訓(xùn)體系,不改變考試結(jié)構(gòu),甚至不改變?nèi)藛T配置。
只是把評分這一步,從人腦換成算法。優(yōu)化一個節(jié)點(diǎn),系統(tǒng)效率就會提升一截。
說了這么多,其實(shí)核心就一句話。
讓機(jī)器干機(jī)器該干的事,讓人干人該干的事。
全文完,如果覺得不錯請關(guān)注與三連。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.