近期模型火熱,那如果現(xiàn)在的DeepSeek完成上述測(cè)試,結(jié)果會(huì)怎樣呢?我本有心再測(cè)試一下,但是由于之前要完成上述測(cè)試,需要搭建環(huán)境、調(diào)試程序,工程量太大,所以一直沒(méi)有動(dòng)手。

 

昨天看到網(wǎng)上資料介紹dio程序,提供了大語(yǔ)言模型+知識(shí)庫(kù)的“傻瓜化”操作功能。我看后覺(jué)得這也太方便了,便忍不住測(cè)試了一下。測(cè)試是在我去年6000元買(mǎi)的一臺(tái)家用臺(tái)式機(jī)上進(jìn)行的。測(cè)試過(guò)程一共分成3步,耗時(shí)僅僅10分鐘。
第一步:安裝Cherry Studio程序,配置DeepSeek的API。這個(gè)過(guò)程網(wǎng)絡(luò)上到處都是教學(xué)視頻,非常簡(jiǎn)單(大概三四分鐘吧)。
第二步:進(jìn)入Cherry Studio的“知識(shí)庫(kù)”頁(yè)面,把當(dāng)初覃思中等收集到的有關(guān)資料引入Cherry Studio(大概兩三分鐘吧)。

 

1.png

圖3 把混凝土教材、規(guī)范等資料放置在一個(gè)目錄下,然后加入Cherry Studio的知識(shí)庫(kù)

 

第三步:編寫(xiě)提示詞“你是一名大學(xué)教授,請(qǐng)檢索知識(shí)庫(kù),提交你的答復(fù),并對(duì)你的答復(fù)進(jìn)行檢查,不應(yīng)有虛構(gòu)或不可靠的內(nèi)容。”,然后把判斷題、填空題一股腦輸入給AI(大概兩三分鐘)。

 

2.png

圖4 輸入填空題和判斷題的問(wèn)題

好了,到此所有操作過(guò)程完成,10分鐘綽綽有余。

下面就開(kāi)始欣賞DeepSeek的回答:

 

3.png

圖5 DeepSeek的思考過(guò)程和答案

 

最后DeepSeek的得分是多少分呢?大家猜猜看?
填空題得分98分!判斷題得分92分。我也復(fù)核了一下DeepSeek回答和標(biāo)準(zhǔn)答案不一致的題目,比如DeepSeek唯一和標(biāo)準(zhǔn)答案不一致的填空題題目:當(dāng)增加鋼筋混凝土超筋梁縱向受拉鋼筋數(shù)量時(shí),其正截面受彎承載力將__
標(biāo)準(zhǔn)答案是:保持不變,而DeepSeek的答案是:不顯著提高。DeepSeek的思考過(guò)程如下:

4.png

圖6 DeepSeek的思考過(guò)程

 

這題DeepSeek到底錯(cuò)了多少,大家可以討論。
小結(jié):兩年多以前,當(dāng)我們第一次嘗試用大語(yǔ)言模型+知識(shí)庫(kù)回答專業(yè)問(wèn)題時(shí),雖然當(dāng)時(shí)的大語(yǔ)言模型和本地知識(shí)庫(kù)模型還比較孱弱,但是已經(jīng)讓人看到了非常令人欣喜的研究和應(yīng)用前景。而短短兩年以后,AI不僅實(shí)現(xiàn)了巨大的性能提升(考核成績(jī)已經(jīng)遠(yuǎn)超一般大學(xué)生的水平),而且整個(gè)智能系統(tǒng)的構(gòu)建僅僅需要10分鐘的時(shí)間,外加一臺(tái)6000元的電腦。
一個(gè)新的時(shí)代已經(jīng)到來(lái),各個(gè)專業(yè)將來(lái)該如何應(yīng)對(duì)?我們的專業(yè)教學(xué)該如何應(yīng)對(duì)?這是一個(gè)值得深思的問(wèn)題。