?

基于斯金納的強化理論淺談警犬訓練中獎勵的運用

2024-03-07 13:12許普之
中國工作犬業 2024年2期
關鍵詞:斯金納訓導警犬

許普之 李 濤 楊 毅

眾所周知,斯金納提出的操作性條件反射理論正被廣泛應用于警犬訓練之中,其核心觀點為人或動物為了達到自身的某種需求,會采取一定的行為,而當這種行為的后果是對自身有利或者正向時,那么這種行為在以后出現的頻率就會增加,反之則減少或完全消退。我們可以利用這種正強化或負強化的方法來決定動物行為的后果,從而達到固定所需的特定行為,這就是強化理論。目前,在警犬訓練中的獎勵正是基于強化理論中的正強化方法,訓導員在訓練中在恰當的時機通過給予犬食物、物品、撫拍、聲音等獎勵,對所需行為起到正強化作用從而達到訓練目的。本文結合斯金納的強化理論分析警犬訓練中獎勵物的選擇、獎勵時機的把握以及獎勵的原則等內容,以期與業內人士共同探討提高。

一、獎勵物的選擇

斯金納的強化理論中提出強化作用與使用強化物是分不開的,這里所說的強化物不一定是實物(食物、物品等),也可以是行為(撫拍、聲音)、表情等。在實際操作中,強化物的概念更為寬泛,我們將可以刺激動物再次出現某種行為的行為本身或由它帶來的后果,都歸為強化物。通過使用某種強化物,能使所需的行為發生概率增加,動物受到這種強化物的正向刺激,表現出積極性增高,這就是正強化,那么該強化物即為正強化物。正是因為強化物在塑造動物的行為上有著極大作用,所以在警犬訓練中正強化物的選擇也就是通常說的獎勵物的選擇就顯得格外重要。

通常來說警犬訓導員對獎勵物的選擇至少要考慮三個方面的因素:訓導員便于提供和給予、警犬能夠接受、對警犬能夠起到正強化效果。在警犬訓練中,訓導員應當基于以上三個方面來選擇強化物,同時還應考慮到便捷易用和成本限制的問題。在大多數情況下,在訓練中訓導員會在犬完成動作后給予撫拍、“好”的口令以及食物(犬糧、肉粒)、球類、咬包或其他玩具等物品作為獎勵。除此之外,要使正強化能達到理想的效果,對獎勵物的恰當使用是很重要的。一般來說,在開始訓練前,首先要弄清本次訓練的目標與訓練科目難度以及受訓犬的能力強弱,然后針對訓練的特點使用恰當的強化物。例如在基礎科目中的“坐”“臥”“立” “來”等科目的訓練,訓導員可以選擇使用強化效力較小的獎勵物,例如犬糧、肉粒等且考慮到訓練的連貫性與重復性,單次獎勵的量不宜過多;在訓練基礎科目中的“隨行”或者使用科目尤其是搜索類科目時,選擇使用強化效力較大的獎勵物,例如球類、咬包或其他玩具等物品??傊?,在訓練中通過使用恰當的獎勵物,可以使訓練成效最大化。

需要注意的是獎勵物效用的大小還與接受獎勵的警犬有關。某種獎勵能否達到相應的激勵效果,取決于該獎勵物的運用是否恰當合適,而評估該獎勵物運用的恰當與否,又取決于施加的該獎勵物作用對象的接受程度。因此,在警犬訓練中選擇獎勵物時必須考慮到警犬的特質。比如,麻棒一般能夠起到獎勵作用,但是在較小月齡的犬的訓練中卻難以達到相應的獎勵效果,理由很簡單,較硬的麻棒不適宜幼齡犬的牙齒,此階段的訓練,小的咬包或者球反而更為合適。對于食物動力強的犬,選用較易獲得的犬糧或者肉粒作為訓練中的獎勵,可以在達到獎勵效果的同時也能保障訓練的連續開展;對于銜取欲望和占有欲望強的犬則適于選用該犬喜歡的銜取物品作為獎勵物進行訓練。所以,在訓練中采用獎勵手段時,獎勵物的選擇應該根據警犬的個體特點和訓練目標進行調整,以確保獎勵對警犬具有意義。

二、獎勵時機的把握

在警犬訓練中,獎勵時機的把握對訓練效果的好壞有著直接聯系,斯金納的強化理論強調的動物行為與其帶來的結果之間存在某種聯系,可以通過強化來促進這種聯系的建立,從而促進動物行為的發生。同樣,在警犬訓練中,訓導員可以利用獎勵的手段使警犬建立相應科目與獎勵之間的聯系。在此過程中,訓導員對獎勵時機的把握恰當可以使訓練事半功倍。

首先,在前期的訓練過程中的獎勵要注重及時性,也就是及時反饋。根據斯金納的強化理論,警犬在做出相應動作后訓導員迅速給予獎勵,以使警犬建立反饋機制,將該訓練科目與可以直接獲得獎勵進行關聯。這樣,警犬在后續的訓練過程中就能因為渴望獲得獎勵而更加積極地對訓導員的指令做出響應。因此,訓導員應避免過早或過晚給予獎勵,從而避免使犬產生不良聯系,影響訓練效果。

其次,在后期的訓練過程中要靈活運用間歇獎勵。斯金納的強化理論中提到強化類型表,將強化分為兩大類——連續強化和間歇強化,其中間歇強化又分為固定時間、變動時間、固定比率和變動比率。斯金納指出間歇強化停止后產生的反應消退要遠低于連續強化,因此,訓導員在訓練中要善于運用間歇強化以更好地固定警犬的行為。例如基礎科目訓練時有時可以在犬每次完成動作就立即獎勵,而有時可以在犬連續完成數個動作后給予獎勵,這樣警犬會更加努力響應訓導員,以及為后續延緩能力打下訓練基礎。

三、獎勵的原則

(一)獎勵應當具有一致性。在訓練中獎勵伴隨著警犬特定動作的完成而出現,那么最初的強化刺激便形成了。隨著訓練的開展,警犬的特定行為動作以及科目均伴隨不同程度的獎勵的出現,警犬就能形成分辨性刺激,從而自行區分相倚性聯系。為了更好地使警犬形成分辨性刺激,我們在實際訓練當中應保持獎勵的一致性,即警犬每次完成訓導員需要的行為或動作后均應該獲得獎勵,從而使警犬更加期待獎勵的到來,積極做出相應動作。這樣可以幫助警犬明確地對不同行為和指令進行區分,并且不會因為獎勵的變化而混淆。

(二)獎勵應當具有可變性。如果在長期的訓練中訓導員給予警犬的獎勵總是相同的,警犬可能會對該獎勵逐漸失去興趣,那么所謂正強化的效果也就隨之減弱。因此,訓導員應該不時地改變獎勵的類型和數量,保持獎勵的神秘感以激發警犬對獎勵的渴望和參與訓練的積極性。

(三)獎勵應當具有漸進性。在警犬訓練中,隨著訓練的進行訓導員應當逐漸減少獎勵的使用頻次,以培養警犬的自主性和獨立性,使警犬降低對獎勵的依賴。訓練一開始,訓導員應該也必須頻繁地給予獎勵,以建立警犬完成動作的積極的正反饋。然而,隨著訓練的深入,訓導員應當逐漸減少獎勵的使用頻次,讓警犬逐漸習慣不完全依賴獎勵而完成訓導員下達的指令或任務。根據斯金納的強化理論,逐步減少獎勵的使用可以增加警犬對獎勵的渴望和期待,保持神秘感同時也可以增加警犬的自主性和獨立性,這和間歇性獎勵的運用有著緊密的聯系。

(四)獎勵應當具有多樣性。警犬的不同訓練方向和不同品種的警犬對不同類型的獎勵偏好也有所差異,在訓練過程中,警犬訓導員要根據所帶警犬的喜好,有針對性地選擇多種獎勵方式,如食物、玩具或響片的“咔噠”聲、撫拍等。這樣既可以增加訓練的趣味性,又可以提高訓練的成效。同時警犬訓導員要培養敏銳的觀察力,靈活地運用獎勵,以滿足每頭警犬在不同階段的需求差異。

猜你喜歡
斯金納訓導警犬
警犬是怎樣“煉”成的
黑子,對不起
Dr. Skinner and Hungry Pigeon 斯金納博士與 饑餓的鴿子
“研訓導一體化”教師研修方式的實踐與探索
警犬戈爾吉
警犬守護春運路 每天工作12小時
警犬集體過生日
基于斯金納強化理論下的幼兒語言教育研究
重思自由
遠程教育中斯金納程序教學法的一種優化實踐
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合