?

關于工作犬訓練中采用正強化訓練方法的分析

2020-12-01 13:17魏建龍王城仁
中國工作犬業 2020年11期
關鍵詞:工作犬訓導強化訓練

熊 鷹 魏建龍 王城仁

在工作犬的日常訓練活動中我們經常提到一些訓練術語,例如:正強化、負強化、正懲罰、負懲罰等。正強化一詞源于英文詞組Positive Reinforcement的中文意譯,Positive Reinforcement這個概念最初是由BF Skinner(斯金納)在一項論證研究中提出的,英文單詞Positive 的含義不僅有“正向的”的意思,它還可以表述為“肯定的”“積極的”等意思。

美國心理及行為學家斯金納根據相關實驗結果提出了3 個概念:強化、懲罰和消退。具體如下表所示:

分類 條件 行為發生頻率 舉例正強化 給予一個愉快的刺激 增加好行為發生的頻率當犬做出訓導員想要的行為時,訓導員獎勵它強化負強化 擺脫一個厭惡的刺激 增加好行為發生的頻率訓練臥下延緩科目,當犬不動時,沒有牽引繩的糾正正懲罰 給予一個厭惡的刺激 減少壞行為發生的頻率犬撲咬助訓員,不聽從訓導員口令放口,提拉刺釘脖圈懲罰負懲罰 撤銷一個愉快的刺激 減少壞行為發生的頻率犬對非目標氣味示警時,訓導員不理會它消退 無任何刺激 減少壞行為發生的頻率做氣味消除訓練時,犬對記住的氣味示警,訓導員不理會它

一些從事競技類犬訓練的團體當中,如訓練服從、護衛的IGP 訓導員們仍然認為,要把犬訓練得近乎完美,唯一可靠的方法就是教會它“必須”服從命令。犬自身的想法并不重要,他們相信給予犬適當的強迫(刺激)甚至是“電擊刺激”手段,是可以讓犬執行命令的訓練方法,而不是通過“暗示”或“要求”犬就能使其做出相應的行為。

一 、正強化訓練方法的含義

有許多不同的術語可用來描述此種訓練方法:正強化、基于獎勵、不束縛犬等。提倡這種訓練方法的訓導員有一個共同的信念:使用更安全、更有效、更人道的方法來訓練犬。如果訓導員獎勵犬正確的行為,那么這種行為就更有可能被重復,出現的概率也會增多。同樣,如果訓導員忽視犬正確的行為或重定向一個錯誤的行為,那么犬的這種正確的行為發生的概率就可能會減少。

二、正強化訓練方法的要素

(一)運用正面積極的強化方式在工作犬的訓練中,訓導員使用積極的強化方法已經被行為科學團體普遍認為是有效、持久、人道和安全的方法。正強化意味著如果獎勵犬做出一個需要的行為,那么這個行為被重復的概率就會更大。當犬的錯誤行為與負懲罰相對應(在短時間內取消或扣留犬想要的東西,如食物、關注、玩具或與人接觸等),或者使用聲音終止(口令“NO”或“非”),將錯誤行為重定向到想要的行為上,可引導犬做出正確的選擇。這些方法是正強化訓練的基礎元素。沿襲傳統訓練方法觀念的訓導員認為,積極的正強化方式表明訓導員態度軟弱并缺乏領導力。但事實相反,成功的訓導員能夠在不使用武力的情況下實現改變犬的行為。

(二)避免使用恐嚇、正懲罰

科學研究表明對抗性、正懲罰的訓練方法不僅不會長期有效,反而會加劇犬的攻擊性反應,使本來就喜好打斗的犬變得更加好戰。這是一個簡單的概念,但有些訓導員很難理解?,F代行為科學在反對強迫訓練中發揮了重要作用,僅憑直覺就能得出結論:獎勵比懲罰更為人道。傳統的訓導員認為,電擊、提拉刺釘脖圈或快速踢犬肋骨給予懲罰的方法對犬的傷害不大,但事實上多數訓導員會避免做讓犬感到痛苦或恐懼的事情。

(三)正確理解地位關系

訓導員與工作犬之間不應是“主人”與“仆人”的關系,他們更應該像是朋友、戰友之間的關系。

(四)從犬的角度去思考

訓導員要了解犬是如何感知周圍世界的,否則無法與它建立起牢固的關系。要有效地做到這一點,訓導員首先必須學習它的肢體語言與行為特點,了解它的感官體驗。感官與情感緊密相連,而情感驅動著行為。閱讀犬的肢體語言在訓練過程中扮演著不可或缺的角色,訓導員以此來了解犬以及解決它們可能存在的行為問題,這個過程被稱為感官教育。作為更高級的物種,訓導員應該掌握“犬類的語言”,而并非期望犬學習人類的語言。這樣能夠為訓導員與犬建立更牢固的關系打下基礎,也會讓訓導員更容易找到有效的、積極的方法來解決犬可能出現的任何問題。

這4 個要素共同構成了正強化訓練的理念。如果沒有其中的任何一條,這個理念就不完整,也就不能在相互信任和尊重的基礎上與自己的犬建立長期穩定的關系。

三、使用負強化訓練方法的弊端

負強化指的是訓導員通過施加身體上或者情緒上的壓力與刺激來強迫犬改變行為。例如強按犬臀部令犬坐下,或者猛拉牽引繩令犬臥下。在這兩種情況下,犬學會了如果服從就會減輕壓力,為避免不舒服犬就必須服從命令。對于多數犬而言,特別是那些精心挑選出來的具有高驅動力、身體強健和情感豐富的犬,這些負強化手段通常會在犬和主人之間制造沖突和猜疑,最終可能導致訓導員被攻擊。雖然使用負強化訓練起初看似有效,但犬的恐懼和憂慮卻增加了,并可能因此產生許多不容易再改正的問題。

(一)訓導員破壞了與犬的關系,犬因為恐懼或痛苦牽扯到訓導員,所以對訓導員的信任減少了。

(二)恐懼和焦慮會因犬體內過多的壓力荷爾蒙存在,導致發生恐懼性猛烈攻擊行為。

(三)在看似無關、不可預測的情況下,由于大多數時候犬體內存在的應激激素升高,會時刻感到需要防御。

(四)訓導員因為受到挫折,產生報復心理而增大對犬的懲罰力度,會帶來額外的風險。

基于恐懼的動機還涉及許多其他風險。從本質上講它會定期給犬帶來難以預測的不快樂、恐懼和壓力,而這些都不是一頭優秀工作犬需要的元素。

四、正強化訓練方法的可行性分析

訓導員應專注于強化犬令人滿意的行為,而避免強化其不受歡迎的行為。例如訓練犬“坐”的服從科目時,訓導員可以用表揚或撫摸強化犬的這一行為。如果犬跳起來撲向訓導員(產生不良行為)時,訓導員應轉身走開,不理會犬。訓導員很容易從犬身上得到想要的行為,因為訓導員控制了犬需要的資源:食物、感情、表揚、散步、網球——所有的好東西。正強化和非懲罰(在犬做出錯誤的行為后不讓犬得到想得到的)可以更好地促進訓導員與犬的關系,因為犬學會信任訓導員,這樣的團隊才會樹立起更強的工作關系。

在正強化訓練中,開始時訓導員要花很多精力,但一段時間之后就會趨于平穩,工作量逐漸較少。在負強化的情況下,訓導員很快就使犬做出了完整正確的動作,但之后的工作卻很繁重,因為犬所做的努力僅限于使其不受到干擾。正強化,尤其是大量的自由塑型,犬就會自主工作去得到訓導員給予的回報,犬思維的基本方式也隨之發生了改變。

(一)塑造犬的行為

塑造行為的訓練原則就是給犬創造條件,鼓勵犬自己發現正確的行為并給予其獎勵,而不是控制犬的身體或者誘導犬來達到想要的行為。初期訓導員的工作就是控制訓練環境,避免犬的自我獎勵。這個過程叫作犬的自我學習。如果讓犬進行自我學習,得到的益處將比負強化和強迫訓練的方法要多很多。

許多訓導員堅信犬不正確的行為需要被立刻糾正。通過塑造行為,訓導員創造訓練場景讓犬(開始時犬不知道正確的反應是什么)嘗試不同的行為來獲得其想要的獎勵。對撲咬犬而言,撲咬“假想敵”并與之搏斗,不能局限于撲咬“假想敵”身上的防護裝備,訓導員要獎勵犬攻擊目標的行為,防止犬只咬護袖這種自我獎勵的行為。例如在早期訓練時,訓導員需要使用牽引繩防止犬過早攻擊“假想敵”,興奮的犬會吠叫并往前沖,但是只有當犬執行訓導員的“臥下”口令后,訓導員才會允許犬去撕咬“假想敵”。而當犬做了訓導員想要的行為并得到獎勵時,就改變了犬的行為,犬就會重復做出正確行為以獲得獎勵。

對一些訓導員來說,讓犬撕咬時放口訓練往往難度很大。需要使犬放口時干凈利落,訓導員必須保證犬在任何條件下都會服從命令。許多工作犬動力強勁,一直想著咬“假想敵”,讓它們放口是個挑戰。一般來說,訓導員遇到犬不放口的情況,都會使用刺釘脖圈、電擊脖圈或撬棍等方法強行糾正。這些方法在短期內有效,但是這種沖突會導致大多數犬進入一種躲避狀態,當它們看到訓導員靠近時,犬會移動到遠離訓導員的位置。因此,可以讓“假想敵”在犬和訓導員之間,這樣犬就能延長撕咬的行為。教犬放口是一個有趣的游戲,并且可以讓犬有另外的機會撕咬。這種訓練的一個重要特點就是開始時難度較低,當犬的行為有了改變時,慢慢增加難度。比如前期“假想敵”很安靜,唯一的打斗來自犬,而不是拼命掙扎的“假想敵”,否則只會讓犬更興奮。當犬咬上后,“假 想敵”安靜不動,訓導員只需耐心等待,因為犬不可能永遠張嘴咬著。當犬開始疲倦時,訓導員發出犬一定會服從的指令,比如“臥下”。當犬臥下時,訓導員用咬棒拔河游戲來獎勵犬。當犬服從命令放開“假想敵”后,讓“假想敵”挑釁犬并與犬再次搏斗。如此反復訓練,犬很快就學會了“放口”的口令。以上這兩個例子都說明不用懲罰也可以得到一頭頭腦清楚冷靜的撲咬犬。

強迫通常會給犬帶來較大壓力,使犬無法思考并放口。而犬不服從“放口”指令,帶來的只是訓導員的武力升級,然后給犬帶來更大壓力,最終形成一個惡性循環。

(二)塑造和誘導

正強化訓練依賴于塑型訓練。這是一種訓練方法,它包括最初獎勵一個接近正確的期望行為,然后逐漸獎勵越來越好的接近行為,直到完成整個正確行為。另一種普遍的正強化訓練方法是誘導,在誘導訓練中,犬會跟隨一個喜歡的東西(食物或玩具)進入獲得獎勵的位置。這兩種方法都是一個素質全面的訓導員所必須掌握的,但需要靈活運用。

誘導訓練有利的一面是可以很快達到想要的行為,大多數訓導員都容易使用。不利的一面是如果誘導時間過長,會干擾犬想要學習的行為。頻繁使用誘導會讓犬過分依賴誘導,致使訓導員使用誘導作為一個“賄賂”手段而不是一個訓練方法,有效使用誘導的方法又必須使犬盡快擺脫誘導。

自由塑型有利的一面是形成犬自我解決問題的能力,一定要嘗試使用各種方法才能知道哪個有效。強調行為而非獎勵,雖然犬最終是為了得到獎勵,但是獎勵不是那么明顯地擺在犬面前,很多訓導員認為使用這種方法獲得的效果更為牢靠。不利的一面是前期需要訓導員有耐心,時間上可能也長一些,訓導員要善于觀察,敏銳地感知什么時候進入下一個訓練階段,這對于新訓導員來說是一個挑戰。

無論是訓練搜索類科目還是護衛類科目,也不管是訓練牧羊犬還是獵犬,學習的理論和行為模式大同小異。

五、使用正強化訓練的注意事項

100 多年前,兩位年輕的心理學家羅伯特·M·耶基斯(Robert M.Yerkes)和約翰·迪林厄姆·多德森(John Dillingham Dodson)定義了動物興奮與行為表現之間的關系:隨著興奮水平的提高,動物的表現也會提高,直到達到一定的最佳興奮水平。如果興奮水平超過了最優點,動物的表現將再次開始下降,并且隨著興奮程度的增加將繼續下降,如下圖。

興奮程度

訓導員工作就是盡量讓犬的狀態處于曲線的頂端部分,使其性能最大化。有時要求訓導員保持興奮,有時則要求保持冷靜。幾乎每個訓導員都愿意在必要的時候變得更興奮,但很少有人愿意在需要的時候保持安靜。這在許多情況下造成了困難,因為犬的類型可能與許多年前有很大的不同。10 年前,大多數接受訓練的工作犬都不像現在的工作犬那么興奮。因此,多年前發展起來的誘導方法強調通過使犬盡可能地靠近耶克斯-多德森曲線上升的左側,來建立犬的興奮水平,從而最大限度地提高它們的表現,這種方法仍然在被沿用。而現在的犬,無論是進口的犬還是國產的犬,通常都比10 年前的犬更容易興奮,許多犬的行為表現很差,是因為它們太興奮了,正處于曲線下降的右側。所以在訓練中對這類犬需要減少刺激,使它們回到曲線的頂端,特別是在訓練初期。因此,采用正強化訓練方法要注意以下9個方面。

(一)盡量讓訓練變得富有樂趣。不要在沒有樂趣的情況下進行訓練,訓練應該是一段讓訓導員和犬牢記的快樂時光。當與犬玩耍時能幫助它做出適合我們需要的行為,因為犬知道有一個獎勵在等著它。但不要讓犬自己做決定,為了讓犬學習并理解“我們渴望它做出行為”,利用這種方式會使它們會學到更多東西。

(二)要充分運用能激勵犬的東西。運用犬最喜歡的食物、最喜歡的玩具、最喜歡的拔河游戲等來激勵犬做出更好的行為,也可以去嘗試一些新的改變,用食物與玩具組合的方式來獎勵犬。

(三)對犬而言,一點微小的改變就是巨大的勝利。仔細觀察犬,觀察它對命令的反應,可能會發現犬有新的反應,而當我們注意到這種情況時,要直接獎勵它們。

(四)既要使犬努力工作,又要使其盡情玩耍。沒有人否認訓練可能是一項煩瑣的工作,但我們知道,想要為工作做好準備,犬必須先放松自己,好好休息也是必要的。

(五)要不斷提高挑戰的難度系數。當我們注意到犬已經開始獲得新的技能或較高的專注力時,必須把難度系數提高。例如當犬執行了“臥下”的命令時,應讓它適應附近的干擾因素,并讓它在臥下的位置上停留更長時間。

(六)堅持每天訓練是成功的關鍵因素之一。工作犬每天都要接受訓練,它們要反復聽到和執行相同類型的命令。這并不是強制給犬制定嚴格的軍事計劃,訓導員所要做的就是讓犬對自己已經掌握的技能在聽到相關命令后始終保持一致。此外,訓導員在訓練時間和獎勵上也要保持一致。

(七)不能忽視適當休息的必要性。在訓練過程中犬很可能會感到疲勞,這就是為什么在某個時候訓導員讓犬適當休息一下是十分必要的。

(八)要善于利用犬自身的警用素質水平。有些犬天生就具備警犬的素質,而有些犬則只能被淘汰。訓導員應意識到犬的素質水平程度,要根據犬的素質水平和驅動力情況,確保訓練過程能夠符合它們的需要。

(九)應以積極的方式結束訓練,不要忘記訓練應該是一件趣事。每當訓導員以積極的方式結束訓練,犬就會期待下一次的訓練。

六、結束語

訓導員和犬建立并保持健康平衡的關系并不是一場戰斗。盡管與立竿見影的想法有些不合,教學過程中有時會遇到困難,但花點時間去真正了解犬是如何學習的、犬需要什么才是更值得我們關注的。當一頭工作犬進入訓導員的生活時,也就簽署了一份不成文的社會契約,訓導員不僅要照顧、喂養和鍛煉它,而且還要幫助它獲得所需的所有技能,讓它盡可能地體驗最充實、最有意義的生命。只有利用積極正向的訓練,忽略懲罰和支配觀念的捷徑和陷阱,才能達到發揮潛能、人犬和諧的目標。

猜你喜歡
工作犬訓導強化訓練
犬籍注冊登記公告 [212]
歡 迎 購 買
“三角、數列、平面向量”強化訓練
空間幾何、解析幾何強化訓練參考答案
空間幾何、解析幾何強化訓練
黑子,對不起
集合與微積分強化訓練
俄海關限制工作犬加班時間
犬籍注冊登記公告 [179]
“研訓導一體化”教師研修方式的實踐與探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合