訓狗

訓狗

訓練行為方式
訓狗是一項艱難又有意義的工作,為社會提供安全保障之一的措施。訓狗通常離不開操作性條件反射。訓練員引導動物執行一種行為的方法會因人而異。有些人倡導使用食物引導狗就位,而其他人隻是等待狗自發做出該行為。多數響片訓練員不支持使用手推的方法使狗落位,因為那違背了響片訓練中不施加外力的理念。如果您使用響片訓練,按照次序逐步地訓練,可以使狗學到複雜的行為方式。
    中文名:訓狗 外文名: 别名: 英文名:Dog training 解釋:訓狗是一項艱難又有意義的工作

訓狗曆史

狗屬于脊索動物門、脊椎動物亞門、哺乳綱、真獸亞綱、食肉目、裂腳亞目、犬科動物。中文亦稱“犬”,狗分布于世界各地。狗與馬、牛、羊、豬、雞并稱“六畜”。有科學家認為狗是由早期人類從灰狼馴化而來,馴養時間在4萬年前~1.5萬年前。被稱為“人類最忠實的朋友”,是飼養率最高的寵物,其壽命大約在12~18年。在中國文化中,狗屬于十二生肖之一,在十二生肖中的第11位。

狗是由狼馴化而來的。早在狩獵采集時代,人們就已馴養狗為狩獵時的助手。因此,狗算是人類最早馴養的家畜。河北武安磁山、河南新鄭裴李崗、浙江餘姚河姆渡等遺址,都發現了狗骨骼,足證其馴養曆史之久遠。

戰國時,東胡開始強盛,占據燕國邊地,後燕将秦開率兵襲破東胡,東胡向北退卻千裡。燕在北邊設置上谷、漁陽、右北平、遼西和遼東五郡,修築長城以防禦東胡。據實地考察,燕所築長城從遼西腹地穿過,在朝陽建平縣境内仍保留長城遺迹百餘公裡。這說明朝陽地區在燕破東胡前曾為東胡占有。

東胡的社會經濟為遊牧、狩獵和農耕相結合的混合型經濟,以遊牧的畜牧業為主。東胡墓葬中多出土大量動物骨骼,證明飼養的動物主要有狗、豬、馬、牛、羊等。

訓狗方式

訓狗通常離不開操作性條件反射。B.F.斯金納是第一位對這一概念進行定義的科學家,他對俄國生理學家巴夫洛夫博士有關動物行為的作品進行了研究。在巴夫洛夫極富創造力的研究中,狗将刺激(這個例子中的刺激物是鈴)與主人的喂食聯系在一起。該實驗從兩件看似無關的事件(流口水和喂食)開始,随後增加了第三個元素,即喂食前搖鈴。在經過幾輪的試驗之後,狗學會把鈴聲與喂食聯系到一起,知道聽到鈴聲後便會有食物。因此,即使不提供食物,它們也會在聽到鈴聲後流口水。

因為在提供食物時狗會自然開始流口水,所以食物就是一種非條件性刺激。不需要特殊的條件反射或特殊訓練就可以使狗流口水,這是一種非條件反射。

與此相反,鈴聲本身不會使狗流口水,它們僅在特定條件下才會将鈴聲與喂食聯系在一起,從而流口水。所以,鈴聲是一種條件刺激。狗所産生的新反應是對刺激物的反射,是一種條件反射。

許多人可以從自己的狗那裡了解到這一點。當門鈴響時,狗會狂怒咆哮,有時甚至聽到電視裡的門鈴聲也會狂叫。在這種情況下,狗已經将鈴聲刺激與即将到來的陌生人聯系到了一起。

駕駛時,當我們看到閃動着的燈或者聽到後面有警笛,我們可能會條件反射式地緊張起來并且心率加快。我們已經将警笛聲作為條件與得到罰單時那種不愉快的、有壓力感的經驗聯系到了一起,這是典型的條件反射。動物和人類都可以将兩個事件聯系起來,并在預期第二個事件時對第一個事件做出反應。這種類型的學習是被動且無意識的,它在學習者沒有做任何事且經常是沒有任何意識時發生。

巴夫洛夫的作品是有關條件刺激的反射性反應,而斯金納則關注通過添加強化刺激,從而形成的對刺激的特定反應。強化刺激可以是獎勵或者懲罰。能夠增加行為頻率的任何事件都可以稱為獎勵;反之,能夠降低行為頻率的任何事件都可以稱為懲罰。

因為某種特定行為得到獎勵時,我們可能會重複該行為。相反,當我們因為某一行為而得到懲罰時,我們可能會終止該行為。這種類型的學習是主動積極的,它取決于學習者的行為。

由于強化刺激的定義是以其有效性為基礎的,所以記住下面一點很重要。同樣一個獎勵,對于一個人來說也許是有意義的,而對另一個人來說,可能就不是獎勵。類似地,一個環境中的獎勵在其他的環境中可能也不再有吸引力。

斯金納證明,動物和人類都會為得到獎賞而重複某些行為。在他使用老鼠和鴿子所做的實驗中,斯金納展示了動物是如何通過按壓橫杆來獲取食物獎勵的。當第一次将一些動物引入試驗箱時,它們會在箱内随意移動。當它們偶然按壓橫杆時,會有一小塊食物掉下來。這樣它們很快就學會了有目的地按壓橫杆來獲取食物。随後,通過對它們逐步進行強化訓練,還可能形成更加複雜的行為。為對預期結果(獲取食物獎勵)作出響應,動物實際在環境中執行了操作(按壓橫杆),因而斯金納将自己的方法稱為“操作性條件反射”。

我們人類也本能地對良好的行為進行獎勵,對不良行為進行懲罰,這是人之常情。在沒有對操作性條件反射進行定義之前,人們已經使用它來訓練動物很長時間了。康拉德·莫斯特上校在1910年出版了《訓狗指南》,他使用的是斯金納所研究的許多相同的原理(甚至比斯金納描述這些原理的時間還要早幾十年)。雖然莫斯特上校的訓練方法根據現在的标準顯得有些嚴酷,但他還是被很多人尊稱為“現代訓狗之父”。莫斯特和其他訓練員同時使用獎勵和懲罰塑造并強化動物的行為。

強化刺激

強化刺激可以包括添加一個新元素,或者拿走當前存在的一個元素。這個術語可能有些令人費解。添加某物被稱為“正強化”,然而“正”并不意味着“高興”或者“好”。在這種情況下,“負強化”是移除某物,也并不包括“壞”的意思。因此,獎勵和懲罰可以是正強化,也可以是負強化。

鹦鹉做了揮腿的動作,獎勵它一片水果,這屬于添加積極的刺激(正面獎勵);馬為了逃避馬刺而跑得更快屬于終止消極的刺激(負面獎勵)。盡管“負面獎勵”聽起來似乎前後矛盾,但去除某種消極刺激确實是一種獎勵。

懲罰的原理也完全相同。當狗朝一個方向拉動皮帶時,會在相反的方向得到一個令其疼痛的拖拉刺激,特别是在使用頸圈或叉形鍊時狗得到的刺激會更大,這屬于正面懲罰或修正,狗會因為自身的不良行為而得到不愉快的反饋。或者,懲罰也可以是去除某種正面刺激,即當小孩行為不當時大人會剝奪其出去和朋友玩的權利,這屬于負面懲罰。

使用強化刺激訓練狗坐下的方法有多種。訓練員可以推狗或将它帶到一個位置坐下來,或者隻需等待直至狗自然而然地坐下。當狗坐下時,訓練員可以提供一種正面獎勵,例如,口頭表揚(“狗兒乖!”)、觸摸獎勵(輕拍狗的頭部)、提供狗喜歡的玩具或者食物獎勵。有些訓練員使用電擊項圈作為負面獎勵,這種項圈可以向狗發出适度的電擊,而當狗坐下後,電擊就會停止。這樣狗就學會了通過坐下而消除電擊。

出于人道方面的考慮,許多人對此表示不滿。但是,這種訓練方法所遵循的是與操作性條件反射相同的原理。不管在哪種情況下,狗學會了一聽到“坐下”的命令就立刻坐下,緊接着它就會得到獎勵。隻要對狗有意義的事物都可以作為強化刺激。也許一隻狗認為食物比玩具更具價值,而另一條狗則恰恰相反。具體使用哪種強化刺激并沒有多大的影響,但是從實際情況來看,有些強化刺激确實比其他強化刺激更有效。

同樣,沒有必要每次或在每種情況下都使用同一種強化刺激。有些任務則可能需要更具價值的強化刺激。正如PetSmart寵物連鎖店的訓練員丹·奧利裡所言,“如果給你一美元讓你從椅子上方跳過去,你可能會做。但你可能不會因為一美元而為我洗車和打蠟。”同樣,如果在相對安靜的家中您的狗樂于為得到某種類型的獎勵而執行某項任務,但在課堂上卻需要更有吸引力的獎勵才能使狗集中注意力。

标記

凱勒和瑪麗安·布裡蘭是B.F.斯金納的學生,他們将斯金納的方法進行擴展,用來訓練不同種類的動物。在二十世紀中期,凱勒·布裡蘭開始制定适用于訓練海洋哺乳動物的訓練計劃。顯然,為海豚或者逆戟鲸設計有效的懲罰有一定的難度和危險性。另外,對通常遠在地面的訓練員來說,及時獎勵處于水中的海洋哺乳動物也是一件富有挑戰的事情。

在訓狗過程中也會遇到相同的問題。如果狗坐下、跳起,然後再轉一個圈,從而獲得了食物獎勵,那麼它可能并不知道是表演的哪一部分取悅了訓練員。特别是在訓練員花了片刻時間去取食物來喂狗時,情況更是如此。通常,狗會将自身所執行的最後一個動作與所獲得的食物獎勵聯系到一起。因此,如果狗坐下,然後跳起,接着獲得了食物獎勵,那麼狗真正得到訓練的是跳起,而非坐下。

對于懲罰也同樣如此。如果狗從主人身邊跑掉,随即跟主人玩追捕遊戲,當被主人抓到時自然會遭到懲罰。然而,在狗遭到懲罰前所做的最後一件事卻是回到主人身邊。因此,當狗聽到召喚時很可能減少的行為是回到主人身邊,而非跑掉。

為了解決這個問題,布裡蘭設計了一種标記或暗示,這可以告訴動物其行為正确而且馬上會得到獎勵。布裡蘭使用典型條件反射将标記信号與獎勵聯系在一起,因此當狗聽到這一信号時将知道它會獲得獎勵。然後他又通過操作性條件反射使用正面獎勵來塑造動物的行為。

因為标記是即時的,所以有助于強化狗的正确行為。标記本身不屬于獎勵,而隻是一種顯示狗行為正确并承諾狗獲得獎勵的信号。因為海洋哺乳類動物本身更傾向于通過聲音進行交流,所以訓練員自然會用哨聲作為标記。

在二十世紀六十年代,凱倫·普賴爾使用了相同的正面強化技術來訓練海豚。她意識到需要廣泛應用此類行為修正,于是在1984年撰寫了《别斃了那條狗》(Don't Shoot the Dog)一書。除了标題,其實它并不是單單隻講訓狗。這本書涉及了有關使用正面強化刺激塑造行為的方法,目标範圍從寵物貓到難管的小孩。目前,許多公司仍在使用這本書向員工傳授高效管理的方法。

普賴爾使用金屬響片作為标記開始塑造狗和其他動物的行為,而一提到現代響片培訓人們最常想到的也是普賴爾這個名字。其他訓練員采用了她的訓練方法,并且随着互聯網的出現,響片訓練得到了快速的普及。

凱倫·普賴爾将響片描述為對所期望行為進行拍照;在關鍵的時刻按動響片。響片意味着,“你某件事情做得對,并且因此會得到食物獎勵。”

許多初學訓練員會犯這樣的錯誤,他們針對動物的某一行為按動了響片,但卻沒有跟進食物獎勵。沒有實際的獎勵,狗可能還會在一段時間内繼續執行該行為,但這一行為會慢慢消失。

引入命令

響片本身對狗沒有意義。正如巴夫洛夫的鈴聲需要通過典型的條件反射,從而使狗認識到響片聲音意味着“開飯了!”。為此,訓練員需要重複按動“激發”響片,然後立即提供食物獎勵。這樣,狗就會把響片與食物獎勵聯系到一起。一旦狗認識到響片意味着食物獎勵,它就會開始學習新的行為。

訓練員引導動物執行一種行為的方法會因人而異。有些人倡導使用食物引導狗就位,而其他人隻是等待狗自發做出該行為。多數響片訓練員不支持使用手推的方法使狗落位,因為那違背了響片訓練中不施加外力的理念。

一旦狗做出了該行為,把握時機就成為了關鍵。訓練員必須在看到期望行為的同時按動響片。如果狗躺倒,然後又打滾,随即聽到響片聲,那麼打滾(而不是躺倒)的動作會被标記為期望的行為。

如果您使用響片訓練,按照次序逐步地訓練,可以使狗學到複雜的行為方式。例如,如果您要訓練狗跳圈,那麼開始時您可能隻需讓狗走到圈前,就可以按動響片并喂食。一旦狗能夠穩定地走到圈前時,您就可以隻在狗将頭伸入圈口時按響響片,然後又隻在它穿過圈時按響響片。最後,您隻在狗真正完成跳圈動作時按響響片。在狗對每一項新的步驟開始學習時,對其進行獎勵的标準也不斷提高。這稱為塑造。

除了發出命令随即告訴狗該命令的意義何在之外,多數響片訓練員更傾向于在狗可以穩定做出期望行為的時候發出命令。可以先通過食物誘導使狗跟随做出期望動作,然後藏起食物,再采用誘導動作(比如,拿着食物從狗的鼻

子前方移動到地闆,從而訓練狗“下伏”)發出命令的手勢信号。很多訓練員感到手勢信号比口語信号更易于訓練狗,但隻要能使狗做出反應,哪種信号都是理想的。一旦狗做出期望的行為,訓練員可以開始使用命令,從而使狗學會将兩者聯系起來。最後,訓練員将隻需在命令發出後就按響響片,而不是在狗自發做出行為時才按響響片。

記住動物屬于情境學習者很重要。這意味着,它們可能在一處了解某個命令的含義,而到了另一處卻不适用。當訓練員站立時狗可能會完美地坐在那裡,但當訓練員坐着向其發出命令時,狗則會變得惘然。當訓練一種新的命令時,訓練員需要添加新的環境(有必要的話可以提前預備),從而幫助狗學習。

消除不良行為

訓練狗做好事要遠比訓練狗不做壞事要容易得多。在準備改掉狗的一個不良行為時,首先需要考慮的是要求狗改掉壞習慣所需的獎勵是什麼。狗必須得到獎勵,否則狗不會堅持做一種行為,但有時獎勵作用不會十分明顯或适得其反。當狗躍向主人而主人卻将其推開的懲罰(對于狗來說,與主人進行肢體接觸屬于身體觸摸獎勵)可能比對狗大吼都更具威懾力。

訓練員必須注意不要無故對不良的行為進行獎勵。一旦訓練員察覺并消除意外獎勵(達到可能的最大程度),下一步通常是訓練一種與之相反的行為。狗學會在主人拾起皮帶時坐着不動,不可以同時跳起将主人撲倒。

響片是一種訓練工具,然而訓練員不應當無節制地使用。使用響片的目的是為了告訴狗什麼是期望的行為。一旦狗理解命令并可以穩定執行時,您便可以停止使用響片。您可以繼續獎勵狗,但随着時間的推移,您可以從一種狗

最喜歡的食物獎勵轉變成一種對狗吸引力稍小的食物獎勵,然後可以轉變成隻有口頭獎勵。當行為已完全掌握時,可能根本不需要獎勵,盡管狗與人都希望做好一件好事後得到一些反饋。

操作性條件反射在塑造包括狗在内的幾乎所有動物的行為都非常有用。訓練中強調使用正面強化可以使所有人都樂在其中,并且可以加深訓練員和學習者的情感。使用響片可以精确地指出期望行為,并大大加快訓練進程。狗沒有學會某項任務通常是因為溝通的失敗而不是狗不願意配合,然而一位好的訓練員可以解決這些問題。這種訓練真正的唯一局限是訓練員正确識别有意義的強化刺激的能力,并将期望的行為分解為可管理的步驟的能力。

相關詞條

相關搜索

其它詞條