(scroll down for the English version)
----Português----
Todo e qualquer animal aprende da mesma forma. Aquilo que é benéfico e vantajoso é repetido, aquilo que causa transtorno, dor ou algum tipo de desvantagem ou desconforto tende a não ser repetido ou evitado.
O condicionamento clássico fala-nos da associação de um estímulo com algo bom ou mau. Por exemplo, a música da carrinha dos gelados é associado a algo bom (à possibilidade de obter um gelado). Nos seus estudos, Pavlov concluiu que os cães eram capazes de antecipar a chegada de comida por associação com o som do metrónomo. Da mesma forma que é possível a associação de algo com um estímulo bom (um exemplo utilizado no treino de cães é a associação do clicker a uma recompensa) é também possível a associação com um estímulo mau (no treino de cães o *bip* que precede o choque quando se utiliza uma e-collar).
|
Baunilha
(Podengo Português) |
O condicionamento operante diz-nos, de grosso modo, o seguinte: uma resposta a um estímulo leva a uma consequência; caso essa consequência seja benéfica, o comportamento (resposta) tem tendência a ser repetido – reforço – se, pelo contrário, consequência seja prejudicial, o comportamento (resposta) tem tendência a não ser repetido – punição. Diz-nos ainda que, quando adicionamos algo é positivo e quando removemos algo é negativo.
Por definição, os quatro quadrantes do condicionamento operante são:
Um reforço positivo (R+) é adição de algo que leva ao aumento de probabilidade de um comportamento ser repetido. (adição de algo bom)
Uma punição negativa (P-) é a remoção de algo que leva à diminuição da probabilidade de um comportamento ser repetido. (remoção de algo bom)
Uma punição positiva (P+) é a adição de algo que leva à diminuição da probabilidade de um comportamento ser repetido. (adição de algo mau)
Um reforço negativo (R-) é a remoção de algo que leva ao aumento de probabilidade de um comportamento ser repetido. (remoção de algo mau)
Ou seja, um reforço não significa, obrigatoriamente que algo de bom vai acontecer ao animal, pode ser, simplesmente, o evitar de um estímulo desagradável.
De uma forma a ser mais rápida a integração destas definições, a olhar para uma consequência fazemos duas perguntas:
- Está a adicionar-se ou a remover-se alguma coisa? (se se adiciona é positivo, se se remove é negativo)
- O adicionar/remover vai aumentar ou diminuir a probabilidade do animal voltar a executar o comportamento? (se aumenta é reforço, se diminui é punição)
Aplicando estas duas perguntas vou dar exemplos:
--> Um cão salta para cima de uma pessoa para pedir atenção; a pessoa vira costas e ignora.
- O estímulo do cão é ver a pessoa, a sua resposta é saltar-lhe para cima e a consequência é o ignorar por parte da pessoa.
- Está a remover-se a atenção; por isso é negativo.
- Uma vez que o cão não obteve o que queria (atenção), a resposta de saltar tem tendência a diminuir; por isso é uma punição.
- Logo, punição negativa.
--> Após sentar, é dado um biscoito ao cão.
- O estímulo é a vontade de sentar, a resposta é sentar e a consequência é a adição do biscoito.
- Está a adicionar-se o biscoito; por isso é positivo.
- O comportamento tem tendência a repetir-se porque houve uma boa consequência; por isso é reforço.
- Logo, reforço positivo.
--> Um cão passeia com estranguladora, puxa à trela, o dono dá-lhe um puxão. Seguidamente a pressão efectuada na estranguladora é aliviada porque o cão não está a puxar.
- Aqui temos duas coisas distintas… vamos à 1ª: o estímulo é algo que o cão cheirou e quer investigar (por exemplo), a resposta foi puxar à trela para tentar chegar mais depressa e a consequência foi o puxão.
- Está a adicionar-se o puxão; por isso é positivo.
- Está a diminuir-se a probabilidade do cão puxar (porque o cão sente dor/desconforto); por isso é punição.
- Aqui temos a trabalhar punição positiva
|
Mitu (Border Collie) |
- Vamos à 2ª parte: o estímulo é evitar a dor/desconforto da estranguladora, a resposta é não puxar à trela e a consequência é continuar com a trela aliviada.
- Temos a remoção do puxão, logo negativo.
- Está-se a aumentar a probabilidade do cão não puxar (porque quer evitar algo), logo reforço.
- Aqui temos reforço negativo.
Qualquer que seja o quadrante utilizado, há aprendizagem por parte do animal. Contudo, o condicionamento operante não funciona independentemente do condicionamento clássico. Os dois acontecem ou podem acontecer em simultâneo.
O uso da P+ pode ter consequências nefastas exactamente devido ao condicionamento clássico.
Imaginemos um cão que apenas puxa à trela quando vê outro cão na rua. Usamos P+ (estranguladora, por exemplo) para que ele não puxe. Ora, o cão tanto pode associar a correcção com o puxar, como pode associar aos outros cães que andam na rua. Na segunda hipótese, o cão associa cão=correcção, logo cão=mau. E criamos, sem necessidade, um cão agressivo ou reactivo para com outros cães.
Outra das possíveis consequências do treino usando P+ é a associação da P+ ao dono e a consequente perda de vínculo entre dono e cão.
Outro dos problemas da P+ é a intensidade da punição. Há cães mais sensíveis que outros. Há cães que entram em shut down/learned helplessness por não conseguirem entender o porquê da P+ e preferem, por isso, não exibir qualquer tipo de comportamento. É um exemplo uma experiência feita com ratos em que o fundo da gaiola era uma grelha de choques eléctricos; estes, não tendo por onde ou para onde fugir depressa entenderam por mais que se mexessem não conseguiam evitar os choques e, nas descargas consequentes, mantiveram-se imóveis. Não quer dizer que eles não sentissem dor, simplesmente desistiram de tentar evitar os choques por não terem saída.
|
Fernando Silva
e Isabel Guedes |
----English----
Every animal learns the say way. They repeat what gives them pleasure and they avoid what gives them pain.
Classical conditioning explains the association between a stimulus and something good or something bad. For example, the music in the ice cream trucks is related to something good (there is the possibility of getting ice cream). During his studies, Pavlov realized that dogs could anticipate the arrival of food because they had associated it with the sound of the metronome. The say way that is possible the association with a good stimulus (in dog training the clicker and reward) it is also possible the association with a bad stimulus (the *beep* that precedes the shock in a e-collar).
Operant conditioning says that a response to a stimulus generates a consequence; if that consequence is something good, the behavior (response) has a higher probability of being repeated – reinforcement – if that consequence is something bad, the behavior (response) has a lower probability of being repeated – punishment. It also states that the addiction of something is positive and the subtraction of something is negative.
By definition, the four quadrants of operant conditioning are:
Positive reinforcement (R+): it’s the addiction of something that raises the probability of the repetition of a behavior. (addiction of something good)
Negative punishment (P-): it’s the subtraction of something that lowers the probability of the repetition of a behavior. (subtraction of something good)
Positive punishment (P+): it’s the addiction of something that lowers the probability of the repetition of a behavior. (addiction of something bad)
Negative reinforcement (R-): it’s the subtraction of something that lowers the probability of the repetition of a behavior.
|
Lira (Whippet) |
Reinforcement does not mean that something good is going to happen; it can be the avoidance of something unpleasant.
The easiest way of viewing these definitions is to ask yourself two questions:
- Are we adding or removing something? (if we are adding it’s positive, if we are removing it’s negative)
- The addiction/subtraction is going to raise or lower the probability of repetition of that behavior? (if it raises it’s reinforcement, if it lowers it’s punishment)
To apply this 2 questions here are some examples:
--> A dog that jumps on its owner to get attention; the owner turns its back and ignores the dog.
- The owner is removing the attention, so it is negative.
- As the dog didn’t get what he wanted, the probability of jumping again is going is lowered; so it’s punishment.
- Negative punishment.
--> We give a cookie to a dog that sat.
- We are adding the cookie; so it’s positive.
- The probability of repetition of the behavior is raised, so it’s reinforcement.
- Positive reinforcement.
--> A dog walks with a choke collar. He pulls on the leash and the owner yanks the leash. After that the dog stops pulling so the owner relieves the tension on the leash.
- This one is more complex, we have to divide in two consequences. In the first part there is the pulling and the yanking.
- The owner added the yank, so it’s positive.
- The discomfort/pain that the yanking produces lowers the probability of pulling, so it’s punishment.
- Positive punishment.
- In the second part the dog is no longer pulling, avoiding the yanking.
- The discomfort/pain is removed, so it’s negative.
- The avoidance of discomfort/pain raises the probability of not-pulling, so it’s reinforcement.
- Negative reinforcement.
You can use any quadrant of the operant conditioning do teach something. BUT (yes, big but), you have to keep in mind that operant conditioning and classical conditioning are not independent! Both can happen or happen at the same time.
The use of P+ can have adverse reactions because of classical conditioning.
Imagine a dog that only pulls on the leash when he sees another dog. We use P+ (choke chain, for instance) so he does not pull. With classical conditioning, the dog can associate the correction with pulling or/and he can associate it with other dogs. In the second hypothesis, the dog learns to associate dog to correction, so dog=bad things. With this we create a dog that is dog-reactive or dog-aggressive.
Other of the possible consequences of P+ is the association of the correction to the owner and the subsequent damaging of the dog-owner relationship.
|
Zuzu (sem raça defenida) |
Another problem with the use of P+ is the intensity of the punishment. There are dogs more sensible than others. There are dogs that get in to shut down/learned helplessness mode because they can’t understand the reason of the punishment so they prefer to not perform any behavior. The example is an experience done with mice trapped on a cage which bottom was a shocking grid. Because they couldn’t escape the shock learned that even if they exhibited behaviors the shock was always there so, in the subsequent discharges they would just be immobile. It does not mean that the shock wasn’t hurting them; they just couldn’t avoid the shock.