Vectordifferentiatie (a'x differentiëren naar x)

Moderators: dirkwb, Xilvo

Reageer
Berichten: 44

Vectordifferentiatie (a'x differenti

Ik ben in de war door de definities rond vector differentiatie.

In mijn handboeken statistiek (Gujarati, Basic Econometrics en Hayashi, Econometrics) staat onder andere de volgende definitie voor vectordifferentiatie:
\(\frac{\partial a^T x}{\partial x} = a\)
Het resultaat is dus een KOLOMvector.

In mijn lessen wiskunde heb ik altijd geleerd dat gegeven de functie
\( f:R^n \rightarrow R : f(x) = a^T x = a_1 x_1 + ... + a_n x_n \)
men de gradiënt definieert als
\( \frac{\partial f}{\partial x} = \begin{bmatrix} \frac{\partial f}{\partial x_1} \cdots \frac{\partial f}{\partial x_n} \end{bmatrix} = a^T \)
Het resultaat, de gradiënt, de facto exact hetzelfde als de bovenstaande vector differentiaal is in dit geval een RIJvector.

Welke van beide definities is juist? Want het gaat in principe om twee keer dezelfde functie. Dus een van beide definities zou toch juist moeten zijn en de andere fout? of ga ik hier te kort door de bocht?

Bijkomende vraag: Hoe definieer je dan
\(\frac{\partial a^T x}{\partial x^T} = ? \)
of
\( \frac{\partial f}{\partial x^T} = ? \)
?

Dat verschil tussen getransponeerde of niet brengt me wat in verwarring. Ik snap wel dat het op hetzelfde neerkomt maar er is mij altijd geleerd dat je in wiskunde exact moet zijn. Als je je resultaat bijvoorbeeld verder gaat moeten vermenigvuldigen met andere vectoren of matrices dan begint het verschil tussen getransponeerde of niet ineens een grote rol te spelen.

Kan iemand verduidelijking geven ? Alvast bedankt

ps: In het bijhorende Wikipedia artikel is hieromtrent ook discussie. http://en.wikipedia.org/wiki/Matrix_calculus

Gebruikersavatar
Berichten: 271

Re: Vectordifferentiatie (a'x differenti

Het is soms wel mogelijk om verschillende definities te gebruiken, mits de definities bij elkaar een werkbaar geheel vormen. Ook hier is dat wellicht de achtergrond. Ik ben het wel met je eens dat dat verwarrend kan werken. Het is zeker oppassen wanneer je verschillende definities tegelijk gebruikt.

Voor functies in één dimensie definieer je de afgeleide als een limiet van (f(x+h)-f(x))/h. Bij verctorruimtes gaat dat niet. Het meest voor de hand liggend is om dan de lineaire benadering te gebruiken. Als f(x+h)-f(x) in de omgeving van x benaderd kan worden door een lineaire functie van h, dan is dat de afgeleide in het punt x. De vraag is wat je verstaat onder een lineaire functie. Het antwoord lijkt simpel: Een matrixvermenigvuldiging. Maar, dat is niet helemaal waar. Het inwendig product is immers ook een lineaire functie (met 1-dimensionaal bereik). Het inwendig product tussen (kolom)vectoren a en b is natuurlijk gelijk aan het matrixproduct van a^T met b. Dat geeft verwarring.

Neem je A een matrix met meer dan één rij, dan is de afgeleide van f(x) = Ax, maar op één manier de schrijven. Immers f(x+h) - f(x) = A(x+h)-Ax = Ah. Dit is een lineaire functie van h. Dus de afgeleide kan niets anders zijn dan A (voor elke waarde van x). Iets soortgelijks geld altijd als het bereik meer een dimensie heeft van meer dan één.

Kijk nu eens naar f(x) = a^T x met a (en x) een kolomvector. Hier geldt f(x+h)-f(x) = a^T h. Dus kan ik zeggen dat de afgeleide a^T is. Maar, in een tekst die meer over lineaire algebra gaat dan over matrixrekening zal dezelfde functie misschien geschreven worden als f(x) = <a,x> (met <.,.> het inwendig product) en de benadering rond x als f(x+h)-f(x) = <a,x+h>-<a,x> = <a,h>. De afgeleide is dan (het inwendig product met) kolomvector a.

In het voorbeeld dat je geeft zou het kunnen zijn dat de twee door elkaar heen gebruikt worden (dat is wel een beetje slordig). De functie is gedefinieerd als f(x) = a^T x. De afgeleide is (het matrixproduct met) rijvector a^T, of (het inwendig product met) kolomvector a. Maar, als je de functie met een matrixproduct definieert is het wel een beetje raar om voor de afgeleide een inwendig product te gebruiken.

Reageer