Pour fabriquer une image de synthèse (fixe), il faut suivre plusieurs grandes étapes :

1) Créer une "charpente" (un squelette) de l'objet, composée d'un ensemble de segments reliés entre eux.
2) Réaliser une enveloppe à partir de cette charpente, constituée de polygones rattachés à celle-ci.
3) Appliquer des textures à l'enveloppe, afin de donner à l'objet l'apparence voulue.

Une fois ces étapes accomplies, on obtient un objet en 3D, possédant des caractéristiques attribuées par le créateur et gérées par les logiciels de modélisation graphique.

La création d'un personnage de synthèse requiert d'autres procédés de construction qu'une image de synthèse fixe, très rarement utilisée.
L'animation d'un personnage prend en compte de nombreux paramètres rendant difficile la réalisation d'un personnage fidèle à la réalité. Les déplacements, comme la marche, qui nous paraissent pourtant simples, font intervenir le poids, la taille, la morphologie, la dynamique, la vitesse et les résistances fluides et solides (sol). Les expressions faciales sont également très complexes, d'où la nécessité d'une démarche précise dans sa réalisation.
Il existe différents moyens de modélisation d'un (des) personnage(s) de synthèse :
Afin de faciliter la réalisation des mouvements des personnages, on peut calquer (scanner) les gestes de comédiens réels. Pour cela, il suffit d'appliquer sur leur corps des pastilles munies de capteurs permettant l'analyse directe de ses gestes, ensuite interprétés sous forme de données numériques par l'ordinateur. Finalement, le personnage de synthèse restitue les mêmes gestes que le comédien, ce qui lui donne une touche de "vie" et de réalisme.
Malheureusement, l'animation du visage ne peut s'effectuer de la même manière, car c'est à la fois l'élément essentiel d'une personne mais aussi le plus difficile à modéliser. On munit donc un acteur d'un casque sur lequel est placée une caméra filmant son visage. Celui-ci est divisé en trois zones : le front, les yeux et la bouche. Le procédé consiste toujours à repérer les déplacements d'un certain nombre de points situés sur le nez, la bouche, le front, les yeux et les joues. La saisie s'effectue soit sur un acteur vivant, "scanné" à 512 intervalles réparties de façon uniforme sur 360°, soit à partir de photographies sous différents angles afin de reproduire le visage en 3D. Les traits et les déformations sont analysés et reproduits sur le personnage de synthèse. Ainsi, les polygones qui constituent son visage se déplacent et se déforment de façon réaliste. Si le créateur est perfectionniste, l'enveloppe du crâne du personnage peut compter plus de 160 points ou 200 polygones, dont 50 peuvent être consacrés pour la bouche seulement ! Ces méthodes d'animation sont beaucoup utilisées pour les jeux vidéos et certaines scènes de film.
Le lancer de rayons est un des procédés les plus utilisé pour la modélisation d'images de synthèse.
Il s'agit au créateur de donner les caractéristiques des objets à l'ordinateur pour qu'il puisse faire le rendu de l'image à partir de ces données.
Le principe du lancer de rayons est assez facilement compréhensible car il nécessite simplement une base de données et des calculs élémentaires (pour un ordinateur).

Imaginons un point dans l'espace, que l'on peut représenter par un il à travers lequel on regarde dans une fenêtre, un rectangle. Des rayons ayant pour origine ce point vont se réfléchir dès qu'ils atteignent une surface d'un objet défini auparavant. Alors le rayon se réfléchit dans plusieurs directions (à moins que la surface soit transparente) et, en fonction de la direction de la lumière également définie au départ, le rayon va être renvoyer sur une surface ou l'ombre de l'objet va être rendue. Ces rayons peuvent "rebondir" si les objets sont définis par une "enveloppe" réfléchissante, comme un miroir, pouvant déformer ou changer de couleur les rayons et ainsi créer une image très fidèle au réel.

Exemple d'une modélisation d'image de synthèse basique en lancer de rayons avec le logiciel "POV-Ray" (logiciel anglais !)
camera
{
// camera position X, Y, Z
location <0.0, 0.5, -4.0>
// camera focus point X, Y, Z
look_at <0.0, 0.0, 0.0>
}
// standard point light source
light_source
{
// light's location X, Y, Z
<-30, 30, -30>
// light's colour defined in terms
// of red, green, and blue
color red 1.0 green 1.0 blue 1.0
}
sphere {
// centre X, Y, Z and the radius or size
// of the sphere
<1, 0, 0>, 1
// The basic surface colour of the sphere
pigment {
// Another way of defining red, green,
// and blue.
color rgb <1, 0, 0>
}
}
camera { location <0.0, 0.5, -4.0>
look_at <0.0, 0.0, 0.0> }
light_source { <-30, 30, -30> color
red 1.0 green 1.0 blue 1.0 }
sphere { <1, 0, 0>, 1 pigment { color
rgb <1, 0, 0> } }
L'ordinateur peut maintenant faire le rendu de l'image. Dans ce cas, il ne lui faut que peu de temps (5 secondes avec un Athlon 750MHz pour une résolution de 640 sur 480 avec lissage de contour) mais dans une scène complexe, cela peut prendre des semaines entières ! C'est le plus gros inconvénient de cette technique de modélisation d'image.

Rendu effectué par ordinateur d'une scène très simple, avec le logiciel POV-Ray