1. Introduction
SIP [RFC3261] et SDP [RFC4566] servent à établir des sessions multimédias ou des appels. SDP configure aussi TCP [RFC4145] et TCP/TLS pour les sessions média [RFC4572]. RTP [RFC3550] transporte le média temps réel sur UDP et TCP [RFC4571]. Datagram TLS [RFC4347] applique TLS aux protocoles à datagrammes. Ce document indique comment sécuriser SRTP [RFC3711] sur UDP via une extension DTLS [RFC5764].
L'objectif est une négociation de clés permettant le chiffrement sans relation préalable ni confiance envers chaque élément de signalisation, sans effort utilisateur ni déploiement global de certificats d'autorité de certification publique.
Le média transite dans une session DTLS mutuellement authentifiée avec certificats. Les certificats ne portent que les clés publiques (DTLS n'a pas de mode « clé nue »). Ils peuvent être auto-signés et générés à la volée; des certificats tiers sont aussi permis (MAY). Les empreintes sont échangées dans SDP sur SIP (offer/answer).
L'empreinte lie la poignée de main DTLS au plan de signalisation; il faut protéger l'intégrité du signal. Les signatures S/MIME (RFC 3261) ou SIP Identity [RFC4474] résistent aux intermédiaires malveillants. Même la sécurité hop-par-hop (SIPS) limite les modifications hors chemin. DTLS-SRTP n'exige que l'intégrité du signal, pas sa confidentialité: moins d'éléments doivent être de confiance. Avec RFC 4474, seul le service d'authentification a besoin d'un certificat. Les intermédiaires ne peuvent altérer sans détection: pas d'attaque MITM. SDDESCRIPTIONS [RFC4568] exige la confidentialité du signal: tous les intermédiaires doivent être de confiance.
Contrairement aux approches où l'échange de clés (p.ex. MIKEY [RFC3830]) est dans le signal, DTLS-SRTP établit la protection sur le chemin média et ne lie cryptographiquement les clés qu'à SIP/SDP. RTP et SIP restent utilisables sans média chiffré.
En SIP, le callee peut envoyer du média unidirectionnel avant la réponse SIP. Découpler la négociation des clés média du signal SIP permet l'early media avant la réponse tout en laissant l'émetteur choisir une partie du matériel de clé. Les sessions peuvent être modifiées ou rechargées en clés après la signalisation initiale sans nouveau SIP.
Les choix de conception sont discutés à la section 3.