Cidadão kane
Para complementar a fotografia foco profundo, ele criou o “som foco profundo" com cuidado ao regular seus níveis de som para que as vozes da profundidade de imagens mais distante do que vozes no primeiro plano da imagem. Observe também que no tiro que termina a cena do Colorado o trenó de Kane torna-se cada vez mais coberto de neve, e o apito de um trem pode ser ouvido à distância. Ele é tão sutil que você pode perder na primeira vez. Mas quando você descobre a imagem do trenó de neve coberto torna-se ainda mais pungente.
Há cenas, como um entre Kane e Susan em uma barraca, onde para além das personagens conversando, nós também podemos ouvir as vozes dos personagens ao seu redor que não são realmente vistos (pessoas de fora da tenda, neste caso). Welles também foi pioneiro na corte em J, a técnica de colocar o áudio à frente do visual em transições de cena.
O uso eficiente de textura de vozes é outra conquista marcante deste filme. A voz de Susan é macia e quente quando ela encontra pela primeira vez Kane, para se transformar em gritos agudos mais tarde. O palácio de Xanadu parece ainda mais alienante por causa dos ecos reverberando sempre que Kane e Susan gritam um com o outro. Tem também a força expressa através da voz de Kane durante o discurso de comício com o achatamento estéril quando ele ameaça Gettys.
Outra inovação brilhante por Welles era o "Mix Lightening". Uma frase iniciada por uma pessoa, no final de uma cena é completada na seguinte e esta nova cena é, pelo menos, alguns anos mais à frente no tempo. Assim, usando pontes de som, Welles criou uma maneira interessante para indicar passagem de tempo. O