Zanim przejdziemy do omawiania, w jaki sposób dźwięk zapisywany jest w komputerze, rozważmy czym jest dźwięk sam w sobie w swojej analogowej postaci. Zrozumienie tego zagadnienia będzie bardzo przydatne podczas zapoznawania się z mechanizmem generowania dźwięku przez kartę muzyczną, a także z różnego rodzaju charakterystykami służącymi do oceny jakości tego dźwięku.
Ogólnie wiadomo, że dźwięk rozchodzi się w postaci fal. Nie wszyscy zdają sobie natomiast sprawę, że fale te mają postać znanej wszystkim ze szkoły sinusoidy. Przyjrzyjmy się dwóm przebiegom na rysunku poniżej.
sinusoida
gitara, struna 'A'
Oba sygnały mają bardzo podobny kształt. Pierwszy z nich to "czysta" sinusoida, natomiast drugi przebieg to obraz fragmentu wybrzmiewającego dźwięku, jaki wydaje gitarowa struna "A" (choć niezbyt dokładnie nastrojona). Każdy człowiek przy odsłuchu tych dwóch dźwięków jest w stanie stwierdzić, że są one w pewnym sensie identyczne (mają dokładnie tą samą wysokość), a jednocześnie różnią się (drugi dźwięk to gitara, a pierwszy... raczej nie występuje w przyrodzie). Z matematycznego punktu widzenia, drugi z dźwięków to też sinusoida, z tym że zmodyfikowana przez dodanie kilku innych sinusoid o małej amplitudzie i odmiennych częstotliwościach. Te inne, o wiele "słabsze" dodatkowe sinusoidy nie wpływają na nasz odbiór wysokości dźwięku, ale potrafią nadać mu specyficzne brzmienie. W każdym razie obserwując wykres dźwięku możemy nadać mu dwie istotne i uniwersalne cechy: amplitudę, odpowiedzialną za głośność oraz okres przebiegu, określający wysokość dźwięku. Znacznie wygodniej niż okresem jest posługiwać się jego odwrotnością (1/T), czyli częstotliwością.
Skoro wiemy już, jak dźwięk "wygląda" dla człowieka, przejdźmy do opisu tego, w jaki sposób jest on zapisywany przez komputer. Oczywiście maszyna cyfrowa nie może zapisać pełnego przebiegu w postaci ciągłego wykresu - niezbędne jest przeprowadzenie procesu zwanego próbkowaniem. Komputer ogranicza się do zapisu wartość sygnału mierzonego co jakiś stały odcinek czasu, określony przez częstotliwość próbkowania (sampling rate). Wartości te nie mogą być dowolne - są one zaokrąglane do najbliższej dozwolonej liczby. Dokładność tego zapisu określa rozdzielczość próbkowania.
W przykładzie podanym na powyzszym rysunku dźwięk jest próbkowany w okresach co 0.005 sekundy, czyli z częstotliwością 200 Hz. Z kolei rozdzielczość wynosi 4 bity, co pozwala na przydzielenie każdej próbce jednej z 24 wartości. Można się domyślić, że im wyższa rozdzielczość i częstotliwość próbkowania, tym z większą dokładnością dźwięk zostanie zapisany. Istnieje nawet matematyczne twierdzenie zgodnie z którym, jeśli będziemy chcieli odtworzyć dźwięk na podstawie jego cyfrowego zapisu, częstotliwość próbkowania powinna być przynajmniej dwukrotnie większa od częstotliwości digitalizowanego sygnału. Młody człowiek potrafi usłyszeć dźwięki, na które składają się częstotliwości pomiędzy 20, a 20 kHz, a wraz z wiekiem zakres ten dodatkowo się zmniejsza. Z powyższych względów, przez lata standardową częstotliwością próbkowania było 44.1 kHz, czyli z pewnym zapasem dwukrotnie więcej niż maksymalna częstotliwość słyszalna przez człowieka. Za proces konwersji dźwięku z postaci analogowej na cyfrową odpowiedzialne są przetworniki analogowo-cyfrowe (AC - ADC z ang. "Analog-Digital Converter"). Operacja odwrotna, czyli zamiana zapisu cyfrowego na dźwięk analogowy, wygląda podobnie i jest realizowana przy wykorzystaniu przetworników cyfrowo-analogowych (CA - DAC z ang. "Digital-Analog Converter").