Después de que la ciencia de la genética se estableciera y de que se clarificaran los patrones de la herencia a través de los genes, las preguntas más importantes permanecieron sin respuesta durante más de 50 años (¿Cómo se copian los cromosomas y sus genes de una célula a otra, y cómo determinan éstos la estructura y conducta de los seres vivos?).
A principios de la década de 1940, dos genetistas estadounidenses, George Wells Beadle y Edward Lawrie Tatum, proporcionaron las primeras pistas importantes. Trabajaron con los hongos Neurospora y Penicillium, y descubrieron que los genes dirigen la formación de enzimas a través de las unidades que los constituyen; cada unidad (un polipéptido) está producida por un gen específico; este trabajo orientó los estudios hacia la naturaleza química de los genes y ayudó a establecer el campo de la genética molecular.
Desde hace tiempo se sabe que los cromosomas están compuestos casi en su totalidad por dos tipos de sustancias químicas, proteínas y ácidos nucleicos. Debido en parte a la estrecha relación establecida entre los genes y las enzimas, que son proteínas, al principio estas últimas parecían la sustancia fundamental que determinaba la herencia; sin embargo, en 1944, el bacteriólogo canadiense Oswald Theodore Avery demostró que el ácido desoxirribonucleico (ADN) era el que desempeñaba esta función. Extrajo el ADN de una cepa de bacterias y lo introdujo en otra cepa; la segunda no sólo adquirió las características de la primera, sino que también las transmitió a generaciones posteriores. Por aquel entonces, se sabía que el ADN estaba formado por unas sustancias denominadas nucleótidos; cada nucleótido estaba compuesto a su vez por un grupo fosfato, un azúcar conocido como desoxirribosa, y una de las cuatro bases que contienen nitrógeno; las cuatro bases nitrogenadas son adenina (A), timina (T), guanina (G) y citosina (C).
En 1953, el genetista estadounidense James Dewey Watson y el británico Francis Harry Compton Crick aunaron sus conocimientos químicos y trabajaron juntos en la estructura del ADN; esta información proporcionó de inmediato los medios necesarios para comprender cómo se copia la información hereditaria. Watson y Crick descubrieron que la molécula de ADN está formada por dos cadenas (o filamentos), alargadas que se enrollan formando una doble hélice, algo parecido a una larga escalera de caracol; las cadenas (o lados de la escalera), están constituidas por moléculas de fosfato e hidratos de carbono que se alternan; las bases nitrogenadas, dispuestas en parejas, representan los escalones; cada base está unida a una molécula de azúcar y ligada por un enlace de hidrógeno a una base complementaria localizada en la cadena opuesta. La adenina siempre se vincula con la timina, y la guanina con la citosina; para hacer una copia nueva e idéntica de la molécula de ADN, sólo se necesita que las dos cadenas se extiendan y se separen por sus bases (que están unidas de forma débil); gracias a la presencia en la célula de más nucleótidos, se pueden unir a cada cadena separada bases complementarias nuevas, formando dos dobles hélices. Si la secuencia de bases que existía en una cadena era AGATC, la nueva contendría la secuencia complementaria, o imagen especular, TCTAG; ya que la base de cada cromosoma es una molécula larga de ADN formada por dos cadenas, la producción de dos dobles hélices idénticas dará lugar a dos cromosomas idénticos.
La estructura del ADN es en realidad mucho más larga que la del cromosoma, pero se halla muy condensada. Ahora se sabe que este empaquetamiento se basa en diminutas partículas llamadas nucleosomas, sólo visibles con el microscopio electrónico más potente. El ADN está enrollado secuencialmente alrededor de cada nucleosoma formando una estructura en forma de rosario. Entonces la estructura se repliega aún más, de manera que las cuentas se asocian en espirales regulares. Por esta razón, el ADN tiene una configuración en espiral enrollada, parecida al filamento de una bombilla.
Tras los descubrimientos de Watson y Crick, quedó el interrogante de saber cómo el ADN dirigía la formación de proteínas, los compuestos principales de todos los procesos vitales. Las proteínas no son sólo los componentes principales de la mayoría de las estructuras celulares, sino que también controlan casi todas las reacciones químicas que se producen en la materia viva. La capacidad de una proteína para formar parte de una estructura, o para ser una enzima que influye sobre la frecuencia de una reacción química particular, depende de su estructura molecular. Esta estructura depende a su vez de su composición. Cada proteína está formada por uno o más componentes denominados polipéptidos, y cada polipéptido está constituido por una cadena de subunidades llamadas aminoácidos. En los polipéptidos hay veinte tipos distintos de aminoácidos; al final, el número, tipo y orden de los aminoácidos en una cadena determina la estructura y función de la proteína de la que forma parte; véase código genético; transcripción; intrón; secuenciación; genoma.