Песня и так в двоичном виде, но для удобства человека, её можно рассматривать хоть в десятичном, хоть в шестнадцатеричном, сути это не меняет, только внешний вид.
Объясняю очень схематично.
Мы имеем порядок чисел, которые представляют собой, очень грубо говоря, отдельнные звуки, каждый из которых звучит в выбранный момент времени. Звук — это колебания среды, воздуха (или мембраны динамика). И сколько бы там инструментов и голосов не звучало, воздух просто колеблется, у него нет разных колебаний для каждого инструмента, они все просуммированы, а число в файле — это та самая сумма. Чтобы это представить, можно представить молекулы воздуха — шарики, соединённые эластичными нитками. Мы дёргаем шарик вперёд (а колеблется он только вперёд-назад вдоль нитки), он за нитку тянет соседний шарик, потом дёргаем его назад, и так далее, так мы делаем ему колебания разной амплитуды и частоты. Мы не можем один и тот же шарик дёргать одновременно и вперёд и назад или на 10 и на 20 см в один и тот же момент, мы должны сперва найти суммарный вектор всех наших звуковых воздействий. То есть, если кто-то втягивает воздух, а рядом двое дуют, то шарик будет двигаться туда, куда дуют, потому что дуют сильнее.
Итак, идут у тебя числа 10 40 12 70, если ты уберёшь "ненужную" 12, потеряешь, скажем, один удар барабана, и вообще, собьёшь ритм, потом учто эти числа — это протяжённость песни по времени. А нам нужно удалить так, чтобы звук во времени остался, но изменился. Это можно было бы попытаться сделать, если бы у нас была дорожка с голосом, мы бы инвертировали её фазу и сложили с полной дорожкой, в теории это даст только минусовку. Ещё можно вырезать некие частоты, в которых сконцентрирован человеческий голос, это оставит низы и верхи, но какую-нибудь бас-гитару может и выпилить вместе с голосом.
Есть хитрые алгоритмы, которые как-то находят голос в песне, составляют шаблон и по этому шаблону убирают его, у меня такая была 14 лет назад, худо-бедно работала. Однажды она как-то странно сглючила и у меня получилась не музыка без голоса, а голос без музыки, я даже этот файл сохранил и до сих пор храню, потому что очень смешно получилось. Конечно, сейчас алгоритмы шагнули дальше вперёд, но это далеко не простое убирание нулей и единичек, этому процессу сопутствует хардкорный анализ.
Один раз я записывал песню и сделал голос в разных каналах с сильным сдвигом фаз, чтобы достичь стереоэффекта. И потом, когда слушал эту песню в моно, которое получалось суммированием двух каналов (на усилке забыл переключатель выключить, который включил, чтоб посмотреть тупое видео, где звук был только слева), то получил песню почти без слов, потому что, как я писал выше, звук в противофазе наложился на себя в фазе. С небольшой погрешностью, конечно, но похоже.
Впоследствии я наоборот, делал голос по центру, а всякие там гитары раскидывал по ушам. На основе этого тоже можно проводить анализ, то есть искать звук, который звучит одновременно в обоих каналах, а потом частотным фильтром из всех (там ещё обычно будут барабаны и что-нибудь ещё) вырезать только диапазон голоса, но это зависит от песни, и так просто всё равно не получится сделать.
Это я к тому, что прежде, чем выдвигать странные идеи, основанные на поверхностном знании темы, стоит углубиться в вопрос, а то получится архиватор Бабушкина. Я сам не претендую на сильное погружение в алгоритмы, но нам на радиотехнике за 5 лет много раз рассказывлаи и про ряд Фурье, и про модуляцию, и про фазы сигналов, и много чего ещё, что мне никогда так и не пригодилось. Ну, разве что, я чуть лучше некоторых понимаю как работает звуковой микшер.