Нейронные сети, искусственный интеллект и т.п. это, конечно, хорошо, но это то же самое, что и говорить о волшебной палочке: да, хорошо, если она есть, все проблемы сразу решаются; но если ее нет?
Если есть приемлемые решения, то почему бы и нет? Обучаем сеть и вперед. Но, возможно, есть и более простые решения, или менее ресурсоемкие. Например, думаю, что спектр частот в музыке и голосе должен быть разным (в музыке больше высоких частот). Может быть еще ритм, правда, не во всякой музыке он одинаково выражен. Помню, в свое время цветомузыка была популярна. Сам делал. Тоже фильтры на низкие, средние и высокие частоты. Так красные лампочки для низких частот довольно точно мигали в такт с барабанами.
Допустим, анализируем спектр сигнала. Если преобладают средние частоты в голосовом диапазоне, то, очевидно, это и есть голос. А если разброс значительный, то, вероятно, это музыка.