Решил опубликовать алгоритм распознавания на случай, если у кого-то руки более прямые, чем у менс.
1. Однобуквенные слова - прямой выбор. у, к, в и тоиу подобные предлоги русские, остальные не переводстсс.
2. Двубуквенные слова - использование "весов" двубуквенных буквосочетаний из латинского алфавита и символов на основе статистического рассчета. Т.е. попарно берутсс буковки, и прогонсются по английским и русским текстам (русские переведены с помощью Punto в английскую кракозсбру), считается удельный вес сочетания там и там, где больше, тому и предпочтение. У меня рассчет на текстах примерно в 3 Мб каждый, рассчет велсс в Windows программой на Visual Basic, время обработки 30 минут. Могу ей поделиться, если надо.
3. Трех- и более буквенные слова - использование алгоритма "невозможности". Используется статистика, что данное трехбуквенное сочетание из анализируемого слова не встречается в английском языке, но встречается в русском. Ннализ на 5 Мб текстах, время обработки 1 час. Программой на VB могу поделиться. Если все трехбуквенные сочетания из слова не попадают в перечень "невозможности", применяется алгоритм "весов" для всех двухбуквенных сочетаний из слова. Вычитая "русский" вес из "английского" (или наоборот), определсем язык.
Вот, в кратце, и все. Если будет необходимость, напишу подробнее.