Classic ML на собеседовании: что нужно знать ML Engineer и Data Scientist

Classic ML на собеседовании: что нужно знать ML-инженеру перед оффером

После резюме и алгоритмического этапа кандидата на ML-позицию часто ждёт следующий фильтр — собеседование по Classic ML. И именно здесь многие начинающие специалисты теряются: хочется сразу говорить про LLM, AI-агентов, RAG и современные нейросетевые архитектуры, но интервьюер возвращает к логистической регрессии, метрикам, деревьям решений и градиентному бустингу.

Этот материал подготовлен по мотивам выпуска рубрики #MLСобес с Димой Савелко — Data Scientist в направлении NLP/LLM с 4+ годами опыта в R&D Точки и Сбера, где он обучал GigaChat и разрабатывал корпоративные LLM. Сейчас Дима — фаундер savelkoteam: помогает ML-инженерам готовиться к собеседованиям и выходить на офферы 300к+.

Перед этим материалом можно прочитать предыдущие выпуски рубрики: про позиционирование и резюме, а также про то, как эффективно проходить алгоритмы и лайвкодинг.

Теперь двигаемся дальше по воронке найма: представим, что вы прошли алгоритмический этап, доказали, что умеете кодить и объяснять решения. Следующий фильтр — Classic ML: база, без которой сложно уверенно пройти техническое собеседование даже на LLM-, NLP- или DL-позицию.

Почему Classic ML до сих пор спрашивают на собеседованиях

Одна из частых ошибок начинающих ML-специалистов — считать, что классическое машинное обучение уже устарело.

Логика понятна: на рынке много разговоров про большие языковые модели, мультимодальные системы, AI-агентов и генеративный ИИ. Кажется, что логистическая регрессия, SVM или случайный лес больше не так важны.

Но на практике бизнесу нужны не модные модели, а рабочие решения. Большая часть прикладных задач в продакшене до сих пор решается методами Classic ML: скоринг, классификация, базовые рекомендации, прогнозирование, антифрод, обработка табличных данных.

Во многих случаях классические модели выигрывают у сложных нейросетевых подходов по трём причинам: они дешевле, быстрее и проще интерпретируются. Если задачу можно решить градиентным бустингом, линейной моделью или SVM, бизнес не всегда будет разворачивать тяжёлую нейросетевую архитектуру.

Classic ML — фундамент для DL, NLP и LLM

Classic ML — это не отдельная «старая» область, которую можно пропустить. Это фундамент, на котором держится понимание машинного обучения в целом.

Чтобы уверенно работать с ML-системами, нужно понимать:

— какие бывают типы задач машинного обучения;

— как модель обучается и обобщает закономерности;

— чем переобучение отличается от недообучения;

— как выбирать метрики под бизнес-задачу;

— почему одна модель подходит для задачи, а другая нет;

— как оценивать качество решения до вывода в продакшен.

Без этой базы Deep Learning и LLM легко превращаются в «чёрный ящик». Кандидат может знать названия современных архитектур, но не понимать, почему модель ошибается, как измерить качество, какую метрику выбрать и как объяснить результат бизнесу.

Поэтому на собеседовании ML Engineer, Data Scientist, NLP Engineer или LLM Engineer интервьюеры часто начинают именно с Classic ML. Это быстрый способ проверить, есть ли у кандидата системное мышление, а не только знание модных инструментов.

Что спрашивают по Classic ML на собеседовании

На собеседованиях по машинному обучению часто повторяется один и тот же набор тем. Формулировки могут отличаться, но логика обычно похожая: интервьюер проверяет, понимает ли кандидат базовые алгоритмы, метрики, ограничения моделей и типовые ошибки.

Минимальный набор тем для подготовки:

— линейные модели;

— логистическая регрессия;

— градиентный спуск;

— регуляризация;

— метрики классификации и регрессии;

— деревья решений;

— случайный лес;

— bagging и boosting;

— bias-variance trade-off;

— градиентный бустинг;

— базовая интерпретация моделей.

Эти темы особенно важны для junior и middle ML-специалистов. Но и senior-кандидатам нужно уметь объяснять их спокойно и точно: на старших позициях проверяют не только знание формул, но и способность связать ML-подход с бизнес-ограничениями.

Линейные модели, градиентный спуск и регуляризация

Линейные модели — одна из первых тем, которую стоит повторить перед собеседованием. На интервью могут спросить, как работает линейная регрессия, чем она отличается от логистической, как устроен градиентный спуск и зачем нужна регуляризация.

Типовые вопросы:

— в чём разница между L1 и L2-регуляризацией;

— почему L1 может занулять признаки;

— как из линейной регрессии получить логистическую;

— зачем нужна функция потерь;

— что происходит при слишком большом learning rate;

— как регуляризация помогает бороться с переобучением.

Здесь важно не просто помнить определения, а уметь объяснять смысл. Например, регуляризация нужна не «потому что так написано в учебнике», а потому что она ограничивает сложность модели и помогает ей лучше обобщать данные на новых примерах.

Для подготовки к этому блоку можно использовать материалы:

— Линейная регрессия

— Логистическая регрессия

— Учебник Яндекса: линейные модели

— Лекция по линейным моделям

— МОК-собес по ML

Метрики в машинном обучении: язык общения с бизнесом

Метрики — одна из самых важных тем на ML-собеседовании. Хороший ML-инженер должен не только обучить модель, но и понять, как измерить её пользу.

Для задач классификации важно знать ROC-AUC, Precision, Recall, F1 и PR-AUC. Для задач регрессии — MSE, MAE, RMSE и MAPE.

Главная ошибка — выбирать метрику без учёта задачи. Например, в антифроде, кредитном скоринге или медицинской диагностике цена false negative и false positive может сильно отличаться. В рекомендательных системах важны одни метрики, в прогнозировании спроса — другие.

На собеседовании могут спросить не только «что такое Precision и Recall», но и когда нужно оптимизировать одну метрику вместо другой. Это уже проверка не школьного знания формул, а умения думать как ML-инженер в реальном продукте.

Для подготовки к метрикам:

— Precision & Recall в картинках

— ROC-AUC в картинках

— Учебник Яндекса: метрики классификации и регрессии

— Разбор вопросов с собеседования на Senior в бигтехе

Деревья решений, случайный лес и градиентный бустинг

Деревья и ансамбли — ещё один обязательный блок для подготовки к собеседованию по Classic ML. Эти модели часто используются в реальных задачах, особенно на табличных данных.

Кандидата могут спросить:

— как работает дерево решений;

— почему дерево склонно к переобучению;

— чем случайный лес отличается от градиентного бустинга;

— что такое bagging;

— что такое boosting;

— как bias и variance связаны с качеством модели;

— что изменится, если из случайного леса убрать одно дерево;

— что произойдёт, если «сломается» одно дерево в бустинге.

Последний вопрос хорошо показывает разницу между bagging и boosting. В случайном лесе деревья обучаются относительно независимо, поэтому потеря одного дерева обычно не ломает всю модель. В бустинге модели строятся последовательно: каждая следующая исправляет ошибки предыдущих, поэтому сбой одного элемента может сильнее повлиять на итоговое качество.

Для подготовки к деревьям и ансамблям:

— Деревья решений

— Случайный лес

— Разброс и смещение / Bias-Variance

— Учебник Яндекса: решающие деревья

— Учебник Яндекса: ансамбли в машинном обучении

— StatQuest: Decision Trees

— StatQuest: Random Forest

— Лекция: DecisionTreeClassifier

— Machine Learning Fundamentals: Bias and Variance

— Разбор собеседования от Димы Савелко: деревья и ансамбли

Почему бизнес любит классические модели

Classic ML остаётся востребованным не из-за инерции, а потому что он хорошо решает много прикладных задач.

Классические модели часто выбирают, когда важны:

— скорость обучения и инференса;

— понятная интерпретация результата;

— низкая стоимость эксплуатации;

— устойчивость на табличных данных;

— быстрый запуск MVP;

— возможность объяснить решение бизнес-заказчику или регулятору.

Например, для кредитного скоринга, антифрода, классификации заявок, предсказания оттока или ранжирования простая и интерпретируемая модель может быть практичнее сложной нейросети. Поэтому интервьюеры ожидают, что кандидат понимает не только «как обучить модель», но и «зачем бизнесу именно такое решение».

Как готовиться к собеседованию по Classic ML

Подготовка к Classic ML должна быть системной. Лучше не прыгать хаотично между темами, а пройти базу по блокам: линейные модели, метрики, деревья, ансамбли, bias-variance, затем реальные вопросы с интервью.

Когда теория повторена, полезно перейти к банкам вопросов и мок-собеседованиям. Так проще понять, какие формулировки встречаются на технических интервью и где остаются пробелы.

Для практики можно использовать банк вопросов с собеседований по ML.

Лучший формат подготовки — не просто читать теорию, а проговаривать ответы вслух. На собеседовании важно объяснять модели простым языком: что делает алгоритм, где он ошибается, какие у него ограничения и почему он подходит или не подходит для конкретной задачи.

Что важно запомнить перед ML-собеседованием

Classic ML — это база, которую нельзя перескочить. Даже если кандидат хочет работать с LLM, NLP, Computer Vision или AI-агентами, ему всё равно нужно понимать фундамент машинного обучения.

Перед собеседованием стоит проверить себя по нескольким вопросам:

— могу ли я объяснить линейную и логистическую регрессию простыми словами;

— понимаю ли я разницу между L1 и L2-регуляризацией;

— умею ли выбирать метрику под бизнес-задачу;

— понимаю ли я разницу между Random Forest и Gradient Boosting;

— могу ли объяснить bias-variance trade-off;

— знаю ли, когда классическая модель лучше нейросети;

— могу ли связать ML-решение с бизнес-результатом.

Если на эти вопросы есть уверенные ответы, проходить техническое собеседование становится намного проще.

Вывод

Classic ML — это не устаревший этап, а основа профессионального мышления ML-инженера. Линейные модели, метрики, деревья, ансамбли и регуляризация помогают понимать, как работают более сложные подходы: от Deep Learning до LLM и агентных систем.

Материал основан на выпуске рубрики #MLСобес с Димой Савелко. В нём Дима показывает, что перед переходом к DL, NLP и AI-агентам важно уверенно закрыть фундамент: классическое машинное обучение, метрики и базовые алгоритмы.

А уже дальше можно идти в Deep Learning, NLP, LLM и agents — но не вместо базы, а поверх неё.

Подписаться на канал Димы Савелко Ebout Data Science можно здесь.