Сегодня увидел на Хабре статью Создание игры с помощью LLM более полугода назад и этой же игры теперь. Что изменилось?. Не то чтобы я жаждал программировать с использованием больших языковых моделей (ака чатботы, ака нейросети, ака LLM), но сами их возможности, которые быстро растут (а также растет их доступность), впечатляют. Поэтому захотелось взглянуть, что там за эксперимент такой и что получилось у человека в итоге.
Я уже пробовал ранее запускать LLM локально, но попытки оценить на что они способны в интересующих меня сферах обычно терпели фиаско. Ключевая проблема локального запуска моделей в том, что для запуска на обычном железе приходится выбирать их урезанные версии с небольшим числом параметров, например, 1B, 4B, 12B, 27В. Плюс с урезанным квантованием. В итоге эти модели могут что-то делать, но обычно на английском и чем меньше модель, тем она менее «умная». Попытки делать что-то на русском и, особенно, на украинском, обычно показывали не очень хорошие результаты.
Автор статьи взял модель общего назначения gemma-3-27b-it-Q4_K_M. Это одна из урезанных версий недавно выпущенной большой модели Gemma 3 от Google. Собственно, я ее уже тогда скачал, в этой версии — gemma-3-27b-it-Q5_K_M, с чуть более высоким квантованием. Оптимальный вариант для своего железа. Сразу попробовал с украинским языком и, на удивление, она показала себя неплохо. Не ChatGPT (какая там нынче версия доступна бесплатно — о1?), но уже вполне годится для моих запросов. Только медленно работает. Но это уже вопросы к железу. Искусственный интеллект требует жертв больших ресурсов.
В комментариях к указанной статье Хабра стали обсуждать, можно ли запустить эту модель на обычном домашнем железе и какая будет скорость работы при выполнении прикладных задач. Я и решил попробовать повторить опыт автора статьи у себя. И замерить показатели. Решил и сделал. Для эксперимента использовал простую программу для локального запуска LLM моделей — LM Studio версии 0.3.9.