Рубрики
IT - разное

Gemini научился создавать файлы

В последнее время я активно пользуюсь гугловским ИИ под названием Gemini. В прошлом году попробовал его наряду с ChatGPT и Grok и результаты были более чем удовлетворительными. А плюсом оказалось отсутствие необходимости авторизоваться (в отличии от ChatGPT). У меня возникал вопрос и я мог просто вбить в гугл Gemini, открыть страницу с чатом, спросить и получить ответ. В любом месте, в любое время. Еще и без лимитов. По крайней мере, в отличии от ChatGPT, я не смог в такие лимиты упереться при использовании.

Небольшая историческая ремарка. А ведь когда-то, когда Gemini еще был Bard, я его попробовал, ужаснулся и решил, что у гугла не сложилось. Как оказалось, неудача не сломила корпорацию добра. Произвели ребрендинг, активно развивали, удачно встроили в свою экосистему и теперь Gemini уверенно отбирает свою нишу рынка чат-ботов у конкурентов, в первую очередь у ChatGPT:

Постоянно появляются новые возможности и инструменты. Сегодня узнал, что Gemini научился создавать файлы, то есть получил агентские зачатки. Это большой плюс, который позволит убрать еще одну лишнюю ручную итерацию, когда полученный ответ приходилось копи/пастить себе в какой-нибудь внешний документ. Узнал это из видео, которое попалось на ютубе:

После этого я успел немного покопаться и посмотреть на эти новые возможности. В качестве примера прикреплю PDF-файл, который мне сгенерировал Gemini. В нем в виде таблицы представлены виды файлов, которые он умеет создавать и особенности работы с ними:

Рубрики
IT - разное

Эксперименты с локальной LLM Gemma 4

На днях появилась новая версия открытой LLM от Google — Gemma 4. Как только прочитал в новостях об этом, решил попробовать, что у них получилось на этот раз. Дело в том, что в третьей версии моделька получилась очень хорошей с оптимальным соотношением размера и качества для локального запуска. Я ее пробовал как для разных своих нужд, так и для одного тестирования по материалам чужой статьи на Хабре — Эксперименты с локальной LLM Gemma 3.

Сегодня хотел провести (и провел) два эксперимента, но в итоге, под впечатлениями, решил описать только второй из них. Как раз повторение эксперимента из статьи о Gemma 3 с созданием игры.

Итак, напомню предысторию. Человек решил создать простую игру на html + css + Javascript через один промпт. Через один, разумеется, не получилось тогда ни у него, ни у меня. Но я тогда, в силу тормознутости модели и постоянных ошибок в предлагаемом ею коде до рабочего состояния игру довести так и не смог, потратив пару часов времени и сделав с десяток итераций исправлений кода. То есть код модель написала, но очень долго (почти полчаса времени) и с кучей ошибок или недоработок. Посмотрим, что нам предложит новая версия модели сегодня.

Эксперимент. Создаем игру

Стартовые условия. Для запуска локальной модели использую простую программу LM Studio, на этот раз версии 0.4.7. Модель — gemma-4-26B-A4B-it-Q4_K_M. Приблизительно того же размера, того же квантования. Отличие лишь в том, что в 4 версии при работе модели используется всего 4 миллиарда параметров, вместо всех 26. Судя по всему, именно это крайне положительно повлияло на скорости работы модели. Но нам важнее качество, а не скорость. Хотя, одно другому не мешает.

Тот же самый промпт, что и в прошлый раз, слово в слово:

Промпт

Напишите HTML-код для игры в Lines.
Суть игры состоит в следующем.
На игровом поле 10 на 10 клеток в случайной клетке появляется первый шарик круглой формы одного из 5 случайных цветов.
Игрок мышкой кликает на этот шарик, выбирая его.
При выборе шарика его яркость и размер плавно циклически изменялись по синусоиде с помощью таймера.
Игрок мышкой указывает свободную клетку, куда он этот шарик желает передвинуть, и шарик передвигается в эту клетку. После этого изменение яркости и размера данного шарика прекращаются.
Выбор шарика и указание клеточки для его перемещения производились только нажатием левой кнопки мыши.
Затем в случайной свободной клетке опять появляется другой шарик одного из случайных 5 цветов.
Игрок снова мышкой кликает на любой имеющийся на поле шарик, выбирая его.
И таким же образом игра продолжается дальше.
Задача игрока состоит в том, чтобы из 5 или более шариков одного цвета собрать непрерывную линию по вертикали или по горизонтали или по диагонали. В этом случае все эти 5 шариков исчезают.
Игра заканчивается, когда все клеточки заполнены шариками. Новый шарик может появиться только на свободной клеточке.
Добавь кнопку, нажав на которую начинается новая игра, а также Label, на котором считается число удаленных линий из шариков. Сделай панель, кнопку и Label более красивыми, с четкими линиями и приятными цветами.

Отправляю и жду. Ответ получился в 3477 токена, со скоростью генерации 10,37 токена в секунду, то есть занял он где-то 336 секунд. Менее 6 минут. В прошлый раз на Gemma 3 понадобилось почти 30 минут. Увеличение скорости реально впечатляет. Конечно, это все зависит от железа, но железо у меня не менялось. Так что выигрыш чисто за счет улучшения работы модели. Но это еще цветочки, ягодки были впереди.

Рубрики
IT - разное Литература Обучение Программирование Разное

Тайный язык кода, Паскаль и Столяров: мой путь в программировании

Начинающие свой путь в сфере IT могут быть шокированы открывающимися перед ними горизонтами возможностей и объемами информации. Множество направлений, бесконечное число книг и онлайн-курсов. С чего начать? На что обратить внимание и к чему обратиться в первую очередь, а что изучать далее? Вопросов много и вот эта непонятность может стать причиной ступора. Или завести в ложном направлении, что в итоге может послужить причиной того, что человек просто бросит, так толком и не начав изучение. Решив, что это слишком сложно и лучше заняться чем-то другим. Кстати, если человек все же бросит, вероятно, это действительно не его. Программирование, как яркий представитель мира IT, на мой взгляд, с одной стороны доступно каждому, а с другой требует если и не особого склада ума, то как минимум особого отношения к тому, что изучаешь и делаешь. И вот без этого реально тут будет сложно. Но такое отношение можно выработать, оно не дается с рождения.

В данной статье у меня нет цели кого-то чему-то учить. Мне интересно вспомнить свой путь и рассказать о тех книгах, которые помогли в самом начале. Или на которые я обратил внимание в дальнейшем и затем советовал многим из тех, кто спрашивал, а что бы им такого почитать в качестве основы.

Книг будет не так уж много. Но каждая из них по своему значима как для меня, так и потенциально для тех, кто захочет погрузиться в пучины мира программирования и IT.

TL;DR: Список книг из статьи
  • Петцольд Ч. «Код. Тайный язык информатики» — как всё устроено на уровне битов и логических схем;
  • Деревенец О. «Песни о Паскале» — хорошая «грунтовка» для понимания основ программирования. Но очень на любителя, Паскаль, все дела;
  • Столяров А. «Программирование. Введение в профессию» — глубокий системный учебник по программированию в целом;
  • Брукшир Г. «Компьютерные науки. Базовый курс» — академический, но доступный, обзор компьютерных наук.
Рубрики
IT - разное

Как получить доступ к веб-странице с помощью Вебархива

Бывает ли ситуация, когда вы хотите открыть страницу вебсайта, которая у вас по какой-то неведомой причине не открывается, но при этом не хотите пользоваться «богомерзким» vpn? Не вопрос, вебархив поможет! Сегодня поговорим об этом полезном инструменте.

Веб-архив (web archive), он же машина времени (Wayback Machine) это часть ресурса Internet Archive, целью которого является сохранение наследия Интернета.

Интернет весьма динамичен. Он постоянно меняется. Каждый день появляются сотни и тысячи новых сайтов. Какие-то из них будут жить долго, а какие-то нет. Одни имеют ценность, а другие нет. Хотя и говорят — все что попало в интернет останется там навсегда — это преувеличение. В большей степени это так и есть, но, все же, остается там то, что кому-то нужно. То, что кто-то, где-то и как-то сохранит. Поделится, растиражирует. А вот то, что никому не интересно — вполне может исчезнуть. Другой вопрос, что не всегда очевидно, что вот это ценно и его нужно сохранить, а вот это нет. В итоге, чем большему количеству людей что-то интересно, тем выше шанс того, что это нечто сохранится где-то. Неуловимые Джо никому не нужны. Даже в сети.

Мне, как и многим активным пользователям сети, не раз приходилось сталкиваться с ситуацией, когда у тебя лежит что-то ценное в закладках. Спустя несколько лет хочешь перейти на ссылке, а сайта больше нет. Так же часто исчезают ролики из ютуба. Очень часто. Но ютуб и сохранение видео — это тема отдельного разговора. Сейчас речь именно об обычных вебсайтах, об обычных страницах. Вебархив помогает взглянуть на контент потерянных ссылок. Которые могут оказаться сохраненными в нем. Иногда бывает интересно посмотреть, как тот или иной сайт выглядел лет 20 назад. Для кого-то это будет шок, а для кого-то ностальгия.

Однако сейчас нам интересно немного другое. Вот эта вот возможность сохранять в вебархиве страницы сайтов позволяет посмотреть не только на страницы из прошлого, которые могут быть уже недоступны, но и на те страницы, которые доступны в сети, но недоступны, например, вам. По каким-то причинам. Итак, что же нам делать в такой ситуации?

Рубрики
IT - разное

О технологиях (искусственный интеллект и все в таком духе)

Не так давно (вообще-то уже больше полугода прошло) я написал статью О ChatGPT и ему подобных. Часть 1. Мои мысли по поводу, в которой размышлял о том, как отношусь к современному генеративному искусственному интеллекту (яркими представителями которого являются различные генераторы картинок и чат-боты) и о том, как его использование может помочь или навредить в процессе обучения. Сегодня же хотелось затронуть немного другую тему. Как технологии, прежде всего искусственный интеллект, могут изменить наш мир. Будем ли мы жить в будущем как в раю или мы все умрем? Спойлер — мы все равно все умрем. Но вряд ли причиной этого станет искусственный интеллект. Тем более тот, который у нас есть сейчас. То есть генеративный. Который что-то генерирует, будь то картинки, тексты, музыку, видео или что-либо еще.

Прошлое

Итак, вся история человечества это смена одних технологий другими. Наиболее ярко это можно проследить в военной сфере, рассматривая историю оружия. Классическое — луки начали теснить арбалеты, которые постепенно заменили ружья и прочее огнестрельное оружие. Машины, а затем боевые бронированные машины заменили лошадей и подводы. И т.д и т.п.

Широко известные луддиты в свое время протестовали против внедрения машин (станков и оборудования) в промышленности и производстве. Сейчас так называют тех, кто противится нововведениям. Но все дело в том, что остановить развитие невозможно. Так, в промышленности станки позволили увеличить производительность труда, фабрик и заводов. Железная дорога, пароходы и самолеты позволили человеку быстро путешествовать по всему миру. Телеграм (не тот, который в телефоне или на компьютере) и радио дали возможность людям общаться на расстоянии.

Нововведения внедряются потому что это выгодно массам. Это выгодно бизнесу, это выгодно людям в целом. Даже тем, кто этого может не понимать в моменте. Или не хочет понимать. Одни профессии отмирают и заменяются другими, другие становятся более редкими, какие-то еще остаются или меняются, несмотря на все нововведения и технологии. Например, писатели как были так и есть. Даже как-то слишком много их стало. Но по поводу слишком много будет еще дальше. А вот возничих уже нет. Отдельные очень редкие исключения лишь подтверждают это правило.

У каждого человека всегда есть две возможности. Можно сторониться инноваций и современных технологий. А можно стараться использовать их в своей жизни. В первом случае человек рискует остаться на обочине истории. Иметь меньше возможностей, застыть в развитии, остаться не у дел. Во втором — развиваться, быть впереди и использовать те возможности, которые дают новые технологии. В работе, быту, развлечениях. Какой путь выбрать — каждый решает сам. При этом чем старше человек становится, тем может быть сложнее воспринимать что-то новое. С возрастом начинает преобладать консерватизм даже у людей, которые всегда стремились знакомиться с чем-то новым. Я это замечаю даже по себе. Если еще лет 10 назад мне всегда было интересно попробовать что-то новое, поэкспериментировать, то сейчас уже хочется стабильности и меньше напрягаться. Это понятно, организм человека не любит тратить энергию попусту. Зачем осваивать что-то новое, если можно расслабиться и получать удовольствие от чего-то старого и проверенного временем? Но это ложное чувство. Движение это жизнь. Развитие — это жизнь. Пока мы к чему-то стремимся — мы живем.

Настоящее

Но давайте же вернемся к современным технологиям. К генеративному искусственному интеллекту (далее — ГИИ). Как изменит наше недалекое будущее развитие ГИИ? Точнее, оно уже постепенно изменяет, но радикальных изменений пока не произошло. Однако это лишь вопрос времени. Заменит ли он что-то и кого-то или будет использоваться как инструмент наряду с прочими инструментами, которые мы уже использовали вчера и используем сейчас?

На что способен ГИИ? На многое. Иногда с ошибками, иногда не идеально, но если быть достаточно настойчивым и умелым, то можно сделать многое.

Помочь в написании различных текстов? Запросто. На любом из распространенных языков. Письменные работы ученика или студента, документация педагога, шаблоны госслужащего — все это он может. Перевести с одного языка на другой, кстати, тоже. Озвучить текст? Вполне. И это даже будет нормально звучать. Создать (не написать, а именно создать) песню или мелодию — без проблем. И весьма хорошие результаты уже выдает. С видео пока есть проблемы, но там скорее особенность в непомерных количествах необходимых ресурсов.

А вот с картинками все отлично. По сути, с них то все и началось. Сгенерировать картинку по запросу, или распознать что изображено на картинке, распознать текст на картинке, а можно еще и перевести сходу, если надо. Все это возможно уже вчера.

Есть еще множество сценариев использования ГИИ. Кто-то играет с ними в ролевые игры, а кто-то спрашивает диагноз, как у лечащего врача. Кто-то учиться с их помощью, а кто-то просто общается как с другом. Что бы вы не придумали, это, скорее всего, можно в том или ином виде сделать с помощью ГИИ.

Первыми встрепенулись иллюстраторы и художники. За ними заволновались копирайтеры. Следом подтянулись программисты и прочие айтишники. Где-то там начали беспокоится психологи, переводчики, лингвисты и юристы. И многие другие.

Действительно ли все так плохо и завтра наступит конец света? Не думаю.

Будущее

На мой взгляд, ГИИ на текущий момент и в ближайшем будущем вряд ли что-то смогут радикально заменить. Сильно далеко заглядывать дело неблагодарное и вероятность того, что прогнозы сбудутся, даже если их дают компетентные специалисты, невелика. Почему так, желающие могут почитать в книге «Ложь, наглая ложь и статистика: приемы, которые помогут видеть правду за цифрами». Жаль, что я пока не написал на нее отзыв.

При этом локально ГИИ уже массово внедряется везде, где его могут приткнуть. Часто даже не задумываясь о последствиях и о том, надо ли его внедрять в той или иной сфере. Это иная крайность. Раз у нас есть молоток, все вокруг неожиданно начинает казаться гвоздями.

Но сегодня ГИИ прежде всего инструмент. Хороший инструмент, который надо уметь применять. Знать когда его стоит применять, а когда не стоит. Учитывать его достоинства и знать о недостатках. Да, надо учиться пользоваться этим инструментом. Как сейчас в школах на уроках информатики учат пользоваться компьютером, пакетом Microsoft Office или электронной почтой, так завтра будут учить пользоваться чат-ботами.

Не так давно, буквально лет 15-20 назад, когда активно развивался поисковик Google, наряду с развитием интернета, где можно было найти «все что угодно», многие говорили, что теперь не надо ничего учить. Ведь все можно найти в интернете. Прошло столько лет, и в интернете сегодня действительно можно найти практически что угодно. Более того, сейчас можно даже говорить, что если чего-то нет в сети, то считай его нет в реальности. Потому что люди в первую очередь ищут информацию именно в интернете. Касательно магазинов и покупок, развлечений, обучения и прочего. Однако, несмотря на все это, поисковик вместе с интернетом не заменил необходимость что-то учить, знать и уметь.

ГИИ уже стал и будет оставаться продвинутым инструментом с очень богатыми возможностями. Который будет существовать наряду с тем, что было вчера, а не вместо. Художников станет меньше, но они никуда не денутся. Зато будут активно использовать ГИИ в работе и творчестве. Писателей станет меньше… Хотя это вряд ли. Сейчас каждый второй мнит себя писателей, а ГИИ лишь будет помогать им так думать. Другой вопрос, что потребности в такой куче «писателей» нет. И со временем их станет меньше. Как и программистов. Сколько их нынче развелось? Если их общее число начнет сокращаться до количества десятилетней давности — станет ли это катастрофой или трагедией? Не станет. Не малая часть останется и будет теперь использовать ГИИ как инструмент в своей работе. Другая часть переквалифицируется. Явно нужно будет все больше специалистов в сфере ИИ. Кто-то уйдет туда.

Все это уже было. Катастрофы не случилось. Человечество (в целом) живет лучше с использованием все новых технологий. Повышается производительность труда, появляются новые профессии. Возникают новые увлечения и возможности. Кому-то придется меняться и адаптироваться. Так это всегда так было. Адаптироваться и приспосабливаться — и двигаться вперед. Или застыть на месте и остаться в прошлом. Выбор за каждым из нас. Но вперед лучше идти с современными инструментами.

Рубрики
IT - разное Самое разное

Как я делал книги в fb2

Любовь к книгам у меня развилась с раннего детства. Всегда их любил и ценил. Когда-то это были бумажные книги, а потом стали электронный (или цифровые, кому как больше нравится). При этом в электронном виде книги могут быть в разном формате. В начале нулевых это были обычные txt файлы. Читать их было то еще удовольствие. А я вообще первую книгу на компьютере читал в Word’е. Мне это так «понравилось», что на какое-то время отбило желание читать с экрана.

Однако, вскоре мне повезло найти единомышленника, который тоже любил читать. И читал на компьютере. Именно он познакомил меня с программой ICE Book Reader, с помощью которой я уже около 20 лет читаю художественные книги с экрана монитора. Почему я отдельно уточняю про художественные — потому что различный нон-фикшен, учебную и прочую подобную литературу я предпочитаю читать в pdf по многим причинам.

И вот один из форматов, которые сменили обычные текстовые файлы для художественных книг в электронном виде, был fb2. Сначала он показался мне не очень удобным, но вскоре появилось много программ для чтения таких книг и оказалось, что формат на самом деле как раз очень удобен. С тех пор я и люблю его и предпочитаю всем другим (немногочисленным) для художественных (и некоторого нон-фикшена, где есть только текст) книг.

Так сложилось, что мне и самому приходилось делать книги в таком формате. Точнее, на текущий момент я таких книг сделал аж две. Одну в далеком 2014, и одну буквально только что, в начале апреля 2025.

Начав вспоминать, как это все было, выяснилось, что первая книга, которую я делал, это был перевод «Лужок черного лебедя» Дэвида Митчелла. Перевод делал по главам и выкладывал у себя в живом журнале Алексей Поляринов. После его завершения он предложил желающим сверстать из него книгу в формате fb2.

Рубрики
IT - разное

Эксперименты с локальной LLM Gemma 3

Сегодня увидел на Хабре статью Создание игры с помощью LLM более полугода назад и этой же игры теперь. Что изменилось?. Не то чтобы я жаждал программировать с использованием больших языковых моделей (ака чатботы, ака нейросети, ака LLM), но сами их возможности, которые быстро растут (а также растет их доступность), впечатляют. Поэтому захотелось взглянуть, что там за эксперимент такой и что получилось у человека в итоге.

Я уже пробовал ранее запускать LLM локально, но попытки оценить на что они способны в интересующих меня сферах обычно терпели фиаско. Ключевая проблема локального запуска моделей в том, что для запуска на обычном железе приходится выбирать их урезанные версии с небольшим числом параметров, например, 1B, 4B, 12B, 27В. Плюс с урезанным квантованием. В итоге эти модели могут что-то делать, но обычно на английском и чем меньше модель, тем она менее «умная». Попытки делать что-то на русском и, особенно, на украинском, обычно показывали не очень хорошие результаты.

Автор статьи взял модель общего назначения gemma-3-27b-it-Q4_K_M. Это одна из урезанных версий недавно выпущенной большой модели Gemma 3 от Google. Собственно, я ее уже тогда скачал, в этой версии — gemma-3-27b-it-Q5_K_M, с чуть более высоким квантованием. Оптимальный вариант для своего железа. Сразу попробовал с украинским языком и, на удивление, она показала себя неплохо. Не ChatGPT (какая там нынче версия доступна бесплатно — о1?), но уже вполне годится для моих запросов. Только медленно работает. Но это уже вопросы к железу. Искусственный интеллект требует жертв больших ресурсов.

В комментариях к указанной статье Хабра стали обсуждать, можно ли запустить эту модель на обычном домашнем железе и какая будет скорость работы при выполнении прикладных задач. Я и решил попробовать повторить опыт автора статьи у себя. И замерить показатели. Решил и сделал. Для эксперимента использовал простую программу для локального запуска LLM моделей — LM Studio версии 0.3.9.

Рубрики
IT - разное Обучение Повышение эффективности

Слепой метод печати: стоит ли переучиваться?

Для айтишника, да и не только, умение быстро набирать на клавиатуре важно. По сути это один из базовых навыков, потому что набирать придется много, так или иначе. И чем быстрее скорость набора и меньше совершенных при этом ошибок — тем выше будет эффективность (или не будет, если не будет других соответствующих навыков). Поэтому многие считают важным знать и уметь набирать с помощью слепого десятипальцевого метода печати. Но что делать, если человек уже умеет быстро набирать, но клацая по клавишам двумя (тремя, четырьмя и т. д.) пальцами и периодически опуская взгляд на клавиатуру? Стоит ли переучиваться или и так сойдет? Какие могут появиться в итоге преимущества и с каким проблемами можно столкнуться? Я провел двухмесячный эксперимент на себе и хочу описать его результаты.

Если человек много времени проводит у клавиатуры и ему часто приходится набирать текст (по работе, в чатах, на форумах или где‑либо еще), то полезным навыком будет умение набирать быстро и, желательно, без ошибок.

И тут есть два основных пути.

Первый — очень простой. Просто берем и набираем. Со временем, если набирать придется действительно много, скорость будет расти, количество ошибок падать и в результате получим так называемый «зрячий» метод набора двумя (тут возможны варианты) пальцами. Вариант не самый плохой. Например, я таким способом мог набирать в среднем со скоростью 250–300 знаков в минуту, чего вполне хватало выражать свои мысли в тексте без замедления из‑за недостаточной скорости набора. Но мой вариант не совсем экспериментально чистый и позже я объясню, почему это так.

Второй путь — это так называемый «слепой» десятипальцевый метод печати (да, вполне могут быть слепые, но не десятипальцевые). Или обычно просто — слепой метод печати. Освоить его сложнее, придется целенаправленно его изучать, но зато потом появятся некоторые преимущества и на длинной дистанции этот вариант явно предпочтительнее. И чем больше дистанция и чем больше текста приходится набирать, тем преимущества кажутся привлекательнее.

Тут важно уточнить. Описанное выше справедливо для ситуации, когда человек только садиться за клавиатуру, только начинается работать за ней и набирать. Однако может случиться так, что человек уже долгое время набирает как придется («зрячим» сколькотопальцевым методом). При этом он может набирать с хорошей, или даже достаточной для него, скоростью. И тут в какой‑то момент возникает вопрос, а стоит ли переучиваться на «слепой» десятипальцевый метод? Именно о такой ситуации на своем примере я и постараюсь в деталях рассказать.

Рубрики
IT - разное

О ChatGPT и ему подобных. Часть 1. Мои мысли по поводу

Сначала я просто невзлюбил ChatGPT. Я не понимал, что с ним не так и почему он мне не нравится. Но где-то в глубине души словно заноза засело ощущение, что тут что-то не так. Уже позднее, ближе познакомившись и с ChatGPT и с прочими представителями искусственного интеллекта (изначально тут было написано «нейросетями и llm моделями», но затем, лучше разобравшись с этими понятиями, я понял, что так писать будет не совсем корректно), я смог уже более точно сформулировать, что именно мне в этом всем не нравится. Так что если вам это интересно — можете читать далее.

Вступление

Итак, начнем немного издалека. О ChatGPT впервые я узнал, скорее всего, на Хабре. Первые упоминания о нем у нас в Дискорде датируются где-то январем 2023 года. На тот момент интернет вовсю уже бурлил, обсуждая возможности нового искусственного интеллекта, представленного в виде чат-бота. В какой-то момент времени об этом говорили буквально везде: в профильных издания и сайтах, в новостях, на форумах и в социальных сетях.

Хотя, справедливости ради, о немного иных представителях искусственного интеллекта (далее просто ИИ) заговорили раньше, приблизительно летом 2022 года, когда появились (и тоже породили бурления в сети) генераторы изображения Midjourney и DALL-E. Между прочим, об одной из программ для генерации изображений я уже писал в прошлом году — Fooocus — простая и доступная нейросеть для генерации изображений по текстовому описанию, там тоже есть часть моих размышлений на тему. Только они касались именно генераторов изображений, что имеет свои особенности.

Рубрики
IT - разное

Fooocus — простая и доступная нейросеть для генерации изображений по текстовому описанию

Нейросети для генерации изображений по текстовому описанию появились не вчера и даже не позавчера. Если вы интересуетесь миром компьютеров, вряд ли не слышали что-то из таких названий как Midjourney, DALL-E, Stable Diffusion или Kandinsky. Ведь в 2022 году они буквально взорвали интернет, став причиной множества споров и дискуссий — мол художники больше не нужны, каждый может сгенерировать ту картинку, которую захочет. На самом деле, это конечно же не так. Точнее не совсем так.

Изначально меня вся эта волна генерируемого нейросетями контента затронула слабо, так как больше всегда интересовало индивидуальное творчество. А здесь, казалось, что-то бездушное, что-то не способное сотворить реально новое, ведь генерация происходит на основе уже существующих материалов, то есть по сути происходит рандомное создание чего-то нового на основе того, что уже было. Это если не вникать в детали.

Так или иначе, я попробовал пару сеток. Да, забавная игрушка, но не более того. И, казалось, что шум слегка преувеличен. И дальше просто читал периодически новости о том, что происходит в этом направлении, какие новые версии приложений появляются и как художники борются за свои авторские права, которые ущемляет ИИ, обучаясь на результатах их творчества.

Но вот на днях на Хабре вышла интересная статья о новой (относительно) нейросети Fooocus. Чем она меня подкупила — это своей простотой. Скачал, распаковал, запустил — генерируй. Куда уж проще? И с возможностью локальной работы, а не запуска всего этого где-то там на далеких чужих серверах (это уже на любителя, но я привык все свое хранить у себя). В статье по ссылке выше достаточно подробно расписано и как устанавливать эту нейросеть, и как с ней работать и много еще разной полезной информации. И да, если ваш компьютер не удовлетворяет минимальным требованиям, а они немаленькие, то есть возможность запуска нейросети в Google Colab, онлайн. Об этом тоже в статье написано.

Далее поделюсь немного своим, совсем небольшим опытом. Так как я попробовал и мне понравилось. Покопавшись пару вечеров в самой программе, в сети, захотелось подвести для себя кое-какие итоги и сделать краткие выводы.