Как искусственный интеллект создает изображение?


🚀 Хочешь улететь на Луну вместе с нами? Подписывайся на CryptoMoon! 💸 Новости крипты, аналитика и прогнозы, которые дадут твоему кошельку ракетный ускоритель! 📈 Нажмите здесь: 👇

CryptoMoon Telegram


Насколько я себя помню, технологии всегда волновали меня. От биотехнологий до футуристических технологий — моё любопытство побуждало изучать их все и разбирать по деталям, чтобы понять внутренние механизмы. Честно говоря, если бы кто-то сказал мне 30 лет назад, что компактное устройство однажды сможет создавать изображения и текст на основе простого запроса, я бы не поверил в такую возможность.

Вот мы здесь, и ваш телефон теперь может преобразовывать произнесенные слова в изображения с помощью искусственного интеллекта. Изображения могут быть не всегда четкими (а иногда выглядеть довольно хаотично), но удивительно, что машина выполняет задачи, которые ранее требовали вмешательства человека. Несмотря на эту автоматизацию, стоит отметить, что за кулисами множество людей вкладывают значительное количество времени и усилий для обеспечения работы этой системы.

Работа происходит до того, как вы её используете.

Современный ИИ работает на основе так называемой сверточной нейронной сети (CNN), которая может напомнить вам нервную систему благодаря своему названию. Хотя компьютеры не являются биологическими организмами, они могут эмулировать этот процесс по-своему. По сути, здесь начинается все — с модели нейронной сети, предназначенной специально для обработки изображений и распознавания образов, известной как сверточная нейронная сеть.

Они превосходно распознают паттерны и объекты, хотя это происходит по-другому, чем у нас, но чрезвычайно увлекательно, хоть и не так сложно или многогранно, как человеческий глаз и разум.

Вам не нужно вспоминать идентичную версию всего, что вы когда-либо изучали или встречали, чтобы опознать это. Например, вы можете распознать рубашку как рубашку независимо от её цвета, потому что ваш мозг обладает общим пониманием того, что такое рубашка; вам необязательно видеть каждую отдельную рубашку в мире для этого.

ИИ выполняет задачи таким образом, что это довольно сопоставимо. Он получил образование путем анализа огромного количества изображений, каждый из которых помечен именно с описанием, подробно описывающим их содержание. Позвольте мне проиллюстрировать примером:

ИИ обрабатывает такие изображения, как этот, который был точно помечен, чтобы обеспечить ясность в отношении его содержимого.

Это чизбургер и порция картошки фри. Но его можно описать гораздо подробнее:

На изображении представлен аппетитный продукт питания — чизбургер с двумя полосками хрустящего бекона, швейцарским сыром и булочкой, которая кажется хорошо поджаренной. Говяжий фарш имеет явные следы от гриля, а часть его сока просочилась в булочку снизу. Кроме того, на заднем плане находится копия корзины для фритюра, содержащая как минимум 13 ломтиков золотистой жареной картошки. Один из ломтиков выглядит слегка пережаренным или подгоревшим.

На отдельной компактной тарелке я нахожу остатки неопознанного закуски, дополненные непотревоженным кусочком масла в центре. Небольшая квадратная подставка с аккуратно уложенными вилкой и ножом стоит поблизости, а бокал сбоку содержит еще не выпитую жидкость. Стол покрыт темно-коричневым деревом, которое отражает красновато-желтые оттенки сверху.

Когда изображения предоставляются ИИ для обучения, каждая деталь имеет огромное значение. Это происходит потому, что ИИ ищет узнаваемые паттерны внутри изображений среди визуального беспорядка фотографии.

При обучении ИИ каждая деталь имеет значение, даже самые незначительные.

В конечном итоге, модель способна генерировать изображения по заданным запросам путем точного воспроизведения соответствующих звуковых волн благодаря доступу к подходящему и адекватному датасету. Каждая деталь в анализируемом изображении имеет значение; речь идет не только о распознавании чизбургера так, как это делает человек.

При наличии достаточного объема обработанных данных он может служить руководством или последовательностью шагов для создания нового изображения по запросу пользователя. Он не копирует ранее встреченные им изображения путем их сборки как пазла; вместо этого генерируются случайные паттерны визуального шума. После соответствующей тренировки эти паттерны случайного шума постепенно принимают форму изображений.

Причина некоторых ошибок в работе ИИ-моделей заключается в том, что они могут генерировать контент только на основе своих обучающих данных. Например, если ИИ обучен с использованием 100 миллионов фотографий чёрных собак, но ни одной фотографии коричневых собак, он не сможет создать изображение коричневой собаки, как бы вы его об этом ни попросили.

Другими словами, поскольку искусственный интеллект учится на информации, найденной в интернете, где определенные темы представлены чаще других, он склонен отражать эти предвзятости в своих результатах. Например, если попросить ИИ создать образ ученого, то изображение может показать белого человека, одетого в футболку с флагом Хорватии и синие кроссовки, из-за того как данные обучения изображали подобные изображения.

Возможно, вам покажут изображение чернокожего ученого в той же одежде (рубашка и обувь), сидящего удобно на инвалидной коляске. Таким образом поддерживается ясность текста, делая его более естественным для чтения.

ИИ продолжит развиваться дальше, и создание изображений станет одним из аспектов этого развития. Однако исследователи сталкиваются с множеством вызовов: не только в доработке алгоритмов и использовании разнообразных наборов данных, но также в решении этических проблем, таких как встроенные предвзятости и недостаточно качественные обучающие данные.

Мы прошли долгий путь всего за несколько лет, и не похоже, чтобы это замедлилось в ближайшее время.

Смотрите также

2025-04-02 18:23