Код документа: RU2747276C1
Область техники
[0001] Изобретение относится к способу генерирования управляющих данных транспортного средства, к устройству управления транспортного средства и к системе управления транспортного средства.
Уровень техники
[0002] Например, в публикации не прошедшей экспертизу заявки на патент Японии № 2016-6327 (JP 2016-6327 А) описано устройство управления, которое управляет дроссельным клапаном, который представляет собой управляемый узел двигателя внутреннего сгорания, смонтированного на транспортном средстве, на основе значения, полученного посредством фильтрации рабочей величины нажатия педали акселератора.
Сущность изобретения
[0003] Вышеуказанная фильтрация требуется для того, чтобы задавать рабочую величину дроссельного клапана двигателя внутреннего сгорания, который монтируется на транспортном средстве, равной соответствующей рабочей величине в соответствии с рабочей величиной нажатия педали акселератора, и в силу этого необходимо то, что эксперт должен расходовать много человеко-часов для того, чтобы адаптировать фильтрацию. Таким образом, эксперту до настоящего времени требуется много человеко-часов для того, чтобы адаптировать рабочую величину и т.д. приводной системы, такой как двигатель внутреннего сгорания, в соответствии с состоянием в транспортном средстве.
[0004] Способ генерирования управляющих данных транспортного средства согласно первому аспекту изобретения включает в себя сохранение, с помощью устройства хранения данных, данных по взаимосвязям, которые представляют собой данные, которые предписывают взаимосвязь между состоянием транспортного средства, которое включает в себя двигатель внутреннего сгорания, и рабочей величиной управляемого узла двигателя внутреннего сгорания, причем состояние транспортного средства включает в себя состояние двигателя внутреннего сгорания; управление, с помощью устройства выполнения, управляемым узлом; получение, с помощью устройства выполнения, значения определения от датчика, которое определяет состояние транспортного средства; вычисление, с помощью устройства выполнения, выгоды с точки зрения, по меньшей мере, одного из уровня расхода топлива, характеристики выхлопных газов и общей характеристики управляемости на основе значения определения; и обновление, с помощью устройства выполнения, данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, определенного заранее, причем отображение в виде карты для обновления использует состояние транспортного средства на основе значения определения, рабочую величину, которая используется для того, чтобы управлять управляемым узлом, и выгода, соответствующая операции, в качестве аргументов, и возврат данных предписаний по взаимосвязям, которые обновлены таким образом, что ожидаемая польза для выгоды, вычисленной, когда управляемый узел управляется в соответствии с данными предписаний по взаимосвязям, увеличивается.
[0005] С помощью способа, описанного выше, можно выяснять, какая выгода может получаться через операцию управляемого узла, посредством вычисления выгоды, которая сопровождает такую операцию. Взаимосвязь между состоянием транспортного средства и рабочей величиной управляемого узла двигателя внутреннего сгорания может задаваться посредством обновления данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, которое подвергнуто стимулированному обучению на основе выгоды. Таким образом, число человеко-часов, требуемых для эксперта при задании взаимосвязи между состоянием транспортного средства и рабочей величиной управляемого узла двигателя внутреннего сгорания, может уменьшаться.
[0006] В вышеуказанном первом аспекте, выгода может быть большей, когда характеристика выхлопных газов соответствует заданной характеристике, чем тогда, когда характеристика выхлопных газов не соответствует заданной характеристике. Заданная характеристика может включать в себя, по меньшей мере, одно из количества выбросов, попадающего в пределы заданного диапазона оксидов азота, количества выбросов, попадающего в пределы заданного диапазона несгоревшего топлива, количества выбросов, попадающего в пределы заданного диапазона твердых частиц, и температуры катализатора, предоставленного в выхлопном канале двигателя внутреннего сгорания, попадающей в пределы заданного диапазона.
[0007] С помощью способа, описанного выше, данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы инструктировать характеристикам выхлопных газов соответствовать заданным характеристикам, могут изучаться через стимулированное обучение.
[0008] В вышеуказанном первом аспекте, устройство выполнения может вычислять выгоду таким образом, что, по меньшей мере, одно из следующих условий удовлетворяется: выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда ускорение транспортного средства попадает в первый заданный диапазон, чем тогда, когда ускорение транспортного средства находится за пределами первого заданного диапазона; выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда рывок транспортного средства попадает во второй заданный диапазон, чем тогда, когда рывок находится за пределами второго заданного диапазона; и выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда уровень звука, сформированного посредством двигателя внутреннего сгорания, попадает в третий заданный диапазон, чем тогда, когда уровень звука находится за пределами третьего заданного диапазона.
[0009] С помощью способа, описанного выше, данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы удовлетворять требованию для общей характеристики управляемости, могут изучаться через стимулированное обучение.
[0010] В вышеуказанном первом аспекте, способ дополнительно может включать в себя генерирование, с помощью устройства выполнения, управляющих картографических данных с использованием состояния транспортного средства в качестве аргумента и возврат рабочей величины, которая максимизирует ожидаемую пользу посредством задания соответствия "один-к-одному" между состоянием транспортного средства и рабочей величиной, которая максимизирует ожидаемую пользу на основе данных предписаний по взаимосвязям, которые обновляются.
[0011] С помощью способа, описанного выше, управляющие картографические данные формируются на основе данных предписаний по взаимосвязям, которые изучены через стимулированное обучение. Следовательно, можно легко задавать рабочую величину, которая максимизирует ожидаемую пользу на основе состояния транспортного средства, посредством установки управляющих картографических данных в устройстве управления.
[0012] Устройство управления транспортного средства согласно второму аспекту изобретения включает в себя устройство хранения данных и устройство выполнения, выполненное с возможностью осуществлять способ согласно первому аспекту, при этом устройство выполнения выполнено с возможностью управлять управляемым узлом на основе рабочей величины, которая определяется в соответствии с данными предписаний по взаимосвязям и состоянием транспортного средства.
[0013] С помощью конфигурации, описанной выше, устройство управления транспортного средства может проводить обучение в отношении данных предписаний по взаимосвязям наряду с операцией управляемого узла двигателя внутреннего сгорания, который монтируется на транспортном средстве.
[0014] В вышеуказанном втором аспекте, устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, требуемое значение и вычисленное значение, по меньшей мере, одного из выходной мощности и крутящего момента двигателя внутреннего сгорания и вычислять выгоду таким образом, что выгода больше, когда абсолютное значение разности между требуемым значением и вычисленным значением равно или меньше заданного значения, чем тогда, когда абсолютное значение превышает заданное значение.
[0015] С помощью конфигурации, описанной выше, можно проводить обучение в отношении данных предписаний по взаимосвязям, которые являются надлежащими для того, чтобы управлять, по меньшей мере, одним из уровня расхода топлива, характеристик выхлопных газов и общей характеристики управляемости до цели при условии, что крутящий момент или выходная мощность двигателя внутреннего сгорания приближается к требуемому значению.
[0016] В вышеуказанном втором аспекте, транспортное средство может включать в себя трансмиссию, выполненную с возможностью изменять частоту вращения, выводимую из коленчатого вала двигателя внутреннего сгорания, и выводить вращение, имеющее измененную частоту, и выполненную с возможностью изменять передаточное отношение. Взаимосвязь, которая предписывается посредством данных предписаний по взаимосвязям, может включать в себя взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии. Устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, значение, определенное посредством датчика, выполненного с возможностью определять состояние трансмиссии, вычислять выгоду таким образом, что, по меньшей мере, одно из следующих условий удовлетворяется: выгода больше, когда время, требуемое для трансмиссии, чтобы переключать передаточное отношение, попадает в пределы заданного времени, чем тогда, когда время превышает заданное время; выгода больше, когда абсолютное значение скорости изменения частоты вращения входного вала трансмиссии равно или меньше заданного значения на входной стороне, чем тогда, когда абсолютное значение скорости изменения частоты вращения входного вала превышает заданное значение на входной стороне; выгода больше, когда абсолютное значение скорости изменения частоты вращения для вращения выходного вала трансмиссии равно или меньше заданного значения на выходной стороне, чем тогда, когда абсолютное значение скорости изменения частоты вращения для вращения выходного вала превышает заданное значение на выходной стороне; и выгода больше, когда гидравлическое давление, отрегулированное посредством соленоидного клапана (80a) трансмиссии, удовлетворяет заданному условию, чем тогда, когда гидравлическое давление не удовлетворяет заданному условию, и обновлять взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии, предписанной посредством данных предписаний по взаимосвязям, посредством использования значения определения, и связанной с состоянием трансмиссии в качестве аргумента отображения в виде карты для обновления.
[0017] С помощью конфигурации, описанной выше, могут изучаться данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы определять рабочую величину трансмиссии на основе состояния трансмиссии.
[0018] В вышеуказанном втором аспекте, транспортное средство может включать в себя вращающуюся электрическую машину, выполненную с возможностью предоставлять мощность на ведущие колеса. Взаимосвязь, которая предписывается посредством данных предписаний по взаимосвязям, может включать в себя взаимосвязь между состоянием устройства накопления мощности, которое подает электрическую мощность во вращающуюся электрическую машину, и величиной управления вращающейся электрической машины. Устройство выполнения может быть выполнено с возможностью управлять схемой приведения в действие вращающейся электрической машины, получать состояние устройства накопления мощности в качестве значения определения, вычислять выгоду таким образом, что выгода больше, когда состояние устройства накопления мощности попадает в пределы заданного диапазона, чем тогда, когда состояние устройства накопления мощности находится за пределами заданного диапазона, и обновлять взаимосвязь между состоянием устройства накопления мощности и величиной управления вращающейся электрической машины, предписанной посредством данных предписаний по взаимосвязям, посредством использования состояния устройства накопления мощности и величины управления вращающейся электрической машины в качестве аргументов отображения в виде карты для обновления.
[0019] С помощью конфигурации, описанной выше, могут изучаться данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы определять величину управления вращающейся электрической машины на основе состояния устройства накопления мощности.
[0020] В вышеуказанном втором аспекте, устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, требуемое значение и вычисленное значение, по меньшей мере, одного из выходной мощности и движущего крутящего момента транспортного средства и вычислять выгоду таким образом, что выгода больше, когда абсолютное значение разности между требуемым значением и вычисленным значением, по меньшей мере, для одного из выходной мощности и движущего крутящего момента транспортного средства равно или меньше заданного значения, чем тогда, когда абсолютное значение превышает заданное значение.
[0021] С помощью конфигурации, описанной выше, можно проводить обучение в отношении данных предписаний по взаимосвязям, которые являются надлежащими для того, чтобы управлять, по меньшей мере, одним из уровня расхода топлива, характеристик выхлопных газов и общей характеристики управляемости до цели при условии, что выходная мощность или движущий крутящий момент транспортного средства приближается к требуемому значению.
[0022] В вышеуказанном втором аспекте, данные предписаний по взаимосвязям могут включать в себя данные, которые предписывают взаимосвязь между состоянием транспортного средства, ожидаемой пользой и рабочей величиной. Устройство выполнения дополнительно может быть выполнено с возможностью выбирать рабочую величину, которая увеличивает ожидаемую пользу, приоритетно по отношению к рабочей величине, которая уменьшает ожидаемую пользу, на основе значения определения и данных предписаний по взаимосвязям. Устройство выполнения может быть выполнено с возможностью управлять управляемым узлом на основе рабочей величины, которая выбирается.
[0023] С помощью конфигурации, описанной выше, рабочая величина, которая увеличивает ожидаемую пользу, выбирается приоритетно в процессе выбора, и в силу этого операция, которая увеличивает ожидаемую пользу, может выполняться приоритетно в рабочем процессе.
[0024] В вышеуказанном втором аспекте, данные предписаний по взаимосвязям могут представлять собой данные, которые предписывают модуль аппроксимации функций, который использует состояние транспортного средства в качестве аргумента, и который возвращает вероятность выбора рабочей величины. Отображение в виде карты для обновления может включать в себя отображение в виде карты, которое возвращает величину обновления параметра, который предписывает модуль аппроксимации функций.
[0025] С помощью конфигурации, описанной выше, взаимосвязь между состоянием транспортного средства и рабочей величиной может непосредственно предписываться посредством использования модуля аппроксимации функций для политики.
[0026] Система управления транспортного средства согласно третьему аспекту изобретения включает в себя устройство управления транспортного средства согласно вышеуказанному второму аспекту, при этом: устройство выполнения включает в себя первое устройство выполнения, смонтированное на транспортном средстве, и второе устройство выполнения, которое является отдельным от бортовых устройств; первое устройство выполнения выполняет, по меньшей мере, получение и управление; и второе устройство выполнения выполняет, по меньшей мере, обновление.
[0027] С помощью конфигурации, описанной выше, процесс обновления выполняется посредством второго устройства выполнения, и в силу этого вычислительная нагрузка на первое устройство выполнения может уменьшаться по сравнению со случаем, в котором процесс обновления также выполняется посредством первого устройства выполнения. Второе устройство выполнения, отдельное от бортовых устройств, означает то, что что второе устройство выполнения не представляет собой бортовое устройство.
[0028] В вышеуказанном третьем аспекте, первое устройство выполнения может быть дополнительно выполнено с возможностью передавать данные, связанные со значением определения, во второе устройство выполнения, принимать рабочую величину, которая передается посредством второго устройства выполнения, и управлять управляемым узлом на основе рабочей величины, которая принимается из второго устройства выполнения. Второе устройство выполнения может быть дополнительно выполнено с возможностью принимать данные, которые передаются посредством первого устройства выполнения, вычислять рабочую величину на основе данных, которые принимаются из первого устройства выполнения, и данных предписаний по взаимосвязям и передавать вычисленную рабочую величину.
[0029] С помощью конфигурации, описанной выше, процесс вычисления рабочих величин выполняется посредством второго устройства выполнения, и в силу этого вычислительная нагрузка на первое устройство выполнения может уменьшаться по сравнению со случаем, в котором процесс вычисления рабочих величин также выполняется посредством первого устройства выполнения.
Краткое описание чертежей
[0030] Ниже описываются признаки, преимущества и техническая и промышленная значимость примерных вариантов осуществления изобретения со ссылкой на прилагаемые чертежи, на которых аналогичные условные обозначения обозначают аналогичные элементы, и на которых:
Фиг. 1 иллюстрирует устройство управления и приводную систему транспортного средства согласно первому варианту осуществления;
Фиг. 2 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 3 иллюстрирует систему, которая генерирует картографические данные согласно варианту осуществления;
Фиг. 4 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов обучения согласно варианту осуществления;
Фиг. 5 является блок-схемой последовательности операций способа, иллюстрирующей подробности части процессов обучения согласно варианту осуществления;
Фиг. 6 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов генерирования картографических данных согласно варианту осуществления;
Фиг. 7 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 8 иллюстрирует устройство управления и приводную систему транспортного средства согласно второму варианту осуществления;
Фиг. 9 является блок-схемой, иллюстрирующей процессы, выполняемые посредством устройства управления согласно варианту осуществления;
Фиг. 10 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 11 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 12 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно третьему варианту осуществления;
Фиг. 13 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 14 иллюстрирует устройство управления и приводную систему транспортного средства согласно четвертому варианту осуществления;
Фиг. 15 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 16 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством устройства управления согласно варианту осуществления;
Фиг. 17 иллюстрирует конфигурацию системы согласно пятому варианту осуществления;
Фиг. 18 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством системы согласно варианту осуществления;
Фиг. 19 иллюстрирует конфигурацию системы согласно шестому варианту осуществления; и
Фиг. 20 является блок-схемой последовательности операций способа, иллюстрирующей процедуры процессов, выполняемых посредством системы согласно варианту осуществления.
Подробное описание вариантов осуществления изобретения
Первый вариант осуществления
[0031] Ниже описывается способ генерирования управляющих данных транспортного средства согласно первому варианту осуществления со ссылкой на чертежи.
[0032] Фиг. 1 иллюстрирует устройство управления и приводную систему согласно настоящему варианту осуществления. Как проиллюстрировано на фиг. 1, воздух, вовлекаемый из впускного канала 12 двигателя 10 внутреннего сгорания, протекает к стороне ниже по потоку впускного канала 12 через нагнетатель 14. Дроссельный клапан 16 предоставляется во впускном канале 12 в позиции ниже нагнетателя 14. Клапан 18 впрыска в порты предоставляется во впускном канале 12 в позиции ниже дроссельного клапана 16. Воздух, вовлекаемый во впускной канал 12, и топливо, впрыскиваемое из клапана 18 впрыска в порты, протекают в камеру 26 сгорания, которая задается посредством цилиндра 22 и поршня 24, по мере того, как впускной клапан 20 открывается. Топливо впрыскивается в камеру 26 сгорания посредством клапана 28 впрыска в цилиндры. Смесь топлива и воздуха сгорает в камере 26 сгорания по мере того, как устройство 30 зажигания выдает искру. Энергия, сформированная посредством сгорания, преобразуется во вращательную энергию коленчатого вала 32 через поршень 24.
[0033] Смесь, которая сгорает, выпускается в качестве выхлопа в выхлопной канал 36 по мере того, как выхлопной клапан 34 открывается. Трехкомпонентный катализатор (катализатор 38), который имеет способность поглощать кислород, предоставляется в выхлопном канале 36 ниже по потоку от нагнетателя 14. Помимо этого, выхлопной канал 36 включает в себя обходной канал 48, который обходит вокруг нагнетателя 14. Обходной канал 48 содержит запорный клапан 50 регулирования давления наддува (WGV), который регулирует площадь поперечного сечения протока в обходном канале 48.
[0034] Мощность при вращении коленчатого вала 32 передается во впускной кулачковый вал 42 и выхлопной кулачковый вал 44 через цепь 40 механизма газораспределения. В настоящем варианте осуществления, мощность цепи 40 механизма газораспределения передается во впускной кулачковый вал 42 через устройство 46 регулирования фаз газораспределения. Устройство 46 регулирования фаз газораспределения представляет собой актуатор, который регулирует время открытия впускного клапана 20 посредством регулирования разности фаз вращения между коленчатым валом 32 и впускным кулачковым валом 42.
[0035] Помимо этого, впускной канал 12 соединяется с выхлопным каналом 36 через канал 52 рециркуляции выхлопных газов (EGR). EGR-канал 52 содержит EGR-клапан 54, который регулирует площадь поперечного сечения протока в EGR-канале 52. Топливо, хранимое в топливном баке 60, накачивается посредством насоса 62 с приводом от двигателя для подачи в клапан 18 впрыска в порты. Между тем, топливо, которое хранится в топливном баке 60, подвергается созданию повышенного давления посредством высоконапорного топливного насоса 64 с электронным управлением, после накачивания посредством насоса 62 с приводом от двигателя для подачи в клапан 28 впрыска в цилиндры. Пары топлива, образующиеся в топливном баке 60, улавливаются посредством адсорбера 66. Адсорбер 66 соединяется с впускным каналом 12 через продувочный канал 67. Продувочный канал 67 содержит продувочный насос 68, который высвобождает текучую среду со стороны адсорбера 66, которая представляет собой сторону выше по потоку продувочного насоса 68, в сторону впускного канала 12, которая представляет собой сторону ниже по потоку продувочного насоса 68.
[0036] Входной вал 82 трансмиссии 80 может механически сцепляться с коленчатым валом 32 через преобразователь 70 крутящего момента с блокировочной муфтой 72. Трансмиссия 80 варьирует передаточное отношение, которое представляет собой соотношение между частотой вращения входного вала 82 и частотой вращения выходного вала 84. Таким образом, трансмиссия 80 включает в себя соленоидные клапаны 80a, 80b, ... и может устанавливать различные передаточные отношения посредством переключаемого зацепления и расцепления муфт в соответствии с гидравлическими давлениями, отрегулированными посредством соленоидных клапанов 80a, 80b, .... Выходной вал 84 механически сцепляется с ведущими колесами 88.
[0037] Устройство 90 управления управляет двигателем 10 внутреннего сгорания и управляет управляемыми узлами двигателя 10 внутреннего сгорания, такими как дроссельный клапан 16, клапан 18 впрыска в порты, клапан 28 впрыска в цилиндры, устройство 30 зажигания, устройство 46 регулирования фаз газораспределения, WGV 48, EGR-клапан 54, высоконапорный топливный насос 64 и продувочный насос 68, чтобы в управлять крутящим моментом, соотношением компонентов выхлопных газов и т.д., которые представляют собой величины управления двигателя 10 внутреннего сгорания. Устройство 90 управления также управляет блокировочной муфтой 72 и соленоидными клапанами 80a, 80b, ..., чтобы управлять состоянием зацепления блокировочной муфты 72 и передаточным отношением трансмиссии 80 в качестве величин управления. На фиг. 1, управляющие сигналы MS1-MS10 для дроссельного клапана 16, клапана 18 впрыска в порты, клапана 28 впрыска в цилиндры, устройства 30 зажигания, устройства 46 регулирования фаз газораспределения, WGV 50, EGR-клапана 54, высоконапорного топливного насоса 64, продувочного насоса 68 и блокировочной муфты 72, соответственно, указываются. Помимо этого, управляющие сигналы MS11a, MS11b, ... для соленоидных клапанов 80a, 80b, ..., соответственно, также указываются на фиг. 1.
[0038] При управлении величинами управления, устройство 90 управления обращается к объему Ga всасываемого воздуха, определенному посредством расходомера 100 воздуха, температуре Ta всасываемого воздуха, определенной посредством датчика 102 температуры всасываемого воздуха и давлению (давлению Pa наддува) во впускном канале 12 в позиции ниже по потоку от нагнетателя 14, определенному посредством датчика 104 давления наддува. Устройство 90 управления также обращается к степени открытия (степени Tor открытия дросселя) дроссельного клапана 16, определенной посредством датчика 106 позиции дросселя, и выходному сигналу Scr от датчика 108 угла поворота коленчатого вала. Устройство 90 управления также обращается к выходному сигналу Sca от датчика 112 угла распределительного кулачка и температуре (температуре THW воды) охлаждающей воды в двигателе 10 внутреннего сгорания, определенной посредством датчика 114 температуры воды. Устройство 90 управления также обращается к значению Afu определения на стороне выше по потоку, которое представляет собой значение определения от датчика 116 воздушно-топливного соотношения на стороне выше по потоку, предоставленного выше по потоку от катализатора 38, и значению Afd определения на стороне ниже по потоку, которое представляет собой значение определения от датчика 118 воздушно-топливного соотношения на стороне ниже по потоку, предоставленного ниже по потоку от катализатора 38. Устройство 90 управления также обращается к частоте вращения (частоте ωin вращения входного вала) входного вала 82 трансмиссии 80, определенной посредством датчика 120 частоты вращения на входной стороне, и частоте вращения (частоте ωout вращения выходного вала) выходного вала 84 трансмиссии 80, определенной посредством датчика 122 частоты вращения на выходной стороне. Устройство 90 управления также обращается к гидравлическому давлению Poila, отрегулированному посредством соленоидного клапана 80a и определенному посредством датчика 124a гидравлического давления, гидравлическому давлению Poilb, отрегулированному посредством соленоидного клапана 80b и определенному посредством датчика 124b гидравлического давления, и т.д. Устройство 90 управления также обращается к температуре (температуре Toil масла) смазочного масла в двигателе 10 внутреннего сгорания, определенной посредством датчика 126 температуры масла, скорости движения (скорости SPD транспортного средства) транспортного средства VC1, определенной посредством датчика 130 скорости транспортного средства, и рабочей величине (рабочей величине ACCP нажатия педали акселератора) нажатия педали акселератора, определенной посредством датчика 132 акселератора.
[0039] Устройство 90 управления включает в себя CPU 92, ROM 94, устройство 96 хранения данных, которое представляет собой энергонезависимое запоминающее устройство, которое является электрически перезаписываемым, и периферийную схему 98, которые могут обмениваться данными между собой через локальную сеть 99. Периферийная схема 98 включает в себя схему, которая генерирует синхросигнал, который предписывает внутреннюю работу, схему источника мощности, схему сброса и т.д.
[0040] Устройство 90 управления выполняет управление величинами управления, описанными выше, посредством выполнения программы, сохраненной CPU 92 в ROM 94. Фиг. 2 иллюстрирует процедуры процессов, выполняемых посредством устройства 90 управления. Процессы, указываемые на фиг. 2, например, реализуются посредством CPU 92, выполняющего управляющую программу 94b, которая сохраняется в ROM 94, многократно с заданными периодами. Далее, соответствующие номера этапов процессов указываются посредством номеров, предваряемых буквой "S".
[0041] В последовательности процессов, указываемых на фиг. 2, CPU 92 сначала получает частоту NE вращения, эффективность η нагнетания, давление Pa наддува, температуру Ta всасываемого воздуха, температуру THW воды, температуру Toil масла, значение Afd определения на стороне ниже по потоку, значение Afu определения на стороне выше по потоку, рабочую величину ACCP нажатия педали акселератора и скорость SPD транспортного средства (этап S10). Частота NE вращения вычисляется посредством CPU 92 на основе выходного сигнала Scr от датчика 108 угла поворота коленчатого вала. Между тем, эффективность η нагнетания вычисляется посредством CPU 92 на основе частоты NE вращения и объема Ga всасываемого воздуха. Эффективность η нагнетания представляет собой параметр, который определяет объем воздуха, который должен нагнетаться в камеру 26 сгорания.
[0042] CPU 92 задает рабочие величины различных управляемых узлов двигателя 10 внутреннего сгорания с использованием значений, полученных в процессе на этапе S10, в качестве вводов посредством процессов на этапе S12-S28. Рабочие величины не ограничены фактическими рабочими величинами. В случае если управление с разомкнутым контуром выполняется таким образом, чтобы достигать рабочих величин, или в случае, если управление с обратной связью выполняется таким образом, чтобы достигать рабочих величин, например, значения команд управления для такого управления могут рассматриваться как рабочие величины.
[0043] В частности, CPU 92 задает значение команды управления (значение Tor* команды управления степенью открытия дросселя) для степени открытия дроссельного клапана 16 в процессе на этапе S12 и задает объем (требуемый объем Qf впрыска) топлива, требуемый для впрыска, в процессе на этапе S14. CPU 92 также задает значение DIN* команды управления разностью фаз на впуске, которое представляет собой значение команды управления для разности фаз вращения (разность DIN фаз на впуске) между коленчатым валом 32 и впускным кулачковым валом 42 в процессе на этапе S16, задает распределение aig зажигания в процессе на этапе S18 и задает коэффициент Kp распределения объема впрыска, который представляет собой соотношение объема топлива, впрыскиваемого из клапана 18 впрыска в порты, к требуемому объему Qf впрыска в процессе на этапе S20. CPU 92 также задает значение Wgvor команды управления степенью WGV-открытия, которое представляет собой значение команды управления для степени открытия WGV 50 в процессе на этапе S22 и задает значение команды управления (значение Pf* команды управления давлением топлива) для давления впрыска для впрыска топлива из клапана 28 впрыска в цилиндры в процессе на этапе S24. CPU 92 также задает значение Egrvor команды управления степенью EGR-открытия, которое представляет собой значение команды управления для степени открытия EGR-клапана 54, в процессе на этапе S26 и задает рабочую величину (рабочую величину Pg продувки) продувочного насоса 68 в процессе на этапе S28.
[0044] В частности, CPU 92 выполняет процессы на этапе S12-S28 с использованием картографических данных 96b, проиллюстрированных на фиг. 1. Картографические данные 96b включают в себя девять картографических данных, которые включают в себя девять рабочих величин, описанных выше в качестве выходных переменных, и переменные, соответствующие значениям, полученным в процессе на этапе S10 в качестве входных переменных. CPU 92 выполняет вычисление отображения в виде карты девяти рабочих величин, описанных выше, с использованием соответствующих картографических данных с использованием значений, полученных в процессе на этапе S10 в качестве вводов.
[0045] Картографические данные представляют собой набор данных, который включает в себя дискретные значения входных переменных и значения выходных переменных, соответствующие значениям входных переменных. Вычисление отображения в виде карты, например, может представлять собой процесс извлечения, в случае если значение входной переменной совпадает с любым из значений входной переменной в картографических данных, соответствующего значения выходной переменной в картографических данных в качестве результата вычисления, и извлечения, в случае если значение входной переменной не совпадает ни с одним из значений входной переменной в картографических данных, значения, интерполированного между множеством значений выходной переменной, включенной в картографические данные, в качестве результата вычисления.
[0046] CPU 92 выводит управляющие сигналы MS1-MS9 в соответствующие управляемые узлы (этап S30), чтобы управлять управляемыми узлами на основе рабочих величин, заданных посредством процессов на этапе S12-S28. Все управляющие сигналы MS1-MS9 не определяются уникально в соответствии с рабочими величинами, заданными посредством процессов на этапе S12-S28. Например, в настоящем варианте осуществления, степень Tor открытия дросселя управляется с обратной связью в соответствии со значением Tor* команды управления степенью открытия дросселя, и в силу этого, управляющий сигнал MS1 для дроссельного клапана 16 может иметь различные значения, даже когда значение Tor* команды управления степенью открытия дросселя является идентичным.
[0047] CPU 92 временно завершает процессы, указываемые на фиг. 2, в случае, если процесс на этапе S30 завершается. Картографические данные 96b сформированы с использованием стимулированного обучения. Ниже подробно поясняется генерирование картографических данных 96b.
[0048] Фиг. 3 иллюстрирует систему, которая генерирует картографические данные 96b. В настоящем варианте осуществления, как проиллюстрировано на фиг. 3, динамометр 140 механически сцепляется с коленчатым валом 32 двигателя 10 внутреннего сгорания через преобразователь 70 крутящего момента и трансмиссию 80. Различные переменные состояния в ходе работы двигателя 10 внутреннего сгорания определяются посредством группы 142 датчиков, и результаты определения вводятся в устройство 150 генерирования, которое представляет собой компьютер, который генерирует картографические данные 96b. Группа 142 датчиков включает в себя не только датчики, которые монтируются на транспортном средстве VC1, проиллюстрированном на фиг. 1, но также и датчик концентрации азота, который определяет концентрацию азота в выхлопе, выпущенном в выхлопной канал 36, датчик концентрации несгоревшего топлива, который определяет концентрацию несгоревшего топлива в выхлопе, и датчик количества твердых частиц (PM), который определяет количество PM в выхлопе. Группа 142 датчиков также включает в себя датчик температуры катализатора, который определяет температуру (температуру Tcat катализатора) катализатора 38, микрофон, который определяет шум вокруг двигателя 10 внутреннего сгорания, и т.д.
[0049] Устройство 150 генерирования включает в себя CPU 152, ROM 154, энергонезависимое запоминающее устройство (устройство 156 хранения данных), которое является электрически перезаписываемым, и периферийную схему 158, которые могут обмениваться данными между собой через локальную сеть 159.
[0050] Фиг. 4 иллюстрирует процедуры процессов, выполняемых посредством устройства 150 генерирования. Процессы, указываемые на фиг. 4, реализуются посредством CPU 152, выполняющего обучающую программу 154a, сохраненную в ROM 154.
[0051] В последовательности процессов, указываемых на фиг. 4, CPU 152 сначала инициализирует функцию-значение Q(s, a) действия, предписанную посредством данных 156a предписаний по взаимосвязям, сохраненных в устройстве 156 хранения данных, проиллюстрированном на фиг. 3 (этап S40). Функция-значение Q действия представляет собой функцию того, какие независимые переменные представляют собой состояние s и действие a, и того, какая выходная переменная представляет собой ожидаемую пользу. В настоящем варианте осуществления, состояние s соответствует десяти переменным, связанным со значениями, полученными в процессе на этапе S10. Между тем, действие a соответствует девяти рабочим величинам, заданным посредством процессов на этапе S12-S28. Таким образом, в настоящем варианте осуществления, состояние s и действие a представляют собой десятимерный вектор и девятимерный вектор, соответственно, но указываются с использованием строчных букв "s" и "a", соответственно, для удобства. Помимо этого, функция-значение Q(s, a) действия согласно настоящему варианту осуществления представляют собой табличную функцию. Тем не менее, в настоящем варианте осуществления, функция-значение Q(s, a) действия задается только с некоторыми наборами значений, полученными посредством дискретизации значений переменных состояния s и действия a, чтобы сокращать число комбинаций независимых переменных функции-значения Q(s, a) действия.
[0052] В частности, сначала, двигателю внутреннего сгорания, который включает в себя управляемые узлы, которые являются аналогичными управляемым узлам двигателя 10 внутреннего сгорания, и рабочие величины которых уже адаптированы через связанный способ, инструктируется управляться с возможностью указывать действие a в каждом состоянии s. Некоторые состояния s, фактически определенные, выбираются в качестве значений входных переменных, предписанных посредством картографических данных 96b, и соответствующие действия a для таких состояний извлекаются. В случае если множество действий a извлекается для состояния, например, может приспосабливаться действие, фактически определяемое наиболее часто, в числе таких действий. Следовательно, характерные точки, которые представляют собой множество наборов состояния s и действия a, задаются. Тем не менее, следует отметить, что компоненты состояния s и действия a задаются касательно того, какой из областей, полученных посредством разделения области, которая равна или больше минимального значения и равна или меньше максимального значения, принадлежит каждый из таких компонентов. Это настройка проводится, чтобы компенсировать разность рабочего объема между двигателем внутреннего сгорания, рабочие величины управляемых узлов для которых уже адаптированы через связанный способ, и двигателем 10 внутреннего сгорания согласно настоящему варианту осуществления.
[0053] В таком состоянии, CPU 152 определяет диапазон значений, которые собой независимые переменные функции-значения Q(s, a) действия могут принимать в качестве характерной точки, и значений, полученных посредством сдвига значения каждой переменной действия a в положительном направлении и отрицательном направлении относительно характерной точки на одну единицу. Например, в случае если фактически измеренное значение значения Egrvor команды управления степенью EGR-открытия в заданном состоянии s0 равно 5, значение Egrvor команды управления степенью EGR-открытия в качестве независимой переменной функции-значения Q(s0, a) действия может принимать только значения "4, 5, 6", даже когда значение Egrvor команды управления степенью EGR-открытия может принимать значения " 0-10". Таким образом, функция-значение Q(s0, a) действия не задается для состояния s0 и значения Egrvor команды управления степенью EGR-открытия "1".
[0054] Затем, CPU 152 получает последнее состояние st (этап S42). Рабочая величина ACCP нажатия педали акселератора формируется посредством устройства 150 генерирования и не представляет собой фактическую рабочую величину нажатия педали акселератора. Таким образом, на фиг. 3, рабочая величина ACCP нажатия педали акселератора с помощью симуляции формируется в качестве переменной, связанной с состоянием транспортного средства, чтобы моделировать состояние транспортного средства. Между тем, скорость SPD транспортного средства представляет собой значение, предполагаемое на основе частоты NE вращения и передаточного отношения трансмиссии 80 в случае, если двигатель 10 внутреннего сгорания и трансмиссия 80 монтируются на транспортном средстве, и вычисляется посредством устройства 150 генерирования.
[0055] Затем, CPU 152 выбирает действие at в соответствии с политикой πt, предписанной посредством данных 156a предписаний по взаимосвязям (этап S44). Действие at означает действие a, выбранное для состояния st. Политика πt максимизирует вероятность выбора действия a (жадного действия), которое максимизирует функцию-значение Q(st, a) действия в состоянии st, без задания возможности выбора других действий a равными "0". Исследование для оптимального действия активируется тогда, когда жадное действие не предпринимается. Это реализуется посредством метода выбора ε-жадных действий или метода выбора действий на основе мягкого максимума.
[0056] Затем, CPU 152 управляет управляемыми узлами на основе действия at (этап S46). В этой связи, действие at обозначает одну из множества областей, полученных посредством разделения области, которая равна или больше минимального значения и равна или меньше максимального значения, как пояснено выше. При управлении управляемыми узлами, приспосабливается значение, соответствующее среднему области, обозначенной посредством действия at. Здесь, значение, полученное посредством процесса вычисления экспоненциального скользящего среднего предыдущей рабочей величины и рабочей величины, определенной из действия at, может использоваться в качестве текущей рабочей величины, вместо непосредственного использования действия at в качестве рабочей величины. CPU 152 получает последнее состояние st+1 (этап S48). Затем, CPU 152 вычисляет выгоду rt с действием at (этап S50).
[0057] Фиг. 5 иллюстрирует подробности процесса на этапе S50. В последовательности процессов, указываемых на фиг. 5, CPU 152 сначала получает моделирующее состояние транспортного средства, включающее в себя состояние двигателя 10 внутреннего сгорания, на основе значений определения из группы 142 датчиков (этап S60). В частности, CPU 152 получает значение Afu определения на стороне выше по потоку, значение Afd определения на стороне ниже по потоку, количество Qnox NOx NOx в выхлопе, которое основано на значении определения от датчика концентрации азота, объем Qch несгоревшего топлива для несгоревшего топлива в выхлопе, который основан на значении определения от датчика концентрации несгоревшего топлива, количество Qpm твердых частиц (PM) PM в выхлопе, которое основано на значении определения от датчика PM-количества, и температуру Tcat катализатора, которая определяется посредством датчика температуры катализатора. CPU 152 также получает требуемые объемы Qf(1), Qf(2), ... впрыска и ускорения Gx(1), Gx(2), ... в направлении спереди назад транспортного средства. Значения с различными номерами в круглых скобках указывают то, что такие значения принимаются в различные времена дискретизации. Таким образом, требуемые объемы Qf(1), Qf(2), ... впрыска представляют собой хронологические данные относительно требуемого объема Qf впрыска, и ускорения Gx(1), Gx(2), ... в направлении спереди назад представляют собой хронологические данные относительно ускорения Gx в направлении спереди назад. Хронологические данные включают в себя значения, дискретизированные в течение периода начиная со времени предыдущего выполнения до времени текущего выполнения процессов на фиг. 5. Ускорение Gx в направлении спереди назад представляет собой ускорение в направлении спереди назад, предположительно действующее на транспортное средство в случае, если двигатель 10 внутреннего сгорания и т.д. монтируется на транспортном средстве, и вычисляется посредством CPU 152 на основе крутящего момента нагрузки и т.д. динамометра 140. CPU 152 также получает звуковое давление SP, определенное посредством микрофона, крутящий момент (крутящий момент Trqeg двигателя) двигателя 10 внутреннего сгорания, который выясняется из крутящего момента нагрузки, сформированного посредством динамометра 140, и передаточное отношение трансмиссии 80 и его требуемое значение (значение Trqeg* требуемого крутящего момента двигателя). Тем не менее, следует отметить, что выходная мощность Peg двигателя, которая представляет собой произведение крутящего момента Trqeg двигателя и частоты NE вращения, и ее требуемое значение (значение Peg* требуемой выходной мощности двигателя) могут получаться вместо крутящего момента Trqeg двигателя и значения Trqeg* требуемого крутящего момента двигателя. Значение Trqeg* требуемого крутящего момента двигателя задается в соответствии с рабочей величиной ACCP нажатия педали акселератора.
[0058] Затем, CPU 152 задает выгоду с точки зрения характеристик выхлопных газов посредством процессов на этапе S62-S66. Таким образом, CPU 152 сначала определяет то, является или нет логическое произведение следующих условий (1)-(6) истиной (этап S62). Этот процесс определяет то, соответствуют или нет характеристики выхлопных газов заданным характеристикам.
[0059] Условие (1): значение Afu определения на стороне выше по потоку равно или больше верхнего предельного значения AfuR на богатой стороне и равно или меньше верхнего предельного значения AfuL на бедной стороне. Верхнее предельное значение AfuR на богатой стороне представляет собой значение на богатой стороне относительно теоретического воздушно-топливного соотношения. Верхнее предельное значение AfuL на бедной стороне представляет собой значение на бедной стороне относительно теоретического воздушно-топливного соотношения.
[0060] Условие (2): значение Afd определения на стороне ниже по потоку равно или больше верхнего предельного значения на богатой стороне AfdR и равно или меньше верхнего предельного значения AfdL на бедной стороне. Верхнее предельное значение на богатой стороне AfdR представляет собой значение на богатой стороне относительно теоретического воздушно-топливного соотношения. Верхнее предельное значение AfdL на бедной стороне представляет собой значение на бедной стороне относительно теоретического воздушно-топливного соотношения.
[0061] Условие (3): количество Qnox NOx равно или меньше заданного количества Qnoxth.
Условие (4): объем Qch несгоревшего топлива равен или меньше заданного объема Qchth.
Условие (5): PM-количество Qpm равно или меньше заданного количества Qpmth.
[0062] Условие (6): температура Tcat катализатора равна или больше нижней предельной температуры TcatL и равна или меньше верхней предельной температуры TcatH.
В случае если определяется то, что логическое произведение условий (1)-(6) является истиной (этап S62: "Да"), CPU 152 считает то, что характеристики выхлопных газов соответствуют целевым заданным характеристикам, и прибавляет "10" к выгоде rt (этап S64). В случае если определяется то, что логическое произведение, описанное выше, является ложью, наоборот, CPU 152 прибавляет "-10" к выгоде rt (этап S66). Это соответствует предоставлению отрицательной выгоды. Другими словами, это соответствует наложению штрафа. В этой связи, начальное значение выгоды rt задается равным нулю каждый раз, когда последовательность процессов, указываемых на фиг. 5, периодически начинается.
[0063] В случае если процесс на этапе S64 или S66 завершается, CPU 152 вычисляет выгоду с точки зрения уровня расхода топлива посредством процессов на этапе S68 и S70. Таким образом, CPU 152 определяет то, равно или меньше либо нет интегрированное значение InQf требуемых объемов Qf(1), Qf(2), ... впрыска, которые получаются в процессе на этапе S60, заданного значения InQfth (этап S68). В случае если определяется то, что интегрированное значение InQf равно или меньше заданного значения InQfth (этап S68: "Да"), CPU 152 прибавляет положительную заданную величину Δ к выгоде rt (этап S70). Заданная величина Δ имеет большое значение в случае, если интегрированное значение InQf является небольшим, по сравнению со случаем, в котором интегрированное значение InQf является большим.
[0064] В случае если процесс на этапе S70 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S68, CPU 152 вычисляет выгоду с точки зрения общей характеристики управляемости посредством процессов на этапе S72-S76. Таким образом, CPU 152 сначала определяет то, является или нет логическое произведение следующих условий (7)-(9) истиной (этап S72).
[0065] Условие (7): величина ΔGx варьирования ускорения Gx в направлении спереди назад в расчете на заданный период равна или больше нижней предельной величины ΔGxthL варьирования и равна или меньше верхней предельной величины ΔGxthH варьирования.
Условие (8): ускорение Gx в направлении спереди назад равно или больше нижнего предельного ускорения GxL и равно или меньше верхнему предельному ускорению GxH.
Нижнее предельное ускорение GxL и верхнее предельное ускорение GxH регулируемо задаются в соответствии с рабочей величиной ACCP нажатия педали акселератора.
[0066] Условие (9): звуковое давление SP равно или меньше заданного значения SPth.
В случае если определяется то, что логическое произведение условий (7)-(9) является истиной (этап S72: "Да"), CPU 152 считает то, что общая характеристика управляемости соответствует заданному критерию, и прибавляет "5" к выгоде rt (этап S74). В случае если определяется то, что логическое произведение, описанное выше, является ложью (этап S72: "Нет"), наоборот, CPU 152 прибавляет "-5" к выгоде rt (этап S76).
[0067] В случае если процесс на этапе S74 или S76 завершается, CPU 152 определяет то, равно или меньше либо нет абсолютное значение разности между крутящим моментом Trqeg двигателя и значением Trqeg* требуемого крутящего момента двигателя заданной величины ΔTrqeg (этап S78). В случае если выходная мощность Peg двигателя получается в процессе на этапе S60, в процессе на этапе S78 определяется то, равно или меньше либо нет абсолютное значение разности между выходной мощностью Peg двигателя и значением Peg* требуемой выходной мощности двигателя, а не абсолютное значение разности между крутящим моментом Trqeg двигателя и значением Trqeg* требуемого крутящего момента двигателя, заданной величины ΔPeg.
[0068] В случае если положительное определение выполняется в процессе на этапе S78, CPU 152 прибавляет "10" к выгоде rt (этап S80). В случае если отрицательное определение выполняется, с другой стороны, CPU 152 прибавляет "-10" к выгоде rt (этап S82).
[0069] В случае если процесс на этапе S80 или S82 завершается, CPU 152 завершает процесс на этапе S50 на фиг. 4. Затем, CPU 152 вычисляет ошибку δt (этап S52), чтобы вычислять величину обновления для обновления значения функции-значения Q(st, at) действия, которая представляет собой функцию-значение Q(s, a) действия с состоянием st и действием at. В настоящем варианте осуществления, используется TD-метод без политик. Таким образом, ошибка δt вычисляется, с использованием темпа γ уменьшения, в качестве значения, полученного посредством вычитания функции-значения Q(st, at) действия из суммы значения, полученного посредством умножения максимального значения функции-значения Q(st+1, A) действия на темп γ уменьшения, и выгоды rt. "A" означает набор действий a. Затем, CPU 152 обновляет функцию-значение Q(st, at) действия (этап S54) посредством суммирования значения, полученного посредством умножения ошибки δt на темп α обучения, с функцией-значением Q(st, at) действия. Таким образом, значение функции-значения Q(s, a) действия, которая предписывается посредством данных 156a предписаний по взаимосвязям и которая имеет состояние st и действие at в качестве независимых переменных, варьируется посредством "α*δt". Процессы на этапе S52 и S54 реализуются посредством выполнения исполняемой команды, в обучающей программе 154a, для обновления функции-значения Q действия с использованием отображения в виде карты для обновления, в которое вводятся выгоде rt, состояние st и действие at и которое выводит обновленную функцию-значение Q действия. Это отображение в виде карты для обновления обновляет взаимосвязь между значениями, полученными в процессе на этапе S10, и рабочими величинами, выбранными в соответствии с процессом на этапе S44, который предписывается посредством данных 156a предписаний по взаимосвязям, с тем чтобы увеличивать ожидаемую пользу. Это обусловлено тем, что функция-значение Q(st, at) действия обновляется таким образом, чтобы извлекать значение, которое более точно выражает фактическую ожидаемую пользу.
[0070] Затем, CPU 152 определяет то, сходится или нет значение функции-значения Q действия для каждой независимой переменной (этап S56). В случае если определяется то, что значение не сходится (этап S56: "Нет"), CPU 152 обновляет t таким образом, что состояние st+1, которое получается в процессе на этапе S48, соответствует состоянию st (этап S58), и возвращается к процессу на этапе S44. В случае если определяется то, что значение сходится (этап S56: "Да"), наоборот, CPU 152 временно завершает последовательность процессов, указываемых на фиг. 4.
[0071] Фиг. 6 иллюстрирует процедуры процессов генерирования картографических данных 96b на основе функции-значения Q действия, которая изучается посредством процессов на фиг. 4, в частности, из процессов, выполняемых посредством устройства 150 генерирования. Процессы, указываемые на фиг. 6, реализуются посредством CPU 152, выполняющего обучающую программу 154a, сохраненную в ROM 154.
[0072] В последовательности процессов, указываемых на фиг. 6, CPU 152 сначала выбирает одно состояние s (этап S90). Затем, CPU 152 выбирает действие a, которое максимизирует значение функции-значения Q действия, из функции-значения Q(s, A) действия, соответствующей состоянию s (этап S92). Таким образом, действие a выбирается через жадную политику. Затем, CPU 152 инструктирует устройству 156 хранения данных сохранять набор состояния s и действия a (этап S94).
[0073] Затем, CPU 152 определяет то, выбраны или нет все значения входных переменных картографических данных 96b в процессе на этапе S90 (этап S96). В случае если определяется то, что имеется какое-либо невыбранное значение (этап S96: "Нет"), CPU 152 возвращается к процессу на этапе S90. В случае если все значения выбраны (этап S96: "Да"), наоборот, CPU 152 генерирует картографические данные 96b (этап S98) на основе данных, которые сохраняются в процессе на этапе S94. Здесь, значения выходных переменных, соответствующие значениям входных переменных картографических данных 96b для состояния s, определяются в качестве соответствующего действия a.
[0074] CPU 152 временно завершает последовательность процессов, указываемых на фиг. 6 в случае, если процесс на этапе S98 завершается. Фиг. 7 иллюстрирует процедуры процессов, связанных с операцией трансмиссии 80, из процессов, которые выполняются посредством устройства 90 управления, проиллюстрированного на фиг. 1. Процессы, указываемые на фиг. 7, реализуются посредством CPU 92, выполняющего управляющую программу 94b и обучающую программу 94a, сохраненные в ROM 94. Фиг. 7 не иллюстрирует переключение между всеми передаточными отношениями, которые могут устанавливаться посредством трансмиссии 80, а иллюстрирует процессы для случая, в котором переключение с первого передаточного отношения на второе передаточное отношение, которые представляют собой пару передаточных отношений, выполняется, в качестве примера. Здесь, чтобы устанавливать первое передаточное отношение, гидравлическое давление Poila повышается, чтобы приводить первую муфту в зацепленное состояние, и гидравлическое давление Poilb понижается, чтобы приводить вторую муфту в расцепленное состояние. Чтобы устанавливать второе передаточное отношение, между тем, гидравлическое давление Poila понижается, чтобы приводить первую муфту в расцепленное состояние, и гидравлическое давление Poilb повышается, чтобы приводить вторую муфту в зацепленное состояние.
[0075] В последовательности процессов, указываемых на фиг. 7, CPU 92 сначала определяет то, имеется или нет запрос на переключение передач с первого передаточного отношения на второе передаточное отношение (этап S110). В случае если определяется то, что имеется запрос на такое на переключение передач (этап S110: "Да"), CPU 92 получает частоту ωin(n) вращения входного вала, частоту ωout(n) вращения выходного вала и гидравлические давления Poila(n) и Poilb(n) (этап S112). Переменная n в" (n)" представляет собой переменную типа "метка" для времени, когда выполняется процесс на этапе S112. Этот процесс представляет собой процесс получения состояния. Таким образом, в процессах на фиг. 7, состояние выражается с использованием четырехмерного вектора с частотой ωin вращения входного вала, частотой ωout вращения выходного вала и гидравлическими давлениями Poila и Poilb.
[0076] Затем, CPU 92 выбирает значение команды управления током (значение ia* команды управления соленоидным током) для соленоидного клапана 80a и значение команды управления током (значение ib* команды управления соленоидным током) для соленоидного клапана 80b в качестве действий в соответствии с политикой π, которая предписывается посредством данных 96a предписаний по взаимосвязям, которые сохраняются в устройстве 96 хранения данных на фиг. 1 (этап S114). CPU 152 выводит управляющие сигналы MS12 и MS13 (этап S116), чтобы управлять током, который протекает через соленоидный клапан 80a, до значения ia* команды управления соленоидным током, и управлять током, который протекает через соленоидный клапан 80b до значения ib* команды управления соленоидным током.
[0077] CPU 92 определяет то, завершается или нет переключение передач (этап S118). В случае если определяется то, что переключение передач не завершается (этап S118: "Нет"), CPU 92 обновляет значения, дискретизированные в процессе на этапе S112, на "n-1" (этап S119) и возвращается к процессу на этапе S112. Следовательно, CPU 152 заново получает частоту ωin вращения входного вала, частоту ωout вращения выходного вала и гидравлические давления Poila и Poilb.
[0078] В случае если определяется то, что переключение передач завершается (этап S118: "Да"), наоборот, CPU 92 определяет то, является или нет логическое произведение следующих условий (10)-(12) истиной (этап S120).
Условие (10): время Tsft переключения частоты вращения, которое представляет собой время, требуемое для переключения с первого передаточного отношения на второе передаточное отношение, равно или меньше заданного времени TsftH. Заданное время TsftH задается равным или меньшим допустимого верхнего предельного значения для времени, требуемого для переключения передач.
[0079] Условие (11): абсолютное значение величины Δωin варьирования частоты ωin вращения входного вала в расчете на заданный период равно или меньше заданного значения ΔωinH на входной стороне. Заданное значение ΔωinH на входной стороне задается на основе верхнего предельного значения, которое не вызывает некомфортное ощущение у пользователя наряду с переключением передач.
[0080] Условие (12): абсолютное значение величины Δωout варьирования частоты ωout вращения выходного вала в расчете на заданный период равно или меньше заданного значения ΔωoutH на выходной стороне. Заданное значение ΔωoutH на выходной стороне задается на основе верхнего предельного значения, которое не вызывает некомфортное ощущение у пользователя наряду с переключением передач.
[0081] В случае если определяется то, что логическое произведение условий (10)-(12) является истиной (этап S120: "Да"), CPU 92 прибавляет "1" к выгоде r (этап S122). Это означает то, что положительная выгода выдается в случае, если логическое произведение условий (10)-(12) является истиной.
[0082] В случае если процесс на этапе S122 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S120, CPU 92 определяет то, имеется или нет какой-либо набор дискретизированных значений (Poila (i), Poilb (i)), в котором и гидравлическое давление Poila и гидравлическое давление Poilb равны или больше порогового значения Pth (этап S124). Пороговое значение Pth задается равным значению, которое меньше нижнего предельного значения, при котором муфты находятся в зацепленном состоянии. В случае если определяется то, что имеется какой-либо такой набор (этап S124: "Да"), CPU 92 прибавляет "-10", что представляет собой отрицательная выгода, к выгоде r (этап S126). Таким образом, при переключении передач, поясненном здесь, необходимо то, что одна из двух муфт, а именно, первой муфты, состояние которой определяется в соответствии с гидравлическим давлением Poila, и второй муфты, состояние которой определяется в соответствии с гидравлическим давлением Poilb, должна переходить из зацепленного состояния в расцепленное состояние, и что другая должен переходить из расцепленного состояния в зацепленное состояние. Следовательно, непредпочтительно то, что как гидравлическое давление Poila, так и гидравлическое давление Poilb являются высокими одновременно.
[0083] В случае если процесс на этапе S126 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S124, CPU 92 обновляет данные 96a предписаний по взаимосвязям, которые сохраняются в устройстве 96 хранения данных, проиллюстрированном на фиг. 1, в процессах на этапе S128-S136. В настоящем варианте осуществления, используется ε-мягкий метод Монте-Карло по политикам.
[0084] Таким образом, CPU 92 сначала считывает хронологические данные относительно набора частоты ωin вращения входного вала, частоты ωout вращения выходного вала и гидравлических давлений Poila и Poilb, которые представляют собой состояния, полученные в процессе на этапе S112 в течение периода одного процесса переключения частоты вращения, и хронологические данные относительно набора значений ia* и ib* команд управления соленоидным током, которые представляют собой соответствующие действия, соответствующие состояниям (этап S128). Здесь, состояния, считываемые в процессе на этапе S128, указываются в качестве набора Sj состояний, и действия, считываемые в процессе на этапе S128, указываются в качестве набора Aj действий.
[0085] Затем, CPU 92 суммирует выгоду r с пользой R (этап Sj, Aj), которая определяется посредством набора каждого состояния и соответствующего действия, считываемого в процессе на этапе S128 (этап S130). Начальное значение пользы R может представлять собой начальное значение соответствующей функции-значения Q действия. Затем, польза R (этап Sj, Aj), которая определяется посредством набора каждого состояния и соответствующего действия, считываемого в процессе на этапе S128, усредняется и подставляется в соответствующую функцию-значение Q(sj, Aj) действия (этап S132). Усреднение может представлять собой процесс деления пользы R, которая вычисляется в процессе на этапе S130, на число, полученное посредством суммирования заданного числа с числом раз, когда процесс на этапе S130 выполняется.
[0086] Затем, CPU 92 подставляет вместо значений ia* и ib* команд управления соленоидным током максимальное значение функции-значения Q(sj, ia*, ib*) действия, соответствующей каждому состоянию, считываемому в процессе на этапе S128, в значения ia0* и ib0* команд управления соленоидным током (этап S134). Хотя значения ia0* и ib0* команд управления соленоидным током имеют различные значения в соответствии с типом состояния, считываемого в процессе на этапе S128, значения ia0* и ib0* команд управления соленоидным током указываются посредством идентичного символа для простоты обозначения.
[0087] Затем, CPU 92 обновляет политику π(ia*, ib*|Sj), соответствующую каждому состоянию, считываемому в процессе на этапе S128 (этап S136). Таким образом, когда общее число действий составляет "|A|", вероятность выбора значений ia0* и ib0* команд управления соленоидным током, соответствующих действию, выбранному на этапе S134, составляет "1-ε+ε/|A|". Помимо этого, вероятность выбора каждого из |A|-1 действий, отличных от значений ia0* и ib0* команд управления соленоидным током, составляет "ε/|A|".
[0088] CPU 92 временно завершает последовательность процессов, указываемых на фиг. 7, в случае, если процесс на этапе S136 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S110. На фиг. 7, процессы на этапе S110-S119 представляют собой процессы, реализованные посредством выполнения управляющей программы 94b, и процессы на этапе S120-S136 представляют собой процессы, реализованные посредством выполнения обучающей программы 94a.
[0089] В этой связи, данные 96a предписаний по взаимосвязям, которые сохраняются в устройстве 96 хранения данных, представляют собой данные, для которых обучение выполнено до некоторой степени заранее в системе, проиллюстрированной на фиг. 3 посредством процессов, которые являются аналогичными процессам на фиг. 7. При стимулированном обучении, выполняемом посредством системы, проиллюстрированной на фиг. 3, "ε" может задаваться равным большому значению, или пороговое значение Pth может задаваться равным большому значению по сравнению с моментом после сохранения в устройстве 96 хранения данных. В случае если пороговое значение Pth задается равным большому значению, желательно, если процесс на этапе S124 должен выполняться перед процессом на этапе S118 таким образом, что большая отрицательная выгода выдается с обучением, завершенным в случае, если положительное определение выполняется в процессе на этапе S124.
[0090] В дальнейшем описываются функции и преимущества настоящего варианта осуществления. В системе, проиллюстрированной на фиг. 3, CPU 152 проводит обучение в отношении функции-значения Q действия через стимулированное обучение. В случае если значение функции-значения Q действия сходится, рабочие величины, которые являются надлежащими для того, чтобы удовлетворять требованиям для уровня расхода топлива, характеристик выхлопных газов и общей характеристики управляемости, изучаются в состоянии в каждое время посредством выбора действия, которое максимизирует функцию-значение Q действия в состоянии. CPU 152 выбирает действие, которое максимизирует функцию-значение Q действия для каждого состояния, которое должно использоваться в качестве входной переменной картографических данных 96b, и сохраняет набор состояния и действия в устройстве 156 хранения данных. Затем, CPU 152 генерирует картографические данные 96b на основе набора состояния и действия, который сохраняется в устройстве 156 хранения данных. Следовательно, соответствующие рабочие величины, которые совпадают с состоянием, могут задаваться без чрезмерного увеличения числа человеко-часов, расходуемых экспертом.
[0091] В настоящем варианте осуществления, в частности, десять взаимно различных величин используются в качестве состояния. Следовательно, в случае если эксперт адаптирует значения десяти рабочих величин, соответствующих состоянию, например, процесс адаптации может очень усложняться вследствие большого числа размерностей. В отличие от этого, в настоящем варианте осуществления, рабочие величины могут задаваться посредством использования стимулированного обучения при подавлении увеличения числа человеко-часов, расходуемых экспертом даже в случае, если число размерностей является большим.
[0092] Согласно настоящему варианту осуществления, описанному выше, дополнительно могут достигаться следующие функции и преимущества. (1) Устройство 96 хранения данных устройства 90 управления сохраняет карту данные 96b, а не функцию-значение Q действия и т.д., связанную с рабочими величинами управляемых узлов двигателя 10 внутреннего сгорания. Следовательно, CPU 92 задает рабочие величины управляемых узлов двигателя 10 внутреннего сгорания на основе вычисления отображения в виде карты, выполняемого с использованием картографических данных 96b. Таким образом, вычислительная нагрузка может уменьшаться по сравнению со случаем, в котором процесс выбора функции-значения Q действия с максимальным значением выполняется.
[0093] (2) Операция переключения передаточного отношения трансмиссии 80 изучается через стимулированное обучение. Следовательно, рабочие величины, которые совпадают с состоянием трансмиссии 80, могут задаваться без чрезмерного увеличения числа человеко-часов, расходуемых экспертом.
[0094] (3) Устройство 96 хранения данных устройства 90 управления сохраняет функцию-значение Q действия и т.д., связанную с рабочей величиной трансмиссии 80, в качестве данных 96a предписаний по взаимосвязям, и функция-значение Q действия и политика π обновляются каждый раз, когда операция, чтобы переключать передаточное отношение, выполняется. Следовательно, частота обучения может увеличиваться по сравнению со случаем, в котором обновление не выполняется посредством устройства 90 управления.
Второй вариант осуществления
[0095] Ниже описывается второй вариант осуществления со ссылкой на чертежи, главным образом относительно отличий от первого варианта осуществления.
[0096] Фиг. 8 иллюстрирует устройство управления и приводную систему согласно настоящему варианту осуществления. На фиг. 8, элементам, соответствующим элементам, проиллюстрированным на фиг. 1, предоставляются идентичные ссылки с номерами для удобства. В настоящем варианте осуществления, как проиллюстрировано на фиг. 8, картографические данные 96b не предоставляются. Вместо этого, данные 96a предписаний по взаимосвязям согласно настоящему варианту осуществления также включают в себя данные, которые предписывают взаимосвязь между состоянием двигателя 10 внутреннего сгорания и рабочими величинами управляемых узлов двигателя 10 внутреннего сгорания. Данные включают в себя функцию-значение Q действия и т.д., сформированную посредством процессов на фиг. 4.
[0097] Устройство 96 хранения данных также сохраняет картографические данные 96c для вывода PM-количества и картографические данные 96d для вывода крутящего момента. В настоящем варианте осуществления, помимо этого, устройство 90 управления обращается к звуковому давлению SP, которое определяется посредством микрофона 134, который определяет звук из приводной системы, и ускорению Gx в направлении спереди назад транспортного средства VC1, которое определяется посредством датчика 136 ускорения.
[0098] Фиг. 9 иллюстрирует процессы, реализованные посредством CPU 92, выполняющего обучающую программу 94a при использовании картографических данных 96c для вывода PM-количества и картографических данных 96d для вывода крутящего момента. Процесс M10 вывода PM-количества, указываемый на фиг. 9, представляет собой процесс приема, в качестве вводов, частоты NE вращения, эффективности η нагнетания, распределения aig зажигания, значения Qfi величины увеличения объема впрыска, температуры Ta всасываемого воздуха и температуры THW воды и вывода PM-количества Qpm. Значение Qfi величины увеличения объема впрыска представляет собой избыточную часть фактического объема впрыска (требуемого объема Qf впрыска) относительно объема впрыска, требуемого для того, чтобы приводить воздушно-топливное соотношение смеси, которая должна сгорать в камере 26 сгорания, к теоретическому воздушно-топливному соотношению. Тем не менее, следует отметить, что значение Qfi величины увеличения объема впрыска может принимать отрицательное значение, причем в этом случае значение Qfi величины увеличения объема впрыска указывает величину нехватки фактического объема впрыска относительно объема впрыска, требуемого для того, чтобы приводить воздушно-топливное соотношение смеси к теоретическому воздушно-топливному соотношению. Картографические данные 96c для вывода PM-количества представляют собой данные, связанные с обученной моделью, такой как нейронная сеть, в которую вводятся частота NE вращения, эффективность η нагнетания, распределение aig зажигания, значение Qfi величины увеличения объема впрыска, температура Ta всасываемого воздуха и температура THW воды и которая выводит PM-количество Qpm. Таким образом, процесс M10 вывода PM-количества представляет собой процесс вычисления PM-количества Qpm с использованием частоты NE вращения, эффективности η нагнетания, распределения aig зажигания, значения Qfi величины увеличения объема впрыска, температуры Ta всасываемого воздуха и температуры THW воды в качестве вводов в обученную модель. Картографические данные 96c для вывода PM-количества могут изучаться с использованием, в качестве учебных данных, например, PM-количества Qpm, которое получается в процессе на этапе S60 при выполнении процессов на фиг. 5.
[0099] Между тем, процесс M12 вывода крутящего момента представляет собой процесс приема частоты NE вращения, эффективности η нагнетания, распределения aig зажигания, требуемого объема Qf впрыска и разности DIN фаз на впуске в качестве вводов и вычисления крутящего момента Trqeg двигателя. Картографические данные 96d для вывода крутящего момента представляют собой данные, связанные с обученной моделью, такой как нейронная сеть, в которую вводятся частота NE вращения, эффективность η нагнетания, распределение aig зажигания, требуемый объем Qf впрыска и разность DIN фаз на впуске и которая выводит крутящий момент Trqeg двигателя. Таким образом, процесс M12 вывода крутящего момента представляет собой процесс вычисления крутящего момента Trqeg двигателя с использованием частоты NE вращения, эффективности η нагнетания, распределения aig зажигания, требуемого объема Qf впрыска и разности DIN фаз на впуске в качестве вводов в обученную модель. Картографические данные 96d для вывода крутящего момента могут изучаться с использованием, в качестве учебных данных, например, крутящего момента Trqeg двигателя, который получается в процессе на этапе S60 при выполнении процессов на фиг. 5.
[0100] Фиг. 10 иллюстрирует процедуры процессов, связанных с операцией управляемых узлов двигателя 10 внутреннего сгорания посредством устройства 90 управления согласно настоящему варианту осуществления. Процессы, указываемые на фиг. 10, например, реализуются посредством CPU 92, выполняющего управляющую программу 94b и обучающую программу 94a, сохраненные в ROM 94 при условии, что возникает запрос на то, чтобы запускать двигатель 10 внутреннего сгорания. На фиг. 10, процессам, соответствующим процессам, указываемым на фиг. 4, предоставляются идентичные номера этапов для удобства.
[0101] В последовательности процессов, указываемых на фиг. 10, CPU 92 сначала выполняет процессы, которые являются аналогичными процессам на этапе S42-S48, указываемым на фиг. 4, и после этого вычисляет выгоду rt (этап S50a). Фиг. 11 иллюстрирует подробности процесса на этапе S50a. На фиг. 11, процессам, соответствующим процессам, указываемым на фиг. 5, предоставляются идентичные номера этапов для удобства.
[0102] В последовательности процессов, указываемых на фиг. 11, CPU 92 сначала получает значения переменных, которые требуются для того, чтобы вычислять выгоду rt (этап S60a). В частности, CPU 92 получает значение Afd определения на стороне ниже по потоку, PM-количество Qpm, хронологические данные относительно требуемого объема Qf впрыска, хронологические данные относительно ускорения Gx в направлении спереди назад, звуковое давление SP, крутящий момент Trqeg двигателя (выходную мощность Peg двигателя) и значение Trqeg* требуемого крутящего момента двигателя (значение Peg* требуемой выходной мощности двигателя). Выходная мощность Peg двигателя может вычисляться посредством умножения крутящего момента Trqeg двигателя на частоту NE вращения.
[0103] Затем, CPU 92 определяет то, является или нет логическое произведение условий (2) и (5) истиной (этап S62a). В случае если определяется то, что логическое произведение является истиной (этап S62a: "Да"), CPU 92 переходит к процессу на этапе S64. В случае если определяется то, что логическое произведение является ложью (этап S62a: "Нет"), с другой стороны, CPU 92 продолжает процесс на этапе S66. В случае если процесс на этапе S64 или S66 завершается, CPU 92 выполняет процессы на этапе S68-S82 и завершает процесс на этапе S50a на фиг. 10.
[0104] Возвращаясь к фиг. 10, в случае если процесс на этапе S50a завершается, CPU 92 выполняет процессы на этапе S52-S54 и S58 и возвращается к процессу на этапе S44. В этой связи, процессы на этапе S42-S48 реализуются посредством выполнения исполняемых команд, предписанных посредством управляющей программы 94b, и процессы на этапе S50a, S52-S54 и S58 реализуются посредством выполнения исполняемых команд, предписанных посредством обучающей программы 94a.
[0105] Политика π в процессах на фиг. 10 может иметь высокую вероятность выбора жадного действия по сравнению с политикой π в процессах на фиг. 3. В настоящем варианте осуществления, описанном выше, функция-значение Q действия, связанная с рабочими величинами управляемых узлов двигателя 10 внутреннего сгорания, также обновляется посредством устройства 90 управления, и в силу этого частота обучения может увеличиваться по сравнению со случаем, в котором функция-значение Q действия не обновляется за счет этого.
Третий вариант осуществления
[0106] Ниже описывается третий вариант осуществления со ссылкой на чертежи, главным образом относительно отличий от второго варианта осуществления.
[0107] В настоящем варианте осуществления, политика π непосредственно обновляется без использования функции-значения действия. В частности, в настоящем варианте осуществления, политика π является многовариантным гауссовым распределением, которое определяет вероятность, которую может принимать каждая рабочая величина, которая определяет действие. Среднее значение μ(1) многовариантного гауссова распределения указывает среднее значение значения Tor* команды управления степенью открытия дросселя. Среднее значение μ(2) указывает среднее значение требуемого объема Qf впрыска. Среднее значение μ(3) указывает среднее значение значения DIN* команды управления разностью фаз на впуске. Среднее значение μ(4) указывает среднее значение распределения aig зажигания. Среднее значение μ(5) указывает среднее значение коэффициента Kp распределения объема впрыска. Помимо этого, среднее значение μ(6) указывает среднее значение значения Wgvor команды управления степенью WGV-открытия. Среднее значение μ(7) указывает среднее значение значения Pf* команды управления давлением топлива. Среднее значение μ(8) указывает среднее значение значения Egrvor команды управления степенью EGR-открытия. Среднее значение μ(9) указывает среднее значение рабочей величины Pg продувки. В настоящем варианте осуществления, помимо этого, ковариационная матрица многовариантного гауссова распределения представляет собой диагональную матрицу, и соответствующие дисперсии σ(i), соответствующие средним значениям μ(i), могут принимать различные значения.
[0108] Фиг. 12 иллюстрирует процедуры процессов, связанных с операцией управляемых узлов двигателя 10 внутреннего сгорания согласно настоящему варианту осуществления. Процессы, указываемые на фиг. 12, например, реализуются посредством CPU 92, выполняющего управляющую программу 94b, которая сохраняется в ROM 94, многократно с заданными периодами. На фиг. 12, процессам, соответствующим процессам, указываемым на фиг. 4, предоставляются идентичные номера этапов для удобства.
[0109] В последовательности процессов, указываемых на фиг. 12, CPU 92 сначала выполняет процесс на этапе S42, аналогично процессам на фиг. 4. Хотя состояние указывается как "s" на фиг. 12, что отличается от "st", которое используется на фиг. 4, это представляет собой просто варианты написания.
[0110] Затем, CPU 92 подставляет состояние s, которое получается в процессе на этапе S42, во входные переменные x(1)-x(10) модуля аппроксимации функций для задания политики π (этап S140). В частности, CPU 92 подставляет частоту NE вращения во входную переменную x(1), эффективность η нагнетания во входную переменную x(2), давление Pa наддува во входную переменную x(3), температуру Ta всасываемого воздуха во входную переменную x(4) и температуру THW воды во входную переменную x(5). CPU 92 также подставляет температуру Toil масла во входную переменную x(6), значение Afd определения на стороне ниже по потоку во входную переменную x(7), значение Afu определения на стороне выше по потоку во входную переменную x(8), рабочую величину ACCP нажатия педали акселератора во входную переменную x(9) и скорость SPD транспортного средства во входную переменную x(10).
[0111] Затем, CPU 92 вычисляет среднее значение μ(i) и дисперсию σ(i) для каждого "i=1-9" (этап S142). В настоящем варианте осуществления, среднее значение μ(i) составляется посредством нейронной сети, которая имеет "p-1" промежуточных слоев, и для которой функции h1 активации в hp-1 промежуточных слоев представляют собой гиперболические касательные, и функция hp активации выходного слоя представляет собой блок линейной ректификации (ReLu). ReLU представляет собой функцию, которая выводит одно из ввода и "0", что из них не является меньшим. Если m=1, 2, ..., p-1, значение каждого узла в m-ом промежуточном слое формируется посредством ввода вывода линейного отображения в виде карты, предписанного посредством коэффициента w (m), в функцию hm активации; n1, n2, ..., np-1 являются соответствующими числами узлов в первом, втором, ..., p-1-ом промежуточных слоях. Например, значение каждого узла в первом промежуточном слое формируется посредством ввода, в функцию h1 активации, вывода, полученного посредством ввода входных переменных x(1)-x(10) в линейное отображение в виде карты, предписанное посредством коэффициента w (1) ji (j=0-n1, i= 0-10). В этой связи, wm (1) j0 и т.д. являются параметрами смещения, и входная переменная x(0) задается как "1".
[0112] Нейронная сеть выводит среднее значение μ(i), когда вывод функции hp активации вводится в линейное отображение в виде карты, предписанное посредством коэффициента w (p) iq (i=1-9, q=0-np-1).
[0113] В настоящем варианте осуществления, помимо этого, дисперсия σ(i) представляет собой значение функции f, полученное посредством ввода, в функцию f, каждого из значений, полученных посредством линейного преобразования входных переменных x(1)-x(10) с использованием линейного отображения в виде карты, предписанного посредством коэффициента wTik (i=1-9, k=1-10). В настоящем варианте осуществления, ReLU используется в качестве функции f.
[0114] Затем, CPU 92 определяет действие a* на основе политики π, которая задается посредством среднего значения μ(i) и дисперсии σ(i), которые вычисляются в процессе на этапе S142 (этап S144). Здесь, вероятность выбора среднего значения μ(i) является наибольшей, и вероятность выбора среднего значения μ(i) является высокой в случае, если дисперсия σ(i) является низкой, по сравнению со случаем, в котором дисперсия σ(i) является высокой.
[0115] Затем, CPU 92 управляет управляемыми узлами двигателя 10 внутреннего сгорания на основе действия a*, которое выбирается в процессе на этапе S144 (этап S146) и временно завершает последовательность процессов, указываемых на фиг. 12. Фиг. 13 иллюстрирует процедуры процессов обновления политики π, выполняемой посредством устройства 90 управления. Процессы, указываемые на фиг. 13, например, реализуются посредством CPU 92, выполняющего обучающую программу 94a, которая сохраняется в ROM 94, многократно с заданными периодами.
[0116] В последовательности процессов, указываемых на фиг. 13, CPU 92 сначала вычисляет выгоду r в процессе на этапе S50a. Затем, CPU 92 суммирует выгоду r с пользой R (этап S152). CPU 92 определяет то, достигает или нет переменная t заданного времени T-1 (этап S154). В случае если определяется то, что заданное время T-1 не достигнуто (этап S154: "Нет"), CPU 92 постепенно увеличивает переменную t (этап S156).
[0117] В случае если определяется то, что заданное время T-1 достигнуто (этап S154: "Да"), наоборот, CPU 92 подставляет пользу R в пользу Ri, после этого инициализирует пользу R и дополнительно инициализирует переменную t (этап S158). Затем, CPU 92 определяет то, достигает или нет переменная i заданного значения N (этап S160). В случае если определяется то, что заданное значение N не достигнуто (этап S160: "Нет"), CPU 92 постепенно увеличивает переменную i (этап S162).
[0118] В случае если определяется то, что заданное значение N достигнуто (этап S160: "Да"), наоборот, CPU 92 обновляет переменные w(1)-w(p) и коэффициент wT, которые предписывают политику π, через градиентный метод на основе политик (этап S164). На фиг. 13, переменные w(1)-w(p) и коэффициент wT, которые предписывают политику π, совместно указываются в качестве параметра θ.
[0119] T наборов состояния s, действия и выгоды r с переменной t в пределах от 0 до T-1 задается как траектория ht. Вероятность pθ(ht) задается как вероятность pθ(ht), с которой траектория ht получается в соответствии с политикой π, которая предписывается посредством параметра θ. Здесь, интегрированное значение "pθ(ht)*Rt" относительно траектории ht является ожидаемым значением (ожидаемой пользой J) пользы R(ht), и параметр θ обновляется таким образом, чтобы максимизировать ожидаемую пользу J. Это реализуется посредством определения величины обновления для каждого компонента параметра θ как пропорциональной значению, полученному посредством частичного дифференцирования ожидаемой пользы J относительно компонента.
[0120] Вероятность pθ(ht) представляется, с использованием состояний s0, s1, ..., sT и действий a0, a1, ..., aT, в качестве pθ(ht)=p(s0)*p(s1|s0, a0)*π(a0|s0)*p(s2|s1, a1)*πa1|s1) ... p(sT|sT-1, aT-1)*π(aT-1|sT-1). Тем не менее, следует отметить, что начальная вероятность p(s0) представляет собой вероятность состояния s0, и что вероятность p(st+1|st, at) перехода представляет собой вероятность перехода из состояния st в состояние st+1 во время состояния st и действия at.
[0121] Таким образом, частный дифференциал ожидаемой пользы J представляется посредством следующей формулы (c1).
[0122] выражение 1
Вероятность pθ(ht) не может быть известна. Таким образом, интеграл в формуле (c1) заменяется средним значением с множеством (заданным числом N) траекторий ht.
[0123] Следовательно, частный дифференциальный коэффициент ожидаемой пользы J относительно каждого компонента параметра θ представляет собой значение, полученное посредством суммирования, для заданного числа N прибылей Ri, произведения пользы Ri и суммы частного дифференциального коэффициента логарифма политики π(at|ht(i)) относительно соответствующего компонента параметра θ для "t=0 в T-1" и деления результирующей суммы на заданное число N.
[0124] CPU 92 использует значение, полученное посредством умножения частного дифференциального коэффициента ожидаемой пользы J относительно каждого компонента параметра θ на темп α обучения в качестве величины обновления для соответствующего компонента параметра θ. Процессы на этапе S152-S164 реализуются посредством выполнения исполняемой команды в обучающей программе 94a, которая сохраняется в ROM 94, чтобы выполнять отображение в виде карты для обновления, в которое вводятся состояния s0, s1, ..., действия a0, a1, ... и выгоду r и которое выводит обновленный параметр θ.
[0125] В случае если процесс на этапе S164 завершается, CPU 92 инициализирует переменную i и пользу R1 равной RN (этап S166). CPU 92 временно завершает последовательность процессов, указываемых на фиг. 13, в случае, если процесс на этапе S156, S162 или S166 завершается.
[0126] В этой связи, при выполнении стимулированного обучения в первый раз, начальное значение среднего значения μ(i) может задаваться, например, следующим образом. Таким образом, при задании состояния s и действия a в ходе работы двигателя внутреннего сгорания, которое имеет идентичный рабочий объем и идентичные управляемые узлы с двигателем 10 внутреннего сгорания, и для которого управляющие спецификации уже определены в качестве обучающих данных, параметр θ, связанный со средним значением μ(i), может изучаться таким образом, чтобы уменьшать абсолютное значение разности между средним значением μ(i) и обучающими данными. Между тем, дисперсия σ(i) может задаваться таким образом, что, например, диапазон приблизительно в плюс/минус десять процентов относительно среднего значения μ(i) исследуется в достаточной степени.
[0127] Таким образом, в настоящем варианте осуществления, состояние и действие, которые представляются посредством непрерывных переменных, могут обрабатываться легко посредством использования модуля аппроксимации функций.
Четвертый вариант осуществления
[0128] Ниже описывается четвертый вариант осуществления со ссылкой на чертежи, главным образом относительно отличий от третьего варианта осуществления. Хотя транспортное средство VC1, которое включает в себя только двигатель 10 внутреннего сгорания в качестве устройства генерирования осевого давления для транспортного средства VC1, указывается в третьем варианте осуществления, последовательно-параллельное гибридное транспортное средство, которое включает в себя электромотор/генератор в качестве устройства генерирования осевого давления в дополнение к двигателю 10 внутреннего сгорания, указывается в настоящем варианте осуществления.
[0129] Фиг. 14 иллюстрирует устройство управления и приводную систему согласно настоящему варианту осуществления. На фиг. 14, элементам, соответствующим элементам, проиллюстрированным на фиг. 8, предоставляются идентичные ссылки с номерами для удобства. Как проиллюстрировано на чертеже, коленчатый вал 32 механически сцепляется с водилом (указываемым в качестве "C" на чертеже) планетарного зубчатого механизма 160, который служит в качестве механизма деления мощности. Вращательный вал первого электромотора/генератора 162 механически сцепляется с солнечной шестерней (указываемой в качестве "S" на чертеже) планетарного зубчатого механизма 160. Вращательный вал второго электромотора/генератора 166 механически сцепляется с коронной шестерней (указываемой в качестве "R" на чертеже) планетарного зубчатого механизма 160. Постоянное напряжение аккумулятора 170 преобразуется посредством инвертора 164 в переменное напряжение, которое должно прикладываться к контактному выводу первого электромотора/генератора 162. Постоянное напряжение аккумулятора 170 преобразуется посредством инвертора 168 в переменное напряжение, которое должно прикладываться к контактному выводу второго электромотора/генератора 166.
[0130] Устройство 90 управления управляет первым электромотором/генератором 162 и вторым электромотором/генератором 166 и управляет инверторами 164 и 168, чтобы управлять их величинами управления (такими как крутящий момент). При управлении величинами управления, устройство 90 управления обращается к зарядному/разрядному току I аккумулятора 170, определенному посредством датчика 180 тока, напряжению Vb на контактных выводах аккумулятора 170, определенному посредством датчика 182 напряжения, и температуре Tbatt аккумулятора, определенной посредством температурного датчика 184. Устройство 90 управления также обращается к частоте вращения (частоте ωmg1 вращения первого MG) вращательного вала первого электромотора/генератора 162, определенной посредством первого датчика 186 частоты вращения, и частоте вращения (частоте ωmg2 вращения второго MG) вращательного вала второго электромотора/генератора 166, определенной посредством второго датчика 188 частоты вращения.
[0131] Фиг. 15 иллюстрирует процедуры процессов, связанных с операцией управляемых узлов двигателя 10 внутреннего сгорания и инверторов 164 и 168 посредством устройства 90 управления. Процессы, указываемые на фиг. 15, например, реализуются посредством CPU 92, выполняющего управляющую программу 94b, которая сохраняется в ROM 94, многократно с заданными периодами. На фиг. 15, процессам, соответствующим процессам, указываемым на фиг. 12, предоставляются идентичные номера этапов для удобства.
[0132] В последовательности процессов, указываемых на фиг. 15, CPU 92 сначала получает состояние s (этап S42a). Здесь, скорость SOC заряда аккумулятора 170, температура Tbatt аккумулятора, частота ωmg1 вращения первого MG и частота ωmg2 вращения второго MG получаются в дополнение к значениям переменных, которые получаются в процессе на этапе S42. Скорость SOC заряда вычисляется посредством CPU 92 на основе взаимосвязи между напряжением на открытом конце и скоростью SOC заряда в соответствии с напряжением Vb на контактных выводах в то время, когда зарядный/разрядный ток I является низким, и обновляется в соответствии с зарядным/разрядным током I в каждое время.
[0133] Затем, CPU 92 подставляет значения, полученные в процессе на этапе S42a, во входные переменные x модуля аппроксимации функций для определения среднего значения μ(i) и дисперсии σ(i) (этап S140a). Входные переменные x(1)-x(10) являются идентичными переменным, используемым в процессе на этапе S140. Между тем, CPU 92 подставляет скорость SOC заряда во входную переменную x(11), температуру Tbatt аккумулятора во входную переменную x(12), частоту ωmg1 вращения первого MG во входную переменную x(13) и частоту ωmg2 вращения второго MG во входную переменную x(14).
[0134] CPU 92 вычисляет средние значения μ(1)-μ(11) и дисперсии σ(1)-σ(11) посредством подстановки входных переменных x(1)-x(14) в модуль аппроксимации функций (этап S142a). Среднее значение μ(10) представляет собой среднее значение крутящего момента Tmg1 первого MG, который представляет собой крутящий момент первого электромотора/генератора 162. Среднее значение μ(11) представляет собой среднее значение крутящего момента Tmg2 второго MG, который представляет собой крутящий момент второго электромотора/генератора 166. Модуль аппроксимации функций согласно настоящему варианту осуществления является идентичным модулю аппроксимации функций, используемому в процессе на этапе S142, за исключением числа размерностей входных переменных x.
[0135] Затем, CPU 92 определяет действие a*, состоящее из девяти рабочих величин управляемых узлов двигателя 10 внутреннего сгорания, крутящего момента Tmg1 первого MG и крутящего момента Tmg2 второго MG на основе политики π (этап S144a). CPU 92 управляет управляемыми узлами двигателя 10 внутреннего сгорания и инверторов 164 и 168 на основе действия a* (этап S146). CPU 92 управляет инвертором 164 таким образом, что крутящий момент первого электромотора/генератора 162 приводится к крутящему моменту Tmg1 первого MG, и управляет инвертором 168 таким образом, что крутящий момент второго электромотора/генератора 166 приводится к крутящему моменту Tmg2 второго MG. CPU 92 временно завершает последовательность процессов, указываемых на фиг. 15, в случае, если процесс на этапе S146 завершается.
[0136] CPU 92 обновляет параметр θ посредством процессов, которые являются аналогичными процессам на фиг. 13. Тем не менее, следует отметить, что CPU 92 выполняет процессы, указываемые на фиг. 16, вместо процесса на этапе S50a, в качестве процесса вычисления выгоды r.
[0137] Фиг. 16 иллюстрирует подробности процесса вычисления выгоды r согласно настоящему варианту осуществления. На фиг. 16, процессам, соответствующим процессам, указываемым на фиг. 11, предоставляются идентичные номера этапов для удобства.
[0138] В последовательности процессов, указываемых на фиг. 16, CPU 92 сначала получает значения переменных, которые используются для того, чтобы вычислять выгоду r (этап S60b). CPU 92 получает значение Ptot* требуемой выходной мощности (значение Trq* требуемого движущего крутящего момента) транспортного средства VC1, выходную мощность Ptot (движущий крутящий момент Trq), скорость SOC заряда и температуру Tbatt аккумулятора, в дополнение к значениям переменных, полученных в процессе на этапе S60a, отличным от значения Trqeg* требуемого крутящего момента двигателя (значения Peg* требуемой выходной мощности двигателя). Выходная мощность Ptot представляет собой сумму выходной мощности двигателя 10 внутреннего сгорания, выходной мощности первого электромотора/генератора 162 и выходной мощности второго электромотора/генератора 166. Тем не менее, следует отметить, что эти три вывода включают в себя выводы с различными знаками, если все три вывода не равны нулю, вследствие характера планетарного зубчатого механизма 160. Помимо этого, выходная мощность первого электромотора/генератора 162 может вычисляться, например, посредством умножения крутящего момента Tmg1 первого MG на частоту ωmg1 вращения первого MG. Между тем, движущий крутящий момент Trq может вычисляться посредством преобразования каждого из крутящего момента Trqeg двигателя, крутящего момента Tmg1 первого MG и крутящего момента Tmg2 второго MG в крутящий момент ведущих колес 88.
[0139] После выполнения процессов на этапе S62a и S64-S76, CPU 92 определяет то, равно или меньше либо нет абсолютное значение разности между выходной мощностью Ptot и значением Ptot* требуемой выходной мощности транспортного средства VC1 заданной величины ΔPtot (этап S78a). В случае если движущий крутящий момент Trq и значение Trq* требуемого движущего крутящего момента получаются в процессе на этапе S60b, в процессе на этапе S78a может определяться то, равно или меньше либо нет абсолютное значение разности между движущим крутящим моментом Trq и значением Trq* требуемого движущего крутящего момента заданной величины ΔTrq.
[0140] В случае если положительное определение выполняется в процессе на этапе S78a, CPU 92 переходит к процессу на этапе S80. В случае если отрицательное определение выполняется в процессе на этапе S78a, с другой стороны, CPU 92 переходит к процессу на этапе S82. В случае если процесс на этапе S80 или S82 завершается, CPU 92 определяет то, скорость SOC заряда равна или больше нижнего предельного значения SOCL и равна или меньше верхнего предельного значения SOCH (этап S170) либо нет. В случае если скорость SOC заряда меньше нижнего предельного значения SOCL или больше верхнего предельного значения SOCH (этап S172: "Нет"), CPU 92 вычитает заданную величину Δ из выгоды r, чтобы выдавать отрицательную выгоду (этап S172). CPU 92 задает заданную величину Δ равной большому значению в случае, если величина, на которую скорость SOC заряда меньше нижнего предельного значения SOCL, является большой, по сравнению со случаем, в котором такая величина является небольшой. Между тем, CPU 92 задает заданную величину Δ равной большому значению в случае, если величина, на которую скорость SOC заряда превышает верхнее предельное значение SOCH, является большой по сравнению со случаем, в котором такая величина является небольшой.
[0141] В случае если положительное определение выполняется в процессе на этапе S170, или в случае, если процесс на этапе S172 завершается, CPU 92 определяет то, равна или меньше либо нет температура Tbatt аккумулятора верхней предельной температуры TbattH (этап S174). В случае если определяется то, что температура Tbatt аккумулятора превышает верхнюю предельную температуру TbattH (этап S174: "Нет"), CPU 92 прибавляет "-10" к выгоде r (этап S176).
[0142] CPU 92 временно завершает последовательность процессов, указываемых на фиг. 16, в случае, если положительное определение выполняется в процессе на этапе S174, или в случае, если процесс на этапе S176 завершается.
Пятый вариант осуществления
[0143] Ниже описывается пятый вариант осуществления со ссылкой на чертежи, главным образом относительно отличий от четвертого варианта осуществления. В настоящем варианте осуществления, параметр θ обновляется за пределами транспортного средства VC1. Фиг. 17 иллюстрирует конфигурацию системы управления, которая выполняет стимулированное обучение согласно настоящему варианту осуществления. На фиг. 17, элементам, соответствующим элементам, проиллюстрированным на фиг. 14, предоставляются идентичные ссылки с номерами для удобства.
[0144] ROM 94 в устройстве 90 управления в транспортном средстве VC1, проиллюстрированном на фиг. 17, сохраняет управляющую программу 94b, но не сохраняет обучающую программу 94a. Между тем, устройство 96 хранения данных сохраняет данные 96a предписаний по взаимосвязям, но не сохраняет картографические данные 96c для вывода PM-количества или картографические данные 96d для вывода крутящего момента. Помимо этого, устройство 90 управления включает в себя устройство 97 связи. Устройство 97 связи представляет собой устройство, которое обменивается данными с центром 200 анализа данных через сеть 190, которая является внешней для транспортного средства VC1.
[0145] Центр 200 анализа данных анализирует данные, передаваемые из множества транспортных средств VC1, VC2, .... Центр 200 анализа данных включает в себя CPU 202, ROM 204, устройство 206 хранения данных, периферийную схему 208 и устройство 207 связи, которые могут обмениваться данными между собой через локальную сеть 209. ROM 204 сохраняет обучающую программу 94a. Устройство 206 хранения данных сохраняет картографические данные 96c для вывода PM-количества и картографические данные 96d для вывода крутящего момента.
[0146] Фиг. 18 иллюстрируют процедуры процессов для стимулированного обучения согласно настоящему варианту осуществления. Процессы, указываемые на блок-схеме последовательности операций способа в левой части фиг. 18, реализуются посредством CPU 92, выполняющего управляющую программу 94b, которая сохраняется в ROM 94, проиллюстрированном на фиг. 17. Между тем, процессы, указываемые на блок-схеме последовательности операций способа в правой части фиг. 18, реализуются посредством CPU 202, выполняющего обучающую программу 94a, которая сохраняется в ROM 204. На фиг. 18, процессам, соответствующим процессам, указываемым на фиг. 13 и 15, предоставляются идентичные номера этапов для удобства. Ниже описываются процессы, указываемые на фиг. 18, согласно хронологическому порядку стимулированного обучения.
[0147] В последовательности процессов, указываемых на блок-схеме последовательности операций способа в левой части фиг. 18, CPU 92 сначала получает состояние (этап S42b). В настоящем варианте осуществления, значения переменных, которые являются идентичными переменным, значения которых получаются в процессе на этапе S42a, получаются, но хронологические данные получаются для частоты NE вращения и эффективности η нагнетания. Таким образом, хронологические данные, состоящие из шести дискретизированных значений "NE(1), NE(2), ..., NE(6)", получаются в качестве хронологических данных относительно частоты NE вращения, и хронологические данные, состоящие из шести дискретизированных значений "η(1), η(2), ..., η(6)", получаются в качестве хронологических данных относительно эффективности η нагнетания.
[0148] Затем, CPU 92 подставляет значения переменных, полученных в процессе на этапе S42b, во входные переменные x модуля аппроксимации функций (этап S140b). Таким образом, CPU 92 подставляет частоту NE(m) вращения во входную переменную x(m) и эффективность η(m) нагнетания во входную переменную x(6+m) при "m=1-6". CPU 92 также подставляет давление Pa наддува во входную переменную x(13), температуру Ta всасываемого воздуха во входную переменную x(14) и температуру THW воды во входную переменную x(15). CPU 92 также подставляет температуру Toil масла во входную переменную x(16), значение Afd определения на стороне ниже по потоку во входную переменную x(17), значение Afu определения на стороне выше по потоку во входную переменную x(18), рабочую величину ACCP нажатия педали акселератора во входную переменную x(19) и скорость SPD транспортного средства во входную переменную x(20). CPU 92 подставляет скорость SOC заряда во входную переменную x(21), температуру Tbatt аккумулятора во входную переменную x(22), частоту ωmg1 вращения первого MG во входную переменную x(23) и частоту ωmg2 вращения второго MG во входную переменную x(24).
[0149] CPU 92 вычисляет средние значения μ(1)-μ(11) и дисперсии σ(1)-σ(11) (этап S142b) посредством подстановки входных переменных x(1)-x(24), которые получаются в процессе на этапе S140b, в модуль аппроксимации функций, который выражает средние значения μ(1)-μ(11) и дисперсии σ(1)-σ(11). Модуль аппроксимации функций согласно настоящему варианту осуществления является идентичным модулю аппроксимации функций, используемому в процессе на этапе S142a, за исключением числа размерностей входных переменных x.
[0150] Затем, CPU 92 определяет действие a* на основе политики π (этап S144b), выполняет процесс на этапе S146 и управляет устройством 97 связи таким образом, чтобы передавать состояние s, действие a* и данные, требуемые для того, чтобы вычислять выгоду, r в центр 200 анализа данных (этап S180a). Данные, требуемые для того, чтобы вычислять выгоду r, включают в себя хронологические данные относительно распределения aig зажигания в качестве значений переменной для вычисления PM-количества Qpm, хронологические данные относительно требуемого объема Qf впрыска и разности DIN фаз на впуске в качестве значения переменной для вычисления крутящего момента Trqeg двигателя. Данные, требуемые для того, чтобы вычислять выгоду r, также включают в себя хронологические данные относительно ускорения Gx в направлении спереди назад и звукового давления SP. Для других входных переменных в процессах, указываемых на фиг. 9, значения для состояния s используются.
[0151] Между тем, как проиллюстрировано на блок-схеме последовательности операций способа в правой части фиг. 18, CPU 202 принимает передаваемые данные (этап S190). CPU 202 вычисляет выгоду на основе принимаемых данных посредством процессов на фиг. 16 (этап S50b) и выполняет процессы на этапе S152-S166. Затем, CPU 202 определяет то, равно или больше либо нет число обновлений, выполняемых в процессе на этапе S164 после того, как выполняется процесс на этапе S194, который поясняется ниже, или число обновлений, выполняемых в процессе на этапе S164 после того, как сначала выполняются процессы на блок-схеме последовательности операций способа в правой части фиг. 18, заданного числа раз (этап S192). В случае если определяется то, что число обновлений равно или больше заданного числа раз (этап S192: "Да"), CPU 202 управляет устройством 207 связи таким образом, чтобы передавать обновленный параметр θ (этап S194). CPU 202 временно завершает процессы на блок-схеме последовательности операций способа в правой части фиг. 18 в случае, если процесс на этапе S156, S162 или S194 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S192. В этой связи, при поставке транспортных средств VC1, VC2, ... и т.д., параметр θ, который сохраняется в устройстве 96 хранения данных в транспортных средствах VC1, VC2, ..., сохраняется в устройстве 206 хранения данных.
[0152] Между тем, как проиллюстрировано на блок-схеме последовательности операций способа в левой части фиг. 18, CPU 92 определяет то, имеются или нет какие-либо данные обновления для параметра θ (этап S182), и в случае если определяется то, что имеются какие-либо такие данные (этап S182: "Да"), принимает данные обновления, связанные с параметром θ (этап S184). CPU 92 обновляет данные 96a предписаний по взаимосвязям с использованием принимаемого параметра θ (этап S186). CPU 92 временно завершает последовательность процессов, указываемых на блок-схеме последовательности операций способа в левой части фиг. 18, в случае, если процесс на этапе S186 завершается, или в случае, если отрицательное определение выполняется в процессе на этапе S182.
[0153] Таким образом, в настоящем варианте осуществления, вычислительная нагрузка на устройство 90 управления может уменьшаться посредством центра 200 анализа данных, обновляющего параметр θ. Согласно настоящему варианту осуществления, описанному выше, дополнительно могут получаться следующие функции и преимущества.
[0154] (4) Центр 200 анализа данных обновляет параметр θ на основе данных из множества транспортных средств VC1, VC2, .... Следовательно, частота обновлений параметра θ может увеличиваться.
[0155] (5) Входные переменные x для политики π включают в себя хронологические данные относительно частоты NE вращения и эффективности η нагнетания в качестве переменных рабочей точки, которые представляют собой переменные, которые предписывают рабочие точки двигателя 10 внутреннего сгорания. В предшествующем уровне техники с учетом того факта, что число человеко-часов, расходуемых экспертом для того, чтобы адаптировать взаимосвязь между состоянием двигателя 10 внутреннего сгорания и рабочими величинами управляемых узлов двигателя 10 внутреннего сгорания, увеличивается экспоненциально по мере того, как число размерностей состояния двигателя 10 внутреннего сгорания становится больше, одно дискретизированное значение использовано для каждой из величин, характеризующих состояние в качестве состояния двигателя 10 внутреннего сгорания. Тем не менее, это осуществлено просто с учетом числа человеко-часов, расходуемых для адаптации, и не обязательно является надлежащим для того, чтобы максимизировать уровень расхода топлива, характеристики выхлопных газов и общую характеристику управляемости. В настоящем варианте осуществления, наоборот, решения, которые не могут получаться посредством адаптации посредством предшествующего уровня техники, могут получаться посредством использования хронологических данных при задании рабочих величин управляемых узлов.
Шестой вариант осуществления
[0156] Ниже описывается шестой вариант осуществления со ссылкой на чертежи, главным образом относительно отличий от пятого варианта осуществления.
[0157] В настоящем варианте осуществления, действие a* вычисляется за пределами транспортного средства VC1, в дополнение к обновлению параметра θ за пределами транспортного средства VC1. Фиг. 19 иллюстрирует конфигурацию системы управления, которая выполняет стимулированное обучение согласно настоящему варианту осуществления. На фиг. 19, элементам, соответствующим элементам, проиллюстрированным на фиг. 17, предоставляются идентичные ссылки с номерами для удобства.
[0158] В транспортном средстве VC1, как проиллюстрировано на фиг. 19, ROM 94 сохраняет управляющую подпрограмму 94c. Между тем, устройство 96 хранения данных не сохраняет данные 96a предписаний по взаимосвязям. С другой стороны, ROM 204 центра 200 анализа данных сохраняет основную управляющую программу 204a, в дополнение к обучающей программе 94a. Между тем, устройство 206 хранения данных сохраняет данные 96a предписаний по взаимосвязям.
[0159] Фиг. 20 иллюстрируют процедуры процессов для стимулированного обучения согласно настоящему варианту осуществления. Процессы, указываемые на блок-схеме последовательности операций способа в левой части фиг. 20, реализуются посредством CPU 92, выполняющего управляющую подпрограмму 94c, которая сохраняется в ROM 94, проиллюстрированном на фиг. 19. Между тем, процессы, указываемые на блок-схеме последовательности операций способа в правой части фиг. 20, реализуются посредством CPU 202, выполняющего основную управляющую программу 204a и обучающую программу 94a, которые сохраняются в ROM 204. На фиг. 20, процессам, соответствующим процессам, указываемым на фиг. 18, предоставляются идентичные номера этапов для удобства. Ниже описываются процессы, указываемые на фиг. 20, согласно хронологическому порядку стимулированного обучения.
[0160] В последовательности процессов, указываемых на блок-схеме последовательности операций способа в левой части фиг. 20, CPU 92 управляет устройством 97 связи таким образом, чтобы передавать состояние s, полученное в процессе на этапе S42b (этап S200), когда завершается процесс на этапе S42b.
[0161] Между тем, как проиллюстрировано на блок-схеме последовательности операций способа в правой части фиг. 20, CPU 202 принимает состояние s (этап S210). CPU 202 выполняет процессы на этапе S140b, S142b и S144b и управляет устройством 207 связи таким образом, чтобы передавать действие a*, определенное в процессе на этапе S144b, отправителю данных, принимаемых в процессе на этапе S210 (этап S212).
[0162] Между тем, как проиллюстрировано на блок-схеме последовательности операций способа в левой части фиг. 20, CPU 92 принимает действие a* (этап S202). CPU 92 выполняет процесс на этапе S146 на основе принимаемого действия a*. CPU 92 управляет устройством 97 связи таким образом, чтобы передавать данные, требуемые для того, чтобы вычислять выгоду r (этап S180b). CPU 92 временно завершает последовательность процессов, указываемых на блок-схеме последовательности операций способа в левой части фиг. 20, в случае, если процесс на этапе S180b завершается.
[0163] Наоборот, как проиллюстрировано на блок-схеме последовательности операций способа в правой части фиг. 20, CPU 202 принимает передаваемые данные (этап S214), выполняет процессы на этапе S50b и S152-S166 и временно завершает последовательность процессов, указываемых на блок-схеме последовательности операций способа в правой части фиг. 20.
[0164] Таким образом, в настоящем варианте осуществления, вычислительная нагрузка на стороне транспортного средства VC1 может уменьшаться посредством центра 200 анализа данных, выполняющего процесс определения действия a*.
[0165] Первый режим изобретения относится к способу генерирования управляющих данных транспортного средства. Способ генерирования управляющих данных транспортного средства включает в себя: сохранение, с помощью устройства хранения данных, данных предписаний по взаимосвязям, которые представляют собой данные, которые предписывают взаимосвязь между состоянием транспортного средства, которое включает в себя двигатель внутреннего сгорания, и рабочей величиной управляемого узла двигателя внутреннего сгорания, причем состояние транспортного средства включает в себя состояние двигателя внутреннего сгорания; управление, с помощью устройства выполнения, управляемым узлом; получение, с помощью устройства выполнения, значения определения от датчика, которое определяет состояние транспортного средства; вычисление, с помощью устройства выполнения, выгоды с точки зрения, по меньшей мере, одного из уровня расхода топлива, характеристики выхлопных газов и общей характеристики управляемости на основе значения определения; и обновление, с помощью устройства выполнения, данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, определенного заранее, причем отображение в виде карты для обновления использует состояние транспортного средства на основе значения определения, рабочую величину, которая используется для того, чтобы управлять управляемым узлом, и выгода, соответствующая операции, в качестве аргументов, и возврат данных предписаний по взаимосвязям, которые обновлены таким образом, что ожидаемая польза для выгоды, вычисленной, когда управляемый узел управляется в соответствии с данными предписаний по взаимосвязям, увеличивается. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных в случае фиг. 1, 8 и 14. Устройство выполнения и устройство хранения данных также примерно иллюстрируются посредством CPU 152 и ROM 154 и устройства 156 хранения данных в случае фиг. 3. Устройство выполнения и устройство хранения данных также примерно иллюстрируются посредством CPU 92, 202 и ROM 94, 204 и устройства 96, 206 хранения данных в случае фиг. 17 и 19. Отображение в виде карты для обновления примерно иллюстрируется посредством отображения в виде карты, которое используется в процессах на этапе S52 и S54, и отображения в виде карты, которое используется в процессах на этапе S132-S136, предписанных посредством обучающей программы 94a на фиг. 1 и обучающей программы 154a на фиг. 3. Отображение в виде карты для обновления также примерно иллюстрируется посредством отображения в виде карты, которое используется в процессах на этапе S52 и S54, отображения в виде карты, которое используется в процессах на этапе S132-S136, и отображения в виде карты, которое используется в процессе на этапе S164, предписанном посредством обучающей программы 94a на фиг. 8 и 14. Отображение в виде карты для обновления также примерно иллюстрируется посредством отображения в виде карты, которое используется в процессе на этапе S164, предписанном посредством обучающей программы 94a на фиг. 17 и 19. Операция примерно иллюстрируется посредством процесса на этапе S46, процесса на этапе S116 и процесса на этапе S146. Получение примерно иллюстрируется посредством процессов на этапе S42 и S60, процесса на этапе S112, процессов на этапе S42 и S60a, процессов на этапе S42a и S60b и процессов на этапе S42b и S60b. Вычисление выгоды примерно иллюстрируется посредством процесса на этапе S50, процессов на этапе S120-S126, процесса на этапе S50a и процессов на фиг. 16. Обновление примерно иллюстрируется посредством процессов на этапе S52 и S54, процессов на этапе S128-S136 и процесса на этапе S164.
[0166] В первом режиме, описанном выше, выгода может быть большей, когда характеристика выхлопных газов соответствует заданной характеристике, чем тогда, когда характеристика выхлопных газов не соответствует заданной характеристике. Заданная характеристика может включать в себя, по меньшей мере, одно из количества выбросов, попадающего в пределы заданного диапазона оксидов азота, количества выбросов, попадающего в пределы заданного диапазона несгоревшего топлива, количества выбросов, попадающего в пределы заданного диапазона твердых частиц, и температуры катализатора, предоставленного в выхлопном канале двигателя внутреннего сгорания, попадающей в пределы заданного диапазона. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на этапе S62-S66 и процессов на этапе S62a, S64 и S66.
[0167] В первом режиме, описанном выше, устройство выполнения может вычислять выгоду таким образом, что, по меньшей мере, одно из следующих условий удовлетворяется: выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда ускорение транспортного средства попадает в первый заданный диапазон, чем тогда, когда ускорение транспортного средства находится за пределами первого заданного диапазона; выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда рывок транспортного средства попадает во второй заданный диапазон, чем тогда, когда рывок находится за пределами второго заданного диапазона; и выгода, которая количественно определена с точки зрения общей характеристики управляемости, больше, когда уровень звука, сформированного посредством двигателя внутреннего сгорания, попадает в третий заданный диапазон, чем тогда, когда уровень звука находится за пределами третьего заданного диапазона. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на этапе S72-S76.
[0168] Способ генерирования управляющих данных транспортного средства согласно первому режиму, описанному выше, дополнительно может включать в себя генерирование, с помощью устройства выполнения, управляющих картографических данных с использованием состояния транспортного средства в качестве аргумента и возврат рабочей величины, которая максимизирует ожидаемую пользу посредством задания соответствия "один-к-одному" между состоянием транспортного средства и рабочей величиной, которая максимизирует ожидаемую пользу на основе данных предписаний по взаимосвязям, которые обновляются. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на фиг. 6. В частности, устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 152 и ROM 154 и устройства 156 хранения данных, соответственно. Управляющие картографические данные примерно иллюстрируются посредством картографических данных 96b.
[0169] Второй режим изобретения относится к устройству управления транспортного средства. Устройство управления транспортного средства включает в себя устройство хранения данных и устройство выполнения согласно первому режиму, описанному выше. В устройстве управления транспортного средства, устройство выполнения выполнено с возможностью управлять управляемым узлом на основе рабочей величины, которая определяется в соответствии с данными предписаний по взаимосвязям и состоянием транспортного средства. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных, соответственно.
[0170] Во втором режиме, описанном выше, устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, требуемое значение и вычисленное значение, по меньшей мере, одного из выходной мощности и крутящего момента двигателя внутреннего сгорания и вычислять выгоду таким образом, что выгода больше, когда абсолютное значение разности между требуемым значением и вычисленным значением равно или меньше заданного значения, чем тогда, когда абсолютное значение превышает заданное значение. Получение примерно иллюстрируется посредством процесса на этапе S60a. Вычисление выгоды примерно иллюстрируется посредством процессов на этапе S78-S82.
[0171] Во втором режиме, описанном выше, транспортное средство может включать в себя трансмиссию, выполненную с возможностью изменять частоту вращения, выводимую из коленчатого вала двигателя внутреннего сгорания, и выводить вращение, имеющее измененную частоту, и выполненную с возможностью изменять передаточное отношение. Взаимосвязь, которая предписывается посредством данных предписаний по взаимосвязям, может включать в себя взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии. Устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, значение, определенное посредством датчика, выполненного с возможностью определять состояние трансмиссии, вычислять выгоду таким образом, что, по меньшей мере, одно из следующих условий удовлетворяется: выгода больше, когда время, требуемое для трансмиссии, чтобы переключать передаточное отношение, попадает в пределы заданного времени, чем тогда, когда время превышает заданное время; выгода больше, когда абсолютное значение скорости изменения частоты вращения входного вала трансмиссии равно или меньше заданного значения на входной стороне, чем тогда, когда абсолютное значение скорости изменения частоты вращения входного вала превышает заданное значение на входной стороне; выгода больше, когда абсолютное значение скорости изменения частоты вращения для вращения выходного вала трансмиссии равно или меньше заданного значения на выходной стороне, чем тогда, когда абсолютное значение скорости изменения частоты вращения для вращения выходного вала превышает заданное значение на выходной стороне; и выгода больше, когда гидравлическое давление, отрегулированное посредством соленоидного клапана (80a) трансмиссии, удовлетворяет заданному условию, чем тогда, когда гидравлическое давление не удовлетворяет заданному условию, и обновлять взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии, предписанной посредством данных предписаний по взаимосвязям, посредством использования значения определения, и связанной с состоянием трансмиссии в качестве аргумента отображения в виде карты для обновления. Данные предписаний по взаимосвязям примерно иллюстрируются посредством данных 96a предписаний по взаимосвязям на фиг. 1 и 8. Состояние трансмиссии примерно иллюстрируется посредством частоты ωin вращения входного вала, частоты ωout вращения выходного вала, гидравлического давления Poila и гидравлического давления Poilb. Рабочая величина примерно иллюстрируется посредством значений ia* и ib* команд управления соленоидным током.
[0172] Во втором режиме, описанном выше, транспортное средство может включать в себя, транспортное средство может включать в себя вращающуюся электрическую машину, выполненную с возможностью предоставлять мощность на ведущие колеса. Взаимосвязь, которая предписывается посредством данных предписаний по взаимосвязям, может включать в себя взаимосвязь между состоянием устройства накопления мощности, которое подает электрическую мощность во вращающуюся электрическую машину, и величиной управления вращающейся электрической машины. Устройство выполнения выполнено с возможностью управлять схемой приведения в действие вращающейся электрической машины, получать состояние устройства накопления мощности в качестве значения определения, вычислять выгоду таким образом, что выгода больше, когда состояние устройства накопления мощности попадает в пределы заданного диапазона, чем тогда, когда состояние устройства накопления мощности находится за пределами заданного диапазона, и обновлять взаимосвязь между состоянием устройства накопления мощности и величиной управления вращающейся электрической машины, предписанной посредством данных предписаний по взаимосвязям, посредством использования состояния устройства накопления мощности и величины управления вращающейся электрической машины в качестве аргументов отображения в виде карты для обновления. Устройство накопления мощности примерно иллюстрируется посредством аккумулятора 170. Состояние устройства накопления мощности примерно иллюстрируется посредством температуры Tbatt аккумулятора и скорости SOC заряда.
[0173] Во втором режиме, описанном выше, устройство выполнения может быть выполнено с возможностью получать, в качестве значения определения, требуемое значение и вычисленное значение, по меньшей мере, одного из выходной мощности и движущего крутящего момента транспортного средства и вычислять выгоду таким образом, что выгода больше, когда абсолютное значение разности между требуемым значением и вычисленным значением, по меньшей мере, для одного из выходной мощности и движущего крутящего момента транспортного средства равно или меньше заданного значения, чем тогда, когда абсолютное значение превышает заданное значение. Получение примерно иллюстрируется посредством процесса на этапе S60b. Вычисление выгоды примерно иллюстрируется посредством процессов на этапе S78a, S80 и S82.
[0174] Во втором режиме, описанном выше, данные предписаний по взаимосвязям могут включать в себя данные, которые предписывают взаимосвязь между состоянием транспортного средства, ожидаемой пользой и рабочей величиной. Устройство выполнения дополнительно выполнено с возможностью выбирать рабочую величину, которая увеличивает ожидаемую пользу, приоритетно по отношению к рабочей величине, которая уменьшает ожидаемую пользу, на основе значения определения и данных предписаний по взаимосвязям. Устройство выполнения выполнено с возможностью управлять управляемым узлом на основе рабочей величины, которая выбирается. Выбор примерно иллюстрируется посредством процесса на этапе S44.
[0175] Во втором режиме, описанном выше, данные предписаний по взаимосвязям могут представлять собой данные, которые предписывают модуль аппроксимации функций, который использует состояние транспортного средства в качестве аргумента, и который возвращает вероятность выбора рабочей величины. Отображение в виде карты для обновления может включать в себя отображение в виде карты, которое возвращает величину обновления параметра, который предписывает модуль аппроксимации функций. Модуль аппроксимации функций примерно иллюстрируется посредством модуля аппроксимации функций, который выводит среднее значение μ(i) и дисперсию σ(i).
[0176] Третий режим изобретения относится к системе управления транспортного средства. Система управления транспортного средства включает в себя устройство выполнения и устройство хранения данных согласно второму режиму, описанному выше. Устройство выполнения включает в себя первое устройство выполнения, смонтированное на транспортном средстве, и второе устройство выполнения, которое является отдельным от бортовых устройств; первое устройство выполнения выполняет, по меньшей мере, получение и управление; и второе устройство выполнения выполняет, по меньшей мере, обновление. Первое устройство выполнения примерно иллюстрируется посредством CPU 92 и ROM 94. Второе устройство выполнения примерно иллюстрируется посредством CPU 202 и ROM 204.
[0177] В третьем режиме, описанном выше, первое устройство выполнения может быть дополнительно выполнено с возможностью передавать данные, связанные со значением определения, во второе устройство выполнения, принимать рабочую величину, которая передается посредством второго устройства выполнения, и управлять управляемым узлом на основе рабочей величины, которая принимается из второго устройства выполнения. Второе устройство выполнения может быть дополнительно выполнено с возможностью принимать данные, которые передаются посредством первого устройства выполнения, вычислять рабочую величину на основе данных, которые принимаются из первого устройства выполнения, и данных предписаний по взаимосвязям и передавать вычисленную рабочую величину. Передача посредством первого устройства выполнения примерно иллюстрируется посредством процесса на этапе S200. Прием посредством первого устройства выполнения примерно иллюстрируется посредством процесса на этапе S202. Прием посредством второго устройства выполнения примерно иллюстрируется посредством процесса на этапе S210. Вычисление рабочих величин примерно иллюстрируется посредством процессов на этапе S140b, S142b и S144b на блок-схеме последовательности операций способа в правой части фиг. 20. Передача посредством второго устройства выполнения примерно иллюстрируется посредством процесса на этапе S212.
[0178] Четвертый режим изобретение относится к устройству управления транспортного средства. Устройство управления транспортного средства включает в себя первое устройство выполнения согласно третьему режиму, описанному выше. Устройство управления транспортного средства примерно иллюстрируется посредством устройства 90 управления на фиг. 17 и 19.
[0179] Пятый режим изобретение относится к устройству обучения транспортного средства. Устройство обучения транспортного средства включает в себя второе устройство выполнения согласно третьему режиму, описанному выше. Устройство обучения транспортного средства примерно иллюстрируется посредством центра 200 анализа данных.
[0180] Другой режим изобретения предоставляет способ генерирования управляющих данных транспортного средства, причем способ инструктирует устройству выполнения выполнять: рабочий процесс управления трансмиссией с помощью устройства хранения данных, сохраняющего данные предписаний по взаимосвязям, причем трансмиссия представляет собой устройство, которое изменяет частоту вращения, передаваемую из коленчатого вала двигателя внутреннего сгорания, и выводит вращение, и которое имеет переменное передаточное отношение, и причем данные предписаний по взаимосвязям предписывают взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии; процесс получения для получения значения определения от датчика, которое определяет состояние трансмиссии; процесс вычисления выгоды для вычисления выгоды на основе общей характеристики управляемости транспортного средства, которое сопровождает операцию трансмиссии на основе значения определения, которое получается в процессе получения; и процесс обновления для обновления данных предписаний по взаимосвязям с использованием, в качестве вводов в отображение в виде карты для обновления, определенное заранее, состояния трансмиссии, которое основано на значении определения, которое получается в процессе получения, рабочей величине, которая используется для того, чтобы управлять трансмиссией, и выгоде, соответствующей операции, в которой отображение в виде карты для обновления выводит данные предписаний по взаимосвязям, которые обновлены таким образом, чтобы увеличивать ожидаемую пользу для выгоды для случая, в котором трансмиссия управляется в соответствии с данными предписаний по взаимосвязям. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных на фиг. 1 и 8. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S116. Процесс получения примерно иллюстрируется посредством процесса на этапе S112. Процесс вычисления выгоды примерно иллюстрируется посредством процессов на этапе S120-S126. Процесс обновления примерно иллюстрируется посредством процессов на этапе S128-S136.
[0181] С помощью конфигурации, описанной выше, можно выяснять, какое выгода может получаться через операцию управляемого узла, посредством вычисления выгоды, которая сопровождает такую операцию. Взаимосвязь между состоянием трансмиссии и рабочей величиной трансмиссии может задаваться посредством обновления данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, которое подвергнуто стимулированному обучению на основе выгоды. Таким образом, число человеко-часов, требуемых для эксперта при задании взаимосвязи между состоянием трансмиссии и рабочей величиной трансмиссии, может уменьшаться.
[0182] Еще один другой режим изобретения предоставляет способ генерирования управляющих данных транспортного средства, причем способ применяется к транспортному средству, которое включает в себя двигатель внутреннего сгорания и вращающуюся электрическую машину в качестве устройств генерирования осевого давления, и инструктирует устройству выполнения выполнять: рабочий процесс управления управляемым узлом двигателя внутреннего сгорания и схемой приведения в действие вращающейся электрической машины с помощью устройства хранения данных, сохраняющего данные предписаний по взаимосвязям, причем данные предписаний по взаимосвязям предписывают взаимосвязь между состоянием транспортного средства и рабочей величиной двигателя внутреннего сгорания и величиной управления вращающейся электрической машины; процесс получения для получения требуемого значения и вычисленного значения, по меньшей мере, одного из выходной мощности транспортного средства и движущего крутящего момента транспортного средства; процесс вычисления выгоды для предоставления, на основе требуемого значения и вычисленного значения, которые получаются в процессе получения, большей выгоды в случае, если абсолютное значение разности между вычисленным значением и требуемым значением является небольшим, по сравнению со случаем, в котором такое абсолютное значение является большим; и процесс обновления для обновления данных предписаний по взаимосвязям с использованием, в качестве вводов в отображение в виде карты для обновления, определенное заранее, состояния транспортного средства, рабочей величины управляемого узла и величины управления вращающейся электрической машины, соответствующей операции в рабочем процессе, и выгоды, соответствующей операции, в которой отображение в виде карты для обновления выводит данные предписаний по взаимосвязям, которые обновлены таким образом, чтобы увеличивать ожидаемую пользу для выгоды для случая, в котором управляемый узел и схема приведения в действие управляются в соответствии с данными предписаний по взаимосвязям. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных в случае фиг. 14. Устройство выполнения и устройство хранения данных также примерно иллюстрируются посредством CPU 92, 202 и ROM 94, 204 и устройства 96, 206 хранения данных в случае фиг. 17 и 19. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S146. Процесс получения примерно иллюстрируется посредством процесса на этапе S42a и процесса на этапе S42b. Процесс вычисления выгоды примерно иллюстрируется посредством процессов на фиг. 16.
[0183] С помощью конфигурации, описанной выше, можно выяснять, какое выгода может получаться через операцию управляемого узла, посредством вычисления выгоды, которая сопровождает такую операцию. Взаимосвязь между состоянием транспортного средства и рабочей величиной управляемого узла двигателя внутреннего сгорания и величиной управления вращающейся электрической машины может задаваться посредством обновления данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, которое подвергнуто стимулированному обучению на основе выгоды. Таким образом, число человеко-часов, требуемых для эксперта при задании взаимосвязи между состоянием транспортного средства и рабочей величиной управляемого узла двигателя внутреннего сгорания и величиной управления вращающейся электрической машины, может уменьшаться.
[0184] Еще один другой режим изобретения предоставляет способ генерирования управляющих данных транспортного средства, описанный выше, в котором процесс вычисления выгоды включает в себя процесс предоставления большого выгоды в случае, если коэффициент энергопотребления транспортного средства является низким, по сравнению со случаем, в котором коэффициент энергопотребления транспортного средства является высоким. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на этапе S68 и S70.
[0185] С помощью конфигурации, описанной выше, данные предписаний по взаимосвязям могут изучаться таким образом, чтобы уменьшать коэффициент энергопотребления транспортного средства при приведении выходной мощности или движущего крутящего момента транспортного средства к требуемому значению.
[0186] Еще один другой режим изобретения предоставляет способ генерирования управляющих данных транспортного средства, описанный выше, в котором процесс вычисления выгоды включает в себя процесс предоставления большей выгоды в случае, если скорость заряда устройства накопления мощности, которое подает электрическую мощность во вращающуюся электрическую машину, находится в пределах заданного диапазона скоростей, по сравнению со случаем, в котором скорость заряда устройства накопления мощности находится за пределами заданного диапазона скоростей. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на этапе S170 и S172. Устройство накопления мощности примерно иллюстрируется посредством аккумулятора 170.
[0187] Желательно, если скорость заряда устройства накопления мощности должна быть в заданном диапазоне скоростей. Таким образом, с помощью конфигурации, описанной выше, данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы приводить скорость заряда устройства накопления мощности в заданный диапазон скоростей, могут изучаться посредством предоставления большей выгоды в случае, если скорость заряда устройства накопления мощности находится в пределах заданного диапазона скоростей, по сравнению со случаем, в котором скорость заряда устройства накопления мощности находится за пределами заданного диапазона скоростей, через процесс вычисления выгоды.
[0188] Другой режим изобретения предоставляет способ генерирования управляющих данных транспортного средства, описанный выше, в котором процесс вычисления выгоды включает в себя процесс предоставления большей выгоды в случае, если температура устройства накопления мощности, которое подает электрическую мощность во вращающуюся электрическую машину, находится в пределах заданного диапазона температур, по сравнению со случаем, в котором температура устройства накопления мощности находится за пределами заданного диапазона температур. Конфигурация, описанная выше, примерно иллюстрируется посредством процессов на этапе S174 и S176. Устройство накопления мощности примерно иллюстрируется посредством аккумулятора 170.
[0189] Желательно, если температура устройства накопления мощности должна быть в заданном диапазоне температур. Таким образом, с помощью конфигурации, описанной выше, данные предписаний по взаимосвязям, которые являются надлежащими для того, чтобы приводить температуру устройства накопления мощности в заданный диапазон температур, могут изучаться посредством предоставления большей выгоды в случае, если температура устройства накопления мощности находится в пределах заданного диапазона температур, по сравнению со случаем, в котором температура устройства накопления мощности находится за пределами заданного диапазона температур, через процесс вычисления выгоды.
[0190] Другой режим изобретения предоставляет устройство управления транспортного средства, включающее в себя устройство выполнения и устройство хранения данных, при этом: устройство хранения данных сохраняет данные предписаний по взаимосвязям, которые предписывают взаимосвязь между состоянием транспортного средства, на котором монтируется двигатель внутреннего сгорания, рабочей величиной управляемого узла двигателя внутреннего сгорания и ожидаемой пользой для выгоды с точки зрения, по меньшей мере, одного из уровня расхода топлива двигателя внутреннего сгорания, характеристик выхлопных газов двигателя внутреннего сгорания и общей характеристики управляемости транспортного средства, на котором монтируется двигатель внутреннего сгорания; и устройство выполнения выполняет процесс получения для получения значения определения от датчика, которое определяет состояние транспортного средства, процесс выбора для выбора рабочей величины, которая максимизирует ожидаемую пользу на основе состояния транспортного средства, которое основано на значении определения, которое получается в процессе получения, и данных предписаний по взаимосвязям, и рабочий процесс управления управляемым узлом на основе рабочей величины, которая выбирается в процессе выбора. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных на фиг. 8. Процесс получения примерно иллюстрируется посредством процесса на этапе S42 на фиг. 10. Процесс выбора примерно иллюстрируется посредством процесса на этапе S44 на фиг. 10. Таким образом, хотя жадное действие не всегда выбирается в процессе на этапе S44, жадное действие выбирается в случае, если исследование не выполняется. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S46 на фиг. 10.
[0191] Данные предписаний по взаимосвязям представляют собой данные, которые предписывают взаимосвязь между состоянием транспортного средства, рабочей величиной управляемого узла и ожидаемой пользой и в силу этого могут изучаться через стимулированное обучение. Таким образом, с помощью устройства управления транспортного средства, описанного выше, число человеко-часов, требуемых для эксперта при адаптации рабочей величины управляемого узла, может уменьшаться.
[0192] Другой режим изобретения предоставляет устройство управления транспортного средства, включающее в себя устройство выполнения и устройство хранения данных, при этом: устройство хранения данных сохраняет данные предписаний по взаимосвязям, которые предписывают взаимосвязь между состоянием трансмиссии, рабочей величиной трансмиссии и ожидаемой пользой для выгоды на основе общей характеристики управляемости транспортного средства, причем трансмиссия представляет собой устройство, которое изменяет частоту вращения, передаваемую из коленчатого вала двигателя внутреннего сгорания, и выводит вращение, и которое имеет переменное передаточное отношение; и устройство выполнения выполняет процесс получения для получения значения определения от датчика, которое определяет состояние трансмиссии, процесс выбора для выбора рабочей величины, которая максимизирует ожидаемую пользу на основе значения определения, которое получается в процессе получения, и данных предписаний по взаимосвязям, и рабочий процесс управления трансмиссией на основе рабочей величины, которая выбирается в процессе выбора. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных на фиг. 1 и 8. Процесс получения примерно иллюстрируется посредством процесса на этапе S112. Процесс выбора примерно иллюстрируется посредством процесса на этапе S114. Таким образом, хотя жадное действие не всегда выбирается в процессе на этапе S114, жадное действие выбирается в случае, если исследование не выполняется. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S116.
[0193] Данные предписаний по взаимосвязям представляют собой данные, которые предписывают взаимосвязь между состоянием трансмиссии, рабочей величиной трансмиссии и ожидаемой пользой и в силу этого могут изучаться через стимулированное обучение. Таким образом, с помощью устройства управления транспортного средства, описанного выше, число человеко-часов, требуемых для эксперта при адаптации рабочей величины трансмиссии, может уменьшаться.
[0194] Еще один другой режим изобретения предоставляет устройство управления транспортного средства, включающее в себя устройство выполнения и устройство хранения данных, при этом: устройство хранения данных сохраняет данные предписаний по взаимосвязям, которые предписывают взаимосвязь между состоянием транспортного средства, на котором монтируется двигатель внутреннего сгорания, и рабочей величиной управляемого узла двигателя внутреннего сгорания, причем состояние транспортного средства включает в себя состояние двигателя внутреннего сгорания; и устройство выполнения выполняет процесс получения для получения значения определения от датчика, которое определяет состояние транспортного средства, и рабочий процесс управления управляемым узлом в соответствии с рабочей величиной управляемого узла, которая основана на значении определения, которое получается в процессе получения, и данных предписаний по взаимосвязям, при этом данные предписаний по взаимосвязям предписывают взаимосвязь между хронологическими данными, связанными с заданным состоянием транспортного средства, и рабочей величиной. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных на фиг. 17. Процесс получения примерно иллюстрируется посредством процесса на этапе S42b. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S146. Заданное состояние примерно иллюстрируется посредством частоты NE вращения и эффективности η нагнетания.
[0195] Как пояснено выше, эксперт расходует много человеко-часов для того, чтобы адаптировать рабочую величину приводной системы двигателя внутреннего сгорания и т.д., и в силу этого имеется стимул не допускать увеличения числа размерностей состояния, которые должны вводиться для того, чтобы задавать рабочую величину. Тем не менее, имеется более высокая вероятность того, что рабочая величина может задаваться более надлежащим образом, когда рабочая величина задается на основе хронологических данных, включающих в себя дискретизированные значения, которые хронологически находятся рядом друг с другом для заданного состояния, чем тогда, когда рабочая величина задается только на основе одного дискретизированного значения для состояния. Таким образом, с помощью конфигурации, описанной выше, целевое управление может выполняться более надлежащим образом посредством управления управляемым узлом с использованием рабочей величины, которая основана на хронологических данных, связанных с заданным состоянием.
[0196] Еще один другой режим изобретения предоставляет устройство управления транспортного средства, описанное выше, в котором хронологические данные включают в себя хронологические данные относительно переменной рабочей точки, которая представляет собой переменную, которая предписывает рабочую точку двигателя внутреннего сгорания. Устройство выполнения и устройство хранения данных примерно иллюстрируются посредством CPU 92 и ROM 94 и устройства 96 хранения данных на фиг. 17. Процесс получения примерно иллюстрируется посредством процесса на этапе S42b. Рабочий процесс примерно иллюстрируется посредством процесса на этапе S146. Заданное состояние примерно иллюстрируется посредством частоты NE вращения и эффективности η нагнетания.
Другие варианты осуществления
[0197] Варианты осуществления могут модифицироваться следующим образом. Варианты осуществления и следующие модификации могут комбинироваться друг с другом, если такие варианты осуществления и модификации технически не противоречат друг другу.
Данные предписаний по взаимосвязям
1. Функция-значение Q действия
[0198] Хотя функция-значение Q действия представляют собой табличную функцию в вариантах осуществления, описанных выше, изобретение не ограничено этим. Например, также может использоваться модуль аппроксимации функций.
2. Политика для указания рабочей величины
[0199] Хотя многовариантное гауссово распределение используется в качестве политики обновляться через градиентный метод на основе политик и т.д., и ковариационная матрица многовариантного гауссова распределения представляет собой диагональную матрицу, которая обеспечивает возможность независимого задания дисперсии для каждой размерности действия, изобретение не ограничено этим. Например, дисперсия может задаваться равной общему значению для каждой размерности действия. Помимо этого, не существенно то, что ковариационная матрица должна представлять собой, например, диагональную матрицу. Помимо этого, также не существенно составлять модуль аппроксимации функций, который определяет компоненты ковариационной матрицы, из линейного отображения в виде карты и функции f, в которую вводится вывод из линейного отображения в виде карты. Например, модуль аппроксимации функций может состоять из нейронной сети. Дополнительно, также не существенно то, что модуль аппроксимации функций, который определяет среднее многовариантного гауссова распределения, должен представлять собой нейронную сеть. Например, модуль аппроксимации функций может представлять собой линейную связь множества базисных функций, в которые вводятся входные переменные. Способ задания начальных значений модуля аппроксимации функций, таких как среднее значение μ(i) и дисперсия σ(i,) не ограничен способом, который использует управление для двигателя внутреннего сгорания, который адаптирован и который имеет идентичный рабочий объем и идентичные управляемые узлы с двигателем 10 внутреннего сгорания.
3. Состояние
[0200] Катализатор 38 может включать в себя фильтр, который улавливает PM, и количество (осажденное PM-количество) PM, осаждаемых на фильтре, может быть включено, например, в состояние. Следовательно, управление, которое не задает осажденное PM-количество чрезмерно большим, может изучаться легко через стимулированное обучение посредством предоставления высокой выгоды для действия, чтобы выполнять процесс рекуперации фильтра в случае, если осажденное PM-количество является большим. Осажденное PM-количество может оцениваться, например, на основе рабочего состояния и т.д. двигателя 10 внутреннего сгорания.
[0201] Помимо этого, объем отравления серой катализатора 38 может быть включен, например, в состояние. Следовательно, управление, которое не задает объем отравления серой чрезмерно большим, может изучаться легко через стимулированное обучение посредством предоставления высокой выгоды для действия, чтобы выполнять процесс рекуперации катализатора 38 в случае, если объем отравления серой является большим. Объем отравления серой может оцениваться, например, на основе требуемого объема Qf впрыска и т.д.
[0202] В случае если рабочие величины управляемых узлов подвергаются управлению с обратной связью, величины управления при управлении с обратной связью могут добавляться в состояние. Таким образом, хотя значение Tor* команды управления степенью открытия дросселя включается в действие в вариантах осуществления, описанных выше, например, степень Tor открытия (дросселя) дроссельного клапана 16 может быть включена в состояние, поскольку степень Tor открытия дросселя управляется до значения Tor* команды управления степенью открытия дросселя через управление с обратной связью. Следовательно, способ управления величинами управления до значений команд управления может изучаться через стимулированное обучение.
[0203] В случае если транспортное средство VC1 автоматически рулит, например, желательно, если состояние должно включать в себя значение Trqeg* требуемого крутящего момента двигателя, значение Peg* требуемой выходной мощности двигателя, значение Ptot* требуемой выходной мощности и значение Trq* требуемого движущего крутящего момента в качестве выходных переменных, которые представляют собой переменные, которые указывают вывод для устройства генерирования осевого давления транспортного средства. В вариантах осуществления, описанных выше, значение Trqeg* требуемого крутящего момента двигателя, значение Peg* требуемой выходной мощности двигателя, значение Ptot* требуемой выходной мощности и значение Trq* требуемого движущего крутящего момента могут быть включены в состояние в качестве выходных переменных вместо рабочей величины ACCP нажатия педали акселератора.
2-1. Состояние, выражаемое посредством хронологических данных
[0204] Хотя шесть данных, которые хронологически находятся рядом друг с другом, включаются в состояние для частоты NE вращения и эффективности η нагнетания в процессах на фиг. 18 и 20, число дискретизированных значений, которые составляют хронологические данные, не ограничено шестью. Необходимо только то, что число таких значений должно составлять два или более, и число таких значений может составлять три или более. В этом случае, не существенно то, что число дискретизированных значений частоты NE вращения, которые составляют хронологические данные, и число дискретизированных значений эффективности η нагнетания, которые составляют хронологические данные, должны быть равны друг другу.
[0205] Хотя хронологические данные относительно частоты NE вращения и хронологические данные относительно эффективности η нагнетания используются в процессах на фиг. 18 и 20, хронологические данные относительно только одного из частоты NE вращения и эффективности η нагнетания могут использоваться, а не хронологические данные относительно двух.
[0206] Хронологические данные, которые должны использоваться в качестве состояния при стимулированном обучении, не ограничены переменными рабочей точки, которые представляют собой переменные, которые указывают рабочие точки двигателя 10 внутреннего сгорания. Например, такие хронологические данные могут задаваться для рабочей величины ACCP нажатия педали акселератора и т.д. или, например, могут задаваться для разности DIN фаз на впуске и т.д., или, например, могут задаваться для частоты ωmg1 вращения первого MG, частоты ωmg2 вращения второго MG и т.д. Хронологические данные не ограничены вводом в политику π, которая выражается посредством модуля аппроксимации функций, и могут вводиться, например, в функцию-значение Q действия, которая выражается посредством модуля аппроксимации функций.
4. Действие
[0207] Действие не ограничено действиями, описанными относительно вариантов осуществления, описанных выше. Например, действие может включать в себя рабочие величины, такие как регулирование впрыска, число впрысков в одном цикле сгорания и число зажиганий в одном цикле сгорания. Действие также может включать в себя, например, время, когда пары топлива, улавливаемые посредством адсорбера 66, принудительно вытекают во впускной канал 12. В случае если двигатель 10 внутреннего сгорания включает в себя клапаны регулирования вертикального вихря, например, рабочая величина таких клапанов может использоваться в качестве действия. Между тем, в случае если двигатель 10 внутреннего сгорания включает в себя клапаны регулирования вихревого потока, например, рабочая величина таких клапанов может использоваться в качестве действия. В случае если устройство 90 управления выполняет управление на основе функции пуска/остановки для двигателя 10 внутреннего сгорания, например, время для того, чтобы прекращать холостой ход, может использоваться в качестве действия. В случае если впускной канал 12 двигателя 10 внутреннего сгорания включает в себя канал, который обходит вокруг нагнетателя 14, и перепускной воздушный клапан, который регулирует площадь поперечного сечения протока в канале, степень открытия перепускного воздушного клапана может использоваться в качестве рабочей величины. В случае если двигатель 10 внутреннего сгорания имеет конструкцию с изменяемым впускным каналом, рабочая величина такой конструкции может использоваться в качестве действия. В случае если двигатель 10 внутреннего сгорания включает в себя пару впускных клапанов 20 для каждого цилиндра, и один из таких клапанов может избирательно поддерживаться закрытым, в качестве действия может использоваться то, закрывается избирательно или нет какой-либо такой клапан. В этом случае, управляемые узлы включают в себя впускные клапаны 20. В случае если устройство 90 управления выполняет такое управление, чтобы прекращать управление сгоранием для воздушно-топливной смеси в конкретном цилиндре, например, в качестве действия может использоваться то, выполняется или нет такое управление. В этом случае, соответствующие управляемые узлы включают в себя клапан 18 впрыска в порты, клапан 28 впрыска в цилиндры и устройство 30 зажигания. В случае если двигатель 10 внутреннего сгорания имеет переменную степень сжатия, операция для того, чтобы варьировать степень сжатия, может использоваться в качестве действия. Степень открытия клапана регулирования расхода, который регулирует площадь поперечного сечения протока в тракте циркуляции для охлаждающей воды в двигателе внутреннего сгорания, может использоваться в качестве действия.
[0208] Не существенно то, что действие должно быть многомерным. Например, в случае если заданный управляемый узел добавляется впервые в существующий двигатель внутреннего сгорания, только взаимосвязь между рабочей величиной управляемого узла и состоянием может изучаться через стимулированное обучение. В этом случае, состояние может включать в себя рабочие величины других управляемых узлов.
[0209] Действие может включать в себя рабочую величину, такую как гидравлическое давление трансмиссии 80. Действие может включать в себя величину управления (передаточное отношение) трансмиссии 80. Действие не ограничено рабочими величинами управляемых узлов двигателя 10 внутреннего сгорания, рабочей величиной или величиной управления трансмиссии 80 и величинами управления первого электромотора/генератора 162 и второго электромотора/генератора 166. Например, в качестве действия может использоваться то, зацепляется или нет блокировочная муфта 72 преобразователя 70 крутящего момента. Например, может суммироваться усиление для управления степенью Tor открытия дросселя со значением Tor* команды управления степенью открытия дросселя через управление с обратной связью.
Отображение в виде карты для обновления
1. Обновление функции-значения Q действия
1-1. Обновление функции-значения Q действия, которая использует рабочую величину двигателя 10 внутреннего сгорания в качестве действия
[0210] Хотя TD-метод без политик используется в процессах на этапе S52 и S54, изобретение не ограничено этим. Например, также может использоваться TD-метод по политикам, такой как SARSA. Метод на основе отслеживания допустимости также может использоваться для обучения по политикам.
[0211] Тем не менее, изобретение не ограничено этим, и, например, также может использоваться метод Монте-Карло.
1-2. Обновление функции-значения Q действия, которая использует рабочую величину устройства 80 переключения частоты вращения в качестве действия
[0212] Хотя ε-мягкий метод Монте-Карло по политикам используется для отображения в виде карты для обновления для функции-значения Q действия, связанной с трансмиссией 80 на фиг. 7, изобретение не ограничено этим. Например, также может использоваться метод Монте-Карло без политик. Изобретение не ограничено использованием метода Монте-Карло. Например, также может использоваться TD-метод без политик, аналогично процессам на этапе S52 и S54, например, также может использоваться TD-метод по политикам, такой как SARSA, или, например, также может использоваться метод на основе отслеживания допустимости для обучения по политикам.
1-3. Другие
[0213] Не существенно то, что функция-значение Q действия, которая использует рабочие величины двигателя 10 внутреннего сгорания в качестве действий, и функция-значение Q действия, которая использует рабочую величину трансмиссии 80 в качестве действия, должна представлять собой отдельные функции-значения. Функция-значение Q действия не ограничена функцией, которая использует рабочие величины двигателя 10 внутреннего сгорания в качестве действий, или функцией, которая использует рабочую величину трансмиссии 80 в качестве действия, и может представлять собой функцию, которая использует величины управления первого электромотора/генератора 162 и второго электромотора/генератора 166 в качестве действий. Например, также может использоваться общая функция-значение Q действия, которая использует рабочие величины двигателя 10 внутреннего сгорания и величины управления первого электромотора/генератора 162 и второго электромотора/генератора 166. Например, также может использоваться общая функция-значение Q действия, которая использует рабочие величины двигателя 10 внутреннего сгорания и величину управления трансмиссии 80. Например, также может использоваться общая функция-значение Q действия, которая использует рабочие величины двигателя 10 внутреннего сгорания и рабочую величину и величину управления трансмиссии 80.
[0214] В случае если модуль аппроксимации функций для функции-значения Q действия используется, как описано в "1. Функция-значение Q действия" раздела "Данные предписаний по взаимосвязям", отображение в виде карты для обновления, например, может быть выполнено с возможностью включать в себя отображение в виде карты, которое выводит величину обновления параметра, который предписывает функцию-значение Q действия, на основе частного дифференциала функции-значения Q действия относительно параметра.
2. Обновление параметра модуля аппроксимации функций, который предписывает политику
[0215] Хотя польза Ri представляет собой простое среднее для времени T в процессе на этапе S164, изобретение не ограничено этим. Например, польза Ri может представлять собой сумму, полученная с использованием значений выгоды r, которые более значительно уменьшены с заданным темпом γ уменьшения по мере того, как выгода r становится более старой. Это соответствует процессу вычисления экспоненциального скользящего среднего.
[0216] В процессе на этапе S164, польза Ri может заменяться значением, полученным посредством вычитания соответствующей базовой функции, которая не зависит от параметра θ, из пользы Ri. В частности, желательно, если базовая функция должна представлять собой, например, функцию, которая минимизирует дисперсию частного дифференциала ожидаемой пользы J относительно параметра.
[0217] Действия, обозначенные посредством политики, аппроксимированной посредством модуля аппроксимации функций, не ограничены рабочими величинами двигателя 10 внутреннего сгорания или величинами управления первого электромотора/генератора 162 и второго электромотора/генератора 166. Например, такие действия могут представлять собой рабочую величину и величину управления трансмиссии 80. В частности, политика может обозначать только рабочую величину трансмиссии 80 или может обозначать, например, рабочие величины двигателя 10 внутреннего сгорания и рабочую величину трансмиссии 80, или может обозначать, например, рабочие величины двигателя 10 внутреннего сгорания и рабочую величину и величину управления трансмиссии 80. В случае если параллельное гибридное транспортное средство, которое описывается ниже в разделе "Транспортное средство", включает в себя трансмиссию, например, политика может обозначать величину управления электромотора/генератора и рабочую величину трансмиссии или может обозначать величину управления электромотора/генератора и величину управления трансмиссии, или может обозначать величину управления электромотора/генератора и рабочую величину и величину управления трансмиссии. Альтернативно, политика может обозначать рабочие величины управляемых узлов двигателя внутреннего сгорания, величину управления электромотора/генератора и рабочую величину трансмиссии или может обозначать рабочие величины управляемых узлов двигателя внутреннего сгорания, величину управления электромотора/генератора и величину управления трансмиссии, или может обозначать, например, рабочие величины управляемых узлов двигателя внутреннего сгорания, величину управления электромотора/генератора и рабочую величину и величину управления трансмиссии.
3. Другие
[0218] Хотя политика π обновляется в результате обновления функции-значения Q действия в случае, если функция-значение Q действия используется в примерах, проиллюстрированных на фиг. 4, 7 и 10, изобретение не ограничено этим. Например, как функция-значение Q действия, так и политика π могут обновляться, аналогично способу "актер-критик". Способ "актер-критик" не ограничен этим, и, например, функция-значение V может обновляться вместо функции-значения Q действия.
[0219] Темп α обучения не ограничен фиксированным значением и может изменяться в соответствии с правилом, определенным заранее в соответствии с уровнем прогресса обучения. "ε" для определения политики π также не ограничивается фиксированным значением и может изменяться в соответствии с правилом, определенным заранее в соответствии с уровнем прогресса обучения.
Процесс вычисления выгоды
1. Выгода, связанная с уровнем расхода топлива
[0220] Хотя интегрированное значение InQf используется в качестве ввода, и выгода вычисляется в соответствии с его абсолютной величиной в вариантах осуществления, описанных выше, изобретение не ограничено этим. Например, большая выгода может выдаваться в случае, если количество выбросов углекислого газа в выхлопной канал 36 является небольшим, по сравнению со случаем, в котором количество таких выбросов является большим. Между тем, большая выгода может выдаваться в случае, если объем Ga всасываемого воздуха является большим, по сравнению со случаем, в котором объем Ga всасываемого воздуха является небольшим, даже когда интегрированное значение InQf и количество выбросов углекислого газа являются идентичными.
2. Выгода, связанная с характеристиками выхлопных газов
2-1. Обучение перед поставкой
[0221] Хотя выгода определяется в соответствии с тем, является или нет логическое произведение условий (1)-(6) истиной в процессах на этапе S62-S66, изобретение не ограничено этим. Например, большая выгода может выдаваться в случае, если каждое из условий (1)-(6) удовлетворяется, по сравнению со случаем, в котором такое условие не удовлетворяется.
[0222] Несущественна необходимость использовать все условия (1)-(6) в процессах на этапе S62-S66. Например, выгода может выдаваться на основе только от одного до пяти из шести условий (1)-(6).
2-2. Обучение после поставки
[0223] Хотя выгода определяется в соответствии с тем, является или нет логическое произведение условий (2) и (5) истиной в процессах на этапе S62a, S64 и S66, изобретение не ограничено этим. Например, большая выгода может выдаваться в случае, если каждое из условий (2), и (5) удовлетворяется, по сравнению со случаем, в котором такое условие не удовлетворяется.
[0224] Несущественна необходимость использовать оба условия (2) и (5) в процессах на этапе S62a, S64 и S66. Также несущественна необходимость использовать, по меньшей мере, только одно из двух условий (2) и (5). Например, выгода может вычисляться на основе только некоторых из четырех условий (1), (3), (4) и (6). В случае если выгода вычисляется на основе условия (3) или (4), транспортное средство VC1 может содержать выделенный датчик или отображение в виде карты, которое выводит количество Qnox NOx или объем Qch несгоревшего топлива. Отображения в виде карты может изучаться и формироваться во время обучения перед поставкой, например, идентично картографическим данным 96c для вывода PM-количества.
2-3. Другие
[0225] Выгода, связанная с характеристиками выхлопных газов, не ограничено выгодой, описанной выше. Например, выгода может включать в себя температуру Tex выхлопных газов. В этом случае, в случае если состояние включает в себя осажденное PM-количество или объем отравления серой, как описано в "3. Состояние" раздела "Данные предписаний по взаимосвязям", например, большая выгода может выдаваться, когда количество PM или отравление серой является большим, в случае, если температура выхлопных газов представляет собой такую температуру, которая обеспечивает рекуперацию катализатора 38.
[0226] Большая выгода, например, может выдаваться в случае, если температура катализатора 38 находится в пределах заданного диапазона, по сравнению со случаем, в котором такая температура находится за пределами заданного диапазона. Заданный диапазон, например, может представлять собой диапазон температур, в котором скорость очистки выхлопных газов является высокой. В случае если состояние включает в себя осажденное PM-количество или объем отравления серой, как описано в "3. Состояние" раздела "Данные предписаний по взаимосвязям", большая выгода может выдаваться, когда количество PM или отравление серой является большим, в случае, если температура выхлопных газов представляет собой такую температуру, которая обеспечивает рекуперацию катализатора 38.
[0227] В случае если картографические данные, которые включают в себя частоту NE вращения, эффективность η нагнетания и т.д. в качестве входных переменных и значение Egrvor команды управления степенью EGR-открытия в качестве выходной переменной, адаптируются не через стимулированное обучение, например, большая выгода может выдаваться в случае, если абсолютное значение разности между давлением наддува, предполагаемым при задании значения Egrvor команды управления степенью EGR-открытия, и давлением Pa наддува равно или меньше заданного значения, по сравнению со случаем, в котором абсолютное значение такой разности превышает заданное значение. Это учитывает тот факт, что управление EGR-объемом отклоняется от допущения в случае, если давление Pa наддува отклоняется от допускаемого значения. Разность между фактической частотой вращения турбины нагнетателя 14 и частотой вращения турбины, предполагаемой при задании значения Egrvor команды управления степенью EGR-открытия, может использоваться вместо давления наддува.
3. Выгода, связанная с общей характеристикой управляемости
[0228] Хотя выгода определяется в соответствии с тем, является или нет логическое произведение условий (11)-(13) истиной в процессах на этапе S72-S76, изобретение не ограничено этим. Например, большая выгода может выдаваться в случае, если каждое из условий (11)-(13) удовлетворяется, по сравнению со случаем, в котором такое условие не удовлетворяется.
[0229] Несущественна необходимость использовать все условия (11)-(13) в процессах на этапе S72-S76. Например, выгода может выдаваться на основе только одного или двух из трех условий (11)-(13).
[0230] Выгода, связанная с общей характеристикой управляемости, не ограничено выгодой, описанной выше. Например, большое выгода может выдаваться в случае, если величина флуктуации при вращении различных вращательных валов приводной системы, таких как коленчатый вал 32 и выходной вал 84, равна или меньше заданного значения, по сравнению со случаем, в котором величина такой флуктуации превышает заданное значение.
[0231] Относительно величины флуктуации при вращении, большая выгода может выдаваться в случае, если вибрация транспортного средства находится в заданном диапазоне, по сравнению со случаем, в котором вибрация транспортного средства находится за пределами заданного диапазона. Таким образом, процесс предоставления выгоды, связанной с общей характеристикой управляемости, может представлять собой, по меньшей мере, один из следующих трех процессов. Таким образом, три процесса включают в себя: процесс предоставления большей выгоды в случае, если поведение транспортного средства, такое как ускорение и темп изменения ускорения (рывок), соответствует критерию, по сравнению со случаем, в котором поведение транспортного средства не соответствует критерию; процесс предоставления большей выгоды в случае, если шум находится в пределах заданного диапазона, по сравнению со случаем, в котором шум не находится в пределах заданного диапазона; и процесс предоставления большей выгоды в случае, если вибрация транспортного средства находится в пределах заданного диапазона, по сравнению со случаем, в котором вибрация транспортного средства не находится в пределах заданного диапазона.
4. Общие вопросы касательно двигателя внутреннего сгорания
[0232] Большая выгода может выдаваться в случае, если температура THW воды находится в пределах заданного диапазона температур, по сравнению со случаем, в котором температура THW воды находится за пределами заданного диапазона температур. Помимо этого, большая выгода может выдаваться в случае, если температура Toil масла находится в пределах заданного диапазона температур, по сравнению со случаем, в котором температура Toil масла находится за пределами заданного диапазона температур.
[0233] Изобретение не ограничено конфигурацией, в которой выдается все из выгоды, связанной с уровнем расхода топлива, выгоды, связанной с характеристиками выхлопных газов, выгоды, связанной с общей характеристикой управляемости, и выгоды, связанной со значением Trqeg* требуемого крутящего момента двигателя (значением Peg* требуемой выходной мощности двигателя). Например, могут выдаваться только одно, только два или только три из четырех выгод.
[0234] В случае если выгода, связанная со значением Trqeg* требуемого крутящего момента двигателя (значением Peg* требуемой выходной мощности двигателя), не выдается, значение Tor* команды управления степенью открытия дросселя может задаваться на основе рабочей величины ACCP нажатия педали акселератора, например, не через стимулированное обучение.
[0235] В этой связи, в случае если выдается выгода, связанная с уровнем расхода топлива, желательно, если действие будет включать в себя, по меньшей мере, одно из требуемого объема Qf впрыска, распределения aig зажигания, коэффициента Kp распределения объема впрыска, числа впрысков в расчете на цикл сгорания, значения DIN* команды управления разностью фаз на впуске, значения Wgvor команды управления степенью WGV-открытия и значения Egrvor команды управления степенью EGR-открытия.
[0236] В случае если выдается выгода, связанная с характеристиками выхлопных газов, желательно, если действие будет включать в себя, по меньшей мере, одно из следующего. Таким образом, желательно, если действие будет включать в себя, по меньшей мере, одно из требуемого объема Qf впрыска, распределения aig зажигания, коэффициента Kp распределения объема впрыска, числа впрысков в расчете на цикл сгорания, значения DIN* команды управления разностью фаз на впуске, значения Wgvor команды управления степенью WGV-открытия, значения Egrvor команды управления степенью EGR-открытия, значения Pf* команды управления давлением топлива, рабочей величины Pg продувки и числа зажиганий в расчете на цикл сгорания. Изобретение не ограничено этим, и действие может включать в себя, по меньшей мере, одно из времени, когда пары топлива, улавливаемые посредством адсорбера 66, принудительно вытекают во впускной канал 12, рабочей величины клапанов регулирования вертикального вихря, рабочей величины клапанов регулирования вихревого потока, и времени для того, чтобы прекращать холостой ход, которые описываются в "4. Действие" раздела "Данные предписаний по взаимосвязям". Действие, например, также может включать в себя степень открытия перепускного воздушного клапана, рабочую величину конструкции с изменяемым впускным каналом для случая, в котором двигатель 10 внутреннего сгорания имеет такую конструкцию, и то, закрывается или нет один из пары впускных клапанов 20 избирательно в случае, если двигатель 10 внутреннего сгорания включает в себя пару впускных клапанов 20 для каждого цилиндра, и один из таких клапанов может избирательно поддерживаться закрытым. Действие также может включать в себя, например, то, выполняется или нет управление для прекращения управления сгорания для воздушно-топливной смеси в конкретном цилиндре в случае, если такое управление выполняется, и операцию на основе степени сжатия двигателя 10 внутреннего сгорания для случая, в котором такая степень сжатия представляет собой переменную. Действие также может включать в себя, например, степень открытия клапана регулирования расхода.
[0237] В случае если выдается выгода, связанная с общей характеристикой управляемости, между тем, желательно, если, действие должно включать в себя, по меньшей мере, одно из значения Tor* команды управления степенью открытия дросселя, значения Wgvor команды управления степенью WGV-открытия и гидравлических давлений Poila, Poilb, ....
5. Выгода, которая сопровождает операцию устройства переключения частоты вращения
[0238] Хотя выгода определяется в соответствии с тем, является или нет логическое произведение условий (10)-(12) истиной в процессах на этапе S120 и S122, изобретение не ограничено этим. Например, большая выгода может выдаваться в случае, если каждое из условий (10)-(12) удовлетворяется, по сравнению со случаем, в котором такое условие не удовлетворяется.
[0239] Несущественна необходимость использовать все условия (10)-(12) в процессах на этапе S120 и S122. Например, выгода может выдаваться на основе только одного или двух из трех условий (10)-(12).
[0240] Выгоды на основе условий (11) и (12) могут выдаваться последовательно в течение периода, в ходе которого выполняется переключение передач. Выгода, которая сопровождает операцию трансмиссии, не ограничено выгодой с точки зрения общей характеристики управляемости, как пояснено выше. Например, в случае если действие включает в себя величину управления трансмиссии 80, как описано в "4. Действие" раздела "Данные предписаний по взаимосвязям", также может использоваться выгода, связанная с уровнем расхода топлива.
5. Выгода, связанная с гибридным транспортным средством
[0241] Хотя нижнее предельное значение заданного диапазона не определяется при выполнении процесса предоставления большей выгоды в случае, если температура Tbatt аккумулятора находится в пределах заданного диапазона, по сравнению со случаем, в котором температура Tbatt аккумулятора находится за пределами заданного диапазона в вариантах осуществления, описанных выше, изобретение не ограничено этим.
[0242] Изобретение не ограничено использованием как выгоды, которая совпадает со скоростью SOC заряда, так и выгоды, которая совпадает с температурой Tbatt аккумулятора. Например, может использоваться только одно из двух таких выгод.
[0243] Может не использоваться ни одно из выгоды, которая совпадает со скоростью SOC заряда, и выгоды, которая совпадает с температурой Tbatt аккумулятора. Например, большая выгода может выдаваться в случае, если абсолютное значение разности между значением Ptot* требуемой выходной мощности и выходной мощностью Ptot является небольшим, по сравнению со случаем, в котором абсолютное значение такой разности является большим, или большая выгода может выдаваться в случае, если абсолютное значение разности между значением Trq* требуемого движущего крутящего момента и движущим крутящим моментом Trq является небольшим, по сравнению со случаем, в котором абсолютное значение такой разности является большим. В таких случаях, распределение мощности между двигателем 10 внутреннего сгорания и первым электромотором/генератором 162 и вторым электромотором/генератором 166 для достижения значения Tot* требуемой выходной мощности и значения Trq* требуемого движущего крутящего момента может изучаться через стимулированное обучение.
6. Другие выгоды
[0244] В случае если действие включает в себя то, зацепляется или нет блокировочная муфта 72, как описано в "4. Действие" раздела "Данные предписаний по взаимосвязям", например, большая выгода может выдаваться в случае, если звуковое давление равно или меньше заданного значения, по сравнению со случаем, в котором звуковое давление превышает заданное значение.
7. Время для того, чтобы вычислять выгоду
[0245] В процессах на фиг. 4 и 10, выгода rt вычисляется сразу после того, как выполняется операция на основе действия at. В этом случае, тот факт, что значение Afu определения на стороне выше по потоку и т.д., полученное сразу после операции на основе действия at в установившемся состоянии, может считаться сопровождающим действие at, используется, поскольку требуется время до того, как результат действия at отражается в значении Afu определения на стороне выше по потоку или значении Afd определения на стороне ниже по потоку. Тем не менее, изобретение не ограничено такой технологией, и значение Afu определения на стороне выше по потоку и т.д., которое сопровождает действие at и используется для того, чтобы вычислять выгода rt, может дискретизироваться во время, сдвинутое относительно времени операции на основе действия at, например, посредством сдвига времени операции на основе выбранного действия at и обновления функции-значения Q действия.
[0246] Вместо этого, метод Монте-Карло может использоваться для того, чтобы заниматься такой проблемой, вместо последовательного предоставления выгод.
Процесс выбора
Жадное действие может неизбежно выбираться в процессе на этапе S44 на фиг. 10, и процессы на этапе S42-S46 могут многократно выполняться, с удаленными процессами на этапе S50-S54 и S58. В случае если функция-значение действия выражается посредством модуля аппроксимации функций, процесс на этапе S44 может представлять собой процесс исследования максимального значения на основе частного дифференциала и т.д. относительно каждого компонента действия a. Вместо этого, только дискретные значения могут задаваться для действия, и возможные варианты для действия могут вводиться в модуль аппроксимации функций, в который введено состояние, полученное в процессе на этапе S42, чтобы выбирать действие, которое максимизирует выходное значение модуля аппроксимации функций. В этом случае, выходные значения модуля аппроксимации функций могут быть стандартизированы заранее посредством функции мягкого максимума до выбора.
Способ генерирования управляющих данных транспортного средства
[0247] Хотя процесс определения действия на основе функции-значения Q действия указывается в процессе на этапе S44 на фиг. 4, изобретение не ограничено этим. Все действия, которые могут предприниматься, могут выбираться с равными вероятностями в процессе генерирования управляющих данных транспортного средства и т.д. перед поставкой транспортного средства.
Управляющие картографические данные
[0248] Хотя входные переменные всех рабочих величин являются идентичными в процессах на фиг. 2, изобретение не ограничено этим. Например, состояние с низкой корреляцией с заданием рабочих величин может удаляться. Это надлежащим образом достигается, например, посредством обновления параметра θ посредством использования члена регуляризации L1 при выполнении стимулированного обучения с использованием модуля аппроксимации функций.
[0249] Управляющие картографические данные, в которые вводится состояние транспортного средства и которые выводят рабочие величины управляемых узлов двигателя 10 внутреннего сгорания, которые максимизируют ожидаемую пользу посредством задания соответствия "один-к-одному" между состоянием транспортного средства и такими рабочими величинами, не ограничены картографическими данными 96b. Например, параметр θ политики π может обновляться через градиентный метод на основе политик вместо обновления функции-значения Q действия в процессах на фиг. 4, и непосредственно модуль аппроксимации функций, который определяет средние значения μ(1), μ(2), ... после обучения, может устанавливаться в устройстве 90 управления в качестве управляющих картографических данных. Следовательно, для CPU 92 необходимо только вычислять средние значения μ(1), μ(2), ... с использованием состояния s в качестве ввода в модуль аппроксимации функций, и управлять управляющими сигналами MS1, MS2, ... с использованием таких средних значений в качестве рабочих величин.
[0250] Управляющие картографические данные не ограничены данными, которые предписывают отображение в виде карты, в которое вводится состояние транспортного средства и которое выводит рабочие величины управляемых узлов двигателя 10 внутреннего сгорания, и, например, могут представлять собой данные, которые предписывают отображение в виде карты, в которое вводится состояние транспортного средства и которое выводит рабочую величину и величину управления трансмиссии 80. Управляющие картографические данные также, например, могут представлять собой данные, которые предписывают отображение в виде карты, в которое вводится состояние транспортного средства и которое выводит величины управления первого электромотора/генератора 162 и второго электромотора/генератора 166.
Способ генерирования управляющих картографических данных
[0251] В процессах на фиг. 4, в случае если положительное определение выполняется в процессе на этапе S56, набор каждого состояния s и жадного действия a может задаваться как характерная точка, действие в области определения независимой переменной функции-значения действия может переопределяться в качестве характерной точки и значения, сдвинутого относительно характерной точки на одну единицу, и процессы на этапе S42-S56 могут повторяться. Не существенно то, что характерная точка и значение, сдвинутое относительно характерной точки на одну единицу, должны находиться в области самого определения.
[0252] Хотя действие a, которое максимизирует значение функции-значения Q действия в качестве табличной функции, выбирается в соответствии с состоянием s, и картографические данные формируются на основе набора состояния s и действия a в процессах, указываемых на фиг. 6, изобретение не ограничено этим. Например, также может использоваться функция-значение Q действия, которая выражается посредством модуля аппроксимации функций. Изобретение также не ограничивается использованием функции-значения Q действия. Например, параметр θ политики π может обновляться через градиентный метод на основе политик вместо обновления функции-значения Q действия в процессах на фиг. 4, и среднее значение μ, которое определяется в соответствии с состоянием s, может использоваться в качестве действия в процессах на фиг. 6.
Система управления транспортного средства
[0253] Хотя выгода вычисляется посредством центра 200 анализа данных в примере, проиллюстрированном на фиг. 20, изобретение не ограничено этим. Выгода может вычисляться на стороне устройства 90 управления и передаваться в центр 200 анализа данных.
[0254] Хотя градиентный метод на основе политик используется в примерах, проиллюстрированных на фиг. 18 и фиг. 20, изобретение не ограничено этим. Например, также может использоваться табличная функция-значение Q действия или функция-значение Q действия, которая выражается посредством модуля аппроксимации функций.
Устройство выполнения
[0255] Устройство выполнения не ограничено устройством, включающим в себя CPU 92 (152, 202) и ROM 94 (154, 204), чтобы выполнять программную обработку. Например, устройство выполнения может включать в себя специализированную аппаратную схему (например, ASIC и т.д.), которая выполняет аппаратную обработку, по меньшей мере, для некоторых процессов, подвергнутых программной обработке в вариантах осуществления, описанных выше. Таким образом, устройство выполнения может иметь любую из следующих конфигураций (a)-(c).
(a) Устройство выполнения включает в себя обрабатывающее устройство, которое выполняет все процессы, описанные выше в соответствии с программой, и устройство хранения программ, такое как ROM, которое сохраняет программу.
(b) Устройство выполнения включает в себя обрабатывающее устройство, которое выполняет некоторые процессы, описанные выше в соответствии с программой, устройство хранения программ и специализированную аппаратную схему, которая выполняет оставшиеся процессы.
(c) Устройство выполнения включает в себя специализированную аппаратную схему, которая выполняет все процессы, описанные выше. Устройство выполнения может включать в себя множество программных устройств выполнения, которые включают в себя обрабатывающее устройство и устройство хранения программ или специализированные аппаратные схемы.
Устройство хранения данных
[0256] Хотя устройство хранения данных, которое сохраняет данные 96a, 156a предписаний по взаимосвязям, и устройство хранения данных (ROM 94, 154, 204), которое сохраняет обучающую программу 94a, 154a, управляющую программу 94b, управляющую подпрограмму 94c и основную управляющую программу 204a, представляют собой отдельные устройства хранения данных в вариантах осуществления, описанных выше, изобретение не ограничено этим. Помимо этого, хотя обучающая программа 94a, 154a не включает в себя данные относительно темпа α обучения, и сама обучающая программа 94a, 154a сохраняется в ROM 94, 154, 204 в вариантах осуществления, описанных выше, темп α обучения может сохраняться, например, в устройстве 96, 156, 206 хранения данных.
Двигатель внутреннего сгорания
[0257] Двигатель внутреннего сгорания не ограничен устройством, включающим в себя и клапан 18 впрыска в порты и клапан 28 впрыска в цилиндры, и может включать в себя только один из двух типов клапанов впрыска топлива. Не существенно то, что двигатель 10 внутреннего сгорания должен включать в себя нагнетатель 14. Помимо этого, двигатель 10 внутреннего сгорания, например, может не включать в себя EGR-канал 52 или EGR-клапан 54. В случае если нагнетатель 14 не предоставляется, продувочный клапан может использоваться, вместо продувочного насоса 68, в качестве устройства регулирования, которое регулирует расход паров топлива из адсорбера 66 во впускной канал 12. В этом случае, действие может включать в себя степень открытия и т.д. продувочного клапана.
[0258] Двигатель внутреннего сгорания не ограничен двигателем внутреннего сгорания с искровым зажиганием и, например, может представлять собой двигатель внутреннего сгорания с зажиганием от сжатия и т.д., который использует легкое масло и т.д. в качестве топлива.
Гибридное транспортное средство
Гибридное транспортное средство не ограничено последовательно-параллельным гибридным транспортным средством и, например, может представлять собой последовательное гибридное транспортное средство или параллельное гибридное транспортное средство.
Другие
[0259] Схема приведения в действие вращающейся электрической машины не ограничена инвертором, и также может использоваться H-мостовая схема в случае, если вращающаяся электрическая машина, например, представляет собой вращающуюся электрическую машину постоянного тока. Устройство накопления мощности не ограничено аккумулятором 170 и, например, может представлять собой конденсатор.
Изобретение относится к обучающейся системе управления транспортным средством, использующей машинное обучение, и устройству управления транспортным средством. Техническим результатом является обеспечение обучающейся системы управления транспортным средством, позволяющей повысить совокупную производительность узлов транспортного средства. Результат достигается тем, что способ генерирования управляющих данных транспортного средства включает: сохранение, с помощью устройства хранения данных, данных предписаний по взаимосвязям; управление, с помощью устройства выполнения, управляемым узлом двигателя внутреннего сгорания; получение, с помощью устройства выполнения, значения определения от датчика, которое определяет состояние транспортного средства; вычисление, с помощью устройства выполнения, выгоды; и обновление, с помощью устройства выполнения, данных предписаний по взаимосвязям с использованием отображения в виде карты для обновления, определенного заранее, причем отображение в виде карты для обновления использует состояние транспортного средства на основе значения определения, рабочей величины, используемой для того, чтобы управлять управляемым узлом, и выгоды, соответствующей операции, в качестве аргументов, и возврат данных предписаний по взаимосвязям, которые обновлены таким образом, что ожидаемая польза для выгоды, вычисленной, когда управляемый узел управляется в соответствии с данными предписаний по взаимосвязям, увеличивается. 3 н. и 10 з.п. ф-лы, 20 ил.