Hiroaki AKUTSU Ko ARAI
Lanxi LIU Pengpeng YANG Suwen DU Sani M. ABDULLAHI
Xiaoguang TU Zhi HE Gui FU Jianhua LIU Mian ZHONG Chao ZHOU Xia LEI Juhang YIN Yi HUANG Yu WANG
Yingying LU Cheng LU Yuan ZONG Feng ZHOU Chuangao TANG
Jialong LI Takuto YAMAUCHI Takanori HIRANO Jinyu CAI Kenji TEI
Wei LEI Yue ZHANG Hanfeng XIE Zebin CHEN Zengping CHEN Weixing LI
David CLARINO Naoya ASADA Atsushi MATSUO Shigeru YAMASHITA
Takashi YOKOTA Kanemitsu OOTSU
Xiaokang Jin Benben Huang Hao Sheng Yao Wu
Tomoki MIYAMOTO
Ken WATANABE Katsuhide FUJITA
Masashi UNOKI Kai LI Anuwat CHAIWONGYEN Quoc-Huy NGUYEN Khalid ZAMAN
Takaharu TSUBOYAMA Ryota TAKAHASHI Motoi IWATA Koichi KISE
Chi ZHANG Li TAO Toshihiko YAMASAKI
Ann Jelyn TIEMPO Yong-Jin JEONG
Haruhisa KATO Yoshitaka KIDANI Kei KAWAMURA
Jiakun LI Jiajian LI Yanjun SHI Hui LIAN Haifan WU
Gyuyeong KIM
Hyun KWON Jun LEE
Fan LI Enze YANG Chao LI Shuoyan LIU Haodong WANG
Guangjin Ouyang Yong Guo Yu Lu Fang He
Yuyao LIU Qingyong LI Shi BAO Wen WANG
Cong PANG Ye NI Jia Ming CHENG Lin ZHOU Li ZHAO
Nikolay FEDOROV Yuta YAMASAKI Masateru TSUNODA Akito MONDEN Amjed TAHIR Kwabena Ebo BENNIN Koji TODA Keitaro NAKASAI
Yukasa MURAKAMI Yuta YAMASAKI Masateru TSUNODA Akito MONDEN Amjed TAHIR Kwabena Ebo BENNIN Koji TODA Keitaro NAKASAI
Kazuya KAKIZAKI Kazuto FUKUCHI Jun SAKUMA
Yitong WANG Htoo Htoo Sandi KYAW Kunihiro FUJIYOSHI Keiichi KANEKO
Waqas NAWAZ Muhammad UZAIR Kifayat ULLAH KHAN Iram FATIMA
Haeyoung Lee
Ji XI Pengxu JIANG Yue XIE Wei JIANG Hao DING
Weiwei JING Zhonghua LI
Sena LEE Chaeyoung KIM Hoorin PARK
Akira ITO Yoshiaki TAKAHASHI
Rindo NAKANISHI Yoshiaki TAKATA Hiroyuki SEKI
Chuzo IWAMOTO Ryo TAKAISHI
Chih-Ping Wang Duen-Ren Liu
Yuya TAKADA Rikuto MOCHIDA Miya NAKAJIMA Syun-suke KADOYA Daisuke SANO Tsuyoshi KATO
Yi Huo Yun Ge
Rikuto MOCHIDA Miya NAKAJIMA Haruki ONO Takahiro ANDO Tsuyoshi KATO
Koichi FUJII Tomomi MATSUI
Yaotong SONG Zhipeng LIU Zhiming ZHANG Jun TANG Zhenyu LEI Shangce GAO
Souhei TAKAGI Takuya KOJIMA Hideharu AMANO Morihiro KUGA Masahiro IIDA
Jun ZHOU Masaaki KONDO
Tetsuya MANABE Wataru UNUMA
Kazuyuki AMANO
Takumi SHIOTA Tonan KAMATA Ryuhei UEHARA
Hitoshi MURAKAMI Yutaro YAMAGUCHI
Jingjing Liu Chuanyang Liu Yiquan Wu Zuo Sun
Zhenglong YANG Weihao DENG Guozhong WANG Tao FAN Yixi LUO
Yoshiaki TAKATA Akira ONISHI Ryoma SENDA Hiroyuki SEKI
Dinesh DAULTANI Masayuki TANAKA Masatoshi OKUTOMI Kazuki ENDO
Kento KIMURA Tomohiro HARAMIISHI Kazuyuki AMANO Shin-ichi NAKANO
Ryotaro MITSUBOSHI Kohei HATANO Eiji TAKIMOTO
Genta INOUE Daiki OKONOGI Satoru JIMBO Thiem Van CHU Masato MOTOMURA Kazushi KAWAMURA
Hikaru USAMI Yusuke KAMEDA
Yinan YANG
Takumi INABA Takatsugu ONO Koji INOUE Satoshi KAWAKAMI
Fengshan ZHAO Qin LIU Takeshi IKENAGA
Naohito MATSUMOTO Kazuhiro KURITA Masashi KIYOMI
Tomohiro KOBAYASHI Tomomi MATSUI
Shin-ichi NAKANO
Ming PAN
Dieser Artikel konzentriert sich auf die Verbesserung der Struktur des bilateralen Zweig-Bildsegmentierungsnetzwerks BiSeNet v2, um seine Lernfähigkeit für räumliche Details und die allgemeine Bildsegmentierungsgenauigkeit zu verbessern. Es wird ein modifiziertes Netzwerk namens „BiconvNet“ vorgeschlagen. Um zunächst oberflächliche räumliche Details effektiver zu extrahieren, wird ein paralleles Concatenated Strip and Dilated (PCSD)-Faltungsmodul vorgeschlagen und verwendet, um lokale Merkmale und umgebende Kontextmerkmale im Detailzweig zu extrahieren. Anschließend wird der semantische Zweig mithilfe der leichtgewichtigen Fähigkeit der tiefenseparierbaren Faltung und der hohen Leistung von ConvNet rekonstruiert, um ein effizienteres Lernen tiefer, fortgeschrittener semantischer Merkmale zu ermöglichen. Schließlich wird eine Feinabstimmung der bilateralen Führungsaggregationsschicht von BiSeNet v2 durchgeführt, um eine bessere Fusion der vom Detailzweig und dem semantischen Zweig ausgegebenen Merkmalskarten zu ermöglichen. Der experimentelle Teil erörtert den Beitrag der Streifenfaltung und unterschiedlicher Größen der leeren Faltung zur Bildsegmentierungsgenauigkeit und vergleicht sie mit gängigen Faltungen wie Conv2d-Faltung, CG-Faltung und CCA-Faltung. Das Experiment beweist, dass das in diesem Artikel vorgeschlagene PCSD-Faltungsmodul im Vergleich zu herkömmlichen Faltungen die höchste Segmentierungsgenauigkeit in allen Kategorien des Cityscapes-Datensatzes aufweist. BiConvNet erreichte eine Genauigkeitsverbesserung von 9.39 % gegenüber dem BiSeNet v2-Netzwerk, bei nur einer geringen Erhöhung der Modellparameter um 1.18 M. Im Validierungssatz wurde eine mIoU-Genauigkeit von 68.75 % erreicht. Darüber hinaus zeigt BiConvNet durch Vergleichsexperimente mit in den letzten Jahren häufig verwendeten Bildsegmentierungsalgorithmen für autonomes Fahren starke Wettbewerbsvorteile bei der Segmentierungsgenauigkeit der Cityscapes- und BDD100K-Datensätze.
Yuan LI Tingting HU Ryuji FUCHIKAMI Takeshi IKENAGA
Bildverarbeitungssysteme mit einer Reaktionszeit von 1 Millisekunde (1 ms) gewinnen in verschiedenen Bereichen wie Fabrikautomatisierung und Robotik zunehmend an Bedeutung, da die ultrakurze Verzögerung nahtlose und zeitnahe Reaktionen gewährleistet. Die Superpixel-Segmentierung ist eine entscheidende Vorverarbeitung, um die Anzahl der Bildprimitive für die nachfolgende Verarbeitung zu reduzieren. In letzter Zeit wird zunehmend Wert darauf gelegt, auf tiefen Netzwerken basierende Algorithmen zu nutzen, um eine bessere Leistung und eine bessere Integration in andere Aufgaben tiefer Netzwerke zu erzielen. Das Superpixel Sampling Network (SSN) verwendet ein tiefes Netzwerk zur Merkmalsgenerierung und verwendet differenzierbares SLIC zur Superpixel-Generierung. SSN erreicht eine hohe Leistung mit einer kleinen Anzahl von Parametern. Die Implementierung von SSN auf FPGAs für ultrakurze Verzögerungen ist jedoch aufgrund der Aggregation von Zwischenergebnissen in der letzten Schicht mit Herausforderungen verbunden. Um diese Einschränkung zu beheben, schlägt dieses Dokument eine aggregierte bis pipelined-Struktur für die FPGA-Implementierung vor. Die letzte Schicht wird für jedes Zwischenergebnis in einzelne letzte Schichten zerlegt. Diese architektonische Anpassung macht Speicher zum Speichern von Zwischenergebnissen überflüssig. Gleichzeitig nutzt die vorgeschlagene Struktur zerlegte Schichten, um eine Pipeline-Struktur mit Pixel-Streaming-Eingabe zu ermöglichen und so eine extrem niedrige Latenz zu erreichen. Zur Zusammenarbeit mit der Pipeline-Struktur wird eine schichtpartitionierte Speicherarchitektur vorgeschlagen. Jede letzte Schicht verfügt über einen dedizierten Speicher zum Speichern von Superpixel-Mittelpunktinformationen, sodass Werte ohne Konflikte aus dem Speicher gelesen und berechnet werden können. Die Berechnungsergebnisse jeder letzten Schicht werden akkumuliert und das Ergebnis jedes Pixels wird abgerufen, wenn der Stream die letzte Schicht erreicht. Die Auswertungsergebnisse zeigen, dass der Boundary-Recall und der Untersegmentierungsfehler mit SSN vergleichbar bleiben, wobei die durchschnittliche Verbesserung der Beschriftungskonsistenz um 0.035 gegenüber SSN liegt. Aus Sicht der Hardwareleistung verarbeitet das vorgeschlagene System 1000-FPS-Bilder mit einer Verzögerung von 0.947 ms/Frame.
Moderne Speichergeräte wie DRAM sind anfällig für Fehler, die durch unbeabsichtigte Bit-Flips während ihres Betriebs auftreten. Da Speicherfehler schwerwiegende Auswirkungen auf In-Memory-Key-Value-Stores (KVSes) haben, werden Softwaremechanismen erforscht, um sie gegen Speicherfehler abzusichern. Aufgrund seiner Eigenschaften ist es jedoch schwierig, den Code zur Behandlung von Speicherfehlern effizient zu testen: Der Code ist ereignisgesteuert, die Handler hängen vom Speicherobjekt ab und In-Memory-KVSes verwalten verschiedene Objekte in einem riesigen Speicherplatz. Dieses Dokument präsentiert MemFI das Laufzeittests für die Speicherfehlerhandler von In-Memory-KVSes unterstützt. Unser Ansatz führt die Softwarefehlerinjektion von Speicherfehlern auf Speicherobjektebene durch, um den Zielhandler auszulösen, während Tests im selben laufenden Zustand reibungslos ausgeführt werden. Um die Wirksamkeit von MemFI zu zeigen, integrieren wir Fehlerbehandlungsmechanismen in ein reales In-Memory-KVS, memcached 1.6.9 und Redis 6.2.7, und überprüfen ihr Verhalten mithilfe der MemFI-Prototypen. Die Ergebnisse zeigen, dass der MemFI-basierte Laufzeittest es uns ermöglicht, das Verhalten der Fehlerbehandlungsmechanismen zu überprüfen. Wir zeigen auch seine Effizienz, indem wir ihn anhand eines Testmodells mit anderen Fehlerinjektionsansätzen vergleichen.
Bei der Multifokus-Bildfusion werden teilweise fokussierte Bilder derselben Szene kombiniert, um ein vollständig fokussiertes Bild zu erstellen. Um die Probleme bestehender Multifokus-Bildfusionsalgorithmen zu lösen, nämlich dass das Benchmark-Bild schwer zu erhalten ist und das Convolutional Neural Network sich zu stark auf die lokale Region konzentriert, wird ein Fusionsalgorithmus vorgeschlagen, der lokale und globale Merkmalskodierung kombiniert. Zunächst entwickeln wir zwei selbstüberwachte Bildrekonstruktionsaufgaben und trainieren ein Encoder-Decoder-Netzwerk durch Multitasking-Lernen. Anschließend verschmelzen wir innerhalb des Encoders das dichte Verbindungsmodul mit dem PS-ViT-Modul, sodass das Netzwerk bei der Merkmalsextraktion lokale und globale Informationen nutzen kann. Schließlich werden zur Verbesserung der Gesamteffizienz des Modells auf jede Aufgabe unterschiedliche Verlustfunktionen angewendet. Um die robusteren Merkmale der Originalbilder zu erhalten, wird während der Fusionsphase die räumliche Frequenz verwendet, um die Merkmalskarte des fusionierten Bildes zu erhalten. Versuchsergebnisse zeigen, dass unsere Methode im Vergleich zu zwölf anderen bekannten Algorithmen bei der objektiven Bewertung eine gute Fusionsleistung aufweist. Zehn der ausgewählten zwölf Bewertungsmetriken zeigen eine Verbesserung von mehr als 0.28 %. Darüber hinaus bietet es subjektiv bessere visuelle Effekte.
Nan WU Xiaocong LAI Mei CHEN Ying PAN
Mit der Entwicklung des semantischen Webs nutzen immer mehr Forscher Ontologie-Technologien, um Domänenontologien zu konstruieren. Da es keinen einheitlichen Konstruktionsstandard gibt, kommt es zu Heterogenität der Ontologien. Die Ontologie-Matching-Methode kann heterogene Ontologien zusammenführen, wodurch die Interoperabilität zwischen Wissen realisiert und relevantere semantische Informationen verknüpft werden. Im Falle von Unterschieden zwischen Ontologien ist die Frage, wie falsches Matching und erfolgloses Matching reduziert werden können, ein kritisches Problem, das gelöst werden muss. Darüber hinaus wird die semantische Beziehung zwischen Ontologien mit der zunehmenden Anzahl von Ontologien immer komplexer. Dennoch reichen die aktuellen Methoden, die lediglich die Ähnlichkeit von Namen zwischen Konzepten ermitteln, nicht mehr aus. Daher wird in diesem Artikel eine Ontologie-Matching-Methode auf Grundlage semantischer Assoziation vorgeschlagen. Genaue Matching-Paare werden durch vorhandenes semantisches Wissen entdeckt, und dann werden die potenziellen semantischen Assoziationen zwischen Konzepten entsprechend den Merkmalen der Kontextstruktur ermittelt. Die Matching-Methode kann Matching-Arbeiten auf Grundlage zuverlässiger Kenntnisse besser durchführen. Darüber hinaus wird in diesem Artikel eine Methode zur Reparatur probabilistischer Logik vorgestellt, mit der Konflikte bei Übereinstimmungsergebnissen erkannt und behoben werden können, um die Verfügbarkeit und Zuverlässigkeit der Übereinstimmungsergebnisse zu verbessern. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode die Qualität der Übereinstimmung zwischen Ontologien effektiv verbessert und Zeit bei der Reparatur falscher Übereinstimmungspaare spart. Darüber hinaus weist die vorgeschlagene Methode im Vergleich zu vorhandenen Ontologie-Übereinstimmungssystemen eine bessere Stabilität auf.
Keitaro NAKASAI Shin KOMEDA Masateru TSUNODA Masayuki KASHIMA
Um die mentale Arbeitsbelastung von Entwicklern automatisch zu messen, wurden in bestehenden Studien biometrische Messungen wie Gehirnströme und Herzfrequenz verwendet. Allerdings müssen Entwickler bei der Messung oft bestimmte Geräte tragen und können daher körperlich belastet sein. In dieser Studie untersuchten wir die Durchführbarkeit berührungsloser biometrischer Messungen auf Basis der Nasenhauttemperatur (NST). Im Experiment waren die vorgeschlagenen biometrischen Messungen genauer als nicht-biometrische Messungen.
White-Box-Kryptographieimplementierungen verwenden häufig Maskierung und Shuffling als Gegenmaßnahmen gegen Schlüsselextraktionsangriffe. Um diesen Abwehrmaßnahmen entgegenzuwirken, wurden die Differential Computation Analysis höherer Ordnung (HO-DCA) und ihre Varianten entwickelt. Diese Methoden zielen darauf ab, diese Gegenmaßnahmen zu durchbrechen, ohne dass Reverse Engineering erforderlich ist. Diese nichtinvasiven Angriffe sind jedoch teuer und können durch Aktualisierung der Maskierungs- und Shuffling-Techniken vereitelt werden. In diesem Dokument wird ein einfacher Binärinjektionsangriff vorgestellt, der treffend benannt ist löschen & zurückgeben, entwickelt, um die fortgeschrittenen Maskierungs- und Shuffling-Abwehrmechanismen der White-Box-Kryptographie zu umgehen. Der Angriff beinhaltet das Einfügen einer kleinen Menge Assemblercode, der Laufzeit-Zufallsquellen effektiv deaktiviert. Dieser Verlust an Zufälligkeit legt den ungeschützten Nachschlagewert innerhalb von White-Box-Implementierungen offen und macht sie anfällig für einfache statistische Analysen. In Experimenten mit Open-Source-White-Box-Kryptographieimplementierungen zeigt sich die Angriffsstrategie, Einträge in der Global Offset Table (GOT) oder Funktionsaufrufe zu kapern, als effektiv bei der Umgehung von Laufzeit-Gegenmaßnahmen.
Nat PAVASANT Takashi MORITA Masayuki NUMAO Ken-ichi FUKUI
Wir haben ein Verfahren zur Vorverarbeitung von Daten vorgeschlagen, die in einer vektorautoregressiven (VAR) Modellierung eines zeitlichen Punktprozesses unter Verwendung einer Kerneldichteschätzung verwendet werden. Die vektorautoregressive Modellierung von Punktprozessdaten wird beispielsweise zur Kausalitätsinferenz verwendet. Das VAR-Modell diskretisiert die Zeitachse in kleine Fenster und erstellt eine Zeitreihe anhand der Anwesenheit von Ereignissen in jedem Fenster. Anschließend modelliert es die Anwesenheit eines Ereignisses beim nächsten Zeitschritt anhand seiner Historie. Das Problem besteht darin, dass eine längere Historie mit hoher zeitlicher Auflösung eine große Anzahl von Fenstern und damit Modellparametern erfordert. Wir haben das Verfahren zur lokalen Dichteschätzung vorgeschlagen, das anstelle der Verwendung der binären Anwesenheit als Eingabe für das Modell eine Kerneldichteschätzung der Ereignishistorie durchführt und die Schätzung diskretisiert, um sie als Eingabe zu verwenden. Dadurch konnten wir die Anzahl der Modellparameter reduzieren, insbesondere bei spärlichen Daten. Unser Experiment mit einem spärlichen Poisson-Prozess hat gezeigt, dass dieses Verfahren die Modellvorhersageleistung erheblich verbessert.
Takahito YOSHIDA Takaharu YAGUCHI Takashi MATSUBARA
Die genaue Simulation physikalischer Systeme ist in vielen Bereichen von entscheidender Bedeutung. In den letzten Jahren wurde Deep Learning eingesetzt, um Modelle solcher Systeme automatisch zu erstellen, indem aus Daten gelernt wurde. Eine solche Methode ist die neuronale gewöhnliche Differentialgleichung (neuronale ODE), die die Ausgabe eines neuronalen Netzwerks als zeitliche Ableitung der Systemzustände behandelt. Obwohl diese und verwandte Methoden vielversprechend sind, müssen ihre Trainingsstrategien noch weiterentwickelt werden. Inspiriert von Fehleranalysetechniken in der numerischen Analyse, bei denen numerische Fehler durch Modellierungsfehler ersetzt werden, schlagen wir die fehleranalytische Strategie vor, um dieses Problem anzugehen. Daher kann unsere Strategie langfristige Fehler erfassen und so die Genauigkeit langfristiger Vorhersagen verbessern.
Congcong FANG Yun JIN Guanlin CHEN Yunfan ZHANG Shidang LI Yong MA Yue XIE
Derzeit basieren immer mehr Aufgaben zur Sprachemotionserkennung auf der Analyse von Sprach- und Textmerkmalen. Es gibt jedoch nach wie vor wenig Forschung, die das Potenzial der Nutzung großer Sprachmodelle wie GPT-3 zur Verbesserung der Emotionserkennung untersucht. In dieser Untersuchung nutzen wir die Leistungsfähigkeit des GPT-3-Modells, um semantische Informationen aus transkribierten Texten zu extrahieren und Textmodalmerkmale mit einer Dimensionalität von 1536 zu generieren. Anschließend führen wir eine Merkmalsfusion durch, bei der wir die 1536-dimensionalen Textmerkmale mit 1188-dimensionalen akustischen Merkmalen kombinieren, um umfassende multimodale Erkennungsergebnisse zu erzielen. Unsere Ergebnisse zeigen, dass die vorgeschlagene Methode in IEMOCAP eine gewichtete Genauigkeit von 79.62 % über die vier Emotionskategorien hinweg erreicht, was die erhebliche Verbesserung der Genauigkeit der Emotionserkennung unterstreicht, die durch die Integration großer Sprachmodelle ermöglicht wird.
Shuoyan LIU Chao LI Yuxin LIU Yanqiu WANG
Rolltreppen sind an öffentlichen Orten unverzichtbare Einrichtungen. Sie bieten zwar Komfort für die Menschen, aber ungewöhnliche Unfälle können schwerwiegende Folgen haben. Yolo ist eine Funktion, die menschliches Verhalten in Echtzeit erkennt. Das Modell weist jedoch eine geringe Genauigkeit und eine hohe Fehlerquote bei kleinen Zielen auf. Zu diesem Zweck wird in diesem Artikel das Modell Small Target High Performance YOLO (SH-YOLO) zur Erkennung von ungewöhnlichem Verhalten bei Rolltreppen vorgeschlagen. Das SH-YOLO-Modell verbessert zunächst das Backbone-Netzwerk durch Aufmerksamkeitsmechanismen. Anschließend wird eine kleine Zielerkennungsschicht integriert, um die Erkennung von Schlüsselpunkten für kleine Objekte zu verbessern. Schließlich werden Conv und SPPF durch Region Dynamic Perception Depth Separable Conv (DR-DP-Conv) bzw. Atrous Spatial Pyramid Pooling (ASPP) ersetzt. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Modell in der Lage ist, Anomalien in der realen Rolltreppenszene genau und robust zu erkennen.
Lihan TONG Weijia LI Qingxia YANG Liyuan CHEN Peng CHEN
Wir präsentieren Ksformer, das Multi-scale Key-select Routing Attention (MKRA) zur intelligenten Auswahl wichtiger Bereiche durch mehrkanalige, mehrskalige Fenster mit einem Top-k-Operator und Lightweight Frequency Processing Module (LFPM) zur Verbesserung hochfrequenter Funktionen nutzt und in Tests andere Methoden zur Dunstentfernung übertrifft.