Die Suchfunktion befindet sich im Aufbau.
Die Suchfunktion befindet sich im Aufbau.

IEICE TRANSACTIONS on Information

  • Impact Factor

    0.59

  • Eigenfactor

    0.002

  • article influence

    0.1

  • Cite Score

    1.4

Vorabveröffentlichung (wird sofort nach Annahme online veröffentlicht)

Volume E107-D No.11  (Publication Date:2024/11/01)

    Regulärer Abschnitt
  • BiConvNet: Integration räumlicher Details und tiefer semantischer Merkmale in ein bilaterales Bildsegmentierungsnetzwerk Open Access

    Zhigang WU  Yaohui ZHU  

     
    PAPER-Fundamentals of Information Systems

      Veröffentlicht:
    2024/07/16
      Seite(n):
    1385 1395

    Dieser Artikel konzentriert sich auf die Verbesserung der Struktur des bilateralen Zweig-Bildsegmentierungsnetzwerks BiSeNet v2, um seine Lernfähigkeit für räumliche Details und die allgemeine Bildsegmentierungsgenauigkeit zu verbessern. Es wird ein modifiziertes Netzwerk namens „BiconvNet“ vorgeschlagen. Um zunächst oberflächliche räumliche Details effektiver zu extrahieren, wird ein paralleles Concatenated Strip and Dilated (PCSD)-Faltungsmodul vorgeschlagen und verwendet, um lokale Merkmale und umgebende Kontextmerkmale im Detailzweig zu extrahieren. Anschließend wird der semantische Zweig mithilfe der leichtgewichtigen Fähigkeit der tiefenseparierbaren Faltung und der hohen Leistung von ConvNet rekonstruiert, um ein effizienteres Lernen tiefer, fortgeschrittener semantischer Merkmale zu ermöglichen. Schließlich wird eine Feinabstimmung der bilateralen Führungsaggregationsschicht von BiSeNet v2 durchgeführt, um eine bessere Fusion der vom Detailzweig und dem semantischen Zweig ausgegebenen Merkmalskarten zu ermöglichen. Der experimentelle Teil erörtert den Beitrag der Streifenfaltung und unterschiedlicher Größen der leeren Faltung zur Bildsegmentierungsgenauigkeit und vergleicht sie mit gängigen Faltungen wie Conv2d-Faltung, CG-Faltung und CCA-Faltung. Das Experiment beweist, dass das in diesem Artikel vorgeschlagene PCSD-Faltungsmodul im Vergleich zu herkömmlichen Faltungen die höchste Segmentierungsgenauigkeit in allen Kategorien des Cityscapes-Datensatzes aufweist. BiConvNet erreichte eine Genauigkeitsverbesserung von 9.39 % gegenüber dem BiSeNet v2-Netzwerk, bei nur einer geringen Erhöhung der Modellparameter um 1.18 M. Im Validierungssatz wurde eine mIoU-Genauigkeit von 68.75 % erreicht. Darüber hinaus zeigt BiConvNet durch Vergleichsexperimente mit in den letzten Jahren häufig verwendeten Bildsegmentierungsalgorithmen für autonomes Fahren starke Wettbewerbsvorteile bei der Segmentierungsgenauigkeit der Cityscapes- und BDD100K-Datensätze.

  • Aggregiertes, auf Pipeline-Strukturen basierendes Streaming-SSN für ein 1-ms-Superpixel-Segmentierungssystem in der Fabrikautomatisierung Open Access

    Yuan LI  Tingting HU  Ryuji FUCHIKAMI  Takeshi IKENAGA  

     
    PAPER-Computer System

      Veröffentlicht:
    2024/07/23
      Seite(n):
    1396 1407

    Bildverarbeitungssysteme mit einer Reaktionszeit von 1 Millisekunde (1 ms) gewinnen in verschiedenen Bereichen wie Fabrikautomatisierung und Robotik zunehmend an Bedeutung, da die ultrakurze Verzögerung nahtlose und zeitnahe Reaktionen gewährleistet. Die Superpixel-Segmentierung ist eine entscheidende Vorverarbeitung, um die Anzahl der Bildprimitive für die nachfolgende Verarbeitung zu reduzieren. In letzter Zeit wird zunehmend Wert darauf gelegt, auf tiefen Netzwerken basierende Algorithmen zu nutzen, um eine bessere Leistung und eine bessere Integration in andere Aufgaben tiefer Netzwerke zu erzielen. Das Superpixel Sampling Network (SSN) verwendet ein tiefes Netzwerk zur Merkmalsgenerierung und verwendet differenzierbares SLIC zur Superpixel-Generierung. SSN erreicht eine hohe Leistung mit einer kleinen Anzahl von Parametern. Die Implementierung von SSN auf FPGAs für ultrakurze Verzögerungen ist jedoch aufgrund der Aggregation von Zwischenergebnissen in der letzten Schicht mit Herausforderungen verbunden. Um diese Einschränkung zu beheben, schlägt dieses Dokument eine aggregierte bis pipelined-Struktur für die FPGA-Implementierung vor. Die letzte Schicht wird für jedes Zwischenergebnis in einzelne letzte Schichten zerlegt. Diese architektonische Anpassung macht Speicher zum Speichern von Zwischenergebnissen überflüssig. Gleichzeitig nutzt die vorgeschlagene Struktur zerlegte Schichten, um eine Pipeline-Struktur mit Pixel-Streaming-Eingabe zu ermöglichen und so eine extrem niedrige Latenz zu erreichen. Zur Zusammenarbeit mit der Pipeline-Struktur wird eine schichtpartitionierte Speicherarchitektur vorgeschlagen. Jede letzte Schicht verfügt über einen dedizierten Speicher zum Speichern von Superpixel-Mittelpunktinformationen, sodass Werte ohne Konflikte aus dem Speicher gelesen und berechnet werden können. Die Berechnungsergebnisse jeder letzten Schicht werden akkumuliert und das Ergebnis jedes Pixels wird abgerufen, wenn der Stream die letzte Schicht erreicht. Die Auswertungsergebnisse zeigen, dass der Boundary-Recall und der Untersegmentierungsfehler mit SSN vergleichbar bleiben, wobei die durchschnittliche Verbesserung der Beschriftungskonsistenz um 0.035 gegenüber SSN liegt. Aus Sicht der Hardwareleistung verarbeitet das vorgeschlagene System 1000-FPS-Bilder mit einer Verzögerung von 0.947 ms/Frame.

  • Laufzeittests für Speicherfehlerhandler von In-Memory-Schlüsselwertspeichern mit MemFI Open Access

    Naoya NEZU  Hiroshi YAMADA  

     
    PAPER-Software System

      Veröffentlicht:
    2024/07/11
      Seite(n):
    1408 1421

    Moderne Speichergeräte wie DRAM sind anfällig für Fehler, die durch unbeabsichtigte Bit-Flips während ihres Betriebs auftreten. Da Speicherfehler schwerwiegende Auswirkungen auf In-Memory-Key-Value-Stores (KVSes) haben, werden Softwaremechanismen erforscht, um sie gegen Speicherfehler abzusichern. Aufgrund seiner Eigenschaften ist es jedoch schwierig, den Code zur Behandlung von Speicherfehlern effizient zu testen: Der Code ist ereignisgesteuert, die Handler hängen vom Speicherobjekt ab und In-Memory-KVSes verwalten verschiedene Objekte in einem riesigen Speicherplatz. Dieses Dokument präsentiert MemFI das Laufzeittests für die Speicherfehlerhandler von In-Memory-KVSes unterstützt. Unser Ansatz führt die Softwarefehlerinjektion von Speicherfehlern auf Speicherobjektebene durch, um den Zielhandler auszulösen, während Tests im selben laufenden Zustand reibungslos ausgeführt werden. Um die Wirksamkeit von MemFI zu zeigen, integrieren wir Fehlerbehandlungsmechanismen in ein reales In-Memory-KVS, memcached 1.6.9 und Redis 6.2.7, und überprüfen ihr Verhalten mithilfe der MemFI-Prototypen. Die Ergebnisse zeigen, dass der MemFI-basierte Laufzeittest es uns ermöglicht, das Verhalten der Fehlerbehandlungsmechanismen zu überprüfen. Wir zeigen auch seine Effizienz, indem wir ihn anhand eines Testmodells mit anderen Fehlerinjektionsansätzen vergleichen.

  • Multi-Focus-Bildfusionsalgorithmus basierend auf Multi-Task-Learning und PS-ViT Open Access

    Qinghua WU  Weitong LI  

     
    PAPER-Image Recognition, Computer Vision

      Veröffentlicht:
    2024/07/11
      Seite(n):
    1422 1432

    Bei der Multifokus-Bildfusion werden teilweise fokussierte Bilder derselben Szene kombiniert, um ein vollständig fokussiertes Bild zu erstellen. Um die Probleme bestehender Multifokus-Bildfusionsalgorithmen zu lösen, nämlich dass das Benchmark-Bild schwer zu erhalten ist und das Convolutional Neural Network sich zu stark auf die lokale Region konzentriert, wird ein Fusionsalgorithmus vorgeschlagen, der lokale und globale Merkmalskodierung kombiniert. Zunächst entwickeln wir zwei selbstüberwachte Bildrekonstruktionsaufgaben und trainieren ein Encoder-Decoder-Netzwerk durch Multitasking-Lernen. Anschließend verschmelzen wir innerhalb des Encoders das dichte Verbindungsmodul mit dem PS-ViT-Modul, sodass das Netzwerk bei der Merkmalsextraktion lokale und globale Informationen nutzen kann. Schließlich werden zur Verbesserung der Gesamteffizienz des Modells auf jede Aufgabe unterschiedliche Verlustfunktionen angewendet. Um die robusteren Merkmale der Originalbilder zu erhalten, wird während der Fusionsphase die räumliche Frequenz verwendet, um die Merkmalskarte des fusionierten Bildes zu erhalten. Versuchsergebnisse zeigen, dass unsere Methode im Vergleich zu zwölf anderen bekannten Algorithmen bei der objektiven Bewertung eine gute Fusionsleistung aufweist. Zehn der ausgewählten zwölf Bewertungsmetriken zeigen eine Verbesserung von mehr als 0.28 %. Darüber hinaus bietet es subjektiv bessere visuelle Effekte.

  • Ontologie-Matching und -Reparatur basierend auf semantischer Assoziation und probabilistischer Logik Open Access

    Nan WU  Xiaocong LAI  Mei CHEN  Ying PAN  

     
    PAPER-Natural Language Processing

      Veröffentlicht:
    2024/07/11
      Seite(n):
    1433 1443

    Mit der Entwicklung des semantischen Webs nutzen immer mehr Forscher Ontologie-Technologien, um Domänenontologien zu konstruieren. Da es keinen einheitlichen Konstruktionsstandard gibt, kommt es zu Heterogenität der Ontologien. Die Ontologie-Matching-Methode kann heterogene Ontologien zusammenführen, wodurch die Interoperabilität zwischen Wissen realisiert und relevantere semantische Informationen verknüpft werden. Im Falle von Unterschieden zwischen Ontologien ist die Frage, wie falsches Matching und erfolgloses Matching reduziert werden können, ein kritisches Problem, das gelöst werden muss. Darüber hinaus wird die semantische Beziehung zwischen Ontologien mit der zunehmenden Anzahl von Ontologien immer komplexer. Dennoch reichen die aktuellen Methoden, die lediglich die Ähnlichkeit von Namen zwischen Konzepten ermitteln, nicht mehr aus. Daher wird in diesem Artikel eine Ontologie-Matching-Methode auf Grundlage semantischer Assoziation vorgeschlagen. Genaue Matching-Paare werden durch vorhandenes semantisches Wissen entdeckt, und dann werden die potenziellen semantischen Assoziationen zwischen Konzepten entsprechend den Merkmalen der Kontextstruktur ermittelt. Die Matching-Methode kann Matching-Arbeiten auf Grundlage zuverlässiger Kenntnisse besser durchführen. Darüber hinaus wird in diesem Artikel eine Methode zur Reparatur probabilistischer Logik vorgestellt, mit der Konflikte bei Übereinstimmungsergebnissen erkannt und behoben werden können, um die Verfügbarkeit und Zuverlässigkeit der Übereinstimmungsergebnisse zu verbessern. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode die Qualität der Übereinstimmung zwischen Ontologien effektiv verbessert und Zeit bei der Reparatur falscher Übereinstimmungspaare spart. Darüber hinaus weist die vorgeschlagene Methode im Vergleich zu vorhandenen Ontologie-Übereinstimmungssystemen eine bessere Stabilität auf.

  • Messung der mentalen Arbeitsbelastung von Softwareentwicklern anhand der Nasenhauttemperatur Open Access

    Keitaro NAKASAI  Shin KOMEDA  Masateru TSUNODA  Masayuki KASHIMA  

     
    LETTER-Software Engineering

      Veröffentlicht:
    2024/07/11
      Seite(n):
    1444 1448

    Um die mentale Arbeitsbelastung von Entwicklern automatisch zu messen, wurden in bestehenden Studien biometrische Messungen wie Gehirnströme und Herzfrequenz verwendet. Allerdings müssen Entwickler bei der Messung oft bestimmte Geräte tragen und können daher körperlich belastet sein. In dieser Studie untersuchten wir die Durchführbarkeit berührungsloser biometrischer Messungen auf Basis der Nasenhauttemperatur (NST). Im Experiment waren die vorgeschlagenen biometrischen Messungen genauer als nicht-biometrische Messungen.

  • CLEAR & RETURN: Laufzeit-Gegenmaßnahmen in kryptografischen Grundelementen stoppen Open Access

    Myung-Hyun KIM  Seungkwang LEE  

     
    LETTER-Information Network

      Veröffentlicht:
    2024/06/26
      Seite(n):
    1449 1452

    White-Box-Kryptographieimplementierungen verwenden häufig Maskierung und Shuffling als Gegenmaßnahmen gegen Schlüsselextraktionsangriffe. Um diesen Abwehrmaßnahmen entgegenzuwirken, wurden die Differential Computation Analysis höherer Ordnung (HO-DCA) und ihre Varianten entwickelt. Diese Methoden zielen darauf ab, diese Gegenmaßnahmen zu durchbrechen, ohne dass Reverse Engineering erforderlich ist. Diese nichtinvasiven Angriffe sind jedoch teuer und können durch Aktualisierung der Maskierungs- und Shuffling-Techniken vereitelt werden. In diesem Dokument wird ein einfacher Binärinjektionsangriff vorgestellt, der treffend benannt ist löschen & zurückgeben, entwickelt, um die fortgeschrittenen Maskierungs- und Shuffling-Abwehrmechanismen der White-Box-Kryptographie zu umgehen. Der Angriff beinhaltet das Einfügen einer kleinen Menge Assemblercode, der Laufzeit-Zufallsquellen effektiv deaktiviert. Dieser Verlust an Zufälligkeit legt den ungeschützten Nachschlagewert innerhalb von White-Box-Implementierungen offen und macht sie anfällig für einfache statistische Analysen. In Experimenten mit Open-Source-White-Box-Kryptographieimplementierungen zeigt sich die Angriffsstrategie, Einträge in der Global Offset Table (GOT) oder Funktionsaufrufe zu kapern, als effektiv bei der Umgehung von Laufzeit-Gegenmaßnahmen.

  • Lokales Dichteschätzverfahren für die autoregressive Modellierung von Punktprozessdaten Open Access

    Nat PAVASANT  Takashi MORITA  Masayuki NUMAO  Ken-ichi FUKUI  

     
    LETTER-Artificial Intelligence, Data Mining

      Veröffentlicht:
    2024/07/11
      Seite(n):
    1453 1457

    Wir haben ein Verfahren zur Vorverarbeitung von Daten vorgeschlagen, die in einer vektorautoregressiven (VAR) Modellierung eines zeitlichen Punktprozesses unter Verwendung einer Kerneldichteschätzung verwendet werden. Die vektorautoregressive Modellierung von Punktprozessdaten wird beispielsweise zur Kausalitätsinferenz verwendet. Das VAR-Modell diskretisiert die Zeitachse in kleine Fenster und erstellt eine Zeitreihe anhand der Anwesenheit von Ereignissen in jedem Fenster. Anschließend modelliert es die Anwesenheit eines Ereignisses beim nächsten Zeitschritt anhand seiner Historie. Das Problem besteht darin, dass eine längere Historie mit hoher zeitlicher Auflösung eine große Anzahl von Fenstern und damit Modellparametern erfordert. Wir haben das Verfahren zur lokalen Dichteschätzung vorgeschlagen, das anstelle der Verwendung der binären Anwesenheit als Eingabe für das Modell eine Kerneldichteschätzung der Ereignishistorie durchführt und die Schätzung diskretisiert, um sie als Eingabe zu verwenden. Dadurch konnten wir die Anzahl der Modellparameter reduzieren, insbesondere bei spärlichen Daten. Unser Experiment mit einem spärlichen Poisson-Prozess hat gezeigt, dass dieses Verfahren die Modellvorhersageleistung erheblich verbessert.

  • Verlustfunktion für Deep Learning zur Modellierung dynamischer Systeme Open Access

    Takahito YOSHIDA  Takaharu YAGUCHI  Takashi MATSUBARA  

     
    LETTER-Artificial Intelligence, Data Mining

      Veröffentlicht:
    2024/07/22
      Seite(n):
    1458 1462

    Die genaue Simulation physikalischer Systeme ist in vielen Bereichen von entscheidender Bedeutung. In den letzten Jahren wurde Deep Learning eingesetzt, um Modelle solcher Systeme automatisch zu erstellen, indem aus Daten gelernt wurde. Eine solche Methode ist die neuronale gewöhnliche Differentialgleichung (neuronale ODE), die die Ausgabe eines neuronalen Netzwerks als zeitliche Ableitung der Systemzustände behandelt. Obwohl diese und verwandte Methoden vielversprechend sind, müssen ihre Trainingsstrategien noch weiterentwickelt werden. Inspiriert von Fehleranalysetechniken in der numerischen Analyse, bei denen numerische Fehler durch Modellierungsfehler ersetzt werden, schlagen wir die fehleranalytische Strategie vor, um dieses Problem anzugehen. Daher kann unsere Strategie langfristige Fehler erfassen und so die Genauigkeit langfristiger Vorhersagen verbessern.

  • Multimodale Sprachemotionserkennung basierend auf einem großen Sprachmodell Open Access

    Congcong FANG  Yun JIN  Guanlin CHEN  Yunfan ZHANG  Shidang LI  Yong MA  Yue XIE  

     
    LETTER-Speech and Hearing

      Veröffentlicht:
    2024/07/22
      Seite(n):
    1463 1467

    Derzeit basieren immer mehr Aufgaben zur Sprachemotionserkennung auf der Analyse von Sprach- und Textmerkmalen. Es gibt jedoch nach wie vor wenig Forschung, die das Potenzial der Nutzung großer Sprachmodelle wie GPT-3 zur Verbesserung der Emotionserkennung untersucht. In dieser Untersuchung nutzen wir die Leistungsfähigkeit des GPT-3-Modells, um semantische Informationen aus transkribierten Texten zu extrahieren und Textmodalmerkmale mit einer Dimensionalität von 1536 zu generieren. Anschließend führen wir eine Merkmalsfusion durch, bei der wir die 1536-dimensionalen Textmerkmale mit 1188-dimensionalen akustischen Merkmalen kombinieren, um umfassende multimodale Erkennungsergebnisse zu erzielen. Unsere Ergebnisse zeigen, dass die vorgeschlagene Methode in IEMOCAP eine gewichtete Genauigkeit von 79.62 % über die vier Emotionskategorien hinweg erreicht, was die erhebliche Verbesserung der Genauigkeit der Emotionserkennung unterstreicht, die durch die Integration großer Sprachmodelle ermöglicht wird.

  • SH-YOLO: Hochleistungs-YOLO mit kleinem Ziel zur Erkennung abnormalen Verhaltens in Rolltreppenszenen Open Access

    Shuoyan LIU  Chao LI  Yuxin LIU  Yanqiu WANG  

     
    LETTER-Image Recognition, Computer Vision

      Veröffentlicht:
    2024/06/26
      Seite(n):
    1468 1471

    Rolltreppen sind an öffentlichen Orten unverzichtbare Einrichtungen. Sie bieten zwar Komfort für die Menschen, aber ungewöhnliche Unfälle können schwerwiegende Folgen haben. Yolo ist eine Funktion, die menschliches Verhalten in Echtzeit erkennt. Das Modell weist jedoch eine geringe Genauigkeit und eine hohe Fehlerquote bei kleinen Zielen auf. Zu diesem Zweck wird in diesem Artikel das Modell Small Target High Performance YOLO (SH-YOLO) zur Erkennung von ungewöhnlichem Verhalten bei Rolltreppen vorgeschlagen. Das SH-YOLO-Modell verbessert zunächst das Backbone-Netzwerk durch Aufmerksamkeitsmechanismen. Anschließend wird eine kleine Zielerkennungsschicht integriert, um die Erkennung von Schlüsselpunkten für kleine Objekte zu verbessern. Schließlich werden Conv und SPPF durch Region Dynamic Perception Depth Separable Conv (DR-DP-Conv) bzw. Atrous Spatial Pyramid Pooling (ASPP) ersetzt. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Modell in der Lage ist, Anomalien in der realen Rolltreppenszene genau und robust zu erkennen.

  • Vision Transformer mit Key-Select Routing Attention zur Einzelbild-Enttrübung Open Access

    Lihan TONG  Weijia LI  Qingxia YANG  Liyuan CHEN  Peng CHEN  

     
    LETTER-Image Recognition, Computer Vision

      Veröffentlicht:
    2024/07/01
      Seite(n):
    1472 1475

    Wir präsentieren Ksformer, das Multi-scale Key-select Routing Attention (MKRA) zur intelligenten Auswahl wichtiger Bereiche durch mehrkanalige, mehrskalige Fenster mit einem Top-k-Operator und Lightweight Frequency Processing Module (LFPM) zur Verbesserung hochfrequenter Funktionen nutzt und in Tests andere Methoden zur Dunstentfernung übertrifft.