banner

Nachricht

Jul 19, 2023

Zwei

Scientific Reports Band 13, Artikelnummer: 11658 (2023) Diesen Artikel zitieren

173 Zugriffe

Details zu den Metriken

Föderiertes Lernen ermöglicht es mehreren Knoten, lokale Berechnungen durchzuführen und zusammenzuarbeiten, um maschinelle Lernaufgaben zu erledigen, ohne private Daten von Knoten zu zentralisieren. Allerdings führen die vom Framework geforderten häufigen Upload-/Download-Vorgänge für Modellgradienten zu hohen Kommunikationskosten, die mit der Skalierung tiefer Modelle zum Hauptengpass für föderiertes Lernen geworden sind und dessen Leistung beeinträchtigen. In diesem Artikel schlagen wir einen zweischichtigen akkumulierten quantisierten Komprimierungsalgorithmus (TLAQC) vor, der die Kommunikationskosten des föderierten Lernens effektiv reduziert. TLAQC erreicht dies, indem es sowohl die Kosten der individuellen Kommunikation als auch die Anzahl globaler Kommunikationsrunden reduziert. TLAQC führt eine überarbeitete Quantisierungsmethode namens RQSGD ein, die eine Nullwertkorrektur verwendet, um ineffektive Quantisierungsphänomene abzuschwächen und durchschnittliche Quantisierungsfehler zu minimieren. Darüber hinaus reduziert TLAQC die Häufigkeit des Hochladens von Gradienteninformationen durch einen adaptiven Schwellenwert und einen Parameter-Selbstprüfungsmechanismus, wodurch die Kommunikationskosten weiter gesenkt werden. Außerdem werden Quantisierungsfehler und beibehaltene Gewichtsdeltas akkumuliert, um den Verlust von Gradientenwissen auszugleichen. Durch Quantisierungskorrektur und zweischichtige Akkumulation reduziert TLAQC den durch Kommunikationskomprimierung verursachten Präzisionsverlust erheblich. Experimentelle Ergebnisse zeigen, dass RQSGD eine Inzidenz ineffektiver Quantisierung von nur 0,003 % erreicht und den durchschnittlichen Quantisierungsfehler auf 1,6 × \({10}^{-5}\) reduziert. Im Vergleich zum hochpräzisen FedAVG komprimiert TLAQC den hochgeladenen Datenverkehr auf nur 6,73 % und erhöht gleichzeitig die Genauigkeit um 1,25 %.

Mit den rasanten Fortschritten bei neuen Technologien wie dem Internet der Dinge (IoT) und Edge Computing ist das am Netzwerkrand erzeugte Datenvolumen exponentiell gewachsen. Eine erhebliche Menge wertvoller Daten ist über verschiedene Endgeräte verteilt. Herkömmliche Deep-Learning-Methoden erfordern in der Regel eine zentrale Speicherung von Trainingsdaten, was eine Herausforderung bei der zentralisierten Integration von Daten in natürlichen Umgebungen darstellt. Diese Situation führt zur Bildung von „Dateninseln“ und schafft Barrieren zwischen Datenquellen. Im Jahr 2016 führte Google das Konzept des föderierten Lernens ein, das speziell für mobile Geräte entwickelt wurde. Föderiertes Lernen1,2 erwies sich als Lösung, um das Problem der Dateninseln in gewissem Maße anzugehen. McMahan et al.3 beschrieben das Federated-Learning-Framework für Deep-Learning-Aufgaben und schlugen den bekannten FedAVG-Algorithmus (Federated Averaging Algorithm) vor. Der Schlüsselaspekt des föderierten Lernens besteht darin, dass die gemeinsame Nutzung privater Daten zwischen Knoten entfällt und den Knoten die vollständige Kontrolle über ihre lokal gespeicherten Daten gewährt wird. In einer typischen Worker-Server-Architektur4,5,6,7,8 laden Worker-Knoten ihre lokalen Modelltrainingsinformationen (z. B. Farbverläufe oder Parameteraktualisierungen) auf einen zentralen Server hoch. Der Server nutzt die hochgeladenen Informationen von Worker-Knoten, um das globale Modell mithilfe eines Aggregationsalgorithmus zu aktualisieren.

Einerseits erfordert föderiertes Lernen jedoch eine große Anzahl von Kommunikationen zwischen Knoten, um eine gute Modellgenauigkeit zu erreichen. Andererseits ist mit der kontinuierlichen Vergrößerung des Umfangs des Deep Learning die Anzahl der Modellparameter explodiert, was die Kosten pro Kommunikation des föderierten Lernens stark erhöht. Die Begrenzung der Kommunikationskosten ist durch die Netzwerkbedingungen und die Bandbreite begrenzt und verhindert, dass viele Edge-Knoten am föderierten Lernen teilnehmen. Hohe Kommunikationskosten sind zum größten Engpass beim föderierten Lernen geworden. Um die Herausforderung der hohen Kommunikationskosten beim föderierten Lernen zu bewältigen, haben Forscher verschiedene Methoden zur Kommunikationskomprimierung vorgeschlagen, die darauf abzielen, den Kommunikationsaufwand sowohl beim föderierten Lernen als auch beim verteilten maschinellen Lernen zu reduzieren. Diese Methoden zielen darauf ab, die Kommunikationslast zu verringern und gleichzeitig die Gesamtleistung des föderierten Lernprozesses aufrechtzuerhalten oder zu verbessern.

Das Bereinigen neuronaler Netze war eine frühere Methode, die zur Modellkomprimierung und -beschleunigung vorgeschlagen wurde. Srinivas et al.9 verwendeten Pruning-Methoden, um redundante Neuronen zu entfernen, und Han et al.10,11 reduzierten die Gesamtzahl der Parameter und Operationen für das gesamte Netzwerk, entfernten redundante Verbindungen und quantifizierten Parameter. Vanhoucke et al.12 zeigten, dass die 8-Bit-Quantisierung von Parametern Modelle bei minimalem Genauigkeitsverlust erheblich beschleunigen kann. Das Hauptziel der Modellkomprimierung besteht darin, den Speicher- und Rechenaufwand für Knoten zu verringern. Sie senkt aber auch indirekt die Kommunikationskosten, indem die Netzwerkkomplexität und die Parametergröße reduziert werden. Später wurden Quantisierungsmethoden direkt angewendet, um kommunikationseffizientes verteiltes maschinelles Lernen zu untersuchen. Im Gegensatz zur Modellkomprimierung konzentriert sich die Kommunikationskomprimierung ausschließlich auf die Verbesserung der Kommunikationseffizienz. Vorgänger haben verschiedene Gradientenquantisierungsmethoden13,14,15,16,17,18,19 vorgeschlagen, um das datenparallele verteilte Lernen durch Quantifizierung des Kommunikationsinhalts zu beschleunigen. Inspiriert durch das Konzept der Modellverzögerungsaktualisierung21,22 führten Storm et al.23 eine Gradientensparsifizierungsmethode ein, bei der nur Gradienten gesendet werden, die einen bestimmten Schwellenwert überschreiten. Anschließend schlugen Aji, Yin et al.24,28 verschiedene Strategien für die Gradientenauswahl vor. Im Gegensatz zum oben erwähnten Gradientensparsifizierungsansatz behandeln Chen et al.27 die Gradienten des gesamten Knotens als minimale Einheit für die Gradientenauswahl, was bedeutet, dass ein Knoten entweder alle Untergradienten sendet oder überhaupt keine. Diese Sparse-Methode reduziert die Anzahl der Kommunikationsrunden und wird als Kommunikationssparsifizierungsmethode bezeichnet. Sowohl Quantisierungs- als auch Sparsifizierungsschemata reduzieren die Kommunikationskosten des verteilten maschinellen Lernens erheblich. Im Kontext des kommunikationseffizienten föderierten Lernens liegt der Forschungsschwerpunkt auf der Reduzierung des Einflusses von Gradientenverlusten auf die Modellkonvergenz unter hoher Komprimierung. Das Ziel besteht darin, eine effektive Komprimierung zu erreichen und gleichzeitig eine zufriedenstellende Modellkonvergenz während des föderierten Lernprozesses aufrechtzuerhalten.

In unserer Forschung haben wir beobachtet, dass der QSGD14-Algorithmus (Quantized Stochastic Gradient Descent)14 bei der Anwendung auf Deep Learning ein ineffektives Quantisierungsphänomen aufweist, was zu einer ineffizienten Kommunikation führt. Um dieses Problem anzugehen, schlagen wir den TLAQC-Algorithmus (Two-Layer Accumulated Quantized Compression) vor, der den Quantisierungsalgorithmus des Vorgängers verbessert. Darüber hinaus integrieren wir die Kommunikationssparsifizierungsmethode, um die Kommunikationskosten weiter zu senken. Darüber hinaus führen wir einen zweischichtigen Akkumulationsansatz ein, um den durch die Kommunikationskomprimierung entstehenden Verlust zu kompensieren. TLAQC weist eine hohe Praxistauglichkeit auf und kann flexibel auf Szenarien des verteilten maschinellen Lernens und des föderierten Lernens angewendet werden. Die Hauptbeiträge dieses Papiers sind wie folgt zusammengefasst:

(1) Wenn der Quantisierungsalgorithmus QSGD14 auf Deep Learning angewendet wird, wird eine große Anzahl von Werten auf 0 quantisiert. In diesem Artikel bezeichnen wir das Phänomen des Nullsetzens von Gradientenwerten ungleich Null während des Deep-Model-Trainings als ineffektive Quantisierung. Schwerwiegende ineffektive Quantisierungsprobleme führen zu unnötiger Kommunikationsverschwendung und Nullgradientenwerte tragen nicht zum Modelltraining bei. In diesem Zusammenhang stellt dieser Artikel den RQSGD-Algorithmus (Revised QSGD) vor, der auf QSGD aufbaut und eine Nullwertkorrektur in den Quantisierungsprozess integriert. Diese zusätzlichen Kosten führen nur zu einem minimalen Faktor voller Präzision. Simulationsexperimente zeigen, dass RQSGD das Verhältnis von Quantisierungsfehlern und ineffektiver Quantisierung im Vergleich zu QSGD erheblich reduziert und dadurch die Quantisierungseffizienz verbessert.

(2) Um die Kommunikationskosten weiter zu senken, kombiniert TLAQC die Sparsifizierungsmethode mit der Quantisierung. Wir leiten die globale adaptive Schwellen- und Modellparameter-Selbstinspektionsformel ab. Worker-Knoten nutzen den adaptiven Schwellenwert und die Selbstprüfungsformel, um eine Parameterselbstprüfung der quantisierten Modellparameter durchzuführen. Knoten, die die Schwellenwertkriterien nicht erfüllen, überspringen die aktuelle Kommunikationsrunde und erreichen so das Ziel einer spärlichen Kommunikation.

(3)Für Worker-Knoten, die die Schwellenwertprüfung erfolgreich bestehen, wird der Quantisierungsfehler der aktuellen Runde lokal aufgezeichnet. Andererseits werden für Knoten, die die Prüfung nicht bestehen, die Gewichtsdeltas des entsprechenden Trainings lokal gespeichert. In der anschließenden Trainingsrunde werden der Quantisierungsfehler und die beibehaltenen Modellgewichtungsdeltas akkumuliert, um den durch die Kommunikationskomprimierung verursachten Verlust zu minimieren.

Föderiertes Lernen ist eine spezielle Art des verteilten maschinellen Lernens, bei dem die Trainingsdaten oder -modelle auf mehrere Trainingsknoten aufgeteilt werden, um einen Rechencluster zu bilden. Dieser Ansatz nutzt mehrere Computergeräte, um maschinelle Lernaufgaben gemeinsam auszuführen. Die Parameterserverarchitektur4,5,6,7,8 ist eine weit verbreitete Architektur im verteilten maschinellen Lernen. Es besteht aus Worker-Knoten und zentralen Parameterservern, wobei Worker-Knoten parallele Berechnungen an verschiedenen Daten durchführen, um Gewichtsdeltas zu berechnen, und der Server globale Parameter basierend auf den von den Workern hochgeladenen Informationen aktualisiert. Diese Architektur folgt einer typischen Master-Slave-Konfiguration, wie in Abb. 1 dargestellt. Der FedSGD-Algorithmus basiert auf der Parameterserverarchitektur, bei der alle Arbeitsknoten in jeder Trainingsrunde Parameter mit dem zentralen Parameterserver hoch- und herunterladen müssen. Um die Effizienz des föderierten Lernens zu steigern, schlägt FedAVG, eine Erweiterung von FedSGD, vor, mehrere lokale Iterationen von SGD auf den Knoten durchzuführen, bevor die lokalen Berechnungsergebnisse auf den zentralen Knoten hochgeladen werden. Folglich gilt FedAvg als kommunikationseffizienter föderierter Lernalgorithmus.

Föderiertes Lernen unter Server-Worker-Architektur.

Unter der Annahme, dass die Menge aller an der Trainingsaufgabe beteiligten Worker-Knoten M ist, lautet das Ziel des Optimierungsproblems:

Dabei ist \(W\) der Parameterraum und \(f\) die Zielfunktion. \({D}_{p}\) ist der lokale Datensatz von Worker p, und der Server aktualisiert das globale Modell gemäß:

\({w}_{p}^{k-1}\) sind die Parameter, die lokal vom Worker p basierend auf den globalen Modellparametern \({\theta }_{global}^{k-1}\) aktualisiert werden. der k − 1-Runde und \({\omega }_{p}\) ist der Parametergewichtswert des Arbeiters p (die Datensatzgröße des Arbeiters p macht die Gesamtgröße des Datensatzes aus). Wenn N Worker die gleiche Datengröße haben und die von den Worker-Knoten hochgeladenen Informationen die Gewichtsdeltas ∆w sind, kann die oben genannte Funktion in die folgende Funktion umgewandelt werden:

Unter Gradientenquantisierung versteht man die Reduzierung des Kommunikationsverkehrs durch Verringerung der Genauigkeit des Gradienten. Die meisten modernen Computer verwenden 32 oder 64 Bit, um eine Gleitkommazahl darzustellen, und die Quantisierung reduziert die Anzahl der durch jeden Wert dargestellten Ziffern, wodurch der Datenverkehr um ein Vielfaches komprimiert wird, was beim Deep Learning äußerst offensichtlich ist. Die Darstellung des Originalwerts mit einer geringen Anzahl von Bits führt unweigerlich zu Quantisierungsfehlern. Der Schwerpunkt der Quantisierungsmethoden liegt auf der Reduzierung von Quantisierungsfehlern und der Schädigung der Modellkonvergenz durch Quantisierungsfehler. Seide et al.13 schlugen eine 1-Bit-Quantisierung vor, die nur das Vorzeichen des Gradienten beibehält und die Auswirkungen auf die Konvergenzgeschwindigkeit verringert, indem Quantisierungsfehler wieder zum Wohngradienten hinzugefügt werden. Alistarh et al.14 schlugen den QSGD-Algorithmus vor und bewiesen die Konvergenz des Algorithmus. Es wechselt zwischen Konvergenz- und Quantisierungsniveaus und reduziert die Kommunikationskosten durch Anpassen der Anzahl der gesendeten Bits. Wen et al.15 quantisierten die Gleitkommazahl auf {− 1, 0, + 1}, schlugen den TernGrad-Algorithmus vor und lieferten den Beweis der Konvergenz unter der Annahme, dass der Gradient begrenzt ist. Er et al.20 glaubten, dass die Gradienten mit größeren Beträgen kritischer seien, und schlugen einen nichtlinearen Quantisierungsalgorithmus CosSGD vor, der auf der Kosinusfunktion basiert, sodass der Wert mit signifikanteren Gradienten einen feineren Quantisierungsraum hat.

Unter Gradientensparsifizierung versteht man das selektive Senden von Teilgradienten und die Reduzierung der Kommunikationskosten durch Verwerfen einiger Gradienten mit kleinen Beiträgen. Die Studie ergab, dass die von Knoten in verteilten SGD berechneten Gradienten oft spärlich sind und die meisten Gradientenwerte nahe bei 0 liegen. Ein solcher Gradientenaustausch ist nicht nur redundant, sondern erhöht auch die Kommunikationskosten. Die Redundanz des Gradientenaustauschs bietet eine theoretische Machbarkeit für die Sparsifizierung von Gradienten, und die Auswahl von Gradienten steht im Mittelpunkt der Sparsifizierungsschemata. Storm et al.23 schlugen eine Methode zur Auswahl von Gradienten gemäß einem voreingestellten Schwellenwert vor, und die Arbeiter senden die Gradienten nur dann an den zentralen Parameterserver, wenn die Gradienten größer als der angegebene Schwellenwert sind. Allerdings sind die Modelle für maschinelles Lernen und Deep Learning umfangreich und vielfältig, und auch die Datensätze sind sehr unterschiedlich, sodass es schwierig ist, im Voraus einen geeigneten Schwellenwert festzulegen. In diesem Zusammenhang schlugen Aji et al.24 vor, eine feste Komprimierungsrate (komprimierte Größe/vorkomprimierte Größe) zu verwenden, um die gesendeten Gradienten auszuwählen; Dryden et al.25 schlagen Sparsifizierungsgradienten unter Verwendung fester Anteile positiver und negativer Gradienten vor; Hardy et al.26 schlugen einen adaptiven Komprimierungsalgorithmus (AdaComp) vor, der die Gradientenwerte sortiert, die größten k Elemente für die Übertragung auswählt und den Einfluss des Abklingeffekts des Gradienten auf das Modelltraining berücksichtigt. Chen27 et al. schlug einen LAG-Algorithmus für spärliche Kommunikation vor, der in jeder Trainingsrunde adaptiv einen Schwellenwert berechnet und darauf abzielt, einen Teil der Kommunikation zu überspringen, die Gradienten überträgt. Im Gegensatz zu den oben genannten Methoden reduziert der LAG-Algorithmus die Kommunikationskosten im föderierten Lernmechanismus, indem er die Kommunikationsfrequenz zwischen den Arbeitsknoten und dem zentralen Parameterserver verringert.

Dieser Abschnitt enthält eine detaillierte Erläuterung des in diesem Dokument vorgeschlagenen TLAQC-Algorithmus (Two-Layer Accumulated Quantized Compression). Der TLAQC-Algorithmus besteht hauptsächlich aus Quantisierungs- und Kommunikationssparsifizierungsmethoden. Im Abschnitt „RQSGD“ stellen wir eine überarbeitete Quantisierungsmethode namens RQSGD (Revised QSGD) vor, um das Problem der ineffektiven Quantisierung anzugehen. Aufbauend auf der RQSGD-Komprimierung reduziert Abschnitt „Communication Sparsification“ die Häufigkeit, mit der Arbeitnehmer lokale Informationen hochladen, durch Kommunikationssparsifizierung und erhöht so den Grad der Kommunikationskomprimierung weiter. Die zweischichtige Akkumulation bezieht sich auf die Akkumulation von Quantisierungsfehlern und übersprungenen Gewichtsdeltas bei den Arbeitern, um den durch die Kommunikationskomprimierung verursachten Genauigkeitsverlust auszugleichen. Es ist erwähnenswert, dass im Kontext dieser Arbeit |M| gilt, wenn M eine Menge darstellt bezeichnet die Kardinalität der Menge M. Ebenso gilt, wenn x einen Wert darstellt, |x| stellt den Absolutwert von x dar und sgn(x) stellt das Vorzeichen von x dar. Wenn v außerdem einen Vektor darstellt, stellt \(\Vert v\Vert\) die \({l}_{2}\)- oder \({l}_{\infty }\)-Norm des Vektors v dar.

Durch die Quantisierung von Gleitkommazahlen mit voller Genauigkeit können die Kommunikationskosten für verteiltes und föderiertes Lernen erheblich gesenkt werden. Der Quantisierungsprozess von RQSGD besteht aus zwei Schritten. Im ersten Schritt wird für einen gegebenen Vektor \(v\in {R}^{n}\) eine b-Bit-Quantisierung am \(i\)-ten Eintrag von v durchgeführt, die Quantisierungsoperation \({\widetilde {Q}}_{b}\left({v}_{i}\right)\) in RQSGD ähnelt QSGD14 und ist wie folgt definiert (Abb. 2):

wobei \({\Vert v\Vert }_{\infty }\) den Skalierungsfaktor darstellt. Wir definieren \(\tau :=1/({2}^{b-1}-1)\) und \({\xi }_{b}({\Vert v\Vert }_{\infty } ;\left|{v}_{i}\right|)\) bildet \(\left|{v}_{i}\right|\) auf den quantisierten Raum { 0,τ,2τ,⋯,1} ab :

\(\left|{v}_{i}\right|/{\Vert v\Vert }_{\infty }\) fällt in das Intervall \(\left[l\tau ,\left(l+1\ right)\tau \right]\), \(l\) ist eine ganze Zahl zwischen \(\left[0,\right.\left.{2}^{b-1}-1\right)\). Bezeichnen Sie den Quantisierungsfehler von \({v}_{i}\) mit \({\varepsilon }_{i}\), \(\left|{\varepsilon }_{i}\right|\le \Vert v\Vert \cdot \tau /2\). Im Gegensatz zu QSGD verwendet der Skalierungsfaktor von \({\widetilde{Q}}_{b}\left({v}_{i}\right)\) \({l}_{\infty }-norm\) statt \({l}_{2}-norm\). \(\left|{v}_{i}\right|/{\Vert v\Vert }_{\infty }\) kann die Werte im \(\left[0,\right.\left) gleichmäßiger verteilen .1\right]\) Intervall, also gleichmäßiger im Quantisierungsraum verteilt. Mit Gleichung (4) können die kleineren Werte im Vektor leicht auf 0 quantisiert werden, während die überwiegende Mehrheit der Modellgradienten oder Gewichtsdeltas in Deep Learning nahe bei 0 liegt, wodurch die rechte Seite des Quantisierungsraums nicht ausreichend genutzt wird. Angenommen, δ stellt einen bestimmten Gewichtsdeltas-Vektor \(\delta \in {R}^{n}\) dar, wenn b = 2, Skalierungsfaktor ‖δ‖ = x und 99 % des Wertes \({\delta } _{i}\) in δ erfüllt \(\left|{\delta }_{i}\right|/x<1/2\), dann werden δ 99 % der Werte in auf 0 quantisiert. In deep Beim Lernen sind nullwertige Gradienten für das Modelltraining nicht vorteilhaft. Um das Phänomen der Quantisierung von Gradientenwerten ungleich Null auf Null beim Deep Learning anzugehen, schlagen wir das Konzept der ineffektiven Quantisierung vor. Die Übertragung einer großen Anzahl von Nullwerten beeinträchtigt nicht nur die Konvergenzgeschwindigkeit des Modells, sondern führt auch zu erheblicher Kommunikationsverschwendung .In diesem Zusammenhang geht RQSGD dieses Problem an, indem es die quantisierten Nullwerte korrigiert. Formel (6) veranschaulicht diesen Korrekturprozess, bei dem ein Wert mit voller Genauigkeit verwendet wird, um den minimalen Absolutwert im aktuellen Quantisierungsvektor aufzuzeichnen.

Quantisierungsraum (b = 3).

Als minimalen Faktor bezeichnen wir \(\mathrm{min}\left(abs(v)\right)\). Formel (6) nutzt \(\mathrm{min}\left(abs(v)\right)\), um die quantisierten nullwertigen Gradientenwerte in den Vektor umzuwandeln, wodurch das Phänomen der ineffektiven Quantisierung gemildert wird. Eine ineffektive Quantisierung führt dazu, dass eine große Anzahl von Werten im Vektor auf Null quantisiert wird. Durch die Anwendung der Minimalfaktortransformation auf die quantisierten Nullwerte trägt sie dazu bei, den Quantisierungsfehler der Modellparameter und die Anzahl der auf Null quantisierten Gradientenwerte zu reduzieren (Abb. 3).

(a): Der Anteil der ineffektiven Quantifizierung; (b): Durchschnittlicher Quantisierungsfehler für Gewichtsdeltas.

Wenn für einen n-dim-Vektor v die Anzahl der Bits mit voller Genauigkeit 32 Bits beträgt, quantisiert RQSGD die Größe von 32n Bits auf 64 + nb Bits, was einen Skalierungsfaktor mit voller Genauigkeit und einen Mindestfaktor b < 32 umfasst. Abbildung 2 veranschaulicht eine Implementierung von RQSGD unter Verwendung eines Quantisierungsniveaus von b = 3.

Der QSGD-Algorithmus quantisiert alle Modellparameter, indem er sie in Vektoren derselben Dimension aufteilt. Auch wir haben diesen Ansatz in einigen unserer Experimente übernommen. Bei größeren Deep-Learning-Modellen führt dieser Ansatz jedoch zu einem übermäßigen Rechenaufwand und hohen Kommunikationskosten. Um die Quantisierung von Deep-Learning-Modellen anzugehen, haben wir beobachtet, dass die Modellparameter innerhalb derselben Schicht tendenziell eine ähnlichere Verteilung aufweisen. Daher haben wir uns für das Training größerer Modelle für die schichtweise Quantisierung entschieden, da diese geeigneter ist. Wir verwenden ∆w zur Darstellung der Gewichtsdeltas und definieren \(\Delta {w}_{p}^{k}:={ w}_{p}^{k}-{\theta }^{k}\), \({\theta }^{k}\) repräsentiert die globalen Modellparameter der k-ten Runde, \({w }_{p}^{k}\) stellt die Modellparameter des Arbeiters p nach der k-ten Trainingsrunde dar. Der von RQSGD erzeugte Quantisierungsfehler wird lokal am Knoten akkumuliert:

M stellt die Menge der Arbeiter dar, \({e}_{p}^{0}\)=0, k ≥ 1, dann ist die Iteration des globalen Modells wie folgt:

wobei \(\left|{D}_{p}\right|/\left|D\right|\) das Modellaggregationsgewicht des Arbeiters p darstellt, \(\left|{D}_{p}\right| \) stellt die Datenmenge dar, die von Worker p, |D|, beigesteuert wurde stellt die Summe der von allen Arbeitern beigesteuerten Datenmenge dar, und α ist das Zeitabfallgewicht des Quantisierungsfehlers (0 ≤ α ≤ 1).

Im Zusammenhang mit den hohen Kommunikationskosten beim föderierten Lernen wurden verschiedene Gradientensparsifizierungsmethoden vorgeschlagen. Frühere Ansätze verwendeten feste Schwellenwerte28 oder feste Verhältnisse24 als Kommunikationskriterien, um den Kommunikationsverkehr zwischen Arbeitern und dem zentralen Server zu reduzieren. Diese festen Bedingungen sind jedoch nur begrenzt skalierbar und können sich nur schwer an Änderungen der Gradientenwerte während des Trainings anpassen. Um dieses Problem anzugehen, wird in diesem Artikel ein Modul zur adaptiven Selbstinspektion von Schwellenwertparametern vorgestellt, das die Gradienten-Sparsifizierung durch die Selbstinspektion von Arbeiterparametern auf die Kommunikations-Sparsifizierung erweitert. Gradientensparsifizierung bedeutet, dass alle Knoten einen Teil ihrer lokalen Gradienteninformationen hochladen, während Kommunikationssparsifizierung bestimmte Knoten auswählt, um alle ihre Gradienteninformationen hochzuladen. In TLAQC passt sich der adaptive Schwellenwert dynamisch mit jeder Trainingsrunde an, passt sich automatisch an die sich ändernden Gradienten an und weist eine hervorragende Skalierbarkeit auf. Die Parameterselbstinspektionsformel wird unten beschrieben.

Unter der Annahme, dass die Menge aller an der Trainingsaufgabe beteiligten Arbeiter M ist, ist die Menge der Arbeiter, die in der k-ten Runde Parameter senden, \({M}_{s}^{k}\) und die Menge der Arbeiter nicht Sendeparameter ist \({M}_{r}^{k}\), dann ist die folgende Formel erfüllt:

Wenn jeder Knoten \(i\) in der Menge \({M}_{r}^{k}\) die Formel (10) erfüllt, dann muss die obige Formel (9) erfüllt sein:

Um den Beitrag des Knotens \(p\) in der k-ten Trainingsrunde zu messen, wird die folgende Definition gegeben:

Dann beträgt der durchschnittliche Beitrag der k-ten Arbeitnehmerrunde:

In der k-ten Trainingsrunde ist es für den Arbeiter schwierig, den \({norm}_{p }^{k}\)-Wert anderer n-1 Arbeiter zu kennen, sodass es unmöglich ist, den Wert von zu ermitteln \({norm\_avg}^{k}\), also wird stattdessen der norm_avg der vorherigen d Runden verwendet, um ihn anzunähern, dann ist der globale adaptive Schwellenwert der k-ten Trainingsrunde:

Der Parameter-Selbstinspektionsausdruck lautet: \({norm}_{i}^{k}\le {threshold}^{k}\), nämlich:

Dabei ist d ein Hyperparameter, der die Anzahl der vorherigen Runden bestimmt, die zur Annäherung an den aktuellen Rundenschwellenwert verwendet werden. Die rechte Seite von Gl. (14) stellt den Ausdruck für die adaptive Schwelle dar. Wenn der von Worker i berechnete Wert von \({norm}_{i}^{k}\) den Schwellenwert überschreitet, der vom zentralen Server berechnet und an die Worker-Knoten gesendet wird, initiiert Worker i die Kommunikation mit dem zentralen Server. Wenn andererseits der \({norm}_{i}^{k}\)-Wert unter dem Schwellenwert liegt, ist die Kommunikation reserviert und es findet keine Übertragung statt.

Durch die Integration von RQSGD und der Kommunikationssparsifizierungsmethode erzielt TLAQC erhebliche Verbesserungen der Kommunikationseffizienz des föderierten Lernens. Um den Genauigkeitsverlust aufgrund der Kommunikationskomprimierung zu beheben, verwendet TLAQC einen zweischichtigen Akkumulationsansatz, bei dem Quantisierungsfehler und spärliche Kommunikationsinformationen lokal auf den Worker-Knoten akkumuliert werden. Abschnitt „RQSGD“ lieferte eine erste Erklärung des Quantisierungsfehlers, und im folgenden Abschnitt wird tiefer auf den zweischichtigen Akkumulationsmechanismus von TLAQC eingegangen.

Nachdem der Worker-Knoten p das Modell mithilfe seines lokalen Datensatzes aktualisiert hat, überprüft er den aufgezeichneten Wert des Quantisierungsfehlers \({e}_{p}^{k}\). Wenn der Quantisierungsfehler ungleich Null ist, wird der gewichtete Quantisierungsfehler in den aktualisierten Modellparametern akkumuliert. Ebenso überprüft der Arbeiter den aufgezeichneten Wert der akkumulierten Gewichtsdeltas \({h}_{p}^{k}\). Wenn der Worker in der vorherigen Runde nicht mit dem zentralen Server kommuniziert hat, werden die gewichteten kumulativen Gewichtsdeltas im aktualisierten Modell akkumuliert. Sobald die zweischichtige Akkumulation abgeschlossen ist, verwendet der Worker die akkumulierten Modellparameter, um Quantisierungsberechnungen durchzuführen. Aus den quantisierten Parametern wird dann der \({norm}_{p}^{k}\)-Wert mit folgender Berechnungsmethode berechnet:

Wenn Arbeiter p ∈ \({M}_{s}^{k}\),

Wenn Arbeiter p ∈ \({M}_{r}^{k}\),

Dabei steht t für die Anzahl der Runden seit der letzten Kommunikation von Worker p mit dem zentralen Server. Die globale Modellaktualisierungsmethode in TLAQC lautet wie folgt:

Nach Einbeziehung der zweischichtigen Akkumulation wurden die Formeln (11) und (14) wie folgt umgeschrieben:

Basierend auf der oben genannten Beschreibung des TLAQC-Algorithmus werden wir seine Leistung mithilfe eines Faltungsmodells eines neuronalen Netzwerks im Deep Learning und zweier öffentlicher Datensätze bewerten. Bei verteilten Kommunikationskomprimierungsalgorithmen ist der Grad der Kommunikationskomprimierung eine entscheidende Messgröße für die Leistungsmessung. Daher verwenden wir die Kommunikationskomprimierungsrate (cr) als Maß für die Kommunikationskomprimierungsleistung:

In den Experimenten zur Evaluierung der oben genannten Algorithmen wurden zwei Datensätze verwendet: MNIST für die handschriftliche Ziffernerkennung und CIFAR10 für die Objekterkennung. MNIST besteht aus zehn Kategorien im Bereich von 0 bis 9, mit einem Trainingssatz von 60.000 Graustufenbildern der Größe 28 × 28 und einem Testsatz von 10.000 Bildern. Für dieses Experiment wurde der Trainingssatz zufällig in 100 Teile mit jeweils 600 Bildern aufgeteilt, wobei 10 Teile als lokaler Datensatz für 10 Arbeiter zugewiesen wurden. Nach Erhalt der vom zentralen Server verteilten globalen Parameter nutzt jeder Arbeiter den stochastischen Gradientenabstieg, um das globale Modell zu aktualisieren. Die lokalen Modellkonfigurationen sind wie folgt: lokale Epochen = 5, Batchgröße = 64, lr = 0,01. Das lokale Trainingsmodell verwendet eine Faltungsarchitektur eines neuronalen Netzwerks mit drei Faltungsschichten und zwei vollständig verbundenen Schichten. Das globale Training besteht aus 100 Epochen mit einem Zeitabfallgewicht von α = 0,8, β = 0,8 und d = 1. Die Modellparameter werden zur Quantisierung in Vektoren derselben Dimension mit einer Länge von 512 unterteilt.

Der CIFAR10-Datensatz besteht aus 32 × 32 Farbbildern, darunter 50.000 Trainings- und 10.000 Testbildbeispiele, mit insgesamt 10 Kategorien. Für dieses Experiment wird der Trainingssatz zufällig in 10 Teile aufgeteilt, und jeder Datensatz enthält 5000 Bilder als lokale Trainingsdaten von zehn Arbeitern. Die Konfiguration des lokalen Modells ist wie folgt: lokale Epochen = 5, Batchgröße = 64, lr = 0,0005, Weight_Decay = 0,005. Das lokale Trainingsmodell besteht aus 3 Blöcken vom Typ VGG und zwei vollständig verbundenen Schichten. Jeder Block besteht aus zwei 3 × 3-Faltungsschichten, gefolgt von einer Max-Pooling-Schicht, einer Regularisierungsschicht und einer Dropout-Schicht. Das globale Training besteht aus 150 Epochen mit einem Zeitabfallgewicht von α = 0,8, β = 0,8 und d = 10. Dieser Teil verwendet einen schichtweisen Quantisierungsansatz.

Alle Experimente in diesem Artikel verwenden den SGD-Optimierer mit einem Impuls von 0,9 und nutzen die Kreuzentropieverlustfunktion. Zum Zweck eines fairen Vergleichs werden in der letzten Runde der globalen Schulung die Beiträge aller Mitglieder zusammengefasst. Dies bedeutet, dass in der letzten Schulungsrunde nicht jeder Arbeiter eine Parameterselbstprüfung durchführt. Um die globalen Modellparameter in jeder Trainingsrunde zu aktualisieren, wird außerdem ein Arbeiter zufällig für die direkte Aggregation ohne Selbstprüfung der Parameter ausgewählt.

Für die Hyperparameter α und β in RQSGD und TLAQC haben wir Simulationsexperimente mit dem MNIST-Datensatz durchgeführt, um relativ optimale Parametereinstellungen zu erhalten. Tabelle 1 zeigt die Trainingsergebnisse von RQSGD mit einem Fehlerkompensationsmechanismus unter verschiedenen Werten von α.

Basierend auf den Ergebnissen in Tabelle 1 setzen wir α = 0,8 für TLAQC. Tabelle 2 zeigt die Ergebnisse der Parameteroptimierung für β.

Den Simulationsergebnissen zufolge wurde festgestellt, dass das Modell bei α = 0,8 und β = 0,8 eine relativ höhere Genauigkeit erreichte. Wenn α zu klein eingestellt ist, ist der Effekt der Fehlerrückkopplung nicht signifikant, und wenn β zu klein eingestellt ist, wirkt sich der Informationsverlust aufgrund der spärlichen Kommunikation merklich auf die Genauigkeit des Algorithmus aus. Wenn andererseits α und β zu groß eingestellt sind, kann der veraltete Gradienteneffekt die Konvergenz des Algorithmus beeinträchtigen.

In diesem Abschnitt bewerten wir die Leistung unseres vorgeschlagenen Algorithmus im Vergleich zu mehreren bekannten Algorithmen in den MNIST- und CIFAR10-Datensätzen. Wir betrachten FedAVG mit voller Präzision als Basisalgorithmus und vergleichen unseren Algorithmus mit QSGD14 und CosSGD20, die beide eine 8-Bit-Quantisierung verwenden. Darüber hinaus bewerten wir unseren Algorithmus anhand des Kommunikationssparsifizierungsalgorithmus LAG.

Abbildung 3 zeigt einen Vergleich zwischen den überarbeiteten Quantisierungsalgorithmen RQSGD und QSGD während des Deep-Learning-Trainingsprozesses mit dem Ziel, das Problem der ineffektiven Quantisierung zu entschärfen und Quantisierungsfehler zu reduzieren. Der „Anteil der ineffektiven Quantifizierung“ bezieht sich auf das Verhältnis der Anzahl der quantisierten Gradienten zu Null während des gesamten Modelltrainingsprozesses. Der „Anteil der ineffektiven Quantifizierung“ stellt den durchschnittlichen Quantisierungsfehler jedes Parameters während des gesamten Modelltrainingsprozesses dar. Die Berechnungsmethode für den „Anteil der ineffektiven Quantifizierung“ lautet wie folgt: die Summe der Anzahl der von allen Arbeitern erzeugten ineffektiven Quantisierung/(Anzahl der Modellparameter × \({\sum }_{k=1}^{globale Epoche }\left|{M}_{s}^{k}\right|\)). Die Berechnungsmethode für den „Anteil der ineffektiven Quantifizierung“ lautet wie folgt: die Summe der von allen Arbeitern erzeugten Quantisierungsfehler/(Anzahl der Modellparameter × \({\sum }_{k=1}^{globale Epoche}\left |{M}_{s}^{k}\right|\)). Die Ergebnisse zeigen, dass RQSGD gegenüber QSGD eine deutliche Verbesserung beim Umgang mit ineffektiver Quantisierung aufweist, was zu weniger Quantisierungsfehlern während des Trainingsprozesses führt.

In Abb. 4 ist das Konvergenzverhalten von TLAQC dargestellt. Bei der gleichen Bitübertragung zeigt TLAQC eine überlegene Konvergenzleistung, wobei TLAQC-4 die höchste Konvergenzgeschwindigkeit aufweist. Bei gleicher Anzahl an Kommunikationsrunden konvergieren die Kommunikationssparsifizierungsalgorithmen TLAQC und LAG schneller, wobei TLAQC LAG übertrifft. Bezogen auf die gleiche Anzahl an Trainingsrunden zeigt TLAQC-8 eine bessere Konvergenzleistung, während TLAQC-4 im Trainingsprozess TLAQC-8 dicht folgt.

Vergleich von MNIST ((a) Genauigkeit versus Bits; (b) Genauigkeit versus Kommunikation; (c) Genauigkeit versus globale Epoche).

Es ist zu beobachten, dass die Konvergenzkurve der Kommunikationssparsifizierungsalgorithmen aufgrund der unterschiedlichen Anzahl der in jeder Runde aggregierten Arbeiter vor der Konvergenz merkliche Schwankungen aufweist. Wenn beispielsweise in der k-ten Runde des globalen Trainings zu wenige Aggregationsknoten vorhanden sind, kann die Genauigkeit für diese Runde erheblich sinken. In der k + 1-Runde neigen die Knoten, die nicht an der Aggregation der vorherigen Runde teilgenommen haben, dazu, einen höheren \({norm}^{k+1}\)-Wert zu generieren, was die Wahrscheinlichkeit erhöht, die Parameter-Selbstprüfung und anschließend zu bestehen Teilnahme an der globalen Aggregation für diese Runde. Dies führt zu einer erheblichen Verbesserung der Genauigkeit.

Tabelle 3 zeigt die Algorithmusleistung von TLAQC und verschiedenen Vergleichsalgorithmen bei gleicher Anzahl globaler Trainingsrunden. TLAQC erreicht eine deutlich höhere Genauigkeit im Vergleich zum vollpräzisen FedAVG. Unter den TLAQC-Varianten weist TLAQC-8 die beste Konvergenzgenauigkeit auf, während TLAQC-4 die niedrigste Komprimierungsrate erreicht. Darüber hinaus übertrifft die Konvergenzleistung von TLAQC die von QSGD mit einem 8-Bit-Quantisierungsniveau.

Der CIFAR10-Datensatz verfügt im Vergleich zu MNIST über eine größere Anzahl an Modellparametern. In Abb. 5 demonstrieren wir die Wirksamkeit unseres vorgeschlagenen Algorithmus (TLAQC) auf CIFAR10. Wir bewerten TLAQC unter den Bedingungen gleicher Kommunikationskosten, gleicher Kommunikationsrunden und gleicher Trainingsrunden und beobachten eine überlegene Konvergenz im Vergleich zu anderen Algorithmen. Insbesondere werden die Vorteile der zweischichtigen Akkumulation und Quantisierungskorrektur von TLAQC bei komplexeren Datensätzen deutlicher. Tabelle 4 zeigt außerdem, dass TLAQC bei der gleichen Anzahl globaler Trainingsrunden eine verbesserte Genauigkeit erreicht.

Vergleich zu CIFAR10 ((a) Genauigkeit versus Bits; (b) Genauigkeit versus Kommunikation; (c) Genauigkeit versus globale Epoche).

Die Vorteile des föderierten Lernens beim Schutz der Privatsphäre und bei der Bewältigung des Problems von „Dateninseln“ haben es zu einem entscheidenden Ansatz in verschiedenen Bereichen gemacht. Um die Effizienz des föderierten Lernens zu steigern und die Kommunikationskosten zu senken, wird in diesem Artikel der kommunikationseffiziente TLAQC-Algorithmus vorgestellt. Mit TLAQC können Mitarbeiter Modelle mithilfe lokaler Daten trainieren, ohne ihre privaten Daten mit anderen Knoten teilen zu müssen. Unter Wahrung der Privatsphäre des Knotens erfolgt das Modelltraining durch gemeinsames Hochladen lokaler Trainingsparameterinformationen.

Um eine Kommunikationskomprimierung zu erreichen, befasst sich TLAQC mit zwei Aspekten. Zunächst wird eine modifizierte Quantisierungsmethode namens RQSGD vorgeschlagen, deren signifikante Korrekturwirkung experimentelle Ergebnisse belegen. Aufbauend auf der Quantisierung integriert TLAQC Kommunikationssparsifizierungsmechanismen durch die Integration eines lokalen Selbstinspektionsmechanismus für Arbeitnehmer, wodurch die Häufigkeit des Hochladens von Informationen verringert wird. Um die Auswirkungen der Komprimierung auf die Modellgenauigkeit abzumildern, gleicht TLAQC komprimierte Modellinformationen durch die doppelte Akkumulation von Quantisierungsfehlern und beibehaltenen Gewichtsdeltas aus, ohne dass zusätzliche Kommunikationskosten anfallen. Durch die Kombination von Quantisierungsmethoden und Kommunikationssparsifizierungstechniken unter Einbeziehung der Anhäufung von Quantisierungsfehlern und beibehaltenen Gewichtsdeltas verbessert TLAQC die Kommunikationseffizienz erheblich und weist eine außergewöhnliche Algorithmusleistung auf.

Es gibt immer noch viele Unvollkommenheiten in unserer Arbeit. In diesem Artikel wird nur untersucht, wie die Uplink-Kommunikation beim föderierten Lernen komprimiert werden kann. Später werden wir die Downlink-Komprimierungsmethode untersuchen, um die Kommunikationseffizienz des föderierten Lernens weiter zu verbessern.

Die während der aktuellen Studie analysierten Datensätze sind im MNIST-Repository http://yann.lecun.com/exdb/mnist/ und im CIFAR10-Repository http://www.cs.toronto.edu/~kriz/cifar verfügbar. html.

Konečný, J., McMahan, HB, Ramage, D. & Richtárik, P. (2016). Föderierte Optimierung: Verteiltes maschinelles Lernen für Intelligenz auf dem Gerät. arXiv-Vorabdruck arXiv:1610.02527.

Konečný, J., McMahan, HB, Yu, FX, Richtárik, P., Suresh, AT, & Bacon, D. (2016). Föderiertes Lernen: Strategien zur Verbesserung der Kommunikationseffizienz. arXiv-Vorabdruck arXiv:1610.05492.

McMahan, B., Moore, E., Ramage, D., Hampson, S. und y Arcas, BA (2017, April). Kommunikationseffizientes Lernen tiefer Netzwerke aus dezentralen Daten. In Künstliche Intelligenz und Statistik (S. 1273–1282). PMLR.

Smola, A. & Narayanamurthy, S. Eine Architektur für parallele Themenmodelle. Proz. VLDB-Stiftung. 3(1–2), 703–710 (2010).

Artikel Google Scholar

Li, M., Andersen, DG, Smola, AJ & Yu, K. Kommunikationseffizientes verteiltes maschinelles Lernen mit dem Parameterserver. Adv. Neuronale Inf. Verfahren. Syst. 27, 48562 (2014).

Google Scholar

Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., & Zheng, X. (2016). Tensorflow: Groß angelegtes maschinelles Lernen auf heterogenen verteilten Systemen. arXiv-Vorabdruck arXiv:1603.04467.

Xing, EP, Ho, Q., Dai, W., Kim, JK, Wei, J., Lee, S., ... & Yu, Y. (2015, August). Petuum: Eine neue Plattform für verteiltes maschinelles Lernen auf Big Data. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (S. 1335–1344).

Lee, K., Lam, M., Pedarsani, R., Papailiopoulos, D. & Ramchandran, K. Beschleunigung des verteilten maschinellen Lernens mithilfe von Codes. IEEE Trans. Inf. Theorie 64(3), 1514–1529 (2017).

Artikel MathSciNet MATH Google Scholar

Srinivas, S. & Babu, RV (2015). Datenfreie Parameterbereinigung für tiefe neuronale Netze. arXiv-Vorabdruck arXiv:1507.06149.

Han, S., Pool, J., Tran, J. & Dally, W. Lernen von Gewichten und Verbindungen für ein effizientes neuronales Netzwerk. Adv. Neuronale Inf. Verfahren. Syst. 28, 259874 (2015).

Google Scholar

Han, S., Mao, H. & Dally, WJ (2015). Tiefe Komprimierung: Komprimierung tiefer neuronaler Netze mit Bereinigung, trainierter Quantisierung und Huffman-Codierung. arXiv-Vorabdruck arXiv:1510.00149.

Vanhoucke, V., Senior, A. & Mao, MZ (2011). Verbesserung der Geschwindigkeit neuronaler Netze auf CPUs.

Seide, F., Fu, H., Droppo, J., Li, G. & Yu, D. (2014). 1-Bit-stochastischer Gradientenabstieg und seine Anwendung auf das datenparallele verteilte Training von Sprach-DNNs. Auf der fünfzehnten Jahreskonferenz der International Speech Communication Association.

Alistarh, D., Grubic, D., Li, J., Tomioka, R. & Vojnovic, M. QSGD: Kommunikationseffiziente SGD durch Gradientenquantisierung und -kodierung. Adv. Neuronale Inf. Verfahren. Syst. 30, 695874 (2017).

Google Scholar

Wen, W. et al. Terngrad: Ternäre Gradienten zur Reduzierung der Kommunikation beim verteilten Deep Learning. Adv. Neuronale Inf. Verfahren. Syst. 30, 2598741 (2017).

Google Scholar

Bernstein, J., Wang, YX, Azizzadenesheli, K. und Anandkumar, A. (2018, Juli). signSGD: Komprimierte Optimierung für nicht-konvexe Probleme. In International Conference on Machine Learning (S. 560–569). PMLR.

Zhou, S., Wu, Y., Ni, Z., Zhou, X., Wen, H. & Zou, Y. (2016). Dorefa-net: Training von faltenden neuronalen Netzen mit geringer Bitbreite und Gradienten mit geringer Bitbreite. arXiv-Vorabdruck arXiv:1606.06160.

Faghri, F. et al. Adaptive Gradientenquantisierung für datenparalleles SGD. Adv. Neuronal. Inf. Verfahren. Syst. 33, 3174–3185 (2020).

Google Scholar

Magnússon, S., Shokri-Ghadikolaei, H. & Li, N. Über die Aufrechterhaltung der linearen Konvergenz von verteiltem Lernen und Optimierung bei eingeschränkter Kommunikation. IEEE Trans. Signalprozess. 68, 6101–6116 (2020).

Artikel ADS MathSciNet MATH Google Scholar

He, Y., Zenk, M. & Fritz, M. (2020). CosSGD: Nichtlineare Quantisierung für kommunikationseffizientes föderiertes Lernen. arXiv-Vorabdruck arXiv:2012.08241.

Seide, F., Fu, H., Droppo, J., Li, G. & Yu, D. (2014). Zur Parallelisierbarkeit des stochastischen Gradientenabstiegs für Sprach-DNNs. Im Jahr 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (S. 235–239). IEEE.

Agarwal, A. & Duchi, JC Verteilte verzögerte stochastische Optimierung. Adv. Neuronale Inf. Verfahren. Syst. 24, 6598252 (2011).

Google Scholar

Strom, N. (2015). Skalierbares verteiltes DNN-Training mithilfe von Standard-GPU-Cloud-Computing. Auf der sechzehnten Jahreskonferenz der International Speech Communication Association.

Aji, AF, & Heafield, K. (2017). Spärliche Kommunikation für verteilten Gradientenabstieg. arXiv-Vorabdruck arXiv:1704.05021.

Dryden, N., Moon, T., Jacobs, SA, & Van Essen, B. (2016) Kommunikationsquantisierung für datenparalleles Training tiefer neuronaler Netze. Im Jahr 2016 2. Workshop zum maschinellen Lernen in HPC-Umgebungen (MLHPC) (S. 1–8). IEEE.

Hardy, C., Le Merrer, E. & Sericola, B. Verteiltes Deep Learning auf Edge-Geräten: Machbarkeit durch adaptive Komprimierung. 2017 IEEE 16. Internationales Symposium für Network Computing und Anwendungen (NCA). 2017, S. 1–8, DOI: https://doi.org/10.1109/NCA.2017.8171350.

Chen, T., Giannakis, G., Sun, T. & Yin, W. LAG: Lazily aggregierter Gradient für kommunikationseffizientes verteiltes Lernen. Adv. Neuronale Inf. Verfahren. Syst. 31, 45896323 (2018).

Google Scholar

Yin, L., Feng, J., Xun, H., Sun, Z. & Cheng, X. Ein datenschutzerhaltendes föderiertes Lernen für den Datenaustausch zwischen mehreren Parteien in sozialen IoTs. IEEE Trans. Netw. Wissenschaft. Ing. 8(3), 2706–2718 (2021).

Artikel Google Scholar

Referenzen herunterladen

Die Finanzierung erfolgte durch das Smart Government System auf Basis der Konsortium-Blockchain-Technologie, 2021JH1/10400010, Applied Basic Research Program der Provinz Liaoning, 2022JH2/101300272.

School of Information and Control Engineering, Liaoning Petrochemical University, Fushun, Liaoning, Volksrepublik China

Yaoyao Ren, Yu Cao und Chengyin Ye

School of Economics and Management, Shenyang Agricultural University, Shengyang, Liaoning, Volksrepublik China

Xu Cheng

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

YR (Erstautor): Konzeptualisierung, Methodik, Validierung, Visualisierung, Untersuchung, formale Analyse, Schreiben – Originalentwurf, Schreiben – Überprüfung und Bearbeitung; YC (Korrespondierender Autor): Betreuung, Finanzierungsbeschaffung, Schreiben – Überprüfung und Bearbeitung C.Y.: Betreuung, Schreiben – Durchsicht und Bearbeitung; XC: Betreuung, Schreiben – Durchsicht und Bearbeitung; Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Yu Cao.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Ren, Y., Cao, Y., Ye, C. et al. Zweischichtige akkumulierte quantisierte Komprimierung für kommunikationseffizientes Verbundlernen: TLAQC. Sci Rep 13, 11658 (2023). https://doi.org/10.1038/s41598-023-38916-x

Zitat herunterladen

Eingegangen: 21. Februar 2023

Angenommen: 17. Juli 2023

Veröffentlicht: 19. Juli 2023

DOI: https://doi.org/10.1038/s41598-023-38916-x

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE