Homographie mit dem Smartphone



Kurzfassung: ArUco-Marker dienen als planare Referenz. Damit lässt sich aus einem Smartphone-Foto mittels Homographie ein maßhaltiges Orthofoto erzeugen. Der Scanner-Ansatz ist im separaten Beitrag Scanner als Messinstrument beschrieben. In diesem Beitrag steht die Smartphone-Kamera im Mittelpunkt und die Frage, wie sich eine perspektivische Aufnahme durch eine Homographie projektiv entzerren lässt.

Im Gegensatz zum Scanner, der eine definierte Aufnahmegeometrie vorgibt, ist die Situation bei Smartphone-Aufnahmen offener: Die Kamera kann frei im Raum positioniert werden, die Abbildung erfolgt perspektivisch, und die Projektion bildet die Szene projektiv auf die Bildebene ab. Unter geeigneten Voraussetzungen entsteht dennoch eine messbare und maßhaltige Darstellung.

Entscheidend ist dabei, dass die betrachtete Szene lokal näherungsweise planar ist und dass diese Ebene im Bild eindeutig referenziert wird.

Planare Referenz

Liegt das betrachtete Objekt näherungsweise in einer Ebene, dann lässt sich die perspektivische Abbildung der Kamera durch eine projektive Transformation (Homographie) beschreiben. Diese verknüpft Punkte der Objektebene direkt mit Punkten im Bild.

Dazu benötigt man Punktkorrespondenzen zwischen Ebene und Bild. In der Praxis lassen sich solche Referenzpunkte z.B. über ArUco-Marker automatisch gewinnen (siehe nächster Abschnitt). In homogenen Koordinaten gilt:

\[
\mathbf{x}’ \sim H\,\mathbf{x}, \qquad H \in \mathbb{R}^{3\times 3}.
\]

Da ein globaler Skalierungsfaktor frei ist, hat \(H\) effektiv 8 Freiheitsgrade. Mindestens 4 Punktkorrespondenzen sind erforderlich.
Mehr (und räumlich gut verteilte) Punkte machen die Schätzung in der Praxis robuster gegen Rauschen, leichte Unschärfe und Teilokklusion.

  • Wirkung von \(H\): \(H\) kompensiert Perspektive und Scherung; Geraden bleiben Geraden, und die Darstellung in der Orthoebene ist konsistenter.
  • Bestimmung von \(H\): Referenzpunkte bestimmen → Punktpaare bilden → \(H\) pro Frame robust schätzen (z.B. RANSAC) → Ortho-Ansicht per Warp/Resampling erzeugen.
  • Metrische Skalierung: Der physikalische Maßstab kommt aus der bekannten Referenzgeometrie in der Ebene. px_per_mm steuert die Ausgabeauflösung und dient im Orthobild zur Umrechnung Pixel ↔ mm.
Technische Notiz: Struktur von H

Eine Homographie ist eine 3×3-Matrix (Skalierung frei):

H = [ h11 h12 h13
      h21 h22 h23
      h31 h32 h33 ]

In der Praxis wird \(H\) so normiert, dass z.B. h33 = 1 gilt. Damit bleiben 8 freie Parameter, die aus ≥4 Punktpaaren geschätzt werden.

Grenzen der Methode: Die Ortho-Entzerrung ist nur dann geometrisch korrekt, wenn die Szene lokal planar ist. Bei Höhenunterschieden (Relief), starkem Kamerawinkel oder Linsenverzeichnung kann es zu Restfehlern kommen. Für hohe Genauigkeit empfiehlt sich eine Kamerakalibrierung. Damit erhält man die Parameter der Linsenverzeichnung (Distortion) und kann das Bild vor der Homographie-Schätzung undistorten (= Verzeichnung entfernen/entzerren). Das reduziert Restfehler, insbesondere bei Weitwinkelobjektiven und in Bildrandnähe. Details zur Kalibrierung und Undistortion (Schachbrett/ChArUco/ArUco-Board) folgen in einem späteren Beitrag.

ArUco-Marker als geometrische Referenz


Rohfoto (perspektivisch): Markerrahmen als DIN-A4-Blatt und Prüfobjekte auf einer Ebene
Rohfoto (perspektivisch): Markerrahmen als DIN-A4-Blatt + Prüfobjekte in einer Ebene.

Marker-Zoom: Detektierte Ecke als Referenzpunkt
Marker-Zoom: Detektierte Ecke als Referenzpunkt.

Wie oben beschrieben, braucht die Homographie-Schätzung Punktkorrespondenzen zwischen Ebene und Bild. ArUco-Marker liefern diese Korrespondenzen automatisch: Jeder Marker liefert vier eindeutig detektierbare Eckpunkte, die pro Frame als Referenzpunkte dienen.

Mehrere Marker überbestimmen das System und erhöhen die Stabilität: 1 Marker → 4 Ecken (minimal), 2 Marker → 8 Ecken, 4 Marker → 16 Ecken. Besonders hilfreich ist eine räumlich gute Verteilung der Marker, weil sie die Schätzung besser konditioniert.

In der einfachsten Variante genügt ein gedrucktes Blatt mit vier ArUco-Markern, etwa in den Ecken eines A4-Formats. Die Marker definieren dabei eine eindeutige Ebene, legen über ihre bekannten Abstände den Maßstab fest und ermöglichen durch ihre IDs eine eindeutige Zuordnung.

Die Marker sind damit nicht nur visuelle Markierungen, sondern ein geometrischer Messrahmen: Aus den Marker-IDs (Zuordnung) und den detektierten Eckpunkten (Referenzpunkte) ergibt sich ein Koordinatensystem in der Ebene mit definierter Geometrie und Maßstab. Damit kann die perspektivische Aufnahme rechnerisch so entzerrt werden, dass das Orthobild in dieser Ebene maßhaltig ausgewertbar ist.

Das A4-Blatt ist nur ein gut reproduzierbares Beispiel. Entscheidend ist, dass mehrere eindeutig zuordenbare Referenzpunkte mit bekannter Geometrie in einer gemeinsamen Ebene vorliegen. Die Marker können daher auch auf einer Messplatte, einem Rahmen oder direkt auf einer ebenen Fläche platziert werden – wichtig ist: gleiche Ebene, nicht kollinear, ausreichend groß und gut sichtbar im Bild.

Von der Homographie zum Orthofoto

Ist die Homographie einmal bestimmt, kann das gesamte Bild rechnerisch auf die Referenzebene zurückgeführt werden. Das Ergebnis ist ein entzerrtes Bild, das sich wie ein Scan interpretieren lässt:

  • Parallele Kanten werden wieder parallel.
  • Längen und Flächen sind maßhaltig.
  • Messungen erfolgen im Koordinatensystem der Ebene, nicht im Bild.

Die Rückabbildung lautet:

\[\mathbf{x} \sim H^{-1}\,\mathbf{x}’.\]

Mit „messbar“ und „maßhaltig“ ist gemeint, dass die Entzerrung nicht nur optisch „geradezieht“, sondern eine geometrische Zuordnung liefert. Jeder Pixel des Orthofotos steht für einen Punkt \((X,Y)\) in der Referenzebene. Der Maßstab ergibt sich aus der bekannten Geometrie des Marker-Layouts, also aus den definierten Positionen und Abständen der Marker in der Referenzebene. Damit lassen sich im zurückprojizierten Bild Längen, Abstände und Flächen bestimmen. Maßhaltig bedeutet, dass diese Messwerte innerhalb der zugrunde gelegten Ebenenannahme mit den realen Abmessungen in der Szene übereinstimmen, sofern die betrachtete Struktur näherungsweise in der Referenzebene liegt.


Orthofoto (entzerrt) via Homographie
Orthofoto: Entzerrung der Bildebene per Homographie.

Orthofoto (entzerrt) via Homographie
Orthofoto mit Gitter.

Messung im Orthofoto: Kontur/OBB und Bemaßung
Messung in der Ortho-Ebene: Kontur und L/B-Bemaßung.

Die Ränder des entzerrten Orthofotos erscheinen häufig nicht rechteckig, sondern „schief“ oder abgeschnitten. Das ist kein Artefakt der Berechnung, sondern eine direkte geometrische Konsequenz der Entzerrung. Das Orthofoto zeigt genau denjenigen Ausschnitt der Referenzebene, der im Rohfoto tatsächlich sichtbar war. Bereiche der Ebene, die außerhalb des ursprünglichen Bildfeldes lagen, können nicht rekonstruiert werden und fehlen entsprechend im entzerrten Bild. Anschaulich gesprochen wird das perspektivische Bild auf die Ebene „zurückgelegt“. Dabei bildet der sichtbare Bildbereich im Allgemeinen kein Rechteck mehr, sondern ein schiefwinkliges Polygon in der Ebene.

Die Homographie-Entzerrung liefert ein Orthobild, das sich wie eine „Draufsicht“ in der Marker-Ebene interpretieren lässt. Wie stabil das in der Praxis ist, hängt u.a. von Sichtbarkeit und Anordnung der Marker ab. Die folgenden Beispiele zeigen das anhand einer Video-Demo und zwei kleinen Tests.

Beispiele und Tests

Im Folgenden drei kurze Checks: (1) Video-Demo (Tracking/Ortho), (2) Mess-Test mit Post-it, (3) OCR-Plausibilitätscheck.

Videos: Markerverfolgung und Ortho-Entzerrung

Zur Demonstration wurden zwei kurze Videos erzeugt. Sie zeigen (1) die reine Markerverfolgung im Rohvideo und (2) die Entzerrung als Ortho-Ansicht.

  • Tracking-Video: ArUco-Marker werden frameweise detektiert; die Marker sind mit einer dicken grünen Box und einer blauen ID überlagert.
  • Split-Video (RAW | ORTHO): Links das Rohvideo mit Tracking-Overlay, rechts das entzerrte Orthovideo (optional mit Gitter zur metrischen Orientierung).
Marker-2: Tracking (grüne Box, blaue ID).
Marker-2: Split (RAW | ORTHO).

Messung (Marker-2): Mittelwert über N = 512 Frames; „processing fps“ umfasst Decoding + Detektion + Overlay + (für Ortho) Homographie/Warp + Encoding.

Modus Input fps Processing fps Realtime
Marker-2 Tracking 29.97 67.31 2.25×
Marker-2 Ortho (PoC) 29.97 8.63 0.29×

Einordnung: Tracking läuft in Echtzeit (und deutlich schneller). Die Ortho-Entzerrung ist im aktuellen Proof-of-Concept noch unter Echtzeit, u.a. wegen der hohen Ausgabeauflösung. Praxis-Hinweis: Der größte Hebel ist Downscaling; optional hilft GPU-Beschleunigung. Zielgröße: ~15 fps für die Ortho-Ansicht.

Mess-Test: Gelbes Quadrat

Als praktischer Mess-Test wurde ein gelbes Quadrat (Post-it) in mehreren Smartphone-Fotos aufgenommen. Je nach Aufnahme waren zwischen 1 und 4 Marker sichtbar. Nach der Ortho-Entzerrung wurde das Quadrat farbbasiert segmentiert und seine Kantenlänge aus dem gedrehten Minimal-Begrenzungsrechteck (Minimal-Area-Rect) bestimmt. Die Tabelle zeigt die aggregierten Ergebnisse (nur valid-Fälle, d.h. nicht am Bildrand abgeschnitten und ausreichend „quadratisch“ segmentiert):

Warum die Marker-Anzahl zählt: Eine Homographie benötigt mindestens 4 Punktkorrespondenzen. Ein einzelner ArUco-Marker liefert diese vier Punkte (seine Ecken), ist aber das minimale Setup: Die Geometrie ist schlechter konditioniert (kleine Basis), und die Ortho-Entzerrung wirkt oft über den Markerbereich hinaus extrapolierend. Sobald mehrere Marker sichtbar sind, wird die Schätzung überbestimmt (mehr als 4 Punkte) und damit deutlich stabiler. In der Auswertung werden daher die Eckpunkte verwendet (nicht die Marker-Mittelpunkte).

  • 1 Marker: mathematisch ausreichend, aber minimal und häufig stark extrapoliert auf den gesamten Messrahmen; kleine Eckpunkt-Fehler wirken sich dann deutlich auf die Skala aus.
  • 2 Marker: 8 Ecken statt 4; Orientierung und Skalierung sind besser abgesichert, die Schätzung stabilisiert sich spürbar.
  • 3–4 Marker: 12–16 Ecken, Redundanz; die Schätzung wird sehr stabil und die Messwerte konvergieren (in diesen Tests) eng um den erwarteten Wert.
Aufnahme mit einem sichtbaren ArUco-Marker (ID 0)

 

Nur 1 Marker sichtbar (ID 0) – hohe Extrapolation, minimale Geometrie.
Aufnahme mit zwei sichtbaren ArUco-Markern

 

Zwei Marker im Bild – deutlich stabilere Homographie-Schätzung.
Aufnahme mit drei sichtbaren ArUco-Markern

 

Drei Marker sichtbar – robuste, redundante Geometrie.
Aufnahme mit vier sichtbaren ArUco-Markern

 

Vier Marker sichtbar – 16 Eckpunkte, sehr stabile Homographie.
Marker sichtbar Bilder Valid Seitenlänge Ø (mm) Min (mm) Max (mm)
1 Marker 7 6 80.41 66.48 90.79
2 Marker 3 3 77.70 76.99 78.36
3 Marker 2 2 76.80 76.77 76.83
4 Marker 4 4 76.71 76.65 76.77

Hinweis: Mit nur einem sichtbaren Marker ist die Ortho-Geometrie stark extrapoliert, entsprechend größer ist die Streuung (Min/Max). Ab 2–4 Markern stabilisiert sich die Messung und konvergiert in diesen Tests auf ca. 76.7 mm.

OCR-Test (Texterkennung): Rohbild vs. Orthofoto

Als kleiner Plausibilitätscheck wurde ein Foto mit gedrucktem Text aufgenommen und anschließend per Homographie in ein Orthofoto überführt. Danach wurde auf beiden Bildern eine Texterkennung (OCR) durchgeführt.

  • Rohbild (perspektivisch): Textzeilen sind schräg, verzerrt und lokal unscharf.
  • Orthofoto (entzerrt): Textzeilen sind gerade, die Skalierung ist lokal konsistent, und die OCR findet deutlich stabilere Wortsegmente.

Ergebnis: Mit Tesseract (Sprache: eng) stieg die mittlere Wort-Konfidenz im Test von ca. 26 (Rohbild) auf ca. 68 (Orthofoto). Der Titel wurde im Orthofoto zuverlässig erkannt (z.B. „MATPOWER: Steady-State Operations, Planning and Analysis Tools for Power Systems Research and Education“).

OCR-Auszug (Orthofoto)
MATPOWER: Steady-State Operations,
Planning and Analysis Tools for
Power Systems Research and Education
Ray D. Zimmerman, Member, IEEE, ...

OCR-Test (Split): Rohbild links, Orthofoto rechts
OCR-Test (Split): Rohbild links, Orthofoto rechts.
Arbeiten Sie an einem Anwendungsfall mit bildbasierter Vermessung oder Dokumentation?

Wenn Sie perspektivische Aufnahmen in eine maßhaltige 2D-Darstellung überführen möchten, freue ich mich über den fachlichen Austausch. Gern prüfe ich, ob ein markerbasierter Homographie-Workflow für Ihren Fall geeignet ist. Kontakt aufnehmen.

Fazit

Der Einsatz von ArUco-Markern zur Homographie ist kein Ersatz für vollständige Photogrammetrie und liefert keine „echte“ 3D-Rekonstruktion. Wie die Beispiele zeigen, ist es aber ein sehr praktischer Weg, um aus einem einzelnen Foto oder Video eine maßhaltige 2D-Darstellung in einer Referenzebene zu gewinnen.

Der Ansatz lohnt sich besonders dann, wenn es schnell gehen soll und der Aufwand überschaubar bleiben muss:

  • ein Foto bzw. ein kurzes Video genügt,
  • die Referenz entsteht durch einen einfachen Markerrahmen,
  • die Auswertung bleibt robust, solange die Szene lokal näherungsweise eben ist.

Das ist kein Allheilmittel – bei Relief, starkem Winkel oder Verzeichnung steigen die Restfehler –, aber für viele Dokumentations- und Messaufgaben ist es eine sehr brauchbare Zwischenlösung.

Kurz gesagt: Ein Markerrahmen macht aus einer perspektivischen Aufnahme eine entzerrte, messbare Darstellung in der Ebene.

Hinweis: Der Beitrag entstand mit Unterstützung von ChatGPT. Inhaltliche Prüfung, Auswahl und Redaktion liegen beim Autor.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert